このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230208となっている論文です。

PDF登録状況(公開日: 20230208)

TitleAuthorsAbstract論文公表日・翻訳日
# 時間依存型Schr\"{o}dinger-Newton方程式のアドミアン分解法によるダークエネルギー存在下での直列解法

Series solution of the time-dependent Schr\"{o}dinger-Newton equations in the presence of dark energy via the Adomian Decomposition Method ( http://arxiv.org/abs/2011.11072v3 )

ライセンス: Link先を確認
Tiberiu Harko, Man Kwong Mak and Matthew J. Lake(参考訳) schr\"{o}dinger-newton modelは、正準量子力学の線型schr\"{o}dinger方程式とニュートン力学のポアソン方程式を結合した非線形系である。 本稿では、エネルギー密度$\rho_{\Lambda} = \Lambda c^2/(8\pi G)$を含む新しいエネルギー項を含む時間依存的なシュルンディンガー-ニュートン方程式に対する暗黒エネルギーの影響を、粒子質量源項$\rho_m = m|\psi|^2$に加えて、宇宙定数である。 結果として得られるschr\"{o}dinger-newton-$\lambda$ (s-n-$\lambda$) 系は、正確には閉形式では解けず、数値的あるいは半解析的(つまり直列)な解法に頼る必要がある。 非線形常微分方程式と偏微分方程式の大規模なクラスを解く非常に強力な方法である adomian decomposition method を適用し, s-n-$\lambda$ system の正確な直列解を初めて求めた。 ダークエネルギー支配体制も詳細に研究されている。 その結果を既存の数値解と解析的推定と比較し,過去の結果と一致していることを示す。 最後に,s-n-$\lambda$システムの解を最小の計算資源でも素早く得ることができる,アドミアン分解法を用いることの利点について概説する。

The Schr\"{o}dinger-Newton model is a nonlinear system obtained by coupling the linear Schr\"{o}dinger equation of canonical quantum mechanics with the Poisson equation of Newtonian mechanics. In this paper we investigate the effects of dark energy on the time-dependent Schr\"{o}dinger-Newton equations by including a new source term with energy density $\rho_{\Lambda} = \Lambda c^2/(8\pi G)$, where $\Lambda$ is the cosmological constant, in addition to the particle-mass source term $\rho_m = m|\psi|^2$. The resulting Schr\"{o}dinger-Newton-$\Lambda$ (S-N-$\Lambda$) system cannot be solved exactly, in closed form, and one must resort to either numerical or semianalytical (i.e., series) solution methods. We apply the Adomian Decomposition Method, a very powerful method for solving a large class of nonlinear ordinary and partial differential equations, to obtain accurate series solutions of the S-N-$\Lambda$ system, for the first time. The dark energy dominated regime is also investigated in detail. We then compare our results to existing numerical solutions and analytical estimates, and show that they are consistent with previous findings. Finally, we outline the advantages of using the Adomian Decomposition Method, which allows accurate solutions of the S-N-$\Lambda$ system to be obtained quickly, even with minimal computational resources.
翻訳日:2023-04-23 11:00:46 公開日:2023-02-08
# 不定因果順序による量子コヒーレンスの遠隔生成

Remote Creation of Quantum Coherence via Indefinite Causal Order ( http://arxiv.org/abs/2103.04894v3 )

ライセンス: Link先を確認
Jasleen Kaur, Shrobona Bagchi, Arun Kumar Pati(参考訳) 量子コヒーレンス(quantum coherence)は、量子コンピューティングと量子通信における主要な資源である。 任意の量子ビット状態の量子コヒーレンスを、最大絡み合った状態、局所演算、古典的通信を用いて遠隔地で作成することができる。 しかし、共有リソースの一方にノイズチャネルが作用している場合、完全量子コヒーレンスを遠隔で生成することは不可能である。 本稿では,絡み合った状態と不定因数順序を用いて,遠隔地における量子コヒーレンスの生成手法を提案する。 具体的には,2つの完全脱分極チャネル,2つの部分脱分極チャネル,および1つの完全脱分極チャネルの重ね合わせをユニタリ作用素とともに示す。 チャネルの不定因果順序が絡み合ったペアの半端に作用すると、共有状態は絡み合いを緩めるが、非ゼロの量子ディスコードを保持することができる。 この発見には、リソースとしてdiscordを消費できる興味深いアプリケーションがあるかもしれない。 この結果から,不定因数順序と少量の量子不協和は,絡み合わさった非ゼロ量子コヒーレンスを創出する資源として機能することが示唆された。

Quantum coherence is a prime resource in quantum computing and quantum communication. Quantum coherence of an arbitrary qubit state can be created at a remote location using maximally entangled state, local operation and classical communication. However, if there is a noisy channel acting on one side of the shared resource, then, it is not possible to create perfect quantum coherence remotely. Here, we present a method for the creation of quantum coherence at a remote location via the use of entangled state and indefinite causal order. We show this specifically for the superposition of two completely depolarizing channels, two partially depolarizing channels and one completely depolarizing channel along with a unitary operator. We find that when the indefinite causal order of channels act on one-half of the entangled pair, then the shared state looses entanglement, but can retain non-zero quantum discord. This finding may have some interesting applications on its own where discord can be consumed as a resource. Our results suggest that the indefinite causal order along with a tiny amount of quantum discord can act as a resource in creating non-zero quantum coherence in the absence of entanglement.
翻訳日:2023-04-08 18:12:18 公開日:2023-02-08
# 1対の粒子による最大絡み合い2量子ビット状態の多重コピーを用いたベル試験における検出効率閾値の制限

Bounding the detection efficiency threshold in Bell tests using multiple copies of the maximally entangled two-qubit state carried by a single pair of particles ( http://arxiv.org/abs/2103.10413v2 )

ライセンス: Link先を確認
Istv\'an M\'arton, Erika Bene, Tam\'as V\'ertesi(参考訳) 本稿では,超絡み状態などの一対の粒子によって搬送される最大2量子状態の多重複写を用いてベル非局所性を観測する検出器の臨界効率と,パウリの測定結果について検討する。 Clauser-Horne-Shimony-Holt (CHSH) Bell では、最大絡み合う2ビット状態に対して 82.84 %$ の対称検出効率を許容できることが知られている。 我々は2つの粒子を複数の自由度で絡み合わせることで、この謎の閾値を破った。 得られた対称検出効率閾値の上限は、2量子ビットの最大エンタングル状態の2、3、4つのコピーに対してそれぞれ80.86\%$、73.99\%$、69.29\%$である。 各ケースにおける測定値と結果の数は4,8,16である。 改良されたしきい値を見つけるために、私たちは大規模な凸最適化ツールを使っています。 証明は正確には3つのコピーであるが、4つのコピーは信頼性の高い数値計算によるものである。 具体的には、線形プログラミングを用いて、2ビット状態の3と4のコピーに対するギルバートのアルゴリズムに基づく凸最適化と、それに対応するベルの不等式を得る。 対称検出効率閾値が2量子ビット状態のコピー数で指数関数的に減少することを示す。 我々の手法は、2つ以上のパーティを持つより一般的なベル非局所性シナリオにも適用できる。

In this paper, we investigate the critical efficiency of detectors to observe Bell nonlocality using multiple copies of the maximally entangled two-qubit state carried by a single pair of particles, such as hyperentangled states, and the product of Pauli measurements. It is known that in a Clauser-Horne-Shimony-Holt (CHSH) Bell test the symmetric detection efficiency of $82.84\%$ can be tolerated for the two-qubit maximally entangled state. We beat this enigmatic threshold by entangling two particles with multiple degrees of freedom. The obtained upper bounds of the symmetric detection efficiency thresholds are $80.86\%$, $73.99\%$ and $69.29\%$ for two, three and four copies of the two-qubit maximally entangled state, respectively. The number of measurements and outcomes in the respective cases are 4, 8 and 16. To find the improved thresholds, we use large-scale convex optimization tools, which allows us to significantly go beyond state-of-the-art results. The proof is exact up to three copies, while for four copies it is due to reliable numerical computations. Specifically, we used linear programming to obtain the two-copy threshold and the corresponding Bell inequality, and convex optimization based on Gilbert's algorithm for three and four copies of the two-qubit state. We show analytically that the symmetric detection efficiency threshold decays exponentially with the number of copies of the two-qubit state. Our techniques can also be applied to more general Bell nonlocality scenarios with more than two parties.
翻訳日:2023-04-07 18:50:55 公開日:2023-02-08
# 低誤差拡散特性を持つ普遍量子計算法

An universal quantum computation scheme with low error diffusion property ( http://arxiv.org/abs/2105.07133v6 )

ライセンス: Link先を確認
Chen Lin, Guowu Yang, Xiaoyu Song, Marek. A. Perkowski, Xiaoyu Li(参考訳) 量子結合コードはフォールトトレラントなユニバーサル量子コンピューティングを実現する効果的な方法である。 それでも、ローエンコーディングレベルには多くの非フォールトトレラントな論理的位置があり、これによりエラー乗算の確率が増加し、そのようなコードが高忠実なユニバーサルゲートライブラリを実現する能力を制限する。 本研究では,セグメント化されたフォールトトレラント量子回路のデコーダ設計のための機械学習技術に基づく汎用フレームワークを提案する。 そして、この設計原則に従って、ニューラルネットワークアルゴリズムを採用し、その回路に最適化されたデコーダを与える。 新たなデコーダの有効性を評価するため,Steane 7-qubit論理量子ビットとReed-Muller 15-qubit論理量子ビットからなるテンソルに作用するセグメント化フォールトトレラント論理制御NOTゲートに適用した。 減極雑音環境下でこれらのゲートをシミュレートし、最小ウェイトデコーダと比較してゲート誤差閾値を比較する。 最後に,33ビットの非一様連結符号に基づく耐故障ユニバーサルゲートライブラリを提供する。 さらに、この符号上に非クリフォードゲートを構築するために、最適化されたデコーダを備えたレベル-1セグメントの耐故障性ロケーションをいくつか提供します。 一方,本コードの普遍的スキームの疑似スレッショルドを解析した。

Quantum concatenation code is an effective way to realize fault-tolerant universal quantum computing. Still, there are many non-fault-tolerant logical locations at its low encoding level, which thereby increases the probability of error multiplication and limits the ability that such code to realize a high-fidelity universal gate library. In this work, we propose a general framework based on machine learning technology for the decoder design of a segmented fault-tolerant quantum circuit. Then following this design principle, we adopt the neural network algorithm to give an optimized decoder for the such circuit. To assess the effectiveness of our new decoder, we apply it to the segmented fault-tolerant logical controlled-NOT gates, which act on the tensor composed of the Steane 7-qubit logical qubit and the Reed-Muller 15-qubit logical qubit. We simulate these gates under depolarizing noise environment and compare the gate error thresholds in contrast to the minimal-weight decoder. Finally, we provide a fault-tolerant universal gate library based on a 33-qubit non-uniform concatenated code. Furthermore, we offer several level-1 segmented fault-tolerant locations with optimized decoders to construct a non-Clifford gate on this code, which has less circuit depth than our existing work. Meanwhile, we analyze the pseudo-threshold of the universal scheme of this code.
翻訳日:2023-03-31 02:04:25 公開日:2023-02-08
# フロッケ位相空間におけるブロッホ振動を伴う量子力学

Quantum metrology with Bloch Oscillations in Floquet phase space ( http://arxiv.org/abs/2111.10506v2 )

ライセンス: Link先を確認
Keye Zhang, Weijie Liang, Pierre Meystre, and Weiping Zhang(参考訳) 空間的に周期的なポテンシャルでブロッホ振動を行う量子粒子は、一定の力の非常に正確な検出器として用いられる。 量子粒子のフロケ相空間に現れる同様の振動は、周期格子電位が存在しない場合でも、周期的時間的駆動を受けることができ、検出器として利用することができる。 しかし、その空間的ブロッホアナログと比較すると、フロケ・ブロッホ振動は大きな柔軟性を与え、幅広い精度のメトロジー応用への道を開く。 この特性をタコメータと磁力計の例で示す。

Quantum particles performing Bloch oscillations in a spatially periodic potential can be used as a very accurate detector of constant forces. We find that the similar oscillations that can appear in the Floquet phase space of a quantum particle subjected a periodic temporal driving, even in the absence of periodic lattice potential, can likewise be exploited as detectors. Compared with their spatial Bloch analog, however, the Floquet-Bloch oscillations provide significant added flexibility and open the way to a broad range of precision metrology applications. We illustrate this property on the examples of a tachometer and a magnetometer.
翻訳日:2023-03-07 08:10:30 公開日:2023-02-08
# 有限離散力学系に対する共変の影響

Covariant influences for finite discrete dynamical systems ( http://arxiv.org/abs/2111.13695v5 )

ライセンス: Link先を確認
Carlo Maria Scandolo, Gilad Gour, Barry C. Sanders(参考訳) 我々は、摂動パラダイムを超えて、有限離散力学系に対する外的影響の厳密な理論を開発し、外的影響は少なからぬ貢献である必要はない。 実際、共分散条件は次のように述べることができる: 動的システムを$n$の時間ステップで進化させ、それを乱すと、最初に同じ影響でシステムを混乱させ、次に$n$の時間ステップでシステムを進化させるのと同じである。 資源理論の強力な機械を応用し、純粋に決定論的進化が存在する場合とランダムネスが関与する場合の両方に共変的影響の理論を開発する。 次に, 決定論的共変の影響下での状態間の遷移と, 確率的共変の影響が存在する場合に必要な状態との遷移に必要十分条件を与え, 状態間の遷移が禁止されるかを予測する。 我々のアプローチでは、量子情報理論から借用された資源理論の枠組みを初めて、有限離散力学系の研究に利用した。 我々の法則は、異なる種類の有限離散力学系の挙動を統一し、それらの数学的風味は厳密で検証可能である。

We develop a rigorous theory of external influences on finite discrete dynamical systems, going beyond the perturbation paradigm, in that the external influence need not be a small contribution. Indeed, the covariance condition can be stated as follows: if we evolve the dynamical system for $n$ time steps and then we disturb it, it is the same as first disturbing the system with the same influence and then letting the system evolve for $n$ time steps. Applying the powerful machinery of resource theories, we develop a theory of covariant influences both when there is a purely deterministic evolution and when randomness is involved. Subsequently, we provide necessary and sufficient conditions for the transition between states under deterministic covariant influences and necessary conditions in the presence of stochastic covariant influences, predicting which transitions between states are forbidden. Our approach, for the first time, employs the framework of resource theories, borrowed from quantum information theory, to the study of finite discrete dynamical systems. The laws we articulate unify the behavior of different types of finite discrete dynamical systems, and their mathematical flavor makes them rigorous and checkable.
翻訳日:2023-03-06 19:33:11 公開日:2023-02-08
# U-10Zr環状燃料の分裂ガス気泡抽出のための効率よいインスタンス分割法

An Efficient Instance Segmentation Approach for Extracting Fission Gas Bubbles on U-10Zr Annular Fuel ( http://arxiv.org/abs/2302.12833v1 )

ライセンス: Link先を確認
Shoukun Sun, Fei Xu, Lu Cai, Daniele Salvato, Fidelma Dilemma, Luca Capriotti, Min Xian, Tiankai Yao(参考訳) u-10zrベースの核燃料は、次世代のナトリウム冷却高速炉の候補として追求されている。 しかし、燃料性能の根本的な基盤となるためには、より高度な評価と分析が必要であり、商業用途にU-10Zr燃料を適格化する。 熱間燃料中心から冷間クラッド表面へのランタナイドの移動は燃料性能に影響を与える重要な要因の1つである。 先進的な環状U-10Zr燃料では、ランタニドは分裂ガスバブルとして存在する。 注釈付きデータがないため、既存の文献では複数の閾値法を用いて気泡を分離し、環状燃料上の気泡統計を計算する。 しかし、マルチスレッショルド法は、画質やコントラストの異なる画像ではロバストな性能を達成できず、気泡の区別もできない。 本稿では,効率的な気泡セグメンテーションのためのハイブリッドフレームワークを提案する。 気泡アノテーションツールを開発し,24枚の画像から3000以上の気泡を含む最初の分裂ガス気泡データセットを生成する。 u-netとresnetを統合するマルチタスクディープラーニングネットワークは、インスタンスレベルのバブルセグメンテーションを実現するように設計されている。 セグメンテーション結果と画像処理ステップを組み合わせることで、90%以上のリコール率と非常に限られた注釈データが得られる。 本モデルは,従来提案していたしきい値法を比較することにより,優れた改善を示す。 提案手法は,u-10zrアニュラー燃料の核分裂ガス気泡のより高精度な定量分析を実現した。 その結果、泡をランタニドと同定し、最終的にU-10Zr環状燃料の熱分解とランタニド運動の関係を構築することに寄与する。 mover、ディープラーニングモデルは、他の類似の材料マイクロ構造セグメンテーションタスクに適用できる。

U-10Zr-based nuclear fuel is pursued as a primary candidate for next-generation sodium-cooled fast reactors. However, more advanced characterization and analysis are needed to form a fundamental understating of the fuel performance, and make U-10Zr fuel qualify for commercial use. The movement of lanthanides across the fuel section from the hot fuel center to the cool cladding surface is one of the key factors to affect fuel performance. In the advanced annular U-10Zr fuel, the lanthanides present as fission gas bubbles. Due to a lack of annotated data, existing literature utilized a multiple-threshold method to separate the bubbles and calculate bubble statistics on an annular fuel. However, the multiple-threshold method cannot achieve robust performance on images with different qualities and contrasts, and cannot distinguish different bubbles. This paper proposes a hybrid framework for efficient bubble segmentation. We develop a bubble annotation tool and generate the first fission gas bubble dataset with more than 3000 bubbles from 24 images. A multi-task deep learning network integrating U-Net and ResNet is designed to accomplish instance-level bubble segmentation. Combining the segmentation results and image processing step achieves the best recall ratio of more than 90% with very limited annotated data. Our model shows outstanding improvement by comparing the previously proposed thresholding method. The proposed method has promising to generate a more accurate quantitative analysis of fission gas bubbles on U-10Zr annular fuels. The results will contribute to identifying the bubbles with lanthanides and finally build the relationship between the thermal gradation and lanthanides movements of U-10Zr annular fuels. Mover, the deep learning model is applicable to other similar material micro-structure segmentation tasks.
翻訳日:2023-03-05 05:42:20 公開日:2023-02-08
# 経路絡み合った単一光子のベル純度と単一光子の純度

Bell-inequality in path-entangled single photon and purity of single photon state ( http://arxiv.org/abs/2112.05039v3 )

ライセンス: Link先を確認
K. Muhammed Shafi, R. S. Gayatri, A. Padhye, C. M. Chandrashekar(参考訳) 単一光子の様々な自由度が絡み合っており、様々な量子技術応用のリソースとして利用されている。 ビームスプリッタ設定における干渉法と等価な非干渉法を用いて、ベル検定を行い、経路絡み合い単一光子状態におけるchsh不等式を破る簡単な方法を提案する。 本研究では, 自然パラメトリックダウンコンバージョンから, 共有光子と非共有光子の両方を用いて経路絡み合った状態を生成し, 制御することによって実験的にこれを実証する。 実験の結果, 単光子状態の純度が70\% , $\mathcal{p} > 0.7$ を超える場合, chsh不等式違反への遷移が確認された。 単一光子源に対する単一ビームスプリッタと2つの検出器モジュールを用いた方法により,単一光子源の純度を簡易に検証し,位置空間と単一粒子の絡み合いが顕著である力学系の量子相関を調べることができる。

Different degrees of freedom of single photons have been entangled and are used as a resource for various quantum technology applications. We present a simple scheme to perform Bell's test and show the violation of CHSH inequality in a path-entangled single photon state using interferometric and its equivalent non-interferometric approach in beam splitter setting. We demonstrate this experimentally by generating and controlling path-entangled state using both, heralded and un-heralded single photons from spontaneous parametric down-conversion. The experimental results we present show the transition to violation of CHSH inequality when the purity of single photons state visibility increase above 70\% , $\mathcal{P} > 0.7$. Our procedure using single beam splitter and two detector module for un-heralded single photon source allows a simple way to test for purity of any single photon source and to study quantum correlations on systems driven by dynamics where single particle entanglement with position space is prominent.
翻訳日:2023-03-05 00:58:55 公開日:2023-02-08
# 物理的事前拡張型深部オートエンコーダによる非教師なし地震時足跡除去

Unsupervised Seismic Footprint Removal With Physical Prior Augmented Deep Autoencoder ( http://arxiv.org/abs/2302.10756v1 )

ライセンス: Link先を確認
Feng Qian, Yuehua Yue, Yu He, Hongtao Yu, Yingjie Zhou, Jinliang Tang, and Guangmin Hu(参考訳) 震度取得の足跡は安定して弱く、完全に空間的にコヒーレントになり、抑圧過程で有用な信号に不可避な損傷を引き起こす。 フィルタやスパース表現(SR)を含む様々なフットプリント除去手法が,この課題を克服するための有望な結果を得たことが報告されている。 しかし、これらの手法、例えば、SRは有用な信号のハンドクラフト画像にのみ依存しており、複雑な地質構造が与えられた地震データに含まれる場合、しばしば不合理な要求である。 代替案として本論文では,価値ある信号の仮定なしに取得した足跡を教師なしで抑制するための足跡除去ネットワーク (dubbed fr-net) を提案する。 fr-netの鍵は、ノイズの固有方向特性に応じて足跡獲得のための一方向全変動(utv)モデルを設計することである。 UTVモデルを用いてディープ畳み込みオートエンコーダ(DCAE)を強く正規化することにより、FR-NetはDCAEを完全なデータ駆動モデルから \textcolor{black}{prior-augmented} アプローチに変換し、DCAEとフットプリントモデルの優位性を継承する。 その後、バックプロパゲーション(BP)アルゴリズムを用いてFR-Netを最適化することにより、フットプリントノイズと有用な信号の完全分離を教師なしで予測する。 我々は,3つの合成およびフィールドデータセットに対して行われた定性的および定量的評価を行い,FR-Netが従来のSOTA法を超えることを示す。

Seismic acquisition footprints appear as stably faint and dim structures and emerge fully spatially coherent, causing inevitable damage to useful signals during the suppression process. Various footprint removal methods, including filtering and sparse representation (SR), have been reported to attain promising results for surmounting this challenge. However, these methods, e.g., SR, rely solely on the handcrafted image priors of useful signals, which is sometimes an unreasonable demand if complex geological structures are contained in the given seismic data. As an alternative, this article proposes a footprint removal network (dubbed FR-Net) for the unsupervised suppression of acquired footprints without any assumptions regarding valuable signals. The key to the FR-Net is to design a unidirectional total variation (UTV) model for footprint acquisition according to the intrinsically directional property of noise. By strongly regularizing a deep convolutional autoencoder (DCAE) using the UTV model, our FR-Net transforms the DCAE from an entirely data-driven model to a \textcolor{black}{prior-augmented} approach, inheriting the superiority of the DCAE and our footprint model. Subsequently, the complete separation of the footprint noise and useful signals is projected in an unsupervised manner, specifically by optimizing the FR-Net via the backpropagation (BP) algorithm. We provide qualitative and quantitative evaluations conducted on three synthetic and field datasets, demonstrating that our FR-Net surpasses the previous state-of-the-art (SOTA) methods.
翻訳日:2023-02-26 14:19:44 公開日:2023-02-08
# 深部ニューラルネットワークのための関数結合型透かしについて

On Function-Coupled Watermarks for Deep Neural Networks ( http://arxiv.org/abs/2302.10296v1 )

ライセンス: Link先を確認
Xiangyu Wen, Yu Li, Wei Jiang, Qiang Xu(参考訳) DNN(well-performed Deep Neural Network)は、トレーニングに大量のラベル付きデータと計算リソースを必要とする。 このような知的財産権(IP)を保護するために様々な透かし技術が提案され、DNNプロバイダが秘密情報をモデルに埋め込んで、専用のトリガー入力で埋め込んだ透かしを取得することで、後にIP所有権を主張できるようにしている。 文献では有望な結果が報告されているが、既存のソリューションは、モデルファインチューニングやモデルプルーニングなどのウォーターマーク除去攻撃に悩まされている。 本稿では,上記の攻撃に対して効果的に防御できる新しいDNN透かし手法を提案する。 我々の重要な洞察は、ウォーターマークの結合とモデル機能の強化であり、ウォーターマークの除去は、必然的に通常の入力でモデルのパフォーマンスを低下させる。 そこで,本手法は,分散データから学習した機密機能に依存する従来の手法とは異なり,分散データから学習した機能のみを使用する。 具体的には、元のトレーニングデータセットからの入力をサンプル化して、ウォーターマークトリガーとして融合する手法を提案する。 一方で,トレーニング中にモデル重みをランダムにマスクすることにより,ネットワーク内に埋め込まれた透かしの情報を広げる。 そうすることで、モデルの微調整/プルニングは、関数結合したウォーターマークを忘れません。 画像分類タスクの評価結果から, 攻撃的な透かし除去攻撃による透かし認証の成功率は100 %であり, 既存の解よりも有意に優れていた。 コードはhttps://github.com/cure-lab/function-coupled-watermark。

Well-performed deep neural networks (DNNs) generally require massive labelled data and computational resources for training. Various watermarking techniques are proposed to protect such intellectual properties (IPs), wherein the DNN providers implant secret information into the model so that they can later claim IP ownership by retrieving their embedded watermarks with some dedicated trigger inputs. While promising results are reported in the literature, existing solutions suffer from watermark removal attacks, such as model fine-tuning and model pruning. In this paper, we propose a novel DNN watermarking solution that can effectively defend against the above attacks. Our key insight is to enhance the coupling of the watermark and model functionalities such that removing the watermark would inevitably degrade the model's performance on normal inputs. To this end, unlike previous methods relying on secret features learnt from out-of-distribution data, our method only uses features learnt from in-distribution data. Specifically, on the one hand, we propose to sample inputs from the original training dataset and fuse them as watermark triggers. On the other hand, we randomly mask model weights during training so that the information of our embedded watermarks spreads in the network. By doing so, model fine-tuning/pruning would not forget our function-coupled watermarks. Evaluation results on various image classification tasks show a 100\% watermark authentication success rate under aggressive watermark removal attacks, significantly outperforming existing solutions. Code is available: https://github.com/cure-lab/Function-Coupled-Watermark.
翻訳日:2023-02-26 14:16:22 公開日:2023-02-08
# ディープニューラルネットワークのためのベンチマーク解釈ツール

Benchmarking Interpretability Tools for Deep Neural Networks ( http://arxiv.org/abs/2302.10894v1 )

ライセンス: Link先を確認
Stephen Casper, Yuxiao Li, Jiawei Li, Tong Bu, Kevin Zhang, Dylan Hadfield-Menell(参考訳) ディープニューラルネットワークの解釈は、AIにおける現在の研究のトピックである。 しかし、実用的な応用において競争力のあるツールであることが示されている解釈可能性技術はほとんどない。 ベンチマークがAIの進歩を導く傾向に触発されて、私たちは3つのコントリビューションを行います。 まず,工学関連洞察を生成する上で,解釈可能性ツールがいかに有用かを評価するためのベンチマークタスクとしてトロイの木馬再発見を提案する。 第2に,ベンチマーク手法として,特徴帰属法と特徴合成法という2つの手法を設計した。 第3に,16の特徴帰属/保証法と9つの特徴合成法の評価にベンチマークを適用した。 このアプローチは、これらの既存のツールの能力に大きな違いがあり、改善の余地があります。 最後に,今後の課題に向けて,いくつかの方向性を提案する。 リソースはhttps://github.com/thestephencasper/benchmarking_interpretabilityで入手できる。

Interpreting deep neural networks is the topic of much current research in AI. However, few interpretability techniques have shown to be competitive tools in practical applications. Inspired by how benchmarks tend to guide progress in AI, we make three contributions. First, we propose trojan rediscovery as a benchmarking task to evaluate how useful interpretability tools are for generating engineering-relevant insights. Second, we design two such approaches for benchmarking: one for feature attribution methods and one for feature synthesis methods. Third, we apply our benchmarks to evaluate 16 feature attribution/saliency methods and 9 feature synthesis methods. This approach finds large differences in the capabilities of these existing tools and shows significant room for improvement. Finally, we propose several directions for future work. Resources are available at https://github.com/thestephencasper/benchmarking_interpretability
翻訳日:2023-02-26 13:50:00 公開日:2023-02-08
# DoGはSGDのベストフレンド:パラメータフリーの動的ステップサイズスケジュール

DoG is SGD's Best Friend: A Parameter-Free Dynamic Step Size Schedule ( http://arxiv.org/abs/2302.12022v1 )

ライセンス: Link先を確認
Maor Ivgi, Oliver Hinder and Yair Carmon(参考訳) 本研究では,Distance over Gradients (DoG) と呼ばれるチューニング不要な動的SGDステップサイズ公式を提案する。 DoGのステップサイズは単純な経験量(初期点と勾配のノルムに依存している)に依存し、‘学習率’パラメータを持たない。 理論的には、犬の公式のわずかな変化は、確率凸最適化のための強いパラメータフリーな収束保証を享受していることを示す。 実証的に,幅広い視覚・言語伝達学習タスクを考察し,DoGの性能が学習速度を調整したSGDに近いことを示す。 また、一般にSGDよりも優れており、チューニングされたAdamの性能に近づいたDoGの層間変異も提案する。

We propose a tuning-free dynamic SGD step size formula, which we call Distance over Gradients (DoG). The DoG step sizes depend on simple empirical quantities (distance from the initial point and norms of gradients) and have no ``learning rate'' parameter. Theoretically, we show that a slight variation of the DoG formula enjoys strong parameter-free convergence guarantees for stochastic convex optimization assuming only \emph{locally bounded} stochastic gradients. Empirically, we consider a broad range of vision and language transfer learning tasks, and show that DoG's performance is close to that of SGD with tuned learning rate. We also propose a per-layer variant of DoG that generally outperforms tuned SGD, approaching the performance of tuned Adam.
翻訳日:2023-02-26 13:14:08 公開日:2023-02-08
# 分散型製造システムにおけるオンラインプロセスモニタリングのための知識蒸留に基づく情報共有

Knowledge Distillation-based Information Sharing for Online Process Monitoring in Decentralized Manufacturing System ( http://arxiv.org/abs/2302.12004v1 )

ライセンス: Link先を確認
Zhangyue Shi, Yuxuan Li, Chenang Liu(参考訳) 先進的な製造において,センサ技術の導入は,機械学習を用いた効率的なプロセス監視を実現する機会を提供する。 一方、情報技術の進歩により、製造システムの接続された分散環境が実現され、システム内の異なる製造ユニットがより緊密に連携するようになる。 分散製造システムでは、関連するユニットは同一または類似の製品を製作し、オンラインプロセス監視のために独自の機械学習モデルをデプロイすることができる。 しかし、操作中のタスク進捗の不整合のため、一部のユニットはデータ豊かであり、一部はデータ貧弱であることも一般的である。 したがって、機械学習に基づく各ユニットのプロセス監視モデルの学習進捗は様々である。 そのため, 分散型製造システムにおいて, ユニット間の効率的な, セキュアな知識共有を実現することが重要である。 そこで本稿では,データ豊富な単位から情報的知識を抽出し,データポーア単位の監視性能を向上させるkd-is(知識蒸留型情報共有)フレームワークを提案する。 本手法の有効性を検証するため,FFF (Connected Fused Filament fabrication)-based Additive Manufacturing (AM) platformにおいて実世界のケーススタディを行った。 実験結果から,本手法はデータポーアユニットにおけるモデル監視性能の向上に有効であり,データプライバシの保護が確固たるものであることが示された。

In advanced manufacturing, the incorporation of sensing technology provides an opportunity to achieve efficient in-situ process monitoring using machine learning methods. Meanwhile, the advances of information technologies also enable a connected and decentralized environment for manufacturing systems, making different manufacturing units in the system collaborate more closely. In a decentralized manufacturing system, the involved units may fabricate same or similar products and deploy their own machine learning model for online process monitoring. However, due to the possible inconsistency of task progress during the operation, it is also common that some units are data-rich while some are data-poor. Thus, the learning progress of the machine learning-based process monitoring model for each unit may vary. Therefore, it is highly valuable to achieve efficient and secured knowledge sharing among the units in a decentralized manufacturing system. To realize this goal, this paper proposes a knowledge distillation-based information sharing (KD-IS) framework, which could distill informative knowledge from data-rich unit to improve the monitoring performance of data-poor unit. To validate the effectiveness of this method, a real-world case study is conducted in a connected fused filament fabrication (FFF)-based additive manufacturing (AM) platform. The experimental results show that the developed method is efficient in improving model monitoring performance at data-poor unit, with solid protection on potential data privacy.
翻訳日:2023-02-26 13:12:33 公開日:2023-02-08
# d_{1}\otimes d_{2}$ 次元二成分絡み状態の検出 : グラフ理論的アプローチ

Detection of $d_{1}\otimes d_{2}$ Dimensional Bipartite Entangled State: A Graph Theoretical Approach ( http://arxiv.org/abs/2202.13963v2 )

ライセンス: Link先を確認
Rohit Kumar, Satyabrata Adhikari(参考訳) Braunsteinら。 al. は、グラフ理論による量子状態の絡み合い特性の研究を開始した。 彼らのアイデアは、単純な非重み付けグラフ$g$から始まり、その後、グラフ$g$のラプラシアンから量子状態を定義することだった。 同様のアイデアを使ってすでに多くの研究が進められている。 ここでは逆の質問をする:すなわち、密度行列からグラフを生成することができるか? この問題を調べるために、ユニタリ写像 $\phi$ を構築して $\phi(\rho)=l_{\rho}+\rho$ とし、ここで量子状態は密度作用素 $\rho$ によって記述される。 l_{\rho}$ のエントリは量子状態 $\rho$ のエントリに依存し、エントリは $l_{\rho}$ がラプラシアンのすべての特性を満たすように取られる。 これにより、Laplacian $L_{\rho}$から単純な連結重み付きグラフを設計できる。 構成されたユニタリ写像 $\phi$ は、行列 $\phi(\rho)-I$ の行列式が正であれば、量子状態 $\rho$ が混合状態を表すことを示すことによって、その純粋性に関して量子状態を特徴づけることを示した。 さらに, 密度行列のスペクトルと, 与えられた密度行列に関連付けられたラプラシアンスペクトルを用いて, 正部分転位(PPT)の基準について検討した。 さらに、密度行列の最小固有値と単純な重み付きグラフの連結部分グラフの辺の重みの間の不等式を導出して、$d_{1} \otimes d_{2}$ 次元二成分量子状態の絡み合いを検出する。 最後に、いくつかの例で結果を示しました。

Braunstein et. al. have started the study of entanglement properties of the quantum states through graph theoretical approach. Their idea was to start from a simple unweighted graph $G$ and then they have defined the quantum state from the Laplacian of the graph $G$. A lot of research had already been done using the similar idea. We ask here the opposite one i.e can we generate a graph from the density matrix? To investigate this question, we have constructed a unital map $\phi$ such that $\phi(\rho)=L_{\rho}+\rho$, where the quantum state is described by the density operator $\rho$. The entries of $L_{\rho}$ depends on the entries of the quantum state $\rho$ and the entries are taken in such a way that $L_{\rho}$ satisfies all the properties of the Laplacian. This make possible to design a simple connected weighted graph from the Laplacian $L_{\rho}$. We show that the constructed unital map $\phi$ characterize the quantum state with respect to its purity by showing that if the determinant of the matrix $\phi(\rho)-I$ is positive then the quantum state $\rho$ represent a mixed state. Moreover, we study the positive partial transpose (PPT) criterion in terms of the spectrum of the density matrix under investigation and the spectrum of the Laplacian associated with the given density matrix. Furthermore, we derive the inequality between the minimum eigenvalue of the density matrix and the weight of the edges of the connected subgraph of a simple weighted graph to detect the entanglement of $d_{1} \otimes d_{2}$ dimensional bipartite quantum states. Lastly, We have illustrated our results with few examples.
翻訳日:2023-02-23 17:38:52 公開日:2023-02-08
# 量子優位性は量子機械学習の正しい目標か?

Is quantum advantage the right goal for quantum machine learning? ( http://arxiv.org/abs/2203.01340v2 )

ライセンス: Link先を確認
Maria Schuld, Nathan Killoran(参考訳) 機械学習は、量子コンピューティングで最も有望なアプリケーションとしてしばしば挙げられる。 今日の機械学習アルゴリズムは実際には強力だが、理論的には研究が難しい。 それとは対照的に、量子コンピューティングは現実的なスケールの実用的なベンチマークを提供しておらず、理論は問題に関係があるかどうかを判断するための主要なツールである。 この観点からは、我々が現在使っているツールを使って、機械学習のための量子コンピュータの実用的能力について何か言いづらい理由を説明します。 これらの課題は、量子アドバンテージと古典的な機械学習の物語が、そのように文学を支配し続けるべきかどうかに関する批判的な議論を呼び起こし、既存の研究における他の視点が、優位性に焦点をあてる重要な代替手段となる例を強調している。

Machine learning is frequently listed among the most promising applications for quantum computing. This is in fact a curious choice: Today's machine learning algorithms are notoriously powerful in practice, but remain theoretically difficult to study. Quantum computing, in contrast, does not offer practical benchmarks on realistic scales, and theory is the main tool we have to judge whether it could become relevant for a problem. In this perspective we explain why it is so difficult to say something about the practical power of quantum computers for machine learning with the tools we are currently using. We argue that these challenges call for a critical debate on whether quantum advantage and the narrative of 'beating' classical machine learning should continue to dominate the literature the way it does, and highlight examples for how other perspectives in existing research provide an important alternative to the focus on advantage.
翻訳日:2023-02-23 07:41:12 公開日:2023-02-08
# 終わりは意味を正当化するのか? フェアネスを考慮した機械学習のモラル正当性について

Does the End Justify the Means? On the Moral Justification of Fairness-Aware Machine Learning ( http://arxiv.org/abs/2202.08536v2 )

ライセンス: Link先を確認
Hilde Weerts, Lamb\`er Royakkers, Mykola Pechenizkiy(参考訳) fairness-aware machine learning (fair-ml) テクニックは、機械学習モデルの予測によって影響を受ける個人が公平に扱われるように設計されたアルゴリズム的介入である。 公平度メトリクスや公正なmlアルゴリズムは多々あるが、実際には異なるアプローチの適合性についてのガイダンスは少ない。 本稿では,公正度尺度の正当性に関する道徳的推論の枠組みを提案し,その最適化のための公正度アルゴリズムの利用の道徳的意味を考察する。 特に、成果の分布が公平であるか否かは、不等式の原因だけでなく、モラルクレームの決定対象が特定の利益を受けるか、あるいは負担を避ける必要があるかにも依存する。 我々は、異なる状況下での2つの公正度メトリクスの適合性を分析するために、我々のフレームワークを使用します。 その後、Hardt et al. (2016)によって導入されたfair-mlアルゴリズムを支持または拒否する道徳的議論を考察する。 非常に具体的な状況下では、特定のメトリクスは、負担と利益の公平な分配に対応しています。 しかし、fair-mlアルゴリズムを用いてフェアネスメトリックを強制しても結果の公平な分布は得られず、いくつかの好ましくない副作用が生じる可能性がある。 最終的には、直接最適化の目的を超えて、より包括的なフェアmlアルゴリズムの評価を求める。

Fairness-aware machine learning (fair-ml) techniques are algorithmic interventions designed to ensure that individuals who are affected by the predictions of a machine learning model are treated fairly, typically measured in terms of a quantitative fairness metric. Despite the multitude of fairness metrics and fair-ml algorithms, there is still little guidance on the suitability of different approaches in practice. In this paper, we present a framework for moral reasoning about the justification of fairness metrics and explore the moral implications of the use of fair-ml algorithms that optimize for them. In particular, we argue that whether a distribution of outcomes is fair, depends not only on the cause of inequalities but also on what moral claims decision subjects have to receive a particular benefit or avoid a burden. We use our framework to analyze the suitability of two fairness metrics under different circumstances. Subsequently, we explore moral arguments that support or reject the use of the fair-ml algorithm introduced by Hardt et al. (2016). We argue that under very specific circumstances, particular metrics correspond to a fair distribution of burdens and benefits. However, we also illustrate that enforcing a fairness metric by means of a fair-ml algorithm may not result in the fair distribution of outcomes and can have several undesirable side effects. We end with a call for a more holistic evaluation of fair-ml algorithms, beyond their direct optimization objectives.
翻訳日:2023-02-19 15:00:54 公開日:2023-02-08
# 視覚的抽象的推論課題に対する深部非単調推論

Deep Non-Monotonic Reasoning for Visual Abstract Reasoning Tasks ( http://arxiv.org/abs/2302.07137v1 )

ライセンス: Link先を確認
Yuan Yang and Deepayan Sanyal and Joel Michelson and James Ainooson and Maithilee Kunda(参考訳) 多くのよく定義されたタスクで未整合のパフォーマンスを達成する一方で、ディープラーニングモデルは視覚的抽象的推論タスクの解決にも使われてきた。 しかし、現在の深層モデルでは、最小データでは解決するが最大一般化はできない。 一つの制限は、現在のディープラーニングモデルは単調な方法で動作し、すなわち、入力の異なる部分を本質的に固定された順序で処理するのに対して、人々は、推論プロセスが一貫した結論、すなわち非単調な推論に収束するまで、視覚刺激の異なる部分を繰り返し観察し、推論する。 本稿では,視覚的抽象的推論課題を解決するための非単調な計算手法を提案する。 特に、このアプローチを使ってディープラーニングモデルを実装し、RavenのProgressive MatricesテストにインスパイアされたデータセットであるRAVENデータセットでテストしました。 提案手法は,RAVENデータセット問題の難易度を示す厳密な実験条件の下で,既存の単調深層学習モデルよりも効果的であることを示す。

While achieving unmatched performance on many well-defined tasks, deep learning models have also been used to solve visual abstract reasoning tasks, which are relatively less well-defined, and have been widely used to measure human intelligence. However, current deep models struggle to match human abilities to solve such tasks with minimum data but maximum generalization. One limitation is that current deep learning models work in a monotonic way, i.e., treating different parts of the input in essentially fixed orderings, whereas people repeatedly observe and reason about the different parts of the visual stimuli until the reasoning process converges to a consistent conclusion, i.e., non-monotonic reasoning. This paper proposes a non-monotonic computational approach to solve visual abstract reasoning tasks. In particular, we implemented a deep learning model using this approach and tested it on the RAVEN dataset -- a dataset inspired by the Raven's Progressive Matrices test. Results show that the proposed approach is more effective than existing monotonic deep learning models, under strict experimental settings that represent a difficult variant of the RAVEN dataset problem.
翻訳日:2023-02-19 14:23:40 公開日:2023-02-08
# ドライバサイドBピラーによる視力障害の評価とブラインドスポット除去器による治療

Assessment of Vehicular Vision Obstruction Due to Driver-Side B-Pillar and Remediation with Blind Spot Eliminator ( http://arxiv.org/abs/2302.07088v1 )

ライセンス: Link先を確認
Dilara Baysal(参考訳) 運転者側のBピラーが生み出した盲点には、運転者が周囲を正確に評価する能力が損なわれ、車両事故の頻度と重大さに大きく寄与した。 車両メーカーは、側方衝突やロールオーバー事故時に車両の乗員を保護するための規制ガイドラインのため、容易にbピラーを除去できない。 さらに、盲点の悪影響に対処するために使用される補助具は、技術的制限と光学的障害のために効果が残っていない。 本稿では,運転者の頭部が前方に向き,90度回転する際のBピラーによる障害を定量化する機構について紹介する。 これは、bピラー幅と閉塞角度の関係を示すために開発されたメトリクスを使用する。 この論文は、ドライバーが盲点を取り除くのに必要な動きを決定する方法を示している。 最終的に,Blind Spot Eliminator という解法を提案し,障害物角と運転者の運動量の両方を減少させることを実証した。 blind spot eliminatorのプロトタイプも製造され、典型的な乗用車における人間の視覚をモデル化するためにマネキンを使用して実験された。 この実験の結果は、以前の計算で予測されたように、視聴能力が大幅に向上したことを示している。 そこで本研究では,Blind Spot Eliminatorは運転者の安全と車両事故の低減に優れた可能性を秘めている。 キーワード:Bピラー、ドライバービジョン、アクティブセーフティ、盲点、輸送、事故回避、サイドビューアシスト。

Blind spots created by the driver-side B-pillar impair the ability of the driver to assess their surroundings accurately, significantly contributing to the frequency and severity of vehicular accidents. Vehicle manufacturers are unable to readily eliminate the B-pillar due to regulatory guidelines intended to protect vehicular occupants in the event of side collisions and rollover incidents. Furthermore, assistance implements utilized to counteract the adverse effects of blind spots remain ineffective due to technological limitations and optical impediments. This paper introduces mechanisms to quantify the obstruction caused by the B-pillar when the head of the driver is facing forward and turning 90 degrees, typical of an over-the-shoulder blind spot check. It uses the metrics developed to demonstrate the relationship between B-pillar width and the obstruction angle. The paper then creates a methodology to determine the movement required of the driver to eliminate blind spots. Ultimately, this paper proposes a solution, the Blind Spot Eliminator, and demonstrates that it successfully decreases both the obstruction angle and, consequently, the required driver movement. A prototype of the Blind Spot Eliminator is also constructed and experimented with using a mannequin to model human vision in a typical passenger vehicle. The results of this experiment illustrated a substantial improvement in viewing ability, as predicted by earlier calculations. Therefore, this paper concludes that the proposed Blind Spot Eliminator has excellent potential to improve driver safety and reduce vehicular accidents. Keywords: B-pillar, driver vision, active safety, blind spots, transportation, crash avoidance, side-view assist.
翻訳日:2023-02-19 14:22:30 公開日:2023-02-08
# 知識グラフに対する従来の質問応答とチャットGPT:知識グラフチャットボットの現状と今後の方向性

ChatGPT versus Traditional Question Answering for Knowledge Graphs: Current Status and Future Directions Towards Knowledge Graph Chatbots ( http://arxiv.org/abs/2302.06466v1 )

ライセンス: Link先を確認
Reham Omar, Omij Mangukiya, Panos Kalnis and Essam Mansour(参考訳) 知識グラフ(KG)のための会話型AIと質問応答システム(QAS)は、どちらも新興の研究分野である。 会話AIは人間との会話をシミュレートするが、トレーニングデータセットでキャプチャされたデータによって制限される。 対照的に、QASは、自然言語質問を理解して翻訳することで、KGから最新の情報を検索し、データベースエンジンがサポートする形式的なクエリに変換する。 本稿では,両世界を新しいKGチャットボットに統合する上で,既存の選択肢の特徴を包括的に研究する。 本フレームワークは,現在最先端のQASであるKGQANに対して,ChatGPTとGalacticaの2つの代表的な対話モデルを比較する。 我々は、様々なアプリケーション領域にまたがる4つの実KGを用いて、システムの各カテゴリの現在の限界を特定する。 本研究は,kgsのためのチャットボット機能を備えたqassを支援できるオープンリサーチの機会を提案する。 ベンチマークと生の結果はすべて、さらなる分析のために1で利用可能である。

Conversational AI and Question-Answering systems (QASs) for knowledge graphs (KGs) are both emerging research areas: they empower users with natural language interfaces for extracting information easily and effectively. Conversational AI simulates conversations with humans; however, it is limited by the data captured in the training datasets. In contrast, QASs retrieve the most recent information from a KG by understanding and translating the natural language question into a formal query supported by the database engine. In this paper, we present a comprehensive study of the characteristics of the existing alternatives towards combining both worlds into novel KG chatbots. Our framework compares two representative conversational models, ChatGPT and Galactica, against KGQAN, the current state-of-the-art QAS. We conduct a thorough evaluation using four real KGs across various application domains to identify the current limitations of each category of systems. Based on our findings, we propose open research opportunities to empower QASs with chatbot capabilities for KGs. All benchmarks and all raw results are available1 for further analysis.
翻訳日:2023-02-19 14:21:14 公開日:2023-02-08
# 順序付きメモリベースライン

Ordered Memory Baselines ( http://arxiv.org/abs/2302.06451v1 )

ライセンス: Link先を確認
Daniel Borisov, Matthew D'Iorio, Jeffrey Hyacinthe(参考訳) 自然言語意味論は句構造モデルを用いてモデル化することができ、木型アーキテクチャを用いて表現することができる。 その結果、近年の自然言語処理の進歩は、入力文列のツリー型表現を推論できるメモリモデルを用いて再帰的ニューラルネットワークを活用している。 これらの新しい木モデルは感情分析と意味認識の改善を可能にした。 ここでは、NeurIPS 2019カンファレンスでShen et al. (2019)によって提案されたオーダードメモリモデルについてレビューし、よりよいパフォーマンスを実現するためのベースラインの作成や、同等に機能可能なシンプルなモデルの作成を試みる。 Ordered Memoryモデルはツリー型モデリングで使用される最先端のモデルと同等に動作し、パラメータの少ない単純化されたベースラインよりも性能がよいことがわかった。

Natural language semantics can be modeled using the phrase-structured model, which can be represented using a tree-type architecture. As a result, recent advances in natural language processing have been made utilising recursive neural networks using memory models that allow them to infer tree-type representations of the input sentence sequence. These new tree models have allowed for improvements in sentiment analysis and semantic recognition. Here we review the Ordered Memory model proposed by Shen et al. (2019) at the NeurIPS 2019 conference, and try to either create baselines that can perform better or create simpler models that can perform equally as well. We found that the Ordered Memory model performs on par with the state-of-the-art models used in tree-type modelling, and performs better than simplified baselines that require fewer parameters.
翻訳日:2023-02-19 14:20:42 公開日:2023-02-08
# AIによる強化学習に基づく論理合成フレームワークAISYN

AISYN: AI-driven Reinforcement Learning-Based Logic Synthesis Framework ( http://arxiv.org/abs/2302.06415v1 )

ライセンス: Link先を確認
Ghasem Pasandi and Sreedhar Pratty and James Forsyth(参考訳) 論理合成は、最終品質(QoR)に大きな影響を与えるデジタルチップの設計と実装における最も重要なステップの1つである。 DAG (Directed Acyclic Graph) でモデル化された最も一般的な入力回路では、遅延や面積最小化といった多くの論理合成問題はNP-Completeであり、最適解は得られない。 そのため、多くの古典論理最適化関数は、QoRの改善を必要以上に許さない局所ミニマに容易に閉じ込められるような欲求的なアプローチに従う傾向にある。 我々は人工知能(AI)およびより具体的には強化学習(RL)アルゴリズムがこの問題を解決するのに役立つと考えている。 これは、AIとRLがQoRをさらに最小化するのに役立つためである。 オープンソースのベンチマーク回路と産業用ベンチマーク回路を併用した実験により,論理合成最適化関数をAI駆動にすることで,面積,遅延,電力といった重要な指標を大幅に改善できることが判明した。 例えば、我々のRLベースの書き換えアルゴリズムは、AIを意識しない古典的な書き換えアルゴリズムと比較して、合成後の細胞面積を最大69.3%改善できる。

Logic synthesis is one of the most important steps in design and implementation of digital chips with a big impact on final Quality of Results (QoR). For a most general input circuit modeled by a Directed Acyclic Graph (DAG), many logic synthesis problems such as delay or area minimization are NP-Complete, hence, no optimal solution is available. This is why many classical logic optimization functions tend to follow greedy approaches that are easily trapped in local minima that does not allow improving QoR as much as needed. We believe that Artificial Intelligence (AI) and more specifically Reinforcement Learning (RL) algorithms can help in solving this problem. This is because AI and RL can help minimizing QoR further by exiting from local minima. Our experiments on both open source and industrial benchmark circuits show that significant improvements on important metrics such as area, delay, and power can be achieved by making logic synthesis optimization functions AI-driven. For example, our RL-based rewriting algorithm could improve total cell area post-synthesis by up to 69.3% when compared to a classical rewriting algorithm with no AI awareness.
翻訳日:2023-02-19 14:20:19 公開日:2023-02-08
# 2019年のEU選挙中にFacebookでポピュリスト広告を宣伝する薄いイデオロギー

The Thin Ideology of Populist Advertising on Facebook during the 2019 EU Elections ( http://arxiv.org/abs/2302.04038v1 )

ライセンス: Link先を確認
Arthur Capozzi, Gianmarco De Francisci Morales, Yelena Mejova, Corrado Monti, Andr\'e Panisson(参考訳) ソーシャルメディアは、ポピュリストメッセージを拡大する上で重要なツールであり、過去10年間のポピュリスト政党の選挙的成功に寄与したと考えられている。 この研究は、2019年の欧州議会選挙でfacebookでポピュリズム政党がいかに宣伝したかを比較したものである。 特に、聴衆がどの点に到達し、どの問題に焦点を当てているかという共通点と相違点について検討する。 Meta(元Facebook) Ad Libraryのデータを使って、ドイツ、イギリス、イタリア、スペイン、ポーランドの39の政党による45万の広告キャンペーンを分析します。 ポピュリスト政党は政治広告の総支出の20%をわずかに上回っているが、全インプレッションの40%を$\unicode{x2013}$thusとEuroscepticと極右政党の$\unicode{x2013}$thusが占めている。 さらには、ポピュリスト団体が投稿した広告が男性の聴衆にリーチしやすく、時にはもっと古いものにもリーチする。 問題に関しては、ポピュリストの政治家は金融政策、州の官僚制と改革、安全保障に重点を置いており、一方EUとブレグジットは非ポピュリスト、主流政党と同等である。 しかし、問題優先は主に国固有のものであり、ポピュリズムは普遍的で一貫性のある政策課題を持たない「薄いイデオロギー」であるという政治科学の見解を支持している。 本研究は、現在利用可能なデータの制限を概説しながら、何百万人もの潜在的有権者に対する大衆の関心や関与を監視するために、公開可能な広告データの有用性を示す。

Social media has been an important tool in the expansion of the populist message, and it is thought to have contributed to the electoral success of populist parties in the past decade. This study compares how populist parties advertised on Facebook during the 2019 European Parliamentary election. In particular, we examine commonalities and differences in which audiences they reach and on which issues they focus. By using data from Meta (previously Facebook) Ad Library, we analyze 45k ad campaigns by 39 parties, both populist and mainstream, in Germany, United Kingdom, Italy, Spain, and Poland. While populist parties represent just over 20% of the total expenditure on political ads, they account for 40% of the total impressions$\unicode{x2013}$most of which from Eurosceptic and far-right parties$\unicode{x2013}$thus hinting at a competitive advantage for populist parties on Facebook. We further find that ads posted by populist parties are more likely to reach male audiences, and sometimes much older ones. In terms of issues, populist politicians focus on monetary policy, state bureaucracy and reforms, and security, while the focus on EU and Brexit is on par with non-populist, mainstream parties. However, issue preferences are largely country-specific, thus supporting the view in political science that populism is a "thin ideology", that does not have a universal, coherent policy agenda. This study illustrates the usefulness of publicly available advertising data for monitoring the populist outreach to, and engagement with, millions of potential voters, while outlining the limitations of currently available data.
翻訳日:2023-02-19 14:06:11 公開日:2023-02-08
# 大学入試における標準試験の代替としての学習入試モデルの評価

Evaluating a Learned Admission-Prediction Model as a Replacement for Standardized Tests in College Admissions ( http://arxiv.org/abs/2302.03610v2 )

ライセンス: Link先を確認
Hansol Lee, Ren\'e F. Kizilcec, Thorsten Joachims(参考訳) 大学アプリケーションの増加は、米国での大学入学に毎年挑戦している。 入場事務所は歴史的に標準テストスコアに依存しており、審査のために大きな応募者プールを実行可能なサブセットに整理している。 しかし、このアプローチは、テストのスコアのバイアスと、最近のテストオプションの受け入れ傾向によるテストテイクの選択バイアスが伴う可能性がある。 より総合的なレビューを支援するために,学生アプリケーションから抽出した幅広い要因を考慮しつつ,サブセット生成における標準化テストの役割を置き換えるための機械学習ベースのアプローチを検討する。 選択的な米国機関(13,248件)の学部受験所のデータに対するアプローチを評価した。 過去の入学者データに基づいてトレーニングされた予測モデルは、satベースのヒューリスティックよりも優れており、最終入学クラスの人口構成に合致する。 大学入試における人間の意思決定を支援するために、このような学習モデルをどのように活用できるかのリスクと機会について論じる。

A growing number of college applications has presented an annual challenge for college admissions in the United States. Admission offices have historically relied on standardized test scores to organize large applicant pools into viable subsets for review. However, this approach may be subject to bias in test scores and selection bias in test-taking with recent trends toward test-optional admission. We explore a machine learning-based approach to replace the role of standardized tests in subset generation while taking into account a wide range of factors extracted from student applications to support a more holistic review. We evaluate the approach on data from an undergraduate admission office at a selective US institution (13,248 applications). We find that a prediction model trained on past admission data outperforms an SAT-based heuristic and matches the demographic composition of the last admitted class. We discuss the risks and opportunities for how such a learned model could be leveraged to support human decision-making in college admissions.
翻訳日:2023-02-19 14:04:16 公開日:2023-02-08
# FacebookとInstagramの政治広告は2022年のイタリア総選挙まで続く

Political advertisement on Facebook and Instagram in the run up to 2022 Italian general election ( http://arxiv.org/abs/2212.08021v2 )

ライセンス: Link先を確認
Francesco Pierri(参考訳) オンラインソーシャルプラットフォーム上のターゲット広告は、政治マーケティングツールキットに益々関連してきている。 政治広告の監視は、民主的プロセスの説明責任と透明性を確保するために不可欠である。 スポンサーコンテンツのメタパブリックライブラリを活用して,2022年までのイタリア総選挙において,facebookとinstagramで政治広告が配信された範囲を調査した。 23k以上のユニークな広告を2.7kのスポンサーが支払い、関連する費用は4M EURと10億ビュー以上と分析し、主要な連立政権の政治運動活動の時間的、地理的、人口的パターンを調査した。 両党の政治的議題や選挙結果に応じて、最も活発な連立政権が、各グループの(目標の)政治的基盤と整合した地域差をいかに多く獲得したかを明らかにする。 我々の研究は、デジタル広告のさらなる研究の必要性と、個人の意見や選択に対する影響に注意を向けている。

Targeted advertising on online social platforms has become increasingly relevant in the political marketing toolkit. Monitoring political advertising is crucial to ensure accountability and transparency of democratic processes. Leveraging Meta public library of sponsored content, we study the extent to which political ads were delivered on Facebook and Instagram in the run up to 2022 Italian general election. Analyzing over 23 k unique ads paid by 2.7 k unique sponsors, with an associated amount spent of 4 M EUR and over 1 billion views generated, we investigate temporal, geographical, and demographic patterns of the political campaigning activity of main coalitions. We find results that are in accordance with their political agenda and the electoral outcome, highlighting how the most active coalitions also obtained most of the votes and showing regional differences that are coherent with the (targeted) political base of each group. Our work raises attention to the need for further studies of digital advertising and its implications for individuals' opinions and choices.
翻訳日:2023-02-19 13:03:27 公開日:2023-02-08
# 幾何学的手法による量子状態の絡み合いの定量化

Quantifying the entanglement of quantum states under the geometry method ( http://arxiv.org/abs/2204.03791v3 )

ライセンス: Link先を確認
Xian Shi, Lin Chen, Yixuan Liang(参考訳) 量子絡み合いは量子情報理論において重要な問題である。 ここでは,二成分状態に対する修正測度と拡張測度という2つの方法を用いて,トレースノルムによる絡み合い測度を考える。 修正された測度と拡張された測度に対する2量子系の混合状態の観点から、純状態の解析式を提示する。 また,二成分状態から三成分状態への修正測度を一般化する。

Quantifying entanglement is an important issue in quantum information theory. Here we consider the entanglement measures through the trace norm in terms of two methods, the modified measure and the extended measure for bipartite states. We present the analytical formula for the pure states in terms of the modified measure and the mixed states of two-qubit systems for the extended measure. We also generalize the modified measure from bipartite states to tripartite states.
翻訳日:2023-02-17 21:33:12 公開日:2023-02-08
# 量子粒子のエントロピー力

Entropic force for quantum particles ( http://arxiv.org/abs/2302.05429v1 )

ライセンス: Link先を確認
Jayarshi Bhattacharya, Gautam Gangopadhyay and Sunandan Gangopadhyay(参考訳) エントロピー力はニュートンの第二法則と一般相対性理論のアインシュタイン場方程式を導出する研究の後に理論物理学者の注目を集めている。 本稿では,量子粒子の分布にエントロピー力の考え方を拡張する。 連続変数に対するシャノンエントロピーの定義から始め、ここでは、ボゾン粒子とフェルミオン粒子の連続エントロピー力と同様に量子浸透圧を導出した。 エントロピー力はボソンとフェルミオンの対に対して明示的に計算される。 この結果の低温限界は、ボーソンのエントロピー力はフックの弾性の法則に似ており、ボース=アインシュタイン凝縮体の形成におけるこのアイデアの重要性を明らかにした。 フェルミオンの場合、低温限界はよく知られたノイマンの放射力に沸騰し、またパウリの排除原理を明らかにする。 次に、量子粒子間のエントロピー力の古典的極限について論じる。

Entropic force has been drawing the attention of theoretical physicists following the work \cite{verlinde2011origin} to derive Newton's second law and Einstein's field equations of general relativity. In this paper, we extend the idea of entropic force to the distribution of quantum particles. Starting from the definition of Shannon entropy for continuous variables, here we have derived quantum osmotic pressure as well as the consequent entropic forces for bosonic and fermionic particles. The entropic force is computed explicitly for a pair of bosons and fermions. The low temperature limit of this result show that the entropic force for bosons is similar to Hooke's law of elasticity revealing the importance of this idea in the formation of a Bose-Einstein condensate. For fermions, the low temperature limit boils down to the well known Neumann's radial force and also reveals the Pauli's exclusion principle. The classical limit of the entropic force between quantum particles is then discussed.
翻訳日:2023-02-13 14:56:13 公開日:2023-02-08
# 安全対策のためのAI対応スマートビデオサーベイランスの政策と技術的側面

Understanding Policy and Technical Aspects of AI-Enabled Smart Video Surveillance to Address Public Safety ( http://arxiv.org/abs/2302.04310v1 )

ライセンス: Link先を確認
Babak Rahimi Ardabili, Armin Danesh Pazho, Ghazal Alinezhad Noghre, Christopher Neff, Sai Datta Bhaskararayuni, Arun Ravindran, Shannon Reid, Hamed Tabkhi(参考訳) 人工知能(AI)の最近の進歩は、スマートビデオ監視(SVS)の多くの実践的応用、特に都市環境におけるより安全で安全なコミュニティの構築に現れている。 物体の識別、行動の認識、異常な行動の検出といった認知的タスクは、統計的および分析的なツールを通じて、コミュニティに貴重な洞察を提供することのできるデータを生成することができる。 しかし、人工知能による監視システムの設計には、倫理的課題や懸念に対する特別な配慮が必要である。 個人識別可能な情報(PII)の使用と保管は、一般的に個人のプライバシーに対するリスクを増大させる。 これらの問題に対処するために、AI対応のスマートビデオ監視を設計する際には、プライバシの懸念と対処に必要な要件を特定する。 さらに,コンピュータビジョン分析,統計データ分析,クラウドネイティブサービス,およびエンドユーザアプリケーションを組み合わせた,エンドツーエンドのai対応スマートビデオ監視システムを提案する。 最後に,知的ビデオ監視システムを評価するための定量的・質的指標を提案する。 このシステムは17.8フレーム/秒(FPS)処理を極端なビデオシーンで表示する。 しかし、このようなシステムを設計する際のプライバシーを考えると、ピクセルベースのアルゴリズムよりもポーズベースのアルゴリズムを好む。 この選択により、動作および異常検出タスクの精度が低下した。 結果は異常検出では97.48から73.72に低下し、アクション検出タスクでは96から83.07に低下した。 平均して、エンドツーエンドシステムのレイテンシは36.1秒である。

Recent advancements in artificial intelligence (AI) have seen the emergence of smart video surveillance (SVS) in many practical applications, particularly for building safer and more secure communities in our urban environments. Cognitive tasks, such as identifying objects, recognizing actions, and detecting anomalous behaviors, can produce data capable of providing valuable insights to the community through statistical and analytical tools. However, artificially intelligent surveillance systems design requires special considerations for ethical challenges and concerns. The use and storage of personally identifiable information (PII) commonly pose an increased risk to personal privacy. To address these issues, this paper identifies the privacy concerns and requirements needed to address when designing AI-enabled smart video surveillance. Further, we propose the first end-to-end AI-enabled privacy-preserving smart video surveillance system that holistically combines computer vision analytics, statistical data analytics, cloud-native services, and end-user applications. Finally, we propose quantitative and qualitative metrics to evaluate intelligent video surveillance systems. The system shows the 17.8 frame-per-second (FPS) processing in extreme video scenes. However, considering privacy in designing such a system results in preferring the pose-based algorithm to the pixel-based one. This choice resulted in dropping accuracy in both action and anomaly detection tasks. The results drop from 97.48 to 73.72 in anomaly detection and 96 to 83.07 in the action detection task. On average, the latency of the end-to-end system is 36.1 seconds.
翻訳日:2023-02-10 17:43:55 公開日:2023-02-08
# 脳腫瘍分節に対するメタラーニングによるモダリティ非依存表現の強化

Enhancing Modality-Agnostic Representations via Meta-Learning for Brain Tumor Segmentation ( http://arxiv.org/abs/2302.04308v1 )

ライセンス: Link先を確認
Aishik Konwer, Xiaoling Hu, Xuan Xu, Joseph Bae, Chao Chen, Prateek Prasanna(参考訳) 医療ビジョン領域では、異なるイメージングモードが補完情報を提供する。 しかし、実際には全てのモダリティが推論中に利用できるわけではない。 知識蒸留や画像合成といった従来のアプローチでは、トレーニング中のすべての患者に完全なモダリティが利用できると仮定することが多い。 そこで本研究では,完全なモダリティを持つ患者がほんの一部しかいない場合でも,新しいメタラーニング戦略を用いてモダリティ非依存表現の強化を学ぶための新しいアプローチを提案する。 メタラーニングは、部分モダリティデータのメタトレーニングと制限されたフルモダリティサンプルのメタテストにより、部分モダリティ表現をフルモダリティ表現に拡張する。 さらに,この機能の強化を補助的な敵意学習ブランチの導入によって監督する。 より具体的には、完全なモダリティ設定を模倣する識別器として欠落モダリティ検出器が使用される。 我々のセグメンテーションフレームワークは、2つの脳腫瘍MRIデータセットで示されるように、モダリティの欠如において最先端の脳腫瘍セグメンテーション技術よりも著しく優れている。

In the medical vision domain, different imaging modalities provide complementary information. However, in practice, not all modalities may be available during inference. Previous approaches, e.g., knowledge distillation or image synthesis, often assume the availability of full modalities for all patients during training; this is unrealistic and impractical owing to the variability in data collection across sites. We propose a novel approach to learn enhanced modality-agnostic representations by employing a novel meta-learning strategy in training, even when only a fraction of full modality patients are available. Meta-learning enhances partial modality representations to full modality representations by meta-training on partial modality data and meta-testing on limited full modality samples. Additionally, we co-supervise this feature enrichment by introducing an auxiliary adversarial learning branch. More specifically, a missing modality detector is used as a discriminator to mimic the full modality setting. Our segmentation framework significantly outperforms state-of-the-art brain tumor segmentation techniques in missing modality scenarios, as demonstrated on two brain tumor MRI datasets.
翻訳日:2023-02-10 17:43:34 公開日:2023-02-08
# マスク条件付き合成衛星画像

Mask Conditional Synthetic Satellite Imagery ( http://arxiv.org/abs/2302.04305v1 )

ライセンス: Link先を確認
Van Anh Le, Varshini Reddy, Zixi Chen, Mengyuan Li, Xinran Tang, Anthony Ortiz, Simone Fobi Nsutezo, Caleb Robinson(参考訳) 本稿では,合成衛星画像データセットを作成するためのマスク条件合成画像生成モデルを提案する。 実際の高解像度画像とそれに付随するランドカバーマスクのデータセットから,上流の条件付き合成画像生成装置を訓練し,その生成装置を用いてランドカバーマスクを用いた合成画像を作成し,合成画像とランドカバーマスクを用いた下流モデルの訓練を行い,実際の画像で訓練されたモデルと同じようなテスト性能を実現することを示す。 さらに,実画像と合成画像の混合を組み込むことがデータ拡張手法となり,実画像のみを使用するよりも優れたモデルを生成することが判明した(0.5834 対 0.5235 miou)。 最後に、上流モデルにおけるアウトプットの多様性を奨励することが、下流タスクのパフォーマンスを向上させるために必要な要素であることがわかった。 GitHubで作業を再現するためのコードをリリースした。https://github.com/ms-synthetic-satellite-image/synthetic-satellite-imageryを参照してください。

In this paper we propose a mask-conditional synthetic image generation model for creating synthetic satellite imagery datasets. Given a dataset of real high-resolution images and accompanying land cover masks, we show that it is possible to train an upstream conditional synthetic imagery generator, use that generator to create synthetic imagery with the land cover masks, then train a downstream model on the synthetic imagery and land cover masks that achieves similar test performance to a model that was trained with the real imagery. Further, we find that incorporating a mixture of real and synthetic imagery acts as a data augmentation method, producing better models than using only real imagery (0.5834 vs. 0.5235 mIoU). Finally, we find that encouraging diversity of outputs in the upstream model is a necessary component for improved downstream task performance. We have released code for reproducing our work on GitHub, see https://github.com/ms-synthetic-satellite-image/synthetic-satellite-imagery .
翻訳日:2023-02-10 17:43:15 公開日:2023-02-08
# q-diffusion:拡散モデルの定量化

Q-Diffusion: Quantizing Diffusion Models ( http://arxiv.org/abs/2302.04304v1 )

ライセンス: Link先を確認
Xiuyu Li, Long Lian, Yijiang Liu, Huanrui Yang, Zhen Dong, Daniel Kang, Shanghang Zhang, Kurt Keutzer(参考訳) 拡散モデルは最近、多様で高忠実な画像を合成することに成功した。 しかし、複雑なニューラルネットワークを用いた反復ノイズ推定の必要性から、これらのモデルの生成プロセスが遅くなる可能性があるため、サンプリング速度とメモリ制約は拡散モデルの実践的採用の大きな障壁である。 本稿では,学習後量子化(PTQ)を用いた生成過程を高速化するために,雑音推定ネットワークを圧縮してこの問題に対する解を提案する。 既存のPTQ手法では,複数の時間ステップにおける拡散モデルにおけるノイズ推定ネットワークの出力分布の変化を効果的に処理することはできないが,異なる時間ステップからサンプリングしたデータを用いたデータキャリブレーション方式を用いて,拡散モデルに特有のマルチステップ構造を扱うように特別に設計されたPTQ法を定式化することができる。 実験結果から,提案手法は実精度拡散モデルを直接8ビットまたは4ビットモデルに量子化し,FID変化を最大1.88で達成できることがわかった。 また,本手法はテキスト誘導画像生成にも適用可能であり,図5や図9に示すように,4ビットの重みで安定した拡散を行うことができる。

Diffusion models have recently achieved great success in synthesizing diverse and high-fidelity images. However, sampling speed and memory constraints remain a major barrier to the practical adoption of diffusion models as the generation process for these models can be slow due to the need for iterative noise estimation using complex neural networks. We propose a solution to this problem by compressing the noise estimation network to accelerate the generation process using post-training quantization (PTQ). While existing PTQ approaches have not been able to effectively deal with the changing output distributions of noise estimation networks in diffusion models over multiple time steps, we are able to formulate a PTQ method that is specifically designed to handle the unique multi-timestep structure of diffusion models with a data calibration scheme using data sampled from different time steps. Experimental results show that our proposed method is able to directly quantize full-precision diffusion models into 8-bit or 4-bit models while maintaining comparable performance in a training-free manner, achieving a FID change of at most 1.88. Our approach can also be applied to text-guided image generation, and for the first time we can run stable diffusion in 4-bit weights without losing much perceptual quality, as shown in Figure 5 and Figure 9.
翻訳日:2023-02-10 17:42:49 公開日:2023-02-08
# 重み付けによる2次元から3次元への事前学習型視覚変換器の適応による医用画像分割の改善

Adapting Pre-trained Vision Transformers from 2D to 3D through Weight Inflation Improves Medical Image Segmentation ( http://arxiv.org/abs/2302.04303v1 )

ライセンス: Link先を確認
Yuhui Zhang, Shih-Cheng Huang, Zhengping Zhou, Matthew P. Lungren, Serena Yeung(参考訳) 多様な疾患の診断・治療に広く用いられているMRIやCTなどの3D医療画像技術の普及を考えると、3Dセグメンテーションは医用画像解析の基本的な課題の1つである。 近年,大規模な自然画像ベンチマークデータセットを事前トレーニングすることにより,トランスフォーマモデルによる最先端のパフォーマンスの実現が始まっている。 医用画像解析の研究もTransformerベースのモデルを探索し始めているが、主に2次元の自然画像と3次元の医用画像の寸法差のために、トレーニング済みのTransformerを効果的に活用するための最適な戦略はない。 既存のソリューションでは、3d画像を2dスライスに分割して各スライスを独立に予測することで、重要な奥行き情報を失うか、事前訓練された重みを使わずに3d入力をサポートするトランスフォーマーアーキテクチャを変更するかのどちらかである。 本研究では, 2dから3dにプリトレーニングトランスを適応させるために, 単純かつ効果的な重みのインフレーション戦略を用い, 伝達学習と奥行き情報の両方の利点を保った。 さらに, 異なる事前学習源と目的からの移動の有効性について検討した。 提案手法は,多種多様な3次元医用画像データセットにまたがる最先端のパフォーマンスを実現し,その性能を最大化するために,Transformerベースの3次元医用画像モデルに関するすべての研究で容易に活用できる標準戦略となる。

Given the prevalence of 3D medical imaging technologies such as MRI and CT that are widely used in diagnosing and treating diverse diseases, 3D segmentation is one of the fundamental tasks of medical image analysis. Recently, Transformer-based models have started to achieve state-of-the-art performances across many vision tasks, through pre-training on large-scale natural image benchmark datasets. While works on medical image analysis have also begun to explore Transformer-based models, there is currently no optimal strategy to effectively leverage pre-trained Transformers, primarily due to the difference in dimensionality between 2D natural images and 3D medical images. Existing solutions either split 3D images into 2D slices and predict each slice independently, thereby losing crucial depth-wise information, or modify the Transformer architecture to support 3D inputs without leveraging pre-trained weights. In this work, we use a simple yet effective weight inflation strategy to adapt pre-trained Transformers from 2D to 3D, retaining the benefit of both transfer learning and depth information. We further investigate the effectiveness of transfer from different pre-training sources and objectives. Our approach achieves state-of-the-art performances across a broad range of 3D medical image datasets, and can become a standard strategy easily utilized by all work on Transformer-based models for 3D medical images, to maximize performance.
翻訳日:2023-02-10 17:42:28 公開日:2023-02-08
# 実世界シンボリック回帰問題に対するダウンサンプリング・エプシロン・レキシケースの選択

Down-Sampled Epsilon-Lexicase Selection for Real-World Symbolic Regression Problems ( http://arxiv.org/abs/2302.04301v1 )

ライセンス: Link先を確認
Alina Geiger, Dominik Sobania, Franz Rothlauf(参考訳) Epsilon-lexicase selectionは遺伝的プログラミングにおける親選択法であり、シンボリック回帰問題にうまく適用されている。 近年、ランダムサブサンプリングとレキシケース選択の組み合わせにより、プログラム合成などの他の遺伝的プログラミング領域のパフォーマンスが著しく向上している。 しかし,実世界の記号回帰問題の解質に対するサブサンプリングの影響はまだ研究されていない。 本稿では,epsilon-lexicase選択とランダムサブサンプリングを組み合わせたダウンサンプリングepsilon-lexicase選択法を提案する。 そこで本研究では,実世界の象徴的回帰問題に対するダウンサンプリングエプシロン・レキシラーゼと従来の選択法を比較し,遺伝的プログラミングにおける個体群特性への影響を分析した。 標準のepsilon-lexicase選択と比較して,ダウンサンプリングしたepsilon-lexicase選択により多様性が低下することがわかった。 これは、ダウンサンプリングされたepsilon-lexicase選択で観察される高いハイパーセレクション率とともに起こる。 さらに,epsilon-lexicase選択のダウンサンプリングは,すべての研究課題において従来の選択方法よりも優れていることがわかった。 総じて,epsilon-lexicase選択のダウンサンプリングにより,通常のepsilon-lexicase選択に比べて溶液品質が最大85%向上することを確認した。

Epsilon-lexicase selection is a parent selection method in genetic programming that has been successfully applied to symbolic regression problems. Recently, the combination of random subsampling with lexicase selection significantly improved performance in other genetic programming domains such as program synthesis. However, the influence of subsampling on the solution quality of real-world symbolic regression problems has not yet been studied. In this paper, we propose down-sampled epsilon-lexicase selection which combines epsilon-lexicase selection with random subsampling to improve the performance in the domain of symbolic regression. Therefore, we compare down-sampled epsilon-lexicase with traditional selection methods on common real-world symbolic regression problems and analyze its influence on the properties of the population over a genetic programming run. We find that the diversity is reduced by using down-sampled epsilon-lexicase selection compared to standard epsilon-lexicase selection. This comes along with high hyperselection rates we observe for down-sampled epsilon-lexicase selection. Further, we find that down-sampled epsilon-lexicase selection outperforms the traditional selection methods on all studied problems. Overall, with down-sampled epsilon-lexicase selection we observe an improvement of the solution quality of up to 85% in comparison to standard epsilon-lexicase selection.
翻訳日:2023-02-10 17:41:59 公開日:2023-02-08
# 無限多視点モデルを用いたサンプル複雑性

Sample Complexity Using Infinite Multiview Models ( http://arxiv.org/abs/2302.04292v1 )

ライセンス: Link先を確認
Robert A. Vandermeulen(参考訳) 近年の研究では、目標密度が分離可能な確率密度とリプシッツ連続限界値の凸結合である場合、低ランク推定器を用いることで、非パラメトリック密度推定器の収束率を大幅に改善できることが示されている。 しかし、この仮定は非常に制限的であり、これらの発見がどの程度一般のpdfに拡張できるかは明らかではない。 この研究は、pdfの複雑性を特徴づける新しい方法、非負のリプシッツスペクトル (NL-spectrum) を導入することでこの問題に答える。 ターゲット密度のNLスペクトルに依存する有限サンプル境界を示す。 この次元に依存しない収束率から、nlスペクトルが収束速度を速くできるときに特徴付けられる収束率が導出される。

Recent works have demonstrated that the convergence rate of a nonparametric density estimator can be greatly improved by using a low-rank estimator when the target density is a convex combination of separable probability densities with Lipschitz continuous marginals, i.e. a multiview model. However, this assumption is very restrictive and it is not clear to what degree these findings can be extended to general pdfs. This work answers this question by introducing a new way of characterizing a pdf's complexity, the non-negative Lipschitz spectrum (NL-spectrum), which, unlike smoothness properties, can be used to characterize virtually any pdf. Finite sample bounds are presented that are dependent on the target density's NL-spectrum. From this dimension-independent rates of convergence are derived that characterize when an NL-spectrum allows for a fast rate of convergence.
翻訳日:2023-02-10 17:41:39 公開日:2023-02-08
# 説明権と忘れられる権利とのギャップを橋渡しする

Towards Bridging the Gaps between the Right to Explanation and the Right to be Forgotten ( http://arxiv.org/abs/2302.04288v1 )

ライセンス: Link先を確認
Satyapriya Krishna, Jiaqi Ma, Himabindu Lakkaraju(参考訳) \emph{The Right to Explanation} と \emph{The Right to be Forgotten} は、現実のアプリケーションにおけるアルゴリズムによる意思決定とデータ利用を規制するための重要な原則である。 説明の権利は、個人がアルゴリズムによる決定に対して実行可能な説明を要求できるようにするが、忘れられる権利は、組織のすべてのデータベースやモデルからデータを削除するように要求する権利を与える。 直感的には、忘れられる権利を強制するとモデルのアップデートが引き起こされ、それまで提供されていた説明が無効になり、説明の権利に違反する可能性がある。 本研究では, 上記の2つの規制原則の干渉による技術的影響を考察し, 両者の緊張を解消するための第1のアルゴリズム枠組みである「emph{the first algorithmic framework}」を提案する。 この目的のために,データ削除要求によるトレーニングデータインスタンスの削除により,モデル更新にロバストな説明を生成するための新しい最適化問題を定式化する。 この最適化問題の組合せ複雑性を扱うための効率的な近似アルゴリズムを導出する。 本稿では, 線形モデルや非線形モデルの特定のクラスにおいて, 限界コストを伴う最悪のデータ削除要求に対して, 確実に堅牢な説明を生成することを理論的に実証する。 実世界のデータセットを用いた大規模な実験は,提案フレームワークの有効性を示す。

\emph{The Right to Explanation} and \emph{the Right to be Forgotten} are two important principles outlined to regulate algorithmic decision making and data usage in real-world applications. While the right to explanation allows individuals to request an actionable explanation for an algorithmic decision, the right to be forgotten grants them the right to ask for their data to be deleted from all the databases and models of an organization. Intuitively, enforcing the right to be forgotten may trigger model updates which in turn invalidate previously provided explanations, thus violating the right to explanation. In this work, we investigate the technical implications arising due to the interference between the two aforementioned regulatory principles, and propose \emph{the first algorithmic framework} to resolve the tension between them. To this end, we formulate a novel optimization problem to generate explanations that are robust to model updates due to the removal of training data instances by data deletion requests. We then derive an efficient approximation algorithm to handle the combinatorial complexity of this optimization problem. We theoretically demonstrate that our method generates explanations that are provably robust to worst-case data deletion requests with bounded costs in case of linear models and certain classes of non-linear models. Extensive experimentation with real-world datasets demonstrates the efficacy of the proposed framework.
翻訳日:2023-02-10 17:41:26 公開日:2023-02-08
# 媒介的有効容量による最寄り近傍の結合を有する低オーバーヘッド量子バス

Low Overhead Quantum Bus with Coupling beyond the Nearest Neighbor via Mediated Effective Capacitance ( http://arxiv.org/abs/2302.04284v1 )

ライセンス: Link先を確認
Yariv Yanay, Charles Tahan(参考訳) 容易な2つの量子ビットゲートの設計は、現在進行中の研究領域である。 一般的なスキームの多くは専用の制御線を必要とするが、周波数混雑の問題に弱いものもある。 本稿では,データキュービットとして機能するトランスモンの連鎖を,補助キュービットの量子バスを介して結合する手法を提案する。 補助配列は浮遊トランスモンでできており、媒介的相互作用を利用することで、近接する近傍の外側で効果的なキャパシタンスを生成する。 論理キュービットは互いに直接結合しないが、遠方調整された補助配列に周波数を近づけることで結合することができる。 これにより、不要なデータキュービット間のチューニング可能な結合と、ゲートを3つ以上のキュービットに一度に絡めるアプリケーションが可能になる。

The design of easy to operate high-fidelity two qubit gates remains an area of ongoing research. Many of the common schemes require dedicated controls lines, while others are vulnerable to issues of frequency crowding. Here, we propose a scheme for coupling a chain of transmons acting as data qubits via a quantum bus of auxiliary qubits. The auxiliary array is made of floating transmons, and through the use of mediated interactions we generate effective capacitance between them beyond the nearest neighbor. Logical qubits are not directly coupled to each other, but they can be coupled by bringing them closer in frequency to the far-detuned auxiliary arrays. This allows for tunable coupling between non-neighboring data qubits, and for the application of entangling gates to three or more qubits at once.
翻訳日:2023-02-10 17:41:03 公開日:2023-02-08
# ノイズ量子回路における誤差緩和閾値

Error Mitigation Thresholds in Noisy Quantum Circuits ( http://arxiv.org/abs/2302.04278v1 )

ライセンス: Link先を確認
Pradeep Niroula, Sarang Gopalakrishnan, Michael J. Gullans(参考訳) ノイズの多い短期量子シミュレーションから有用な情報を抽出するには、エラー軽減戦略が必要である。 これらの戦略の幅広いクラスは、ノイズ源の正確な評価に依存している。 ノイズが不完全に特徴付けられる場合の戦略の性能について検討する。 我々は、空間次元におけるランダムな空間的局所回路に対する誤差緩和しきい値の存在を予測するために、Imry-Maの引数を適用した。 対照的に、1次元の回路では、緩和は障害の特徴づけにおける不完全性に対して$\mathcal{O}(1)$の時間で失敗する。 本稿では, 量子計算の優位性, 測定誘起相転移の耐故障プローブ, および短期デバイスにおける量子アルゴリズムについて考察する。

Extracting useful information from noisy near-term quantum simulations requires error mitigation strategies. A broad class of these strategies rely on precise characterization of the noise source. We study the performance of such strategies when the noise is imperfectly characterized. We adapt an Imry-Ma argument to predict the existence of an error mitigation threshold for random spatially local circuits in spatial dimensions $D \geq 2$: characterization disorder below the threshold rate allows for error mitigation up to times that scale with the number of qubits. For one-dimensional circuits, by contrast, mitigation fails at an $\mathcal{O}(1)$ time for any imperfection in the characterization of disorder. We discuss implications for tests of quantum computational advantage, fault-tolerant probes of measurement-induced phase transitions, and quantum algorithms in near-term devices.
翻訳日:2023-02-10 17:40:50 公開日:2023-02-08
# ChatGPTに捕まりますか? プラジャリズム検出の再考

Will ChatGPT get you caught? Rethinking of Plagiarism Detection ( http://arxiv.org/abs/2302.04335v1 )

ライセンス: Link先を確認
Mohammad Khalil and Erkan Er(参考訳) 人工知能(AI)技術の台頭と教育への影響は近年懸念が高まっている。 チャットボットのような新しい世代のaiシステムは、インターネットでよりアクセスしやすくなり、能力も強化された。 チャットボット、特にChatGPTを使った学校や大学での学術エッセイの生成は、学者の間で恐怖を呼び起こした。 この研究は、最も人気のあるAIチャットボットであるChatGPTが生み出すコンテンツの独創性を探求することを目的としている。 この目的のために,chatgptが生成した50点のエッセイの原点を評価するために,2つのポピュラーな盗作検出ツールが用いられた。 以上の結果から,ChatGPTは,盗用チェックソフトに捕らわれずに,高度なテキスト出力を生成できる可能性が示唆された。 言い換えれば、ChatGPTは、まるで誰かによって書かれたような、独創性の高い多くのトピックのコンテンツを作成することができる。 これらの結果は、学生がチャットボットを使って、最小限または全く努力せずに簡単に成功に近づこうという最近の懸念と一致している。 さらに、ChatGPTは、エッセイがそれ自体で生成されたかどうかを確認するよう依頼され、従来の盗作検出ツールと比較して優れたパフォーマンスを示した。 本論文は,潜在的な盗作問題を軽減するための適切な対策を検討すべき機関の必要性を論じ,ai技術が教育に与える影響に関する継続的な議論について助言する。 さらなる影響は論文で議論されている。

The rise of Artificial Intelligence (AI) technology and its impact on education has been a topic of growing concern in recent years. The new generation AI systems such as chatbots have become more accessible on the Internet and stronger in terms of capabilities. The use of chatbots, particularly ChatGPT, for generating academic essays at schools and colleges has sparked fears among scholars. This study aims to explore the originality of contents produced by one of the most popular AI chatbots, ChatGPT. To this end, two popular plagiarism detection tools were used to evaluate the originality of 50 essays generated by ChatGPT on various topics. Our results manifest that ChatGPT has a great potential to generate sophisticated text outputs without being well caught by the plagiarism check software. In other words, ChatGPT can create content on many topics with high originality as if they were written by someone. These findings align with the recent concerns about students using chatbots for an easy shortcut to success with minimal or no effort. Moreover, ChatGPT was asked to verify if the essays were generated by itself, as an additional measure of plagiarism check, and it showed superior performance compared to the traditional plagiarism-detection tools. The paper discusses the need for institutions to consider appropriate measures to mitigate potential plagiarism issues and advise on the ongoing debate surrounding the impact of AI technology on education. Further implications are discussed in the paper.
翻訳日:2023-02-10 17:36:03 公開日:2023-02-08
# 支援を求める: 値近似による行動クローニングにおける障害予測

Asking for Help: Failure Prediction in Behavioral Cloning through Value Approximation ( http://arxiv.org/abs/2302.04334v1 )

ライセンス: Link先を確認
Cem Gokmen, Daniel Ho, Mohi Khansari(参考訳) エンド・ツー・エンドの模倣学習アプローチの最近の進歩は、モバイル操作タスクにおける有望な結果と一般化能力を示している。 このようなモデルは、ロボットが高い自律性、すなわち可能な限り人間の監督を必要とせずに運用できるような、現実の環境での展開を増加させています。 1対1の人間の監督の必要性を避けるために、ロボットは政策の失敗を事前に検知し、予防し、助けを求める必要がある。 しかしながら、行動的クローンのようなエンドツーエンドの模倣学習モデルのブラックボックスの性質は、明示的な状態値表現の欠如とともに、失敗を予測するのが困難である。 この目的のために、動作クローン値近似(BCVA)を導入し、状態値関数を学習し、障害の予測に使用できる行動クローンポリシーと協調して訓練する手法を提案する。 提案手法をラッチドドア開口の難解な移動操作タスクに適用することにより,2000 以上の実世界実行で評価した86%の精度と81%のリコールで障害シナリオを識別でき,簡易故障分類のベースラインを10ポイント改善できることを示す。

Recent progress in end-to-end Imitation Learning approaches has shown promising results and generalization capabilities on mobile manipulation tasks. Such models are seeing increasing deployment in real-world settings, where scaling up requires robots to be able to operate with high autonomy, i.e. requiring as little human supervision as possible. In order to avoid the need for one-on-one human supervision, robots need to be able to detect and prevent policy failures ahead of time, and ask for help, allowing a remote operator to supervise multiple robots and help when needed. However, the black-box nature of end-to-end Imitation Learning models such as Behavioral Cloning, as well as the lack of an explicit state-value representation, make it difficult to predict failures. To this end, we introduce Behavioral Cloning Value Approximation (BCVA), an approach to learning a state value function based on and trained jointly with a Behavioral Cloning policy that can be used to predict failures. We demonstrate the effectiveness of BCVA by applying it to the challenging mobile manipulation task of latched-door opening, showing that we can identify failure scenarios with with 86% precision and 81% recall, evaluated on over 2000 real world runs, improving upon the baseline of simple failure classification by 10 percentage-points.
翻訳日:2023-02-10 17:35:42 公開日:2023-02-08
# Androidマルウェア検出のための継続的学習

Continuous Learning for Android Malware Detection ( http://arxiv.org/abs/2302.04332v1 )

ライセンス: Link先を確認
Yizheng Chen, Zhoujie Ding, David Wagner(参考訳) 機械学習は、androidのマルウェアを非常に高い精度で検出できる。 しかし、これらの分類器にはAchilles Heelとコンセプトドリフトがあり、マルウェアアプリや良質なアプリの進化によって、それらは急速に時代遅れになり、非効率になる。 我々の研究によると、Androidのマルウェア分類器を1年分のデータでトレーニングした後、新しいテストサンプルに6ヶ月デプロイした後、F1スコアはすぐに0.99から0.76に低下した。 本稿では,androidマルウェア分類器の概念ドリフト問題に対処する新しい手法を提案する。 マシンラーニングのテクニックを継続的にデプロイする必要があるため、私たちはアクティブラーニングを使用します。アナリストがラベル付けする新しいサンプルを選択し、ラベル付きサンプルをトレーニングセットに追加して、分類器を再トレーニングします。 私たちの重要なアイデアは、類似性に基づく不確実性が、コンセプトドリフトに対してより堅牢であることです。 そこで我々は,コントラスト学習とアクティブラーニングを組み合わせる。 本稿では,新しい階層的コントラスト学習スキームと,androidマルウェア分類器を継続的に学習するための新しいサンプル選択手法を提案する。 評価の結果,前回公表したアクティブラーニング手法と比較して,大幅な改善がみられた。 提案手法では,偽陰性率を16% (ベストベースライン) から10%に削減し,同じ偽陽性率 (0.6%) を維持した。 また,従来の手法よりも7年間にわたって一貫した性能を維持する。

Machine learning methods can detect Android malware with very high accuracy. However, these classifiers have an Achilles heel, concept drift: they rapidly become out of date and ineffective, due to the evolution of malware apps and benign apps. Our research finds that, after training an Android malware classifier on one year's worth of data, the F1 score quickly dropped from 0.99 to 0.76 after 6 months of deployment on new test samples. In this paper, we propose new methods to combat the concept drift problem of Android malware classifiers. Since machine learning technique needs to be continuously deployed, we use active learning: we select new samples for analysts to label, and then add the labeled samples to the training set to retrain the classifier. Our key idea is, similarity-based uncertainty is more robust against concept drift. Therefore, we combine contrastive learning with active learning. We propose a new hierarchical contrastive learning scheme, and a new sample selection technique to continuously train the Android malware classifier. Our evaluation shows that this leads to significant improvements, compared to previously published methods for active learning. Our approach reduces the false negative rate from 16% (for the best baseline) to 10%, while maintaining the same false positive rate (0.6%). Also, our approach maintains more consistent performance across a seven-year time period than past methods.
翻訳日:2023-02-10 17:35:13 公開日:2023-02-08
# 短期記憶の畳み込み

Short-Term Memory Convolutions ( http://arxiv.org/abs/2302.04331v1 )

ライセンス: Link先を確認
Grzegorz Stefa\'nski, Krzysztof Arendt, Pawe{\l} Daniluk, Bart{\l}omiej Jasik, Artur Szumaczuk(参考訳) 時系列信号のリアルタイム処理は多くのリアルタイムアプリケーションにとって重要な問題である。 音の人間の知覚は知覚信号のあらゆる種類の乱れ、特に聴覚と視覚のずれに敏感であるため、リアルタイム処理の考え方は音声領域において特に重要である。 ディープラーニング(DL)モデルの台頭は、信号処理のランドスケープを複雑にしている。 標準的なDSP法に比べて品質が優れていることが多いが、この利点は高いレイテンシーによって減少する。 本研究では,STMC(Short-Term Memory Convolution)と呼ばれる,推論時間遅延とメモリ消費の最小化のための新しい手法を提案する。 STMCの主な利点は、長い短期記憶(LSTM)ネットワークに匹敵する低レイテンシである。 さらに,本手法は畳み込みニューラルネットワーク(cnns)のみに基づくため,stmcに基づくモデルのトレーニングは高速かつ安定である。 本研究では,音声分離タスクに対するU-Netモデルと,音響シーン分類(ASC)タスクにおけるGhostNetモデルに対する本手法の適用例を示す。 音声分離では, 出力品質に影響を与えることなく, 5倍の推論時間短縮と2倍の遅延低減を実現した。 ASCタスクの推論時間は、元の精度を維持しながら最大4倍高速であった。

The real-time processing of time series signals is a critical issue for many real-life applications. The idea of real-time processing is especially important in audio domain as the human perception of sound is sensitive to any kind of disturbance in perceived signals, especially the lag between auditory and visual modalities. The rise of deep learning (DL) models complicated the landscape of signal processing. Although they often have superior quality compared to standard DSP methods, this advantage is diminished by higher latency. In this work we propose novel method for minimization of inference time latency and memory consumption, called Short-Term Memory Convolution (STMC) and its transposed counterpart. The main advantage of STMC is the low latency comparable to long short-term memory (LSTM) networks. Furthermore, the training of STMC-based models is faster and more stable as the method is based solely on convolutional neural networks (CNNs). In this study we demonstrate an application of this solution to a U-Net model for a speech separation task and GhostNet model in acoustic scene classification (ASC) task. In case of speech separation we achieved a 5-fold reduction in inference time and a 2-fold reduction in latency without affecting the output quality. The inference time for ASC task was up to 4 times faster while preserving the original accuracy.
翻訳日:2023-02-10 17:34:34 公開日:2023-02-08
# 測定交替イジング量子臨界

Measurement-altered Ising quantum criticality ( http://arxiv.org/abs/2302.04325v1 )

ライセンス: Link先を確認
Sara Murciano, Pablo Sala, Yue Liu, Roger S. K. Mong and Jason Alicea(参考訳) 量子臨界系は、摂動に自然に敏感なため、新しい測定によって引き起こされる現象を探索するための魅力的なプラットフォームを構成する。 数値測定が量子臨界鎖のパラダイム的イジングに与える影響を明示的なプロトコルを用いて検討し,相関したアンシラが臨界鎖と絡み合って投影的に測定されることを示した。 広範囲な数値シミュレーションによって支持される摂動解析フレームワークを用いて, 測定値がエンタングゲートの選択, 基数, 測定結果, 基数に依存する方法で, 長距離相関を定性的に変化させることができることを実証した。 測定は、例えば、イジング順序パラメータのスケーリング次元を変更し、秩序パラメータの凝縮を触媒することができる。 測定結果における相関の挙動を定量的に予測し,測定平均値における測定交替イジング臨界性を検出するための2つの手法を同定した。 まず、測定結果に対するオーダーパラメータ期待値の2乗平均化は、平均的なオーダーパラメータ自体が消滅しても、一定の測定結果で発芽したオーダーパラメータ凝縮の記憶を保持する。 第二に、ある場合において、異なる対称性セクターに属する測定結果よりも観測変数を別々に評価できることを示し、これらの「対称性解決平均」は、標準線形平均観測可能量を考慮しても測定効果を明らかにすることを提案する。 我々のフレームワークは自然によりエキゾチックな量子臨界点に適応し、ライドバーグアレイにおける潜在的実験的実現の機会を強調する。

Quantum critical systems constitute appealing platforms for the exploration of novel measurement-induced phenomena due to their innate sensitivity to perturbations. We study the impact of measurement on paradigmatic Ising quantum critical chains using an explicit protocol, whereby correlated ancilla are entangled with the critical chain and then projectively measured. Using a perturbative analytic framework supported by extensive numerical simulations, we demonstrate that measurements can qualitatively alter long-distance correlations in a manner dependent on the choice of entangling gate, ancilla measurement basis, measurement outcome, and nature of ancilla correlations. Measurements can, for example, modify the Ising order-parameter scaling dimension and catalyze order parameter condensation. We derive numerous quantitative predictions for the behavior of correlations in select measurement outcomes, and also identify two strategies for detecting measurement-altered Ising criticality in measurement-averaged quantities. First, averaging the square of the order-parameter expectation value over measurement outcomes retains memory of order parameter condensation germinated in fixed measurement outcomes -- even though on average the order parameter itself vanishes. Second, we show that, in certain cases, observables can be averaged separately over measurement outcomes residing in distinct symmetry sectors; we propose that these `symmetry-resolved averages' reveal measurement effects even when considering standard linearly averaged observables. Our framework naturally adapts to more exotic quantum critical points and highlights opportunities for potential experimental realization in Rydberg arrays.
翻訳日:2023-02-10 17:34:13 公開日:2023-02-08
# 量子自由ゲーム

Quantum free games ( http://arxiv.org/abs/2302.04322v1 )

ライセンス: Link先を確認
Anand Natarajan, Tina Zhang(参考訳) アーロンソン、インパグリアッツォ、モシュコビッツ(ccc'14)によって2人以上のクラシック選手によるフリーゲームの複雑さは本質的に解決された。 古典自由ゲームの量子アナログと見なすことができる2つの複雑性クラスが存在する: (1) am*, マルチプロファー対話型証明クラス, (2) bellqma(2), 量子メルリン-アーサー証明系の2つの非絡みのないマーリンはアーサーによって別々に測定される。 本研究では,これら2つのクラスを厳密に評価する上で,大きな進歩を遂げる。 1.$n$変数上の3SATのベルQMA(2)プロトコルを示し、通信の総量は$\tilde{O}(\sqrt{n})$である。 これは Chen and Drucker (2010) のオープンな疑問に答え、ETH の条件として、Brand\~{a}o, Christandl and Yard (STOC'11) のアルゴリズムは対数因子に強く依存していることを示す。 2) $\mathsf{AM}^*[n_{\text{provers}} = 2, q = O(1), a =\mathrm{poly}\log(n)] = \mathsf{RE}$, すなわち、一定の大きさの質問を持つ自由絡み合いゲームは一般的な絡み合いゲームと同じくらい強力であることを示す。 我々の結果は、停止問題に対するMIP*プロトコルが$\mathrm{poly}(n)$-sized question and answer である Ji et al. (2020) の見出し結果よりも大幅に改善されている。 3. 一定の大きさの質問とほぼ対数的に大きな回答を持つ$\pi_2$完全言語に対するゼロギャップam*プロトコルを求め、mousavi, nezhadi, yuen (stoc'22) の見出し結果を改善した。 4. 停止問題の非一様複雑性への接続を用いて、reに対するmip*プロトコルは$\omega(\log n)$ の通信を必要とすることを示す。 第3項目の結果は、最大で$o(\log^* n)$ factor まで最適であり、mny'22 のギャップのない圧縮定理は漸近的に最適である。

The complexity of free games with two or more classical players was essentially settled by Aaronson, Impagliazzo, and Moshkovitz (CCC'14). There are two complexity classes that can be considered quantum analogues of classical free games: (1) AM*, the multiprover interactive proof class corresponding to free games with entangled players, and, somewhat less obviously, (2) BellQMA(2), the class of quantum Merlin-Arthur proof systems with two unentangled Merlins, whose proof states are separately measured by Arthur. In this work, we make significant progress towards a tight characterization of both of these classes. 1. We show a BellQMA(2) protocol for 3SAT on $n$ variables, where the total amount of communication is $\tilde{O}(\sqrt{n})$. This answers an open question of Chen and Drucker (2010) and also shows, conditional on ETH, that the algorithm of Brand\~{a}o, Christandl and Yard (STOC'11) is tight up to logarithmic factors. 2. We show that $\mathsf{AM}^*[n_{\text{provers}} = 2, q = O(1), a =\mathrm{poly}\log(n)] = \mathsf{RE}$, i.e. that free entangled games with constant-sized questions are as powerful as general entangled games. Our result is a significant improvement over the headline result of Ji et al. (2020), whose MIP* protocol for the halting problem has $\mathrm{poly}(n)$-sized questions and answers. 3. We obtain a zero-gap AM* protocol for a $\Pi_2$ complete language with constant-size questions and almost logarithmically large answers, improving on the headline result of Mousavi, Nezhadi and Yuen (STOC'22). 4. Using a connection to the nonuniform complexity of the halting problem we show that any MIP* protocol for RE requires $\Omega(\log n)$ bits of communication. It follows that our results in item 3 are optimal up to an $O(\log^* n)$ factor, and that the gapless compression theorems of MNY'22 are asymptotically optimal.
翻訳日:2023-02-10 17:33:48 公開日:2023-02-08
# 共有情報に基づく安全かつ効率的な自律走行車の行動計画

Shared Information-Based Safe And Efficient Behavior Planning For Connected Autonomous Vehicles ( http://arxiv.org/abs/2302.04321v1 )

ライセンス: Link先を確認
Songyang Han, Shanglin Zhou, Lynn Pepin, Jiangwei Wang, Caiwen Ding, Fei Miao(参考訳) 近年の無線技術の発展により、コネクテッド・自動運転車(CAV)は、他の車両から処理されたLIDARやカメラデータなどの車両間通信(V2V)を介してデータを収集することができる。 本研究では,CAVのための統合情報共有と安全マルチエージェント強化学習(MARL)フレームワークを設計し,交通効率と安全性を向上させるための意思決定を行う際の余分な情報を活用する。 まず,重み付き畳み込みニューラルネットワーク(cnn)を用いて,各自律走行車両の生画像とクラウドlidarデータをローカルに処理し,cnn出力データを隣接キャビブと共有する。 次に,車両の局部観測とV2V通信による情報の両方を利用して,安全保証を伴う効率的な行動計画方針を探索する安全なアクタ批判アルゴリズムを設計する。 実験のためのcarlaシミュレータを用いて,提案手法は,キャビティ比と交通密度の異なる場合,平均速度と快適性の観点からcavシステムの効率を向上させる。 また,我々のアプローチは安全でないアクションの実行を回避し,常に他の車両から安全な距離を保っていることを示す。 我々は,共用視覚が早期に障害物を観測し,交通渋滞を避けるために行動を起こすのに役立つことを示すために,障害物回避シナリオを構築した。

The recent advancements in wireless technology enable connected autonomous vehicles (CAVs) to gather data via vehicle-to-vehicle (V2V) communication, such as processed LIDAR and camera data from other vehicles. In this work, we design an integrated information sharing and safe multi-agent reinforcement learning (MARL) framework for CAVs, to take advantage of the extra information when making decisions to improve traffic efficiency and safety. We first use weight pruned convolutional neural networks (CNN) to process the raw image and point cloud LIDAR data locally at each autonomous vehicle, and share CNN-output data with neighboring CAVs. We then design a safe actor-critic algorithm that utilizes both a vehicle's local observation and the information received via V2V communication to explore an efficient behavior planning policy with safety guarantees. Using the CARLA simulator for experiments, we show that our approach improves the CAV system's efficiency in terms of average velocity and comfort under different CAV ratios and different traffic densities. We also show that our approach avoids the execution of unsafe actions and always maintains a safe distance from other vehicles. We construct an obstacle-at-corner scenario to show that the shared vision can help CAVs to observe obstacles earlier and take action to avoid traffic jams.
翻訳日:2023-02-10 17:33:03 公開日:2023-02-08
# 知識のない確率的2プレイヤー完全情報ゲームをプレイする学習

Learning to Play Stochastic Two-player Perfect-Information Games without Knowledge ( http://arxiv.org/abs/2302.04318v1 )

ライセンス: Link先を確認
Quentin Cohen-Solal and Tristan Cazenave(参考訳) 本稿では,完全情報を持つ2人プレイヤゲームの文脈における学習と計画を可能にするDescentフレームワークを,確率ゲームフレームワークに拡張する。 提案手法は, 探索アルゴリズム, すなわちDescent を確率ゲームに一般化する第1の方法と, 決定論的ゲームによる確率ゲームに近似する第2の方法である。 次に、EinStein wurfelt nicht!で、最先端のアルゴリズムであるpre expectiminimaxとPolygames(すなわちAlpha Zeroアルゴリズム)に対して評価する。 最良の結果を得るのはDescentの一般化である。 決定論的ゲームによる近似は、それでも良い結果を得ることができ、特定の文脈においてより良い結果が得られると仮定する。

In this paper, we extend the Descent framework, which enables learning and planning in the context of two-player games with perfect information, to the framework of stochastic games. We propose two ways of doing this, the first way generalizes the search algorithm, i.e. Descent, to stochastic games and the second way approximates stochastic games by deterministic games. We then evaluate them on the game EinStein wurfelt nicht! against state-of-the-art algorithms: Expectiminimax and Polygames (i.e. the Alpha Zero algorithm). It is our generalization of Descent which obtains the best results. The approximation by deterministic games nevertheless obtains good results, presaging that it could give better results in particular contexts.
翻訳日:2023-02-10 17:32:38 公開日:2023-02-08
# 低次元における量子誤差補正のオーバヘッド上の下界

A lower bound on the overhead of quantum error correction in low dimensions ( http://arxiv.org/abs/2302.04317v1 )

ライセンス: Link先を確認
Nou\'edyn Baspin and Omar Fawzi and Ala Shayeghi(参考訳) 幾何的局所演算に制限された誤り訂正手順を持つ量子アーキテクチャは、任意のエラーのない古典計算が許されたとしても、システムサイズとともに増大するオーバーヘッドを生じることを示す。 特に、量子誤り訂正符号を2Dで論理誤差率$\delta$で演算するには、任意の定値偏極ノイズ$p > 0$に対して$\Omega(\sqrt{\log(1/\delta)})$の空間オーバーヘッドが必要であることを証明している。

We show that a quantum architecture with an error correction procedure limited to geometrically local operations incurs an overhead that grows with the system size, even if arbitrary error-free classical computation is allowed. In particular, we prove that in order to operate a quantum error correcting code in 2D at a logical error rate of $\delta$, a space overhead of $\Omega(\sqrt{\log(1/\delta)})$ is needed for any constant depolarizing noise $p > 0$.
翻訳日:2023-02-10 17:32:27 公開日:2023-02-08
# 3次元分子生成のための幾何完全拡散

Geometry-Complete Diffusion for 3D Molecule Generation ( http://arxiv.org/abs/2302.04313v1 )

ライセンス: Link先を確認
Alex Morehead, Jianlin Cheng(参考訳) 拡散確率モデル (DDPM) は近年, テキスト誘導画像生成から構造誘導タンパク質設計に至るまで, コンピュータビジョンや計算生物学などの分野における新たな最先端の成果を開拓し, 嵐による生成モデリングの分野を開拓している。 この研究の後期の線に沿って、Hoogeboomら 2022 の手法は、DDPM フレームワーク内で同変グラフニューラルネットワーク (GNN) を用いて無条件で3D分子を生成する方法が提案されている。 そこで本研究では,gnnが提供する表現学習の強みを活かして3次元分子拡散生成のための新たな最先端結果を得る幾何完全拡散モデルgcdmを提案する。 また,分子DDPMの生成動態に及ぼす物理的誘導バイアスの影響について予備的な考察を行った。 新しいモデルをトレーニングしたり、結果を再現するためのソースコード、データ、インストラクションは、https://github.com/bioinfomachinelearning/bio-diffusionで無料で利用できます。

Denoising diffusion probabilistic models (DDPMs) have recently taken the field of generative modeling by storm, pioneering new state-of-the-art results in disciplines such as computer vision and computational biology for diverse tasks ranging from text-guided image generation to structure-guided protein design. Along this latter line of research, methods such as those of Hoogeboom et al. 2022 have been proposed for unconditionally generating 3D molecules using equivariant graph neural networks (GNNs) within a DDPM framework. Toward this end, we propose GCDM, a geometry-complete diffusion model that achieves new state-of-the-art results for 3D molecule diffusion generation by leveraging the representation learning strengths offered by GNNs that perform geometry-complete message-passing. Our results with GCDM also offer preliminary insights into how physical inductive biases impact the generative dynamics of molecular DDPMs. The source code, data, and instructions to train new models or reproduce our results are freely available at https://github.com/BioinfoMachineLearning/bio-diffusion.
翻訳日:2023-02-10 17:32:15 公開日:2023-02-08
# 教育データにおける感性分析と意見マイニング--アンケート調査から

Sentiment analysis and opinion mining on educational data: A survey ( http://arxiv.org/abs/2302.04359v1 )

ライセンス: Link先を確認
Thanveer Shaik, Xiaohui Tao, Christopher Dann, Haoran Xie, Yan Li, Linda Galligan(参考訳) 感性分析 意見マイニングは、人間の意図をレビューから識別する最も広く使われているNLPアプリケーションの1つである。 教育分野では、意見マイニングは学生の意見を聴き、学習指導の実践を教育的に強化するために用いられる。 感情アノテーション技術とAI方法論の進歩により、学生のコメントは人間の介入なしに感情指向でラベル付けできる。 In this review article, (1) we consider the role of emotional analysis in education from four levels: document level, sentence level, entity level, and aspect level, (2) sentiment annotation techniques including lexicon-based and corpus-based approaches for unsupervised annotations are explored, (3) the role of AI in sentiment analysis with methodologies like machine learning, deep learning, and transformers are discussed, (4) the impact of sentiment analysis on educational procedures to enhance pedagogy, decision-making, and evaluation are presented. 教育機関は感情分析ツールを構築し、学生の意見や洞察を引き出すために生徒のフィードバックを処理するために広く投資されてきた。 本研究は,学生のフィードバックの感情分析に基づくアプリケーションについて概説する。 多極性、多義性、否定語、意見スパム検出などの感情分析における課題を考察し、その研究分野におけるトレンドについて考察する。 教育における感情分析の今後の方向性について論じる。

Sentiment analysis AKA opinion mining is one of the most widely used NLP applications to identify human intentions from their reviews. In the education sector, opinion mining is used to listen to student opinions and enhance their learning-teaching practices pedagogically. With advancements in sentiment annotation techniques and AI methodologies, student comments can be labelled with their sentiment orientation without much human intervention. In this review article, (1) we consider the role of emotional analysis in education from four levels: document level, sentence level, entity level, and aspect level, (2) sentiment annotation techniques including lexicon-based and corpus-based approaches for unsupervised annotations are explored, (3) the role of AI in sentiment analysis with methodologies like machine learning, deep learning, and transformers are discussed, (4) the impact of sentiment analysis on educational procedures to enhance pedagogy, decision-making, and evaluation are presented. Educational institutions have been widely invested to build sentiment analysis tools and process their student feedback to draw their opinions and insights. Applications built on sentiment analysis of student feedback are reviewed in this study. Challenges in sentiment analysis like multi-polarity, polysemous, negation words, and opinion spam detection are explored and their trends in the research space are discussed. The future directions of sentiment analysis in education are discussed.
翻訳日:2023-02-10 17:25:21 公開日:2023-02-08
# 標的アライメントによる視覚トランスフォーマーのバイアス軽減

Mitigating Bias in Visual Transformers via Targeted Alignment ( http://arxiv.org/abs/2302.04358v1 )

ライセンス: Link先を確認
Sruthi Sudhakar, Viraj Prabhu, Arvindkumar Krishnakumar, Judy Hoffman(参考訳) コンピュータビジョンにおいてトランスフォーマーアーキテクチャが普及するにつれて、その公平性の意味を理解することが重要となる。 コンピュータビジョンに適用する変圧器の公正性に関する最初の研究を行い,先行研究からのバイアス緩和アプローチをベンチマークした。 変換器の自己アテンションモジュールの特徴空間を可視化し、そのバイアスのかなりの部分がクエリ行列にエンコードされていることを発見する。 この知識を活かしたTADeTは、主にクエリ行列の特徴からバイアスを発見し除去することを目的としたデバイアス変換のためのアライメント戦略である。 バランスの取れた精度と標準精度、等化オッズとバランスの取れた精度差による公平性を用いて、性能を測定する。 TADeTは、パフォーマンスを損なうことなく、CelebAデータセット上の複数の属性予測タスクの事前処理よりも公平性を向上させる。

As transformer architectures become increasingly prevalent in computer vision, it is critical to understand their fairness implications. We perform the first study of the fairness of transformers applied to computer vision and benchmark several bias mitigation approaches from prior work. We visualize the feature space of the transformer self-attention modules and discover that a significant portion of the bias is encoded in the query matrix. With this knowledge, we propose TADeT, a targeted alignment strategy for debiasing transformers that aims to discover and remove bias primarily from query matrix features. We measure performance using Balanced Accuracy and Standard Accuracy, and fairness using Equalized Odds and Balanced Accuracy Difference. TADeT consistently leads to improved fairness over prior work on multiple attribute prediction tasks on the CelebA dataset, without compromising performance.
翻訳日:2023-02-10 17:25:04 公開日:2023-02-08
# 計算可能オンライン学習について

On Computable Online Learning ( http://arxiv.org/abs/2302.04357v1 )

ライセンス: Link先を確認
Niki Hasrati and Shai Ben-David(参考訳) 計算可能なオンライン学習(c-online)の研究を開始し、ミスバウンドの観点から「最適性」の様々な要件の下で分析する。 我々の主な貢献は、最適なc-online学習に必要な条件を与え、Littlestone次元がc-online学習の最適誤り境界をもはや特徴づけていないことを示すことである。 さらに,anytime optimal (a-optimal) オンライン学習,"optimality"のより自然な概念化,littlestoneの標準最適アルゴリズムの一般化について紹介する。 本稿では,a-optimal と optimal online learning の計算分離の存在を示し,a-optimal online learning の計算がより困難であることを証明した。 最後に、最適性の要件のないオンライン学習を考察し、計算可能性の弱い概念の下で、リトルストーン次元の有限性は、クラスが有限な誤り境界を持つc-online学習可能かどうかをもはや特徴づけないことを示す。 c-online 学習と CPAC 学習の関係を探索し,c-online 学習が不適切な CPAC 学習と同じくらい困難であることが示唆された。

We initiate a study of computable online (c-online) learning, which we analyze under varying requirements for "optimality" in terms of the mistake bound. Our main contribution is to give a necessary and sufficient condition for optimal c-online learning and show that the Littlestone dimension no longer characterizes the optimal mistake bound of c-online learning. Furthermore, we introduce anytime optimal (a-optimal) online learning, a more natural conceptualization of "optimality" and a generalization of Littlestone's Standard Optimal Algorithm. We show the existence of a computational separation between a-optimal and optimal online learning, proving that a-optimal online learning is computationally more difficult. Finally, we consider online learning with no requirements for optimality, and show, under a weaker notion of computability, that the finiteness of the Littlestone dimension no longer characterizes whether a class is c-online learnable with finite mistake bound. A potential avenue for strengthening this result is suggested by exploring the relationship between c-online and CPAC learning, where we show that c-online learning is as difficult as improper CPAC learning.
翻訳日:2023-02-10 17:24:43 公開日:2023-02-08
# meddiff:accelerated denoising diffusion modelを用いた電子健康記録の作成

MedDiff: Generating Electronic Health Records using Accelerated Denoising Diffusion Model ( http://arxiv.org/abs/2302.04355v1 )

ライセンス: Link先を確認
Huan He, Shifan Zhao, Yuanzhe Xi, Joyce C Ho(参考訳) 患者のプライバシー保護に関する懸念から、医療における機械学習の研究は、他のアプリケーションドメインよりも明らかに遅く制限されている。 高品質で現実的な電子健康記録(ehrs)は、データ共有に関連するプライバシーの懸念を緩和しながら、研究目的の方法論開発を加速するために利用することができる。 合成EHR生成の最先端モデルは生成的敵ネットワークであり、訓練が困難であり、モード崩壊に苦しむことが知られている。 denoising diffusion probabilistic modelsは、統計熱力学に触発された生成モデルの一種で、最近、特定の領域で高品質な合成サンプルを生成することが示されている。 これらが大規模で高次元の EHR の生成に一般化できるかどうかは不明である。 本稿では,電子健康記録への最初の応用である拡散モデルに基づく新しい生成モデルを提案する。 本モデルは,ラベル情報を保存するためのクラス条件サンプリングを行う機構を提案する。 また, 推定速度を高速化するための新しいサンプリング戦略を提案する。 実験により、我々のモデルは既存の最先端の合成EHR生成方法よりも優れていることを示す。

Due to patient privacy protection concerns, machine learning research in healthcare has been undeniably slower and limited than in other application domains. High-quality, realistic, synthetic electronic health records (EHRs) can be leveraged to accelerate methodological developments for research purposes while mitigating privacy concerns associated with data sharing. The current state-of-the-art model for synthetic EHR generation is generative adversarial networks, which are notoriously difficult to train and can suffer from mode collapse. Denoising Diffusion Probabilistic Models, a class of generative models inspired by statistical thermodynamics, have recently been shown to generate high-quality synthetic samples in certain domains. It is unknown whether these can generalize to generation of large-scale, high-dimensional EHRs. In this paper, we present a novel generative model based on diffusion models that is the first successful application on electronic health records. Our model proposes a mechanism to perform class-conditional sampling to preserve label information. We also introduce a new sampling strategy to accelerate the inference speed. We empirically show that our model outperforms existing state-of-the-art synthetic EHR generation methods.
翻訳日:2023-02-10 17:24:23 公開日:2023-02-08
# 準modoを用いたシンボリック量子シミュレーション

Symbolic Quantum Simulation with Quasimodo ( http://arxiv.org/abs/2302.04349v1 )

ライセンス: Link先を確認
Meghana Sistla, Swarat Chaudhuri, Thomas Reps(参考訳) 古典的コンピュータ上の量子回路のシミュレーションは、量子コンピューティングにおいて重要な問題である。 このようなシミュレーションは、非常に大きなベースベクタセット上の分布の表現を必要としており、最近の研究では、この目的のためにバイナリ決定図(BDD)のような象徴的なデータ構造を使用している。 しかし、現在、そのような記号シミュレーションのためのオープンソースで拡張可能なシステムは存在しない。 本稿では,このギャップを埋める拡張性のあるオープンソースのpythonライブラリである pseudomodo を提案する。 Quasimodoは量子回路のシミュレーション、量子回路の出力特性のチェック、量子回路のデバッグを可能にする。 また、ユーザはいくつかのシンボリックデータ構造 – 非重み付きBDDとCFLOBDDと呼ばれる最近の構造 – の中から選択でき、他のシンボリックデータ構造をサポートするために簡単に拡張できる。

The simulation of quantum circuits on classical computers is an important problem in quantum computing. Such simulation requires representations of distributions over very large sets of basis-vectors, and recent work has use symbolic data structures such as Binary Decision Diagrams (BDDs) for this purpose. However, as of now, there is no open-source, extensible system for such symbolic simulation. In this tool paper, we present Quasimodo, an extensible, open-source Python library that fills this gap in the literature. Quasimodo allows simulations of quantum circuits, checking properties of the outputs of quantum circuits, and debugging quantum circuits. It also allows the user to choose from among several symbolic data structures -- both unweighted and weighted BDDs, and a recent structure called CFLOBDDs -- and can be easily extended to support other symbolic data structures.
翻訳日:2023-02-10 17:24:06 公開日:2023-02-08
# 類似システムからのデータの活用による動的システム学習

Learning Dynamical Systems by Leveraging Data from Similar Systems ( http://arxiv.org/abs/2302.04344v1 )

ライセンス: Link先を確認
Lei Xin, Lintao Ye, George Chiu, Shreyas Sundaram(参考訳) 本稿では,同じ(同一ではないが)ダイナミクスを共有する補助系が生成するデータに対して,真のシステムからのデータに加えてアクセスするときに,線形システムのダイナミクスを学ぶ問題を考える。 重み付き最小二乗法を用いて、学習したモデルの有限標本誤差を、2つのシステムからのサンプル数と様々なシステムパラメータの関数として、補助データに割り当てられた重みとして提供する。 そこで本研究では,2つのシステムモデル間の差異に起因する誤差の一部を付加するコストで,ノイズによる固有系の同定誤差を低減できることを示す。 さらに,システムに関する事前知識があれば計算可能なデータ依存境界も提供する。 このバウンドは、モデルのトレーニングステージ中に補助データに割り当てられるべき重量を決定するためにも使用できる。

We consider the problem of learning the dynamics of a linear system when one has access to data generated by an auxiliary system that shares similar (but not identical) dynamics, in addition to data from the true system. We use a weighted least squares approach, and provide a finite sample error bound of the learned model as a function of the number of samples and various system parameters from the two systems as well as the weight assigned to the auxiliary data. We show that the auxiliary data can help to reduce the intrinsic system identification error due to noise, at the price of adding a portion of error that is due to the differences between the two system models. We further provide a data-dependent bound that is computable when some prior knowledge about the systems is available. This bound can also be used to determine the weight that should be assigned to the auxiliary data during the model training stage.
翻訳日:2023-02-10 17:23:52 公開日:2023-02-08
# CRL+:保険データを対象とした半監督型深部能動コントラスト表現学習型テキスト分類モデル

CRL+: A Novel Semi-Supervised Deep Active Contrastive Representation Learning-Based Text Classification Model for Insurance Data ( http://arxiv.org/abs/2302.04343v1 )

ライセンス: Link先を確認
Amir Namavar Jahromi and Ebrahim Pourjafari and Hadis Karimipour and Amit Satpathy and Lovell Hodge(参考訳) 金融業界、特に保険業界は、毎日、複数のチャネル(エージェント、カスタマーケアセンター、eメール、ソーシャルネットワーク、ウェブ全般)を通じて、膨大な量のテキストを収集している。 収集された情報には、ポリシー、専門家および健康レポート、クレームと苦情、調査の結果、関連するソーシャルメディア投稿が含まれる。 このような多種多様な非構造材料から必須情報を効果的に抽出し、分類し、解釈することは困難である。 したがって、保険業界は、自然言語処理(NLP)を通じて自由テキストをインテリジェントに分析する技術を適用することで恩恵を受けることができる。 本稿では,テキスト分類における半教師付き学習の課題に対処するために,コントラスト表現学習(crl)とアクティブラーニングを組み合わせた新しいテキスト分類モデルcrl+を提案する。 この方法では、教師付き(CRL)を用いてRoBERTaトランスフォーマーモデルをトレーニングし、テキストデータをコントラスト表現空間にエンコードし、分類層を用いて分類する。 このCRLベースのトランスモデルを,提案したActive Learningメカニズムのベースモデルとして使用して,すべてのデータを反復的に分類する。 提案手法は,データから死亡原因を決定する目的で,非構造化の死亡データを用いて評価する。 このモデルはCRLモデルとRoBERTaベースモデルとのアクティブラーニングモデルと比較される。 実験の結果,提案手法は両手法よりも優れていることがわかった。

Financial sector and especially the insurance industry collect vast volumes of text on a daily basis and through multiple channels (their agents, customer care centers, emails, social networks, and web in general). The information collected includes policies, expert and health reports, claims and complaints, results of surveys, and relevant social media posts. It is difficult to effectively extract label, classify, and interpret the essential information from such varied and unstructured material. Therefore, the Insurance Industry is among the ones that can benefit from applying technologies for the intelligent analysis of free text through Natural Language Processing (NLP). In this paper, CRL+, a novel text classification model combining Contrastive Representation Learning (CRL) and Active Learning is proposed to handle the challenge of using semi-supervised learning for text classification. In this method, supervised (CRL) is used to train a RoBERTa transformer model to encode the textual data into a contrastive representation space and then classify using a classification layer. This (CRL)-based transformer model is used as the base model in the proposed Active Learning mechanism to classify all the data in an iterative manner. The proposed model is evaluated using unstructured obituary data with objective to determine the cause of the death from the data. This model is compared with the CRL model and an Active Learning model with the RoBERTa base model. The experiment shows that the proposed method can outperform both methods for this specific task.
翻訳日:2023-02-10 17:23:37 公開日:2023-02-08
# ビデオ記録による新生児の顔と顔のランドマーク検出

Neonatal Face and Facial Landmark Detection from Video Recordings ( http://arxiv.org/abs/2302.04341v1 )

ライセンス: Link先を確認
Ethan Grooby, Chiranjibi Sitaula, Soodeh Ahani, Liisa Holsti, Atul Malhotra, Guy A. Dumont, Faezeh Marzbanrad(参考訳) 本報告では,新生児の顔と顔の自動的目印検出について検討し,バイタルサイン推定,痛み評価,睡眠覚醒分類,黄砂検出など,多くのビデオベースの新生児健康アプリケーションにおいて重要な第一歩である。 臨床環境における新生児の3つのデータセットを用いて,366画像 (258名) と89 (66名) を訓練および試験用にアノテートした。 移動学習は2つのYOLOモデルに適用され, ランダム水平反転, 光度色歪み, 翻訳, スケーリングを付加した入力訓練画像が得られた。 さらに,入力画像の再配向と,訓練されたディープラーニングモデルの融合について検討した。 提案手法は,顔検出における平均精度84.8%,顔のランドマーク検出における平均誤差0.072で,既存手法よりも優れていた。 全体として、これは完全に自動化された新生児健康評価アルゴリズムの開発に役立つだろう。

This paper explores automated face and facial landmark detection of neonates, which is an important first step in many video-based neonatal health applications, such as vital sign estimation, pain assessment, sleep-wake classification, and jaundice detection. Utilising three publicly available datasets of neonates in the clinical environment, 366 images (258 subjects) and 89 (66 subjects) were annotated for training and testing, respectively. Transfer learning was applied to two YOLO-based models, with input training images augmented with random horizontal flipping, photo-metric colour distortion, translation and scaling during each training epoch. Additionally, the re-orientation of input images and fusion of trained deep learning models was explored. Our proposed model based on YOLOv7Face outperformed existing methods with a mean average precision of 84.8% for face detection, and a normalised mean error of 0.072 for facial landmark detection. Overall, this will assist in the development of fully automated neonatal health assessment algorithms.
翻訳日:2023-02-10 17:23:13 公開日:2023-02-08
# (レ)機械学習開発における専門知識の確立

(Re)Defining Expertise in Machine Learning Development ( http://arxiv.org/abs/2302.04337v1 )

ライセンス: Link先を確認
Mark D\'iaz, Angela D. R. Smith(参考訳) ドメインエキスパートは、データ収集やシステムパフォーマンスの評価など、さまざまな方法で機械学習システムの開発に従事していることが多い。 同時に、誰が「専門家」であり、「専門家」を構成するかは必ずしも明確に定義されていない。 本稿では,機械学習研究の体系的な文献レビューを行い,理解する。 1) 専門知識が定義され、認識される基盤 2)ML開発における専門家の役割。 私たちのゴールは、専門家の識別とML研究への関与の限界と機会を強調するために、高いレベルの分類を作ることです。

Domain experts are often engaged in the development of machine learning systems in a variety of ways, such as in data collection and evaluation of system performance. At the same time, who counts as an 'expert' and what constitutes 'expertise' is not always explicitly defined. In this project, we conduct a systematic literature review of machine learning research to understand 1) the bases on which expertise is defined and recognized and 2) the roles experts play in ML development. Our goal is to produce a high-level taxonomy to highlight limits and opportunities in how experts are identified and engaged in ML research.
翻訳日:2023-02-10 17:22:55 公開日:2023-02-08
# Performative Recommendation: ストラテジックインセンティブによるコンテンツの多様化

Performative Recommendation: Diversifying Content via Strategic Incentives ( http://arxiv.org/abs/2302.04336v1 )

ライセンス: Link先を確認
Itay Eilat, Nir Rosenfeld(参考訳) 推奨の主なゴールは、ユーザーに関連コンテンツを提案することだが、精度を最適化することは、しばしば多様性を欠くレコメンデーションをもたらす。 これを改善するため、従来のアプローチでは、より多様な項目を提示することで多様性を向上する。 ここでは,本質的かつ長期的多様性を促進するためには,システムがその創造を促進する必要があると論じる。 これに向けて、我々はレコメンデーションの演奏性を活用し、学習が戦略的コンテンツクリエーターに多様なコンテンツを創造するインセンティブを与える方法を示す。 我々のアプローチは、コンテンツに対する戦略的変化を予測し、コンテンツ均質性を罰する新しい形式に依存している。 我々は,多様性をいつ,どのようにインセンティブ化できるかを示す分析的および実証的な結果を提供し,合成および半合成データに対するアプローチの有用性を実験的に実証した。

The primary goal in recommendation is to suggest relevant content to users, but optimizing for accuracy often results in recommendations that lack diversity. To remedy this, conventional approaches such as re-ranking improve diversity by presenting more diverse items. Here we argue that to promote inherent and prolonged diversity, the system must encourage its creation. Towards this, we harness the performative nature of recommendation, and show how learning can incentivize strategic content creators to create diverse content. Our approach relies on a novel form of regularization that anticipates strategic changes to content, and penalizes for content homogeneity. We provide analytic and empirical results that demonstrate when and how diversity can be incentivized, and experimentally demonstrate the utility of our approach on synthetic and semi-synthetic data.
翻訳日:2023-02-10 17:22:47 公開日:2023-02-08
# 複合行動空間における効率的な計画と協調型マルチエージェント強化学習への応用

Efficient Planning in Combinatorial Action Spaces with Applications to Cooperative Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2302.04376v1 )

ライセンス: Link先を確認
Volodymyr Tkachuk, Seyed Alireza Bakhtiari, Johannes Kirschner, Matej Jusup, Ilija Bogunovic, Csaba Szepesv\'ari(参考訳) 強化学習における実践的な課題は、計算的な要求を計画する組合せ行動空間である。 例えば、協調的マルチエージェント強化学習では、潜在的に多くのエージェントがグローバルな報酬関数を共同で最適化し、エージェントの数によるアクション空間の組合せ的爆発を引き起こす。 最小限の要件として、モデルクラスの任意のQ-関数に対する欲求ポリシーを効率的に計算できるargmaxオラクルへのアクセスを仮定する。 シミュレータへの局所アクセスと線形関数近似を用いた最近の計画作業に基づき,すべての問題パラメータにおける多項式計算とクエリの複雑性をもたらす効率的なアルゴリズムを提案する。 特徴分解が付加される特別な場合については、境界をさらに改善し、効率的なアルゴリズムを用いてカーネル化設定に結果を拡張する。

A practical challenge in reinforcement learning are combinatorial action spaces that make planning computationally demanding. For example, in cooperative multi-agent reinforcement learning, a potentially large number of agents jointly optimize a global reward function, which leads to a combinatorial blow-up in the action space by the number of agents. As a minimal requirement, we assume access to an argmax oracle that allows to efficiently compute the greedy policy for any Q-function in the model class. Building on recent work in planning with local access to a simulator and linear function approximation, we propose efficient algorithms for this setting that lead to polynomial compute and query complexity in all relevant problem parameters. For the special case where the feature decomposition is additive, we further improve the bounds and extend the results to the kernelized setting with an efficient algorithm.
翻訳日:2023-02-10 17:16:43 公開日:2023-02-08
# 瞬時制約下における安全強化学習のための近似最適アルゴリズム

A Near-Optimal Algorithm for Safe Reinforcement Learning Under Instantaneous Hard Constraints ( http://arxiv.org/abs/2302.04375v1 )

ライセンス: Link先を確認
Ming Shi, Yingbin Liang, Ness Shroff(参考訳) 強化学習(rl)の多くの応用において,各ステップで瞬時に厳しい制約を満たし,安全でない状態や動作を避けるように,アルゴリズムが安全に動作することが極めて重要である。 しかしながら、'safe' RLの既存のアルゴリズムは、期待される累積コストを束縛するか、あるいは全ての状態が安全であると仮定する制約の下で設計されることが多い。 したがって、そのようなアルゴリズムは瞬時に厳しい制約を犯し、実際は安全でない状態(および行動)を横切る可能性がある。 そこで,本稿では,安全でない状態と動作を瞬時制約と線形混合モデルで表わしたマルコフ決定過程に対して,第1次近似安全RLアルゴリズムを開発した。 これは、unsafeアクションとほぼ一致し、unconstrained設定でほぼ一致している設定における、最先端の後悔と密に一致する、result$\tilde{o}(\frac{d h^3 \sqrt{dk}}{\delta_c})$を達成するだけでなく、各ステップにおいて、$d$がフィーチャーマッピングディメンション、$k$がエピソード数、$h$が各エピソードのステップ数、$\delta_c$が安全関連パラメータである。 また、下限の$\tilde{\Omega}(\max\{dH \sqrt{K}, \frac{H}{\Delta_c^2}\})$も提供します。 さらに、アルゴリズム設計と後悔分析の両方には、独立した関心を持つかもしれないいくつかの新しいアイデアが含まれている。

In many applications of Reinforcement Learning (RL), it is critically important that the algorithm performs safely, such that instantaneous hard constraints are satisfied at each step, and unsafe states and actions are avoided. However, existing algorithms for ''safe'' RL are often designed under constraints that either require expected cumulative costs to be bounded or assume all states are safe. Thus, such algorithms could violate instantaneous hard constraints and traverse unsafe states (and actions) in practice. Therefore, in this paper, we develop the first near-optimal safe RL algorithm for episodic Markov Decision Processes with unsafe states and actions under instantaneous hard constraints and the linear mixture model. It not only achieves a regret $\tilde{O}(\frac{d H^3 \sqrt{dK}}{\Delta_c})$ that tightly matches the state-of-the-art regret in the setting with only unsafe actions and nearly matches that in the unconstrained setting, but is also safe at each step, where $d$ is the feature-mapping dimension, $K$ is the number of episodes, $H$ is the number of steps in each episode, and $\Delta_c$ is a safety-related parameter. We also provide a lower bound $\tilde{\Omega}(\max\{dH \sqrt{K}, \frac{H}{\Delta_c^2}\})$, which indicates that the dependency on $\Delta_c$ is necessary. Further, both our algorithm design and regret analysis involve several novel ideas, which may be of independent interest.
翻訳日:2023-02-10 17:16:30 公開日:2023-02-08
# スイッチングコストによるほぼ最適対向強化学習

Near-Optimal Adversarial Reinforcement Learning with Switching Costs ( http://arxiv.org/abs/2302.04374v1 )

ライセンス: Link先を確認
Ming Shi, Yingbin Liang, Ness Shroff(参考訳) 政策変更のコストを捉えた切り替えコストは、標準的な損失(報酬)の指標に加えて、強化学習(RL)における重要な指標とみなされる。 しかし、スイッチングコスト(厳密に正で、T$とは独立な係数である$\beta$)に関する既存の研究は、主に静的RLに焦点を当てており、そこでは、損失分布は学習過程中に固定されていると仮定され、損失分布が非定常的あるいは対向的であるような現実的なシナリオは考慮されていない。 逆RLは、このような現実的なシナリオをより良くモデル化する一方で、オープンな問題として、切り替えコストを伴う対向RLの証明可能な効率的なアルゴリズムの開発方法が残されている。 本稿ではこの問題を解決するための最初の取り組みを行う。 まず、どんなアルゴリズムの後悔も$\tilde{\Omega}( ( H S A )^{1/3} T^{2/3} )$よりも大きいことを示し、$T$、$S$、$A$、$H$はそれぞれエピソード、状態、アクション、レイヤの数である。 我々の下限は、逆 RL のコストを切り替えるという根本的な課題のため、最も達成された後悔 ($T$ への依存は $\tilde{O}(\sqrt{T})$) の静的 RL における切替コスト (および切替コストのない逆 RL ) はもはや達成不可能であることを示している。 さらに、遷移関数が知られているときの下位境界に一致し、遷移関数が未知のときの小さな係数$\tilde{O}(H^{1/3} )$で下限に一致することを後悔する2つの新しい切り換え型アルゴリズムを提案する。 我々の後悔分析はそれらのほぼ最適性能を示している。

Switching costs, which capture the costs for changing policies, are regarded as a critical metric in reinforcement learning (RL), in addition to the standard metric of losses (or rewards). However, existing studies on switching costs (with a coefficient $\beta$ that is strictly positive and is independent of $T$) have mainly focused on static RL, where the loss distribution is assumed to be fixed during the learning process, and thus practical scenarios where the loss distribution could be non-stationary or even adversarial are not considered. While adversarial RL better models this type of practical scenarios, an open problem remains: how to develop a provably efficient algorithm for adversarial RL with switching costs? This paper makes the first effort towards solving this problem. First, we provide a regret lower-bound that shows that the regret of any algorithm must be larger than $\tilde{\Omega}( ( H S A )^{1/3} T^{2/3} )$, where $T$, $S$, $A$ and $H$ are the number of episodes, states, actions and layers in each episode, respectively. Our lower bound indicates that, due to the fundamental challenge of switching costs in adversarial RL, the best achieved regret (whose dependency on $T$ is $\tilde{O}(\sqrt{T})$) in static RL with switching costs (as well as adversarial RL without switching costs) is no longer achievable. Moreover, we propose two novel switching-reduced algorithms with regrets that match our lower bound when the transition function is known, and match our lower bound within a small factor of $\tilde{O}( H^{1/3} )$ when the transition function is unknown. Our regret analysis demonstrates the near-optimal performance of them.
翻訳日:2023-02-10 17:15:56 公開日:2023-02-08
# 単純ニューラルネットワークにおけるグラフ再構成攻撃によるプライバシリークの測定 (sudent abstract)

Measuring the Privacy Leakage via Graph Reconstruction Attacks on Simplicial Neural Networks (Student Abstract) ( http://arxiv.org/abs/2302.04373v1 )

ライセンス: Link先を確認
Huixin Zhan, Kun Zhang, Keyi Lu, Victor S. Sheng(参考訳) 本稿では,グラフ再構成攻撃(GRA)によりグラフ表現が逆転して生成するグラフを復元できるかどうかを調べることにより,プライバシリークを測定する。 本稿では,部分グラフと再構成グラフとの再構成損失を最小限に抑えるグラフデコーダを用いて,グラフの隣接行列を表現から復元するGRAを提案する。 本稿では,グラフ畳み込みネットワーク(GCN),グラフアテンションネットワーク(GAT),および高次合成ラプラシアンを用いた単純なニューラルネットワーク(SNN)の3種類の表現について検討する。 対関係のみを符号化する最初の2種類の表現とは異なり、第3の表現、すなわちsnn出力はノード間の高次相互作用(例えばホモロジー的特徴)を符号化する。 我々は、sn出力はgraを防御する最も低いプライバシー保存能力を示し、続いてgatsとgcnの出力は、graのような潜在的脅威を防御する高次ノード情報を持つよりプライベートな表現を構築することの重要性を示している。

In this paper, we measure the privacy leakage via studying whether graph representations can be inverted to recover the graph used to generate them via graph reconstruction attack (GRA). We propose a GRA that recovers a graph's adjacency matrix from the representations via a graph decoder that minimizes the reconstruction loss between the partial graph and the reconstructed graph. We study three types of representations that are trained on the graph, i.e., representations output from graph convolutional network (GCN), graph attention network (GAT), and our proposed simplicial neural network (SNN) via a higher-order combinatorial Laplacian. Unlike the first two types of representations that only encode pairwise relationships, the third type of representation, i.e., SNN outputs, encodes higher-order interactions (e.g., homological features) between nodes. We find that the SNN outputs reveal the lowest privacy-preserving ability to defend the GRA, followed by those of GATs and GCNs, which indicates the importance of building more private representations with higher-order node information that could defend the potential threats, such as GRAs.
翻訳日:2023-02-10 17:15:17 公開日:2023-02-08
# 微分自由最適化のための適応状態依存拡散

Adaptive State-Dependent Diffusion for Derivative-Free Optimization ( http://arxiv.org/abs/2302.04370v1 )

ライセンス: Link先を確認
Bj\"orn Engquist, Kui Ren and Yunan Yang(参考訳) 本稿では,確率的デリバティブフリー最適化戦略を開発し,解析する。 重要な特徴は状態依存適応分散である。 確率のグローバル収束を代数率で証明し、数値的な例で定量的結果を与える。 顕著な事実は、収束は勾配の明示的な情報なしで達成され、単純解法やシミュレートされたアニール法のような確立された方法のように、異なる目的関数値を比較することなく達成されるということである。 そうでなければ、状態依存温度のアニールと比較することができる。

This paper develops and analyzes a stochastic derivative-free optimization strategy. A key feature is the state-dependent adaptive variance. We prove global convergence in probability with algebraic rate and give the quantitative results in numerical examples. A striking fact is that convergence is achieved without explicit information of the gradient and even without comparing different objective function values as in established methods such as the simplex method and simulated annealing. It can otherwise be compared to annealing with state-dependent temperature.
翻訳日:2023-02-10 17:14:55 公開日:2023-02-08
# 最大平均差による深部ニューラルネットワークの初期化の教師なし学習

Unsupervised Learning of Initialization in Deep Neural Networks via Maximum Mean Discrepancy ( http://arxiv.org/abs/2302.04369v1 )

ライセンス: Link先を確認
Cheolhyoung Lee, Kyunghyun Cho(参考訳) 深層学習における確率的勾配降下の成功にもかかわらず、初期パラメータの選択が不適切な深層ニューラルネットワークを訓練することはしばしば困難である。 トレーニングが成功したとしても、初期パラメータ構成が一般化に悪影響を及ぼすことが知られている。 本稿では,ダウンストリームタスクがd-way分類であることを考えると,入力データの適切な初期化を求めるための教師なしアルゴリズムを提案する。 まずパラメータ空間の各パラメータ構成がd-way分類の特定の下流タスクに対応していることに注意する。 次に、学習の成功は、初期パラメータの近傍で下流タスクがいかに多様であるかに直接関連していると推測する。 そこで我々は,初期パラメータ設定に対する小さな摂動を促すアルゴリズムを設計し,多種多様なd-way分類タスクを実現する。 言い換えれば、提案アルゴリズムにより、下流タスクに対する解が初期パラメータ設定に近いことが保証される。 完全に接続されたネットワークを持つMNISTから派生した様々なタスクに対して,提案アルゴリズムを実験的に評価する。 これらの実験において,本アルゴリズムは,これらのタスクのほとんどにおいて平均テスト精度が向上し,ラベル付きサンプルの数が小さい場合,その改善率が高くなることを確認した。

Despite the recent success of stochastic gradient descent in deep learning, it is often difficult to train a deep neural network with an inappropriate choice of its initial parameters. Even if training is successful, it has been known that the initial parameter configuration may negatively impact generalization. In this paper, we propose an unsupervised algorithm to find good initialization for input data, given that a downstream task is d-way classification. We first notice that each parameter configuration in the parameter space corresponds to one particular downstream task of d-way classification. We then conjecture that the success of learning is directly related to how diverse downstream tasks are in the vicinity of the initial parameters. We thus design an algorithm that encourages small perturbation to the initial parameter configuration leads to a diverse set of d-way classification tasks. In other words, the proposed algorithm ensures a solution to any downstream task to be near the initial parameter configuration. We empirically evaluate the proposed algorithm on various tasks derived from MNIST with a fully connected network. In these experiments, we observe that our algorithm improves average test accuracy across most of these tasks, and that such improvement is greater when the number of labelled examples is small.
翻訳日:2023-02-10 17:14:46 公開日:2023-02-08
# Channelformer: 無線チャネル推定と効果的なオンライントレーニングのための注意に基づくニューラルソリューション

Channelformer: Attention based Neural Solution for Wireless Channel Estimation and Effective Online Training ( http://arxiv.org/abs/2302.04368v1 )

ライセンス: Link先を確認
Dianxin Luan, John Thompson(参考訳) 本稿では、直交周波数分割多重化(OFDM)波形をダウンリンクシナリオで改善したチャネル推定を実現するためのエンコーダデコーダニューラルアーキテクチャ(Channelformer)を提案する。 セルフアテンション機構を用いて、デコーダで処理する前に、入力特徴の入力プリコーディングを行う。 特に、エンコーダにマルチヘッドアテンションを実装し、デコーダとして残畳み込みニューラルネットワークアーキテクチャを実装した。 また、トレーニングされたニューラルネットワークを微調整プロセスでスリム化するために、カスタマイズされた重みレベルプルーニングも採用しています。 これにより、パラメータの最大70\%の削減が可能となり、完全なchannelformerとほぼ同じパフォーマンスを維持することができる。 また,現代通信システムにおける第5世代(5G)新しい無線(NR)構成に基づく効果的なオンライントレーニング手法を提案する。 産業用標準チャネルモデルを用いて,注意に基づく解のシミュレーションは,他の候補ニューラルネットワーク法と比較して優れた推定性能を示す。

In this paper, we propose an encoder-decoder neural architecture (called Channelformer) to achieve improved channel estimation for orthogonal frequency-division multiplexing (OFDM) waveforms in downlink scenarios. The self-attention mechanism is employed to achieve input precoding for the input features before processing them in the decoder. In particular, we implement multi-head attention in the encoder and a residual convolutional neural architecture as the decoder, respectively. We also employ a customized weight-level pruning to slim the trained neural network with a fine-tuning process, which reduces the computational complexity significantly to realize a low complexity and low latency solution. This enables reductions of up to 70\% in the parameters, while maintaining an almost identical performance compared with the complete Channelformer. We also propose an effective online training method based on the fifth generation (5G) new radio (NR) configuration for the modern communication systems, which only needs the available information at the receiver for online training. Using industrial standard channel models, the simulations of attention-based solutions show superior estimation performance compared with other candidate neural network methods for channel estimation.
翻訳日:2023-02-10 17:14:28 公開日:2023-02-08
# ネットワーク上でのモデル非依存連合学習に向けて

Towards Model-Agnostic Federated Learning over Networks ( http://arxiv.org/abs/2302.04363v1 )

ライセンス: Link先を確認
A. Jung(参考訳) 本稿では,内在的なネットワーク構造を持つ分散データに対して,モデル非依存なフェデレーション学習手法を提案する。 ネットワーク構造は、ローカルデータセット(統計)とそれらの関連するローカルモデルの間の類似性を反映している。 本手法は,データのネットワーク構造から構築した正規化項を用いて,経験的リスク最小化の例である。 特に私たちは、共通のテストセットで同様の予測を行うために、よく接続されたローカルモデル、クラスタの形成が必要です。 原則として、我々の方法は任意の局所モデルの集合に適用できる。 これらのローカルモデルに課される唯一の制限は、正規化された経験的リスク最小化(training)の効率的な実装を可能にすることである。 このような実装は、 \texttt{scikit-learn}, \texttt{Keras} や \texttt{PyTorch} のようなハイレベルなプログラミングフレームワークの形で利用できる。

We present a model-agnostic federated learning method for decentralized data with an intrinsic network structure. The network structure reflects similarities between the (statistics of) local datasets and, in turn, their associated local models. Our method is an instance of empirical risk minimization, using a regularization term that is constructed from the network structure of data. In particular, we require well-connected local models, forming clusters, to yield similar predictions on a common test set. In principle our method can be applied to any collection of local models. The only restriction put on these local models is that they allow for efficient implementation of regularized empirical risk minimization (training). Such implementations might be available in the form of high-level programming frameworks such as \texttt{scikit-learn}, \texttt{Keras} or \texttt{PyTorch}.
翻訳日:2023-02-10 17:14:07 公開日:2023-02-08
# 密度推定を用いた遠方学習表現

Disentangling Learning Representations with Density Estimation ( http://arxiv.org/abs/2302.04362v1 )

ライセンス: Link先を確認
Eric Yeats, Frank Liu, Hai Li(参考訳) 乱れた学習表現は多くのアプリケーションで有望だが、現在深刻な信頼性の問題に苦しんでいる。 本稿では,潜伏空間のフレキシブルな密度推定により信頼性の高い絡み合いを実現するGaussian Channel Autoencoder (GCAE)を提案する。 gcaeは、その潜在空間の部分集合と双対全相関(dtc)計量を区別することで密度推定の次元の呪いを回避し、その高次元の潜在結合分布を多くの低次元条件分布の集合として表す。 我々の実験では、GCAEは最先端のベースラインと比較して非常に競争力が高く、信頼性の高いアンタングルメントスコアを達成している。

Disentangled learning representations have promising utility in many applications, but they currently suffer from serious reliability issues. We present Gaussian Channel Autoencoder (GCAE), a method which achieves reliable disentanglement via flexible density estimation of the latent space. GCAE avoids the curse of dimensionality of density estimation by disentangling subsets of its latent space with the Dual Total Correlation (DTC) metric, thereby representing its high-dimensional latent joint distribution as a collection of many low-dimensional conditional distributions. In our experiments, GCAE achieves highly competitive and reliable disentanglement scores compared with state-of-the-art baselines.
翻訳日:2023-02-10 17:13:51 公開日:2023-02-08
# 画像キャプションのためのスタック型クロスモーダル特徴統合アテンションネットワーク

Stacked Cross-modal Feature Consolidation Attention Networks for Image Captioning ( http://arxiv.org/abs/2302.04676v1 )

ライセンス: Link先を確認
Mozhgan Pourkeshavarz, Shahabedin Nabavi, Mohsen Ebrahimi Moghaddam, Mehrnoush Shamsfard(参考訳) 近年,注目度の高いエンコーダ・デコーダ・フレームワークが画像キャプションへの関心を高めている。 多くの視覚的注意モデルは、意味のある領域を直接利用して画像記述を生成する。 しかし、視覚空間からテキストへの直接遷移を求めることは、細かなキャプションを生成するのに十分ではない。 本稿では,コンテキスト環境に関する高レベル意味概念と視覚情報を完全エンドツーエンドに結合する,機能説明手法を利用する。 そこで本研究では,マルチステップ推論方式で,新しい複合化機能により同時にクロスモーダル特徴の統合を行う画像キャプションのためのスタック型クロスモーダル特徴統合(scfc)注目ネットワークを提案する。 さらに,提案する複合化関数において,空間情報と文脈認識属性(caa)を主成分として,caaが簡潔な文脈に敏感な意味表現を提供する。 さらに,統合機能の利用可能性を高めるために,キャプション生成プロセスを通じて識別的意味情報を活用できるキャプション生成装置としてscfc-lstmを提案する。 実験結果から,提案したSCFCは,MSCOCOおよびFlickr30Kデータセットの一般的な指標から,様々な最先端画像キャプションベンチマークより優れていることが示された。

Recently, the attention-enriched encoder-decoder framework has aroused great interest in image captioning due to its overwhelming progress. Many visual attention models directly leverage meaningful regions to generate image descriptions. However, seeking a direct transition from visual space to text is not enough to generate fine-grained captions. This paper exploits a feature-compounding approach to bring together high-level semantic concepts and visual information regarding the contextual environment fully end-to-end. Thus, we propose a stacked cross-modal feature consolidation (SCFC) attention network for image captioning in which we simultaneously consolidate cross-modal features through a novel compounding function in a multi-step reasoning fashion. Besides, we jointly employ spatial information and context-aware attributes (CAA) as the principal components in our proposed compounding function, where our CAA provides a concise context-sensitive semantic representation. To make better use of consolidated features potential, we further propose an SCFC-LSTM as the caption generator, which can leverage discriminative semantic information through the caption generation process. The experimental results indicate that our proposed SCFC can outperform various state-of-the-art image captioning benchmarks in terms of popular metrics on the MSCOCO and Flickr30K datasets.
翻訳日:2023-02-10 15:35:01 公開日:2023-02-08
# オンライン学習を改善するためのデモの活用 - 品質上の問題

Leveraging Demonstrations to Improve Online Learning: Quality Matters ( http://arxiv.org/abs/2302.03319v2 )

ライセンス: Link先を確認
Botao Hao, Rahul Jain, Tor Lattimore, Benjamin Van Roy, Zheng Wen(参考訳) オフラインデモデータがオンライン学習をいかに改善できるかを検討する。 改善を期待するのは当然ですが、問題なのは、どのように、そしてどの程度で? 改善の度合いは実演データの品質に左右されることが示されている。 ポータブルな洞察を生み出すために,多腕バンディットに適用したトンプソンサンプリング (ts) に着目し,オンライン学習アルゴリズムとモデルを開発した。 デモデータは、与えられた能力レベル、つまり導入する概念を持つ専門家によって生成される。 本稿では,ベイズの規則を通したコヒーレントな方法で実演データを活用し,事前依存ベイズ後悔境界を導出するインフォームドtsアルゴリズムを提案する。 これにより、事前トレーニングがオンラインパフォーマンスを大幅に向上させる方法と、専門家の能力レベルによって改善の度合いが向上する方法についての洞察が得られる。 また,実用的で近似的なtsアルゴリズムをベイズブートストラップを用いて開発し,実験による経験的後悔の軽減を示す。

We investigate the extent to which offline demonstration data can improve online learning. It is natural to expect some improvement, but the question is how, and by how much? We show that the degree of improvement must depend on the quality of the demonstration data. To generate portable insights, we focus on Thompson sampling (TS) applied to a multi-armed bandit as a prototypical online learning algorithm and model. The demonstration data is generated by an expert with a given competence level, a notion we introduce. We propose an informed TS algorithm that utilizes the demonstration data in a coherent way through Bayes' rule and derive a prior-dependent Bayesian regret bound. This offers insight into how pretraining can greatly improve online performance and how the degree of improvement increases with the expert's competence level. We also develop a practical, approximate informed TS algorithm through Bayesian bootstrapping and show substantial empirical regret reduction through experiments.
翻訳日:2023-02-10 12:13:12 公開日:2023-02-08
# 線形最適部分輸送埋め込み

Linear Optimal Partial Transport Embedding ( http://arxiv.org/abs/2302.03232v2 )

ライセンス: Link先を確認
Yikun Bai, Ivan Medri, Rocio Diaz Martin, Rana Muhammad Shahroz Khan, Soheil Kolouri(参考訳) 最適な輸送(ot)は、機械学習、統計学、信号処理といった分野における様々な応用により、人気を集めている。 しかし、バランスの取れた質量要求は実際の問題における性能を制限している。 これらの制限に対処するため、不均衡なOT、最適部分輸送(OPT)、Hellinger Kantorovich(HK)を含むOT問題の変種が提案されている。 本稿では,OTおよびHK上の(局所的な)線形化手法をOPT問題に拡張したリニア最適部分輸送(LOPT)埋め込みを提案する。 提案手法は,2組の正測度間のOPT距離の計算を高速化する。 理論的な貢献に加えて,ポイントクラウド補間およびPCA解析におけるLOPT埋め込み手法の実証を行った。

Optimal transport (OT) has gained popularity due to its various applications in fields such as machine learning, statistics, and signal processing. However, the balanced mass requirement limits its performance in practical problems. To address these limitations, variants of the OT problem, including unbalanced OT, Optimal partial transport (OPT), and Hellinger Kantorovich (HK), have been proposed. In this paper, we propose the Linear optimal partial transport (LOPT) embedding, which extends the (local) linearization technique on OT and HK to the OPT problem. The proposed embedding allows for faster computation of OPT distance between pairs of positive measures. Besides our theoretical contributions, we demonstrate the LOPT embedding technique in point-cloud interpolation and PCA analysis.
翻訳日:2023-02-10 12:12:31 公開日:2023-02-08
# 人間の双子のメタファーとして描かれる非局所性

Non-locality portrayed as a human twins metaphor ( http://arxiv.org/abs/2302.03741v1 )

ライセンス: Link先を確認
Salomon S. Mizrahi(参考訳) 数学的フォーマリズムの使用を避けるため、このエッセイは、量子力学において、人間の双子が手の動きに焦点を絞った比喩として非局所性の現象を露呈する。

Avoiding the use of mathematical formalism, this essay exposes the quantum mechanics the phenomenon of non-locality in terms of a metaphor involving human twins focused on their hands' dexterity attribute.
翻訳日:2023-02-09 18:08:24 公開日:2023-02-08
# ソースプライバシを用いたドメインシフトのためのプロトタイプ指向クラスタリング

A prototype-oriented clustering for domain shift with source privacy ( http://arxiv.org/abs/2302.03807v1 )

ライセンス: Link先を確認
Korawat Tanwisuth, Shujian Zhang, Pengcheng He, Mingyuan Zhou(参考訳) ドメインシフト(UCDS)下での教師なしクラスタリングは、複数のソースドメインから豊富なラベルなしデータから知識を転送し、ターゲットドメイン内のラベルなしデータの表現を学ぶ方法を研究する。 本稿では,既存のUCDS法の性能と適用性の向上だけでなく,ソースドメインのデータとモデルの両方のプライバシ保護に関する懸念にも対処するため,PCD(Prototype-oriented Clustering with Distillation)を導入する。 PCDはまず、プロトタイプとデータの分布を整列することで、ソースクラスタリングモデルを構築する。 そして、ターゲットデータをクラスタリングしながら、ソースモデルが提供するクラスタラベルを通じて、知識をターゲットモデルに蒸留する。 最後に、ソースモデルからのガイダンスなしに、ターゲットドメインデータのターゲットモデルを洗練します。 複数のベンチマークで実験した結果,ソースプライットクラスタリング手法の有効性と一般化性が確認された。

Unsupervised clustering under domain shift (UCDS) studies how to transfer the knowledge from abundant unlabeled data from multiple source domains to learn the representation of the unlabeled data in a target domain. In this paper, we introduce Prototype-oriented Clustering with Distillation (PCD) to not only improve the performance and applicability of existing methods for UCDS, but also address the concerns on protecting the privacy of both the data and model of the source domains. PCD first constructs a source clustering model by aligning the distributions of prototypes and data. It then distills the knowledge to the target model through cluster labels provided by the source model while simultaneously clustering the target data. Finally, it refines the target model on the target domain data without guidance from the source model. Experiments across multiple benchmarks show the effectiveness and generalizability of our source-private clustering method.
翻訳日:2023-02-09 17:52:17 公開日:2023-02-08
# SLaM: 半監督知識蒸留のための学生-ラベル混合

SLaM: Student-Label Mixing for Semi-Supervised Knowledge Distillation ( http://arxiv.org/abs/2302.03806v1 )

ライセンス: Link先を確認
Vasilis Kontonis, Fotis Iliopoulos, Khoa Trinh, Cenk Baykal, Gaurav Menghani, Erik Vee(参考訳) 半教師付き知識蒸留は、ラベル付きデータの量を制限するが、ラベル付きデータの大きなプールにアクセスする設定で、コンパクトで軽量な学生モデルを生成するための強力なトレーニングパラダイムである。 その考え方は、大規模な教師モデルを使用して、未ラベルのデータセットに対して ``smoothed'' 擬似ラベルを生成し、学生モデルをトレーニングするために使用するというものだ。 様々な応用で成功したにもかかわらず、このアプローチの欠点は、教師の擬似ラベルがしばしばうるさくなり、学生のパフォーマンスが損なわれることである。 本稿では,学生ラベル混合(SLaM)と呼ばれる半教師付き知識蒸留の原理的手法を提案する。 最後に、SLaMには理論的保証が伴い、ランダムな分類ノイズの下でハーフスペースを学習するための最もよく知られたサンプル複雑性を改善するアルゴリズムを提供し、いわゆる「前向き損失調整」手法に対する最初の収束解析を提供する。

Semi-supervised knowledge distillation is a powerful training paradigm for generating compact and lightweight student models in settings where the amount of labeled data is limited but one has access to a large pool of unlabeled data. The idea is that a large teacher model is utilized to generate ``smoothed'' pseudo-labels for the unlabeled dataset which are then used for training the student model. Despite its success in a wide variety of applications, a shortcoming of this approach is that the teacher's pseudo-labels are often noisy, leading to impaired student performance. In this paper, we present a principled method for semi-supervised knowledge distillation that we call Student-Label Mixing (SLaM) and we show that it consistently improves over prior approaches by evaluating it on several standard benchmarks. Finally, we show that SLaM comes with theoretical guarantees; along the way we give an algorithm improving the best-known sample complexity for learning halfspaces with margin under random classification noise, and provide the first convergence analysis for so-called ``forward loss-adjustment" methods.
翻訳日:2023-02-09 17:52:05 公開日:2023-02-08
# 非凸ミニマックス問題に対する分散リーマンアルゴリズム

Decentralized Riemannian Algorithm for Nonconvex Minimax Problems ( http://arxiv.org/abs/2302.03825v1 )

ライセンス: Link先を確認
Xidong Wu, Zhengmian Hu and Heng Huang(参考訳) リーマン多様体上のミニマックス最適化(おそらく非凸制約)は、ロバスト次元の縮小や直交重みを持つディープニューラルネットワーク(スティフェル多様体)のような多くの問題を解決するために積極的に適用されてきた。 ユークリッド環境ではミニマックス問題の最適化アルゴリズムが数多く開発されているが、それらをリーマンケースに変換することは困難であり、非凸制約付きミニマックス問題のアルゴリズムはさらに稀である。 一方で、ビッグデータの課題に対処するために、通信オーバーヘッドを削減し、サーバノードのボトルネック問題を回避するために、分散(サーバーレス)トレーニング技術が最近登場している。 それでも分散リーマンミニマックス問題のアルゴリズムは研究されていない。 本稿では,スタイフェル多様体上の分散非凸強凸ミニマックス最適化問題を研究し,決定論的および確率的ミニマックス法を提案する。 局所モデルは非凸強凸であり、ステイフェル多様体は非凸集合である。 大域関数は局所関数の有限和として表現される。 決定論的設定のために、DRGDAを提案し、決定論的手法が穏やかな条件下で$O( \epsilon^{-2})$の勾配複雑性を達成することを証明した。 確率的設定に対しては、DSSGDAを提案し、我々の確率的手法が$O(\epsilon^{-4})$の勾配複雑性を達成することを証明する。 DRGDAとDRSGDAは、厳密な収束を伴う非凸制約を持つ分散ミニマックス最適化のための最初のアルゴリズムである。 stiefel多様体上のディープニューラルネットワーク(dnns)トレーニングに関する広範な実験結果から,アルゴリズムの効率性が証明された。

The minimax optimization over Riemannian manifolds (possibly nonconvex constraints) has been actively applied to solve many problems, such as robust dimensionality reduction and deep neural networks with orthogonal weights (Stiefel manifold). Although many optimization algorithms for minimax problems have been developed in the Euclidean setting, it is difficult to convert them into Riemannian cases, and algorithms for nonconvex minimax problems with nonconvex constraints are even rare. On the other hand, to address the big data challenges, decentralized (serverless) training techniques have recently been emerging since they can reduce communications overhead and avoid the bottleneck problem on the server node. Nonetheless, the algorithm for decentralized Riemannian minimax problems has not been studied. In this paper, we study the distributed nonconvex-strongly-concave minimax optimization problem over the Stiefel manifold and propose both deterministic and stochastic minimax methods. The local model is non-convex strong-concave and the Steifel manifold is a non-convex set. The global function is represented as the finite sum of local functions. For the deterministic setting, we propose DRGDA and prove that our deterministic method achieves a gradient complexity of $O( \epsilon^{-2})$ under mild conditions. For the stochastic setting, we propose DRSGDA and prove that our stochastic method achieves a gradient complexity of $O(\epsilon^{-4})$. The DRGDA and DRSGDA are the first algorithms for distributed minimax optimization with nonconvex constraints with exact convergence. Extensive experimental results on the Deep Neural Networks (DNNs) training over the Stiefel manifold demonstrate the efficiency of our algorithms.
翻訳日:2023-02-09 17:44:01 公開日:2023-02-08
# 遺伝的アルゴリズムを用いたBioBERTハイパーパラメータ最適化による臨床BioBERTハイパーパラメータ最適化

Clinical BioBERT Hyperparameter Optimization using Genetic Algorithm Clinical BioBERT Hyperparameter Optimization using Genetic Algorithm ( http://arxiv.org/abs/2302.03822v1 )

ライセンス: Link先を確認
Navya Martin Kollapally, James Geller(参考訳) 臨床因子は、個人の健康に影響を及ぼすコントロール可能な因子のうち、わずか10~30%しか含まれていない。 残る要因は、出生・育児の場所、教育を追求した場所、仕事や家庭環境がどのようなものかなどである。 これらの要因を総称してSDoH(Social Determinants of Health)と呼ぶ。 sdohのデータの大部分は、医師や開業医による非構造化臨床記録に記録されている。 構造化された方法で(EHRで)SDoHデータを記録することは、SDoH用語の専用オントロジーから大きな恩恵を受けることができる。 本研究は臨床ノートから文章を抽出することに焦点を当て,sdohオントロジー(soho)を用いて適切な概念を提供する。 近年のDeep Learningの進歩を利用して,SDoHテキストに対する臨床用BibiBERTモデルのハイパーパラメータを最適化する。 最適なパラメータ設定を特定するために,遺伝的アルゴリズムに基づくハイパーパラメータチューニングレジームを実装した。 完全な分類器を実装するために, 臨床バイオバートを2つの線形層と2つのドロップアウト層でパイプライン化した。 出力は、テキストフラグメントが患者のSDoH問題を記述するかどうかを予測する。 我々はAdamW、Adafactor、LAMBオプティマイザを比較した。 私たちの実験では、AdamWは正確さで他よりも優れています。

Clinical factors account only for a small portion, about 10-30%, of the controllable factors that affect an individual's health outcomes. The remaining factors include where a person was born and raised, where he/she pursued their education, what their work and family environment is like, etc. These factors are collectively referred to as Social Determinants of Health (SDoH). The majority of SDoH data is recorded in unstructured clinical notes by physicians and practitioners. Recording SDoH data in a structured manner (in an EHR) could greatly benefit from a dedicated ontology of SDoH terms. Our research focuses on extracting sentences from clinical notes, making use of such an SDoH ontology (called SOHO) to provide appropriate concepts. We utilize recent advancements in Deep Learning to optimize the hyperparameters of a Clinical BioBERT model for SDoH text. A genetic algorithm-based hyperparameter tuning regimen was implemented to identify optimal parameter settings. To implement a complete classifier, we pipelined Clinical BioBERT with two subsequent linear layers and two dropout layers. The output predicts whether a text fragment describes an SDoH issue of the patient. We compared the AdamW, Adafactor, and LAMB optimizers. In our experiments, AdamW outperformed the others in terms of accuracy.
翻訳日:2023-02-09 17:43:21 公開日:2023-02-08
# PASTA: 悲観的なアソシエーション最適化

PASTA: Pessimistic Assortment Optimization ( http://arxiv.org/abs/2302.03821v1 )

ライセンス: Link先を確認
Juncheng Dong, Weibin Mo, Zhengling Qi, Cong Shi, Ethan X. Fang, Vahid Tarokh(参考訳) オフラインデータ駆動環境でのアソート最適化のクラスを考える。 企業は、基盤となる顧客選択モデルを知らないが、歴史的に提供されたソートセット、顧客選択、収益からなるオフラインデータセットにアクセスできる。 目的は、オフラインデータセットを使用して最適なアソートを見つけることである。 アソシエーション最適化の組合せの性質のため、オフラインデータセットでは不十分なデータカバレッジの問題が発生する可能性が高い。 したがって、効率的なオフライン学習アルゴリズムを設計することは大きな課題となる。 そこで本研究では、ペシミズムの原理に基づいて設計されたPASTA(Pessimistic Assortment opTimizAtion)と呼ばれるアルゴリズムを提案する。 特に,多項ロジットモデルにおいて,オフラインソート最適化問題に対する後悔点を確立する。 また,悲観的ソート最適化問題を解くための効率的な計算手順を提案する。 提案手法が既存のベースライン法よりも優れていることを示す数値的研究を行った。

We consider a class of assortment optimization problems in an offline data-driven setting. A firm does not know the underlying customer choice model but has access to an offline dataset consisting of the historically offered assortment set, customer choice, and revenue. The objective is to use the offline dataset to find an optimal assortment. Due to the combinatorial nature of assortment optimization, the problem of insufficient data coverage is likely to occur in the offline dataset. Therefore, designing a provably efficient offline learning algorithm becomes a significant challenge. To this end, we propose an algorithm referred to as Pessimistic ASsortment opTimizAtion (PASTA for short) designed based on the principle of pessimism, that can correctly identify the optimal assortment by only requiring the offline data to cover the optimal assortment under general settings. In particular, we establish a regret bound for the offline assortment optimization problem under the celebrated multinomial logit model. We also propose an efficient computational procedure to solve our pessimistic assortment optimization problem. Numerical studies demonstrate the superiority of the proposed method over the existing baseline method.
翻訳日:2023-02-09 17:42:49 公開日:2023-02-08
# 統合多視点多人数追跡フレームワーク

A Unified Multi-view Multi-person Tracking Framework ( http://arxiv.org/abs/2302.03820v1 )

ライセンス: Link先を確認
Fan Yang, Shigeyuki Odashima, Sosuke Yamao, Hiroaki Fujimoto, Shoichi Masui, and Shan Jiang(参考訳) 3dマルチビューマルチパーソントラッキング(3dmmトラッキング)には大きな進展があるが、現在の3dmmトラッキングフレームワークは足跡とポーズ追跡のために別々に設計されている。 特に, 3次元ポーズトラッキングでは, 平面上の3次元位置を直接得ることができず, 地上の3次元ポーズには適用できないため, 足跡追跡用に設計されたフレームワークは利用できない。 対照的に、ポーズトラッキング用に設計されたフレームワークは、一般的にマルチビューとマルチフレームのアソシエーションを分離し、フットプリントトラッキングには堅牢ではない可能性がある。 本研究では,足跡追跡とポーズトラッキングのギャップを埋めるための統合多視点多人数追跡フレームワークを提案する。 追加の修正なしに、このフレームワークは単眼の2Dバウンディングボックスと2Dポーズを入力として、複数の人のための堅牢な3D軌道を生成することができる。 重要なのは、関連や三角測量の性能を向上させるために、マルチフレーム情報とマルチビュー情報を共同で利用することである。 このフレームワークの有効性は、3DポーズトラッキングのためのCampusとShelfデータセットの最先端性能と、3DフットプリントトラッキングのためのWILDTRACKとMMPTRACKデータセットの同等の結果によって検証される。

Although there is a significant development in 3D Multi-view Multi-person Tracking (3D MM-Tracking), current 3D MM-Tracking frameworks are designed separately for footprint and pose tracking. Specifically, frameworks designed for footprint tracking cannot be utilized in 3D pose tracking, because they directly obtain 3D positions on the ground plane with a homography projection, which is inapplicable to 3D poses above the ground. In contrast, frameworks designed for pose tracking generally isolate multi-view and multi-frame associations and may not be robust to footprint tracking, since footprint tracking utilizes fewer key points than pose tracking, which weakens multi-view association cues in a single frame. This study presents a Unified Multi-view Multi-person Tracking framework to bridge the gap between footprint tracking and pose tracking. Without additional modifications, the framework can adopt monocular 2D bounding boxes and 2D poses as the input to produce robust 3D trajectories for multiple persons. Importantly, multi-frame and multi-view information are jointly employed to improve the performance of association and triangulation. The effectiveness of our framework is verified by accomplishing state-of-the-art performance on the Campus and Shelf datasets for 3D pose tracking, and by comparable results on the WILDTRACK and MMPTRACK datasets for 3D footprint tracking.
翻訳日:2023-02-09 17:42:27 公開日:2023-02-08
# Xpression Challenge: Xray Projectomic Reconstruction -- セレトンによるセグメンテーションの抽出

The XPRESS Challenge: Xray Projectomic Reconstruction -- Extracting Segmentation with Skeletons ( http://arxiv.org/abs/2302.03819v1 )

ライセンス: Link先を確認
Tri Nguyen, Mukul Narwani, Mark Larson, Yicong Li, Shuhan Xie, Hanspeter Pfister, Donglai Wei, Nir Shavit, Lu Mi, Alexandra Pacureanu, Wei-Chung Lee, Aaron T. Kuan(参考訳) ニューロンの配線と接続は神経系の機能のための構造的基盤を形成する。 ボリューム電子顕微鏡(EM)と画像セグメンテーションの進歩により、マウス脳の局所領域における回路図(接続図)のマッピングが可能になった。 しかし, 脳全体に容積EMを適用することは, 技術的課題のために現在実現不可能である。 その結果、脳領域間の長距離接続の包括的な地図が欠如している。 近年,x線ホログラフィックナノトモグラフィー (xnh) が脳組織の高分解能像をemよりはるかに大きなスケールで提供できることが実証された。 特に、XNHは長距離接続(投射)の大部分を構成し、地域間通信に欠かせない、大規模でミレレートな軸索(白色物質)の解決に適している。 したがって、XNHは脳全体のプロトミクスにイメージングソリューションを提供する。 しかし、XNHデータは一般的にEMよりも解像度が低く視野が大きいため、XNH画像の正確なセグメンテーションは重要な課題である。 この課題では,マウス脳からの皮質白質軸索の体積xnh画像と,軸索軌跡に対する基底真理アノテーションを提供する。 手動のvoxel-wise Annotation of ground truthは、セグメンテーションネットワークのトレーニングに時間を要するボトルネックである。 一方、骨格に基づく基底真理はアノテートよりもはるかに速く、接続性を決定するのに十分である。 そこで我々は,スケルトンベーストレーニングの活用方法の開発を参加者に勧める。 この目的のために、我々は、少量のvoxel-wiseアノテーションと、スケルトンベースのアノテーションを備えたより大きなボリュームの2つの基底真実アノテーションを提供する。 エントリは、提出されたセグメンテーションが基底骨格アノテーションとどの程度正確に一致するかを評価する。

The wiring and connectivity of neurons form a structural basis for the function of the nervous system. Advances in volume electron microscopy (EM) and image segmentation have enabled mapping of circuit diagrams (connectomics) within local regions of the mouse brain. However, applying volume EM over the whole brain is not currently feasible due to technological challenges. As a result, comprehensive maps of long-range connections between brain regions are lacking. Recently, we demonstrated that X-ray holographic nanotomography (XNH) can provide high-resolution images of brain tissue at a much larger scale than EM. In particular, XNH is wellsuited to resolve large, myelinated axon tracts (white matter) that make up the bulk of long-range connections (projections) and are critical for inter-region communication. Thus, XNH provides an imaging solution for brain-wide projectomics. However, because XNH data is typically collected at lower resolutions and larger fields-of-view than EM, accurate segmentation of XNH images remains an important challenge that we present here. In this task, we provide volumetric XNH images of cortical white matter axons from the mouse brain along with ground truth annotations for axon trajectories. Manual voxel-wise annotation of ground truth is a time-consuming bottleneck for training segmentation networks. On the other hand, skeleton-based ground truth is much faster to annotate, and sufficient to determine connectivity. Therefore, we encourage participants to develop methods to leverage skeleton-based training. To this end, we provide two types of ground-truth annotations: a small volume of voxel-wise annotations and a larger volume with skeleton-based annotations. Entries will be evaluated on how accurately the submitted segmentations agree with the ground-truth skeleton annotations.
翻訳日:2023-02-09 17:42:03 公開日:2023-02-08
# インテンダー・ウェイト・パーセプティブ・クロス--歩行者の意思決定に対する知覚的限界の影響を探る

Intend-Wait-Perceive-Cross: Exploring the Effects of Perceptual Limitations on Pedestrian Decision-Making ( http://arxiv.org/abs/2302.03816v1 )

ライセンス: Link先を確認
Iuliia Kotseruba and Amir Rasouli(参考訳) 歩行者行動理解に関する最近の研究は,歩行者の動態に焦点をあて,その知覚能力について強い前提を定めている。 例えば、歩行者は周囲を全方位で眺めていると推測されることが多い。 実際には、人間の視覚システムには、制限された視野(fov)やセンシングの範囲など、多くの制限があり、その結果、歩行者の意思決定と全体的な行動に影響を及ぼす。 歩行者知覚の明示的なモデリングを含めることで、その決定に対する効果をよりよく理解することができる。 そこで本研究では,視覚,作業記憶,走査戦略という3つの新たな要素を持つエージェントベースの歩行者行動モデルであるintent-wait-perceive-crossを提案する。 広範な実験を通じて,安全交差点決定に対する知覚的限界の影響を調査し,歩行者行動の変化の検出にどのように寄与するかを実証する。

Current research on pedestrian behavior understanding focuses on the dynamics of pedestrians and makes strong assumptions about their perceptual abilities. For instance, it is often presumed that pedestrians have omnidirectional view of the scene around them. In practice, human visual system has a number of limitations, such as restricted field of view (FoV) and range of sensing, which consequently affect decision-making and overall behavior of the pedestrians. By including explicit modeling of pedestrian perception, we can better understand its effect on their decision-making. To this end, we propose an agent-based pedestrian behavior model Intend-Wait-Perceive-Cross with three novel elements: field of vision, working memory, and scanning strategy, all motivated by findings from behavioral literature. Through extensive experimentation we investigate the effects of perceptual limitations on safe crossing decisions and demonstrate how they contribute to detectable changes in pedestrian behaviors.
翻訳日:2023-02-09 17:41:38 公開日:2023-02-08
# 長文と多テーブル要約:データセットおよび方法

Long Text and Multi-Table Summarization: Dataset and Method ( http://arxiv.org/abs/2302.03815v1 )

ライセンス: Link先を確認
Shuaiqi Liu, Jiannong Cao, Ruosong Yang, Zhiyuan Wen(参考訳) 自動文書要約は、入力された文書の健全な情報をカバーする簡潔な要約を作成することを目的としている。 レポート文書内では、テキスト内容および非テキスト内容に、敬称情報を散布することができる。 しかし、既存の文書要約データセットとメソッドは通常テキストに集中し、テキスト以外のコンテンツをフィルタリングする。 表データの欠落は、特に表内の重要なメトリクスの量的記述を網羅する必要がある場合、生成した要約の情報性を制限する可能性がある。 既存のデータセットとメソッドは、各レポートで長いテキストと複数のテーブルを要約する要件を満たせない。 利用可能なデータの不足に対処するため、我々はFINDSumを提案し、これは長文とマルチテーブルの要約のための最初の大規模データセットである。 3,794社による21,125の年次レポートに基づいて構築され、各企業の運用と流動性の成果を要約する2つのサブセットがある。 各レポートの長文と数十の表を要約するために,3種類の要約手法を提案する。 さらに,生成した要約における数値情報の利用状況を評価するための評価指標のセットを提案する。 データセット分析と実験結果から,レポート資料の要約において,入力テキストと表形式のデータを共同で検討することの重要性が示唆された。

Automatic document summarization aims to produce a concise summary covering the input document's salient information. Within a report document, the salient information can be scattered in the textual and non-textual content. However, existing document summarization datasets and methods usually focus on the text and filter out the non-textual content. Missing tabular data can limit produced summaries' informativeness, especially when summaries require covering quantitative descriptions of critical metrics in tables. Existing datasets and methods cannot meet the requirements of summarizing long text and multiple tables in each report. To deal with the scarcity of available data, we propose FINDSum, the first large-scale dataset for long text and multi-table summarization. Built on 21,125 annual reports from 3,794 companies, it has two subsets for summarizing each company's results of operations and liquidity. To summarize the long text and dozens of tables in each report, we present three types of summarization methods. Besides, we propose a set of evaluation metrics to assess the usage of numerical information in produced summaries. Dataset analyses and experimental results indicate the importance of jointly considering input textual and tabular data when summarizing report documents.
翻訳日:2023-02-09 17:41:22 公開日:2023-02-08
# スクラッチ強度の定量化のためのマルチモーダルセンシングリング

A Multimodal Sensing Ring for Quantification of Scratch Intensity ( http://arxiv.org/abs/2302.03813v1 )

ライセンス: Link先を確認
Akhil Padmanabha, Sonal Choudhary, Carmel Majidi, Zackory Erickson(参考訳) 減弱症状である慢性かゆみの客観的測定は、多くの疾患に対する患者のケアを改善するために必要である。 ウェアラブルデバイスはスクラッチ検出を約束しているが、現在スクラッチ強度を推定できず、個人に対するかゆみの影響を包括的に理解できない。 本研究では, マルチモーダルウェアラブルリングデバイスと, 0-600 mW の機械的パワースケール上でのスクラッチ強度の回帰のための機械学習アルゴリズムからなるスクラッチ検出に加えて, スクラッチ強度の推定のためのフレームワークを提案する。 提案手法は20名を対象に,leaf one subject out (loso) cross validation (cv) を用いて評価し,14名の追加参加者のデータを用いて,スクラッチ強度レベルの臨床的に関連性のある識別を実現する。 本研究は, 指縫い装置がスクラッチ動作の多次元的, 客観的, リアルタイムな計測を可能にすることを示す。

An objective measurement of the debilitating symptom, chronic itch, is necessary for improvements in patient care for numerous medical conditions. While wearable devices have shown promise for scratch detection, they are currently unable to estimate scratch intensity, preventing a comprehensive understanding of the effect of itch on an individual. In this work, we present a framework for the estimation of scratch intensity in addition to scratch detection consisting of a multimodal wearable ring device and machine learning algorithms for regression of scratch intensity on a 0-600 mW mechanical power scale that can be mapped to a 0-10 continuous scale. We evaluate the performance of our algorithms on 20 individuals using Leave One Subject Out (LOSO) Cross Validation (CV) and using data from 14 additional participants, we show that our algorithms achieve clinically-relevant discrimination of scratching intensity levels. This work demonstrates that a finger-worn device can provide multidimensional, objective, real-time measures for the action of scratching.
翻訳日:2023-02-09 17:41:02 公開日:2023-02-08
# 指数的コストリスク感性MDPのための修正政策イテレーション

Modified Policy Iteration for Exponential Cost Risk Sensitive MDPs ( http://arxiv.org/abs/2302.03811v1 )

ライセンス: Link先を確認
Yashaswini Murthy, Mehrdad Moharrami and R. Srikant(参考訳) 楽観的な政策反復として知られる修正政策反復(MPI)は多くの強化学習アルゴリズムの中核にある。 ポリシーの反復と価値の反復の要素を組み合わせることで機能します。 MPIの収束性は、割引および平均コストのMDPの場合によく研究されている。 本研究では,モデルパラメータにロバスト性を有する指数的コストリスク感応型MDPの定式化について考察する。 ポリシーの反復と価値の反復はリスクに敏感なmdpの文脈でよく研究されてきたが、修正されたポリシーの反復は比較的未検討である。 MPIが有限状態および作用空間の場合のリスク感受性問題にも収束するという最初の証明を提供する。 指数的コストの定式化は、乗法ベルマン方程式を扱うので、我々の主な貢献は、割引およびリスクニュートラル平均コスト問題に対する既存の結果とは全く異なる収束証明である。 リスクに敏感なMDPに対する近似的な修正ポリシー反復の証明も付録に記載されている。

Modified policy iteration (MPI) also known as optimistic policy iteration is at the core of many reinforcement learning algorithms. It works by combining elements of policy iteration and value iteration. The convergence of MPI has been well studied in the case of discounted and average-cost MDPs. In this work, we consider the exponential cost risk-sensitive MDP formulation, which is known to provide some robustness to model parameters. Although policy iteration and value iteration have been well studied in the context of risk sensitive MDPs, modified policy iteration is relatively unexplored. We provide the first proof that MPI also converges for the risk-sensitive problem in the case of finite state and action spaces. Since the exponential cost formulation deals with the multiplicative Bellman equation, our main contribution is a convergence proof which is quite different than existing results for discounted and risk-neutral average-cost problems. The proof of approximate modified policy iteration for risk sensitive MDPs is also provided in the appendix.
翻訳日:2023-02-09 17:40:43 公開日:2023-02-08
# 不確実性下での一致の公平性

Fairness in Matching under Uncertainty ( http://arxiv.org/abs/2302.03810v1 )

ライセンス: Link先を確認
Siddartha Devic, David Kempe, Vatsal Sharan, Aleksandra Korolova(参考訳) アルゴリズム的二面市場の普及と重要性は、こうした設定における公平性の問題に注意を向けている。 アルゴリズム決定は、生徒を学校へ、ユーザーを広告主に、応募者を求職面接に割り当てるために使われる。 これらの決定は個人の好みを高め、そのメリット(適合性、将来のパフォーマンス、あるいはニーズ)に関して公平であるようにすべきである。 オブザーバブルな特徴に基づくメリットは常に不確実であり、オブザーバブルからメリットを推論する機械学習アルゴリズムの広範な利用によってさらに悪化している。 重要な貢献として、利益の不確実性を尊重する両面の市場設定において、個々人の公正性の概念を慎重に公理化し、実際、不確実性は不公平の第一の潜在的な原因であり、それに対応するためのアプローチであると同時に認識する。 線形プログラミングフレームワークを設計し,提案手法を機械学習技術と組み合わせる上で重要な特性である,不確実な有益分布の推定パラメータの摂動に頑健であることを示す。

The prevalence and importance of algorithmic two-sided marketplaces has drawn attention to the issue of fairness in such settings. Algorithmic decisions are used in assigning students to schools, users to advertisers, and applicants to job interviews. These decisions should heed the preferences of individuals, and simultaneously be fair with respect to their merits (synonymous with fit, future performance, or need). Merits conditioned on observable features are always uncertain, a fact that is exacerbated by the widespread use of machine learning algorithms to infer merit from the observables. As our key contribution, we carefully axiomatize a notion of individual fairness in the two-sided marketplace setting which respects the uncertainty in the merits; indeed, it simultaneously recognizes uncertainty as the primary potential cause of unfairness and an approach to address it. We design a linear programming framework to find fair utility-maximizing distributions over allocations, and we show that the linear program is robust to perturbations in the estimated parameters of the uncertain merit distributions, a key property in combining the approach with machine learning techniques.
翻訳日:2023-02-09 17:40:26 公開日:2023-02-08
# ed-batch: 学習有限状態マシンによる動的ニューラルネットワークの自動バッチ化

ED-Batch: Efficient Automatic Batching of Dynamic Neural Networks via Learned Finite State Machines ( http://arxiv.org/abs/2302.03851v1 )

ライセンス: Link先を確認
Siyuan Chen, Pratik Fegade, Tianqi Chen, Phillip B. Gibbons, Todd C. Mowry(参考訳) バッチはディープニューラルネットワーク(DNN)の実行効率に根本的な影響を与える。 しかし、動的DNNでは、データフローグラフが入力インスタンスごとに変化するため、効率的なバッチ処理が特に難しい。 その結果、最先端のフレームワークはヒューリスティックを使用し、最適以下のバッチ決定をもたらす。 さらに、バッチ処理はメモリ隣接性を厳しく制限し、高いデータ移動コストにつながる可能性がある。 本稿では,有限状態マシンに基づいて動的dnnをバッチ化する手法を提案し,強化学習によって各dnnに特化したバッチポリシーを自動的に発見する手法を提案する。 さらに,バッチ方式を意識したメモリプランニングは,PQ木に基づくアルゴリズムによって自動化され,データ移動のオーバーヘッドを大幅に削減できることがわかった。 実験の結果,我々のフレームワークは,チェーンベース,ツリーベース,格子ベースDNNにおいて,CPUおよびGPU間で平均1.15倍,1.39倍,2.45倍の最先端フレームワークを高速化することがわかった。

Batching has a fundamental influence on the efficiency of deep neural network (DNN) execution. However, for dynamic DNNs, efficient batching is particularly challenging as the dataflow graph varies per input instance. As a result, state-of-the-art frameworks use heuristics that result in suboptimal batching decisions. Further, batching puts strict restrictions on memory adjacency and can lead to high data movement costs. In this paper, we provide an approach for batching dynamic DNNs based on finite state machines, which enables the automatic discovery of batching policies specialized for each DNN via reinforcement learning. Moreover, we find that memory planning that is aware of the batching policy can save significant data movement overheads, which is automated by a PQ tree-based algorithm we introduce. Experimental results show that our framework speeds up state-of-the-art frameworks by on average 1.15x, 1.39x, and 2.45x for chain-based, tree-based, and lattice-based DNNs across CPU and GPU.
翻訳日:2023-02-09 17:35:10 公開日:2023-02-08
# ゼロショットプロンプト学習による対話におけるパーソナリティスタイル制御

Controlling Personality Style in Dialogue with Zero-Shot Prompt-Based Learning ( http://arxiv.org/abs/2302.03848v1 )

ライセンス: Link先を確認
Angela Ramirez, Mamon Alsalihy, Kartik Aggarwal, Cecilia Li, Liren Wu, and Marilyn Walker(参考訳) プロンプトベースまたはインコンテキスト学習は多くの自然言語生成(NLG)タスクにおいて高いゼロショット性能を達成した。 本稿では,タスク指向対話におけるnlgのパーソナリティと意味的正確性を同時に制御するプロンプトベース学習の性能について検討する。 本研究では, ペルソナゲレストラン推薦コーパスを用いて, 5種類の人格タイプに対して, セマンティックかつスタイリスティックに制御されたテキストを生成することを目的とした, 即時学習実験を行った。 1) パーソナリティ仕様を含む意味表現から直接生成を示すプロンプト,(2) 意味表現をテキストの擬似参照に変換するプロンプト,(2) テキストスタイル転送 (tst) プロンプトで擬似参照を使用するプロンプトである。 いずれの場合においても,アウトプットを過剰に生成してランク付けし,意味的正確性,パーソナリティマッチング,フラレンシの自動測定に基づいて複数のランキング関数をテストすることで,パフォーマンスを大幅に向上できることを示す。 また,レストランドメインからのNLGパーソナライズデモをゲームドメインの意味表現で使用して,ビデオゲームに関するパーソナライズされた発話を生成できるかどうかを検証した。 以上の結果から,tstプロンプトが最も高い意味的正確性(レストラン78.46%,ビデオゲーム87.6%)とパーソナリティ的正確性(レストラン100%,ビデオゲーム97%)が得られた。 ビデオゲームの発話にパーソナリティスタイルを移すことの結果は驚くほど良い。 我々の知る限り、NLGのスタイルとセマンティックの精度を同時に制御するためのプロンプトベース学習の適用をテストする以前の作業はない。

Prompt-based or in-context learning has achieved high zero-shot performance on many natural language generation (NLG) tasks. Here we explore the performance of prompt-based learning for simultaneously controlling the personality and the semantic accuracy of an NLG for task-oriented dialogue. We experiment with prompt-based learning on the PERSONAGE restaurant recommendation corpus to generate semantically and stylistically-controlled text for 5 different Big-5 personality types: agreeable, disagreeable, conscientious, unconscientious, and extravert. We test two different classes of discrete prompts to generate utterances for a particular personality style: (1) prompts that demonstrate generating directly from a meaning representation that includes a personality specification; and (2) prompts that rely on first converting the meaning representation to a textual pseudo-reference, and then using the pseudo-reference in a textual style transfer (TST) prompt. In each case, we show that we can vastly improve performance by over-generating outputs and ranking them, testing several ranking functions based on automatic metrics for semantic accuracy, personality-match, and fluency. We also test whether NLG personality demonstrations from the restaurant domain can be used with meaning representations for the video game domain to generate personality stylized utterances about video games. Our findings show that the TST prompts produces the highest semantic accuracy (78.46% for restaurants and 87.6% for video games) and personality accuracy (100% for restaurants and 97% for video games). Our results on transferring personality style to video game utterances are surprisingly good. To our knowledge, there is no previous work testing the application of prompt-based learning to simultaneously controlling both style and semantic accuracy in NLG.
翻訳日:2023-02-09 17:34:54 公開日:2023-02-08
# 2段階ハイパーパラメータ最適化法:トレーニングデータセットの分数を用いたハイパーパラメータ探索の高速化

Two-step hyperparameter optimization method: Accelerating hyperparameter search by using a fraction of a training dataset ( http://arxiv.org/abs/2302.03845v1 )

ライセンス: Link先を確認
Sungduk Yu, Mike Pritchard, Po-Lun Ma, Balwinder Singh, and Sam Silva(参考訳) ハイパーパラメータ最適化(HPO)は、マシンラーニングモデル開発における重要なステップですが、私たちの一般的なプラクティスは、手動またはグリッド検索が中心です。 これは、高度なHPOアルゴリズムを採用するとワークフローが複雑になり、計算時間が長くなるためである。 これは機械学習(ML)アプリケーションにとって大きなハードルとなる。なぜなら、最適でないハイパーパラメータの選択はMLモデルの性能を制限し、最終的にはML技術の潜在能力を最大限活用できないからだ。 本稿では,応用MLパラメタライゼーション作業で学んだ教訓として,計算時間と待ち時間を最小化する手法として,二段階HPO法を提案する。 トレーニングデータセットの小さなサブセット上で、まずハイパーパラメータの予備評価を行い、トレーニングデータセット全体をトレーニングした後、トップパフォーマンス候補モデルを再評価する。 この二段階hpo法は任意のhpo探索アルゴリズムに適用できるため,魅力的な効率性が期待できる。 そこで本研究では,二段階hpo法を応用したエアロゾル活性化型ニューラルネットワークエミュレータの開発について紹介する。 最初のステップでトレーニングデータセットの5%だけを使用すると、より広範なサンプリングから最適なハイパーパラメータ構成を見つけるのに十分です。 HPOの利点はハイパーパラメータとモデル性能の分析によって明らかにされ、最高の性能を達成するのに必要なモデル複雑さが最小限であること、HPOプロセスから得られるトップパフォーマンスモデルの多様性により、GCMにおける効率的な使用のための推論コストの低いハイパフォーマンスモデルを選択することができる。

Hyperparameter optimization (HPO) can be an important step in machine learning model development, but our common practice is archaic -- primarily using a manual or grid search. This is partly because adopting an advanced HPO algorithm entails extra complexity to workflow and longer computation time. This imposes a significant hurdle to machine learning (ML) applications since the choice of suboptimal hyperparameters limits the performance of ML models, ultimately failing to harness the full potential of ML techniques. In this article, we present a two-step HPO method as a strategy to minimize compute and wait time as a lesson learned during applied ML parameterization work. A preliminary evaluation of hyperparameters is first conducted on a small subset of a training dataset, then top-performing candidate models are re-evaluated after retraining with an entire training dataset. This two-step HPO method can be applied to any HPO search algorithm, and we argue it has attractive efficiencies. As a case study, we present our recent application of the two-step HPO method to the development of neural network emulators of aerosol activation. Using only 5% of a training dataset in the initial step is sufficient to find optimal hyperparameter configurations from much more extensive sampling. The benefits of HPO are then revealed by analysis of hyperparameters and model performance, revealing a minimal model complexity required to achieve the best performance, and the diversity of top-performing models harvested from the HPO process allows us to choose a high-performing model with a low inference cost for efficient use in GCMs.
翻訳日:2023-02-09 17:34:19 公開日:2023-02-08
# MMPD:マルチドメインのモバイルビデオ生理学データセット

MMPD: Multi-Domain Mobile Video Physiology Dataset ( http://arxiv.org/abs/2302.03840v1 )

ライセンス: Link先を確認
Jiankai Tang, Kequan Chen, Yuntao Wang, Yuanchun Shi, Shwetak Patel, Daniel McDuff, Xin Liu(参考訳) remote photoplethysmography(rppg)は、非侵襲的、便利で、生理的バイタルシグナルの同時測定のための魅力的な方法である。 公開ベンチマークデータセットは,近年,この技術の開発や精度の向上において重要な役割を担ってきたが,第1に,携帯電話用カメラの普及にもかかわらず,携帯電話用カメラで特に記録されたデータセットは少ない。 第二に、ほとんどのデータセットは比較的小さいため、外観(例えば、肌の色)、行動(例えば、動き)、行動(例えば、照明条件)の両方において多様性に制限がある。 フィールドの前進を支援するために,33人の携帯電話から11時間の録音を含むMMPD(Multi-domain Mobile Video Physiology Dataset)を提示する。 このデータセットは、肌のトーン、体の動き、照明条件をまたいだ映像を撮影するために設計された。 MMPDは8つの記述ラベルと共に包括的であり、rPPG-toolboxと併用することができる。 データセットのGithubリポジトリ: {https://github.com/McJackTang/MMPD_rPPG_dataset}

Remote photoplethysmography (rPPG) is an attractive method for noninvasive, convenient and concomitant measurement of physiological vital signals. Public benchmark datasets have served a valuable role in the development of this technology and improvements in accuracy over recent years.However, there remain gaps the public datasets.First, despite the ubiquity of cameras on mobile devices, there are few datasets recorded specifically with mobile phones cameras. Second, most datasets are relatively small and therefore are limited in diversity, both in appearance (e.g., skin tone), behaviors (e.g., motion) and enivornment (e.g., lighting conditions). In an effort to help the field advance, we present the Multi-domain Mobile Video Physiology Dataset (MMPD), comprising 11 hours of recordings from mobile phones of 33 subjects. The dataset was designed to capture videos with greater representation across skin tone, body motion, and lighting conditions. MMPD is comprehensive with eight descriptive labels and can be used in conjunction with the rPPG-toolbox. The Github repository of our dataset: {https://github.com/McJackTang/MMPD_rPPG_dataset}
翻訳日:2023-02-09 17:33:52 公開日:2023-02-08
# 生物学的特性に対応した基礎画像の未来的変動と解析

Futuristic Variations and Analysis in Fundus Images Corresponding to Biological Traits ( http://arxiv.org/abs/2302.03839v1 )

ライセンス: Link先を確認
Muhammad Hassan, Hao Zhang, Ahmed Fateh Ameen, Home Wu Zeng, Shuye Ma, Wen Liang, Dingqi Shang, Jiaming Ding, Ziheng Zhan, Tsz Kwan Lam, Ming Xu, Qiming Huang, Dongmei Wu, Can Yang Zhang, Zhou You, Awiwu Ain, and Pei Wu Qin(参考訳) 眼底画像は眼の後部を捉え、手作り、従来型、深層学習法を用いて、疾患の識別、分類、分類、生成、生物学的特性関連について研究されている。 生物学的特性の推定では, 年齢予測と性別分類について, 説得力のある結果を得た研究がほとんどである。 しかし,本研究では,近縁深層学習(DL)アルゴリズムを用いて,年齢や性別の生物学的特性を推定し,網膜視覚に関連性を持たせる。 特徴関連について,提案したDLモデルにラベル情報として老化を組み込んで,老化に伴う影響領域の知識を学習する。 提案するDLモデルであるFAG-NetとFGC-Netは,生物特性(年齢と性別)を推定し,基礎画像を生成する。 FAG-Netは、年齢を条件として入力された基礎画像の複数の変種を生成することができる。 本研究は, 眼底画像と生物学的特徴との関係を分析し, 発生モデルに対する条件として年齢が与えられた眼底画像上での眼疾患の伝播を予測した。 提案モデルはランダムに選択されたdlモデルを上回る。

Fundus image captures rear of an eye, and which has been studied for the diseases identification, classification, segmentation, generation, and biological traits association using handcrafted, conventional, and deep learning methods. In biological traits estimation, most of the studies have been carried out for the age prediction and gender classification with convincing results. However, the current study utilizes the cutting-edge deep learning (DL) algorithms to estimate biological traits in terms of age and gender together with associating traits to retinal visuals. For the traits association, our study embeds aging as the label information into the proposed DL model to learn knowledge about the effected regions with aging. Our proposed DL models, named FAG-Net and FGC-Net, correspondingly estimate biological traits (age and gender) and generates fundus images. FAG-Net can generate multiple variants of an input fundus image given a list of ages as conditions. Our study analyzes fundus images and their corresponding association with biological traits, and predicts of possible spreading of ocular disease on fundus images given age as condition to the generative model. Our proposed models outperform the randomly selected state of-the-art DL models.
翻訳日:2023-02-09 17:33:32 公開日:2023-02-08
# トポロジカルディープラーニング:新しいパラダイムの概観

Topological Deep Learning: A Review of an Emerging Paradigm ( http://arxiv.org/abs/2302.03836v1 )

ライセンス: Link先を確認
Ali Zia and Abdelwahed Khamis and James Nichols and Zeeshan Hayder and Vivien Rolland and Lars Petersson(参考訳) トポロジカルデータ分析(TDA)は、データ形状に関する洞察を提供する。 これらの手法により得られた要約は、変形やノイズに対する堅牢性などの安定した特性を示しながら、多次元データの大域的な記述である。 このような特性はディープラーニングパイプラインでは望ましいが、通常は非TDA戦略を用いて得られる。 これは、TDA構造体(例えば、バーコードと永続化図)と現在のディープラーニングアルゴリズムを組み合わせるのが難しいことに起因する。 幸いにも私たちは、トポロジカルに導かれたコンポーネントを採用するディープラーニングアプリケーションの増加を目撃しています。 本稿では,TDAの中核となる概念を再考することによって,トポロジカルディープラーニングの新たな分野を概観する。 次に、ディープラーニングフレームワークをサポートするために、TDAテクニックの使用が時間とともにどのように進化してきたか、そして、ディープラーニングのさまざまな側面に統合される方法について検討する。 さらに、既存の深層モデル、深部トポロジ解析におけるTDAの利用について触れる。 最後に,トポロジカル深層学習の課題と今後の展望について論じる。

Topological data analysis (TDA) provides insight into data shape. The summaries obtained by these methods are principled global descriptions of multi-dimensional data whilst exhibiting stable properties such as robustness to deformation and noise. Such properties are desirable in deep learning pipelines but they are typically obtained using non-TDA strategies. This is partly caused by the difficulty of combining TDA constructs (e.g. barcode and persistence diagrams) with current deep learning algorithms. Fortunately, we are now witnessing a growth of deep learning applications embracing topologically-guided components. In this survey, we review the nascent field of topological deep learning by first revisiting the core concepts of TDA. We then explore how the use of TDA techniques has evolved over time to support deep learning frameworks, and how they can be integrated into different aspects of deep learning. Furthermore, we touch on TDA usage for analyzing existing deep models; deep topological analytics. Finally, we discuss the challenges and future prospects of topological deep learning.
翻訳日:2023-02-09 17:33:13 公開日:2023-02-08
# 超伝導キュービットの1次元鎖を用いたキタエフ模型のシミュレーションとトポロジカル状態に対する環境影響

Simulation of Kitaev model using one-dimensional chain of superconducting qubits and environmental effect on topological states ( http://arxiv.org/abs/2302.03834v1 )

ライセンス: Link先を確認
Yang Zhang, Yun-Qiu Ge, Yu-xi Liu(参考訳) キタエフフェルミオン鎖は、位相物理学と量子コンピューティングを研究する上で重要な物理モデルの一つである。 本稿では,超伝導量子ビット回路の連鎖による1次元キタエフ模型のシミュレーション手法を提案する。 さらに,キタエフ模型のトポロジカル量子状態に対する環境効果についても検討した。 各キュービットを囲む独立した環境に加えて、隣接する2つのキュービットが共有する共通環境についても考察する。 そのような共通環境は、2つのキュービット間の有効非エルミート散逸結合をもたらす。 理論的解析と数値計算により,共通環境は独立環境とは対照的に,位相状態の特性を著しく変化させることができることを示す。 さらに、鎖の端における散逸結合は、他の位置よりも系のトポロジ的特性をより容易にチューニングすることができる。 本研究は、超伝導量子ビット回路を用いた位相的量子相転移と様々な環境効果を探求する新しい方法を開くかもしれない。

Kitaev fermionic chain is one of the important physical models for studying topological physics and quantum computing. We here propose an approach to simulate the one-dimensional Kitaev model by a chain of superconducting qubit circuits. Furthermore, we study the environmental effect on topological quantum states of the Kitaev model. Besides the independent environment surrounding each qubit, we also consider the common environment shared by two nearest neighboring qubits. Such common environment can result in an effective non-Hermitian dissipative coupling between two qubits. Through theoretical analysis and numerical calculations, we show that the common environment can significantly change properties of topological states in contrast to the independent environment. In addition, we also find that dissipative couplings at the edges of the chain can be used to more easily tune the topological properties of the system than those at other positions. Our study may open a new way to explore topological quantum phase transition and various environmental effects on topological physics using superconducting qubit circuits.
翻訳日:2023-02-09 17:32:58 公開日:2023-02-08
# TetCNN: Tetrahedral Mesh上での畳み込みニューラルネットワーク

TetCNN: Convolutional Neural Networks on Tetrahedral Meshes ( http://arxiv.org/abs/2302.03830v1 )

ライセンス: Link先を確認
Mohammad Farazi, Zhangsihao Yang, Wenhui Zhu, Peijie Qiu, and Yalin Wang(参考訳) 畳み込みニューラルネットワーク(CNN)は、画像、ビデオ、グラフ、三角形メッシュで広く研究されている。 しかし、四面体メッシュ上ではほとんど研究されていない。 脳画像解析などのアプリケーションでボリュームメッシュを使用するメリットを考慮し,四面体メッシュ構造のための新しい解釈可能なグラフcnnフレームワークを提案する。 チェビーネットにインスパイアされた我々のモデルは、3次元多様体のリーマン計量情報を欠く一般的なグラフラプラシアン上のフィルタを定義するために体積論的ラプラス・ベルトラミ作用素(LBO)を利用する。 プール適応のために,lboに基づくgraclusアルゴリズムの局所化最小カットのための新しい目的関数を導入する。 各プールの後にサンプルメッシュ上でlboを推定するためにクラスタリング割当行列を用いた分割的定数近似スキームを用いる。 最後に,四面体メッシュに対する勾配重み付けクラスアクティベーションマッピングアルゴリズムを適用し,得られたヒートマップを用いて,発見領域をバイオマーカーとして可視化する。 アルツハイマー病患者の皮質四面体メッシュに対するモデルの有効性を実証し,皮質厚と神経変性疾患の進行との関連性を示す科学的証拠を示した。 以上の結果から,lbo系畳み込み層の優越性を示し,従来使用されていたユニタリ皮質厚,グラフラプラシアン,ポイントクラウド表現のプール化を適応させた。

Convolutional neural networks (CNN) have been broadly studied on images, videos, graphs, and triangular meshes. However, it has seldom been studied on tetrahedral meshes. Given the merits of using volumetric meshes in applications like brain image analysis, we introduce a novel interpretable graph CNN framework for the tetrahedral mesh structure. Inspired by ChebyNet, our model exploits the volumetric Laplace-Beltrami Operator (LBO) to define filters over commonly used graph Laplacian which lacks the Riemannian metric information of 3D manifolds. For pooling adaptation, we introduce new objective functions for localized minimum cuts in the Graclus algorithm based on the LBO. We employ a piece-wise constant approximation scheme that uses the clustering assignment matrix to estimate the LBO on sampled meshes after each pooling. Finally, adapting the Gradient-weighted Class Activation Mapping algorithm for tetrahedral meshes, we use the obtained heatmaps to visualize discovered regions-of-interest as biomarkers. We demonstrate the effectiveness of our model on cortical tetrahedral meshes from patients with Alzheimer's disease, as there is scientific evidence showing the correlation of cortical thickness to neurodegenerative disease progression. Our results show the superiority of our LBO-based convolution layer and adapted pooling over the conventionally used unitary cortical thickness, graph Laplacian, and point cloud representation.
翻訳日:2023-02-09 17:32:41 公開日:2023-02-08
# 変動環境における2レベルシステムの自律的コヒーレンス保護

Autonomous coherence protection of a two-level system in a fluctuating environment ( http://arxiv.org/abs/2302.03827v1 )

ライセンス: Link先を確認
Fernando Quijandr\'ia and Jason Twamley(参考訳) 我々は, [r. finkelstein et al, phys. rev. x 11, 011008 (2021)] によって一般化されたスキームを再検討した。 この方式では、クビットレベルと補助レベルの間に赤と青のデチューニングドライブを同時に適用し、駆動振幅とデチューニングを慎重に選択することで、駆動誘起エネルギーシフトは不均質な静的ドップラー誘起周波数シフトを正確に補償することができる。 我々は、このスキームがより強力であり、また、時間と空間の両方に依存するノイズからキュービットのエネルギーレベルである1つ(あるいはアンサンブル)を保護することができることを実証する。 例えば、多くの物理系に現れる2種類の非マルコフ環境(ガウスノイズと非ゲージノイズ、ランダム電信ノイズ)に対する保護について研究する。 数値シミュレーションにより,変動環境における量子ビットのスピンコヒーレンス時間$t_2^*$の3桁の増大と,その初期ドリフト周波数の再フォーカスを実証した。 このスキームは2つのドライブのみで動作し、時間的および空間的な安定化を同時に行うことができ、量子コンピューティングやセンシングといった多くの量子技術に役立つ高品質に近い量子ビットのコレクションを並列に提供し、より早くフォールトトレラントな量子計算を実現する可能性を秘めている。

We re-examine a scheme generalized by [R. Finkelstein et al, Phys. Rev. X 11, 011008 (2021)], whose original purpose was to remove the effects of static Doppler broadening from an ensemble of non-interacting two-level systems (qubits). This scheme involves the simultaneous application of red and blue detuned drives between a qubit level and an auxiliary level, and by carefully choosing the drive amplitudes and detunings, the drive-induced energy shifts can exactly compensate the inhomogeneous static Doppler-induced frequency shifts - effectively removing the inhomogeneous Doppler broadening. We demonstrate that this scheme is far more powerful and can also protect a single (or even an ensemble), qubit's energy levels from noise which depends on both time and space: the same scheme can greatly reduce the effects of dephasing noise induced by a time-fluctuating environment. As examples we study protection against two types of non-Markovian environments that appear in many physical systems: Gaussian noise and non-Gaussian noise - Random Telegraph Noise. Through numerical simulations we demonstrate the enhancement of the spin coherence time $T_2^*$, of a qubit in a fluctuating environment by three orders of magnitude as well as the refocusing of its initially drifting frequency. This same scheme, using only two drives, can operate on an collection of qubits, providing temporal and spatial stabilization simultaneously and in parallel yielding a collection of high quality near-identical qubits which can be useful for many quantum technologies such as quantum computing and sensing, with the potential to achieve fault tolerant quantum computation much sooner.
翻訳日:2023-02-09 17:32:19 公開日:2023-02-08
# 連系電力系統における変圧器・位相角レギュレータ・伝送線路のデータ駆動保護

Data-driven Protection of Transformers, Phase Angle Regulators, and Transmission Lines in Interconnected Power Systems ( http://arxiv.org/abs/2302.03826v1 )

ライセンス: Link先を確認
Pallav Kumar Bera(参考訳) この論文は、現代の電力グリッドにおける障害検出に対する機械学習(ML)アプローチへの関心と採用の高まりを強調している。 一度障害が発生したら、迅速に特定し、それを除去または絶縁するために予防措置を講じなければならない。 その結果、早期かつ正確に故障を検出し、位置決めし、分類することにより、ダウンタイムやハードウェアの損傷を低減しつつ、安全性及び信頼性を向上させることができる。 電力系統の運用と意思決定を支援するための効果的なデータ処理と分析を行うMLベースのソリューションとツールは、システム状態の認識とデータ可用性の向上によって優位になってきている。 パワートランス、フェーズシフトトランス、フェーズアングルレギュレータ、トランスミッションラインは電力システムにおいて重要なコンポーネントであり、それらの安全性を保証することが主要な課題である。 差動リレーは変圧器を保護するために一般的に使われ、距離リレーは送電線を保護するために使用される。 マグネタイズ・インラッシュ、オーバーエクシテーション、電流変圧器の飽和はトランスフォーマーの保護を困難にする。 さらに、非標準位相シフト、直列コア飽和、ローターン・トゥ・ターン、ターン・トゥ・グラウンド故障電流は位相角調節器に関連する非伝統的な問題である。 対称的なパワースイングと不安定なパワースイングの間の故障は、遠隔中継の誤作動と意図的かつ制御不能な離島を引き起こす可能性がある。 距離リレーはタイプ3の風力発電所に接続された送電線でも誤作動する。 従来の保護技術は、大量のデータの処理と分析の制限、一般化性の制限、非線形システムのモデル化の不可能など、上記の課題に対処するにはもはや不十分である。 これらの差分保護法と距離保護法の制限は、様々な保護課題に対処するためにMLを使用する動機をもたらす。

This dissertation highlights the growing interest in and adoption of machine learning (ML) approaches for fault detection in modern power grids. Once a fault has occurred, it must be identified quickly and preventative steps must be taken to remove or insulate it. As a result, detecting, locating, and classifying faults early and accurately can improve safety and dependability while reducing downtime and hardware damage. ML-based solutions and tools to carry out effective data processing and analysis to aid power system operations and decision-making are becoming preeminent with better system condition awareness and data availability. Power transformers, Phase Shift Transformers or Phase Angle Regulators, and transmission lines are critical components in power systems, and ensuring their safety is a primary issue. Differential relays are commonly employed to protect transformers, whereas distance relays are utilized to protect transmission lines. Magnetizing inrush, overexcitation, and current transformer saturation make transformer protection a challenge. Furthermore, non-standard phase shift, series core saturation, low turn-to-turn, and turn-to-ground fault currents are non-traditional problems associated with Phase Angle Regulators. Faults during symmetrical power swings and unstable power swings may cause mal-operation of distance relays and unintentional and uncontrolled islanding. The distance relays also mal-operate for transmission lines connected to type-3 wind farms. The conventional protection techniques would no longer be adequate to address the above challenges due to limitations in handling and analyzing massive amounts of data, limited generalizability, incapability to model non-linear systems, etc. These limitations of differential and distance protection methods bring forward the motivation of using ML in addressing various protection challenges.
翻訳日:2023-02-09 17:31:47 公開日:2023-02-08
# 条件付き逆境を伴うニューラル・アーティカル・スタイル・トランスファー

Neural Artistic Style Transfer with Conditional Adversaria ( http://arxiv.org/abs/2302.03875v1 )

ライセンス: Link先を確認
P. N. Deelaka(参考訳) 神経芸術スタイル変換(NST)モデルは、有名な画像のスタイルを追加することで、単純な画像の外観を変更することができる。 変換された画像は、それぞれのスタイル画像の同じアーティストによるアートワークと正確には似ていないが、生成された画像が魅力的である。 一般に、訓練されたNSTモデルはスタイルを専門とし、単一のイメージはそのスタイルを表す。 しかし、新しいスタイルでイメージを生成するのは退屈なプロセスであり、完全なモデルトレーニングを含む。 本稿では,画像独立型ニューラルスタイル転送モデルへ一歩前進する2つの手法を提案する。 言い換えれば、トレーニングされたモデルは、任意のコンテンツ、スタイル画像入力ペアの下で意味的に正確な生成画像を生成することができる。 提案する新たな貢献は,モデルアーキテクチャによる循環的一貫性を保証する一方向ganモデルである。

A neural artistic style transformation (NST) model can modify the appearance of a simple image by adding the style of a famous image. Even though the transformed images do not look precisely like artworks by the same artist of the respective style images, the generated images are appealing. Generally, a trained NST model specialises in a style, and a single image represents that style. However, generating an image under a new style is a tedious process, which includes full model training. In this paper, we present two methods that step toward the style image independent neural style transfer model. In other words, the trained model could generate semantically accurate generated image under any content, style image input pair. Our novel contribution is a unidirectional-GAN model that ensures the Cyclic consistency by the model architecture.Furthermore, this leads to much smaller model size and an efficient training and validation phase.
翻訳日:2023-02-09 17:24:49 公開日:2023-02-08
# パーソナライズド予測のための参加システム

Participatory Systems for Personalized Prediction ( http://arxiv.org/abs/2302.03874v1 )

ライセンス: Link先を確認
Hailey James, Chirag Nagpal, Katherine Heller, Berk Ustun(参考訳) マシンラーニングモデルは、保護、機密性、自己報告、あるいは取得コストのかかる情報に基づいてパーソナライズされることが多い。 これらのモデルは、人の情報を使うが、彼らの \emph{consent} を助長したり、知らせたりしない。 個人は、モデルが予測をパーソナライズする必要があるという報告情報や、そもそもパーソナライゼーションの恩恵を受けるかどうかをオプトアウトすることはできない。 本研究では,個人が予測時にパーソナライゼーションにオプトインできる,新たな予測モデルである \emph{participatory systems} を導入する。 本稿では,モデルが分類群属性でパーソナライズされる教師付き学習タスクの参加システムを学ぶためのモデル非依存アルゴリズムを提案する。 臨床予測課題における参加システムに関する包括的実証研究を行い,パーソナライゼーションとインプテーションの共通アプローチと比較した。 以上の結果から,参加型システムは,個人データを報告するグループ全体のパフォーマンスとプライバシを向上させる方法で,同意を促進・通知できることが示されている。

Machine learning models are often personalized based on information that is protected, sensitive, self-reported, or costly to acquire. These models use information about people, but do not facilitate nor inform their \emph{consent}. Individuals cannot opt out of reporting information that a model needs to personalize their predictions, nor tell if they would benefit from personalization in the first place. In this work, we introduce a new family of prediction models, called \emph{participatory systems}, that allow individuals to opt into personalization at prediction time. We present a model-agnostic algorithm to learn participatory systems for supervised learning tasks where models are personalized with categorical group attributes. We conduct a comprehensive empirical study of participatory systems in clinical prediction tasks, comparing them to common approaches for personalization and imputation. Our results demonstrate that participatory systems can facilitate and inform consent in a way that improves performance and privacy across all groups who report personal data.
翻訳日:2023-02-09 17:24:35 公開日:2023-02-08
# 幾何学的知覚に基づく効率的なテキスト認識

Geometric Perception based Efficient Text Recognition ( http://arxiv.org/abs/2302.03873v1 )

ライセンス: Link先を確認
P.N.Deelaka, D.R.Jayakodi, D.Y.Silva(参考訳) 全てのScene Text Recognition (STR)タスクは、テキストローカライゼーション \とテキスト認識を主要なサブタスクとする。 しかし,機器モニタ,画像ベースデータ入力,印刷された文書データ抽出などの固定されたカメラ位置を持つ現実のアプリケーションでは,その基礎となるデータは通常のシーンテキストであることが多い。 したがって、これらのタスクでは、モデルデプロイ容易性、データプライバシ \&モデルの信頼性の観点から、カスタマイズされた効率的なモデルと比較して、汎用的でバルクなモデルの使用には大きな欠点がある。 そこで本研究では,SOTAの性能だけでなく,モデル重みの最小化,推論時間短縮,モデル信頼性の向上などを実現するため,タスク自体に高度に特化しているモデルを開発するための基礎概念,理論,実装,実験結果を紹介する。 テキスト認識よりも人間の知覚を模倣した幾何学的特徴のみを用いて,通常のシーン画像中の数字を識別する新しいディープラーニングアーキテクチャ(GeoTRNet)を導入する。 コードはhttps://github.com/ACRA-FL/GeoTRNetで公開されている。

Every Scene Text Recognition (STR) task consists of text localization \& text recognition as the prominent sub-tasks. However, in real-world applications with fixed camera positions such as equipment monitor reading, image-based data entry, and printed document data extraction, the underlying data tends to be regular scene text. Hence, in these tasks, the use of generic, bulky models comes up with significant disadvantages compared to customized, efficient models in terms of model deployability, data privacy \& model reliability. Therefore, this paper introduces the underlying concepts, theory, implementation, and experiment results to develop models, which are highly specialized for the task itself, to achieve not only the SOTA performance but also to have minimal model weights, shorter inference time, and high model reliability. We introduce a novel deep learning architecture (GeoTRNet), trained to identify digits in a regular scene image, only using the geometrical features present, mimicking human perception over text recognition. The code is publicly available at https://github.com/ACRA-FL/GeoTRNet
翻訳日:2023-02-09 17:24:17 公開日:2023-02-08
# 医用画像分割におけるHausdorff距離低減のための重み付き正規化境界損失

A Weighted Normalized Boundary Loss for Reducing the Hausdorff Distance in Medical Imaging Segmentation ( http://arxiv.org/abs/2302.03868v1 )

ライセンス: Link先を確認
Adrian Celaya, Alejandro Diaz, Alex Balsells, Beatrice Riviere, and David Fuentes(参考訳) 医学画像セグメンテーションでは、dice係数とhausdorffベースのメトリクスは、ディープラーニングモデルの成功の標準尺度である。 しかし、現代の医療画像分割の損失関数は、訓練中のサイス係数や類似の領域ベースメトリクスのみを考慮することが多い。 その結果、そのような損失関数で訓練されたセグメンテーションアーキテクチャは、サイス係数の精度は高いが、ハウスドルフベースのメトリクスの精度は低いというリスクを負う。 Hausdorffベースのメトリクスの低い精度は、そのようなベンチマークが不可欠である腫瘍セグメンテーションのようなアプリケーションで問題となる可能性がある。 例えば、大きなハウスドルフ誤差を伴う高Diceスコアは、予測が小さな腫瘍を検出できないことを示している。 重み付き正規化境界損失は,現在の手法よりも望ましい数値特性を持ち,クラス不均衡の重み付け項を持つハウスドルフベースメトリクスを最小化する新しい損失関数である。 我々の損失関数は、標準的な3D U-Netと最先端のnnUNetアーキテクチャを使用してBraTSデータセットでテストした場合、他の損失よりも優れています。 これらの結果から,新たな損失関数によるセグメント化精度の向上が期待できる。

Within medical imaging segmentation, the Dice coefficient and Hausdorff-based metrics are standard measures of success for deep learning models. However, modern loss functions for medical image segmentation often only consider the Dice coefficient or similar region-based metrics during training. As a result, segmentation architectures trained over such loss functions run the risk of achieving high accuracy for the Dice coefficient but low accuracy for Hausdorff-based metrics. Low accuracy on Hausdorff-based metrics can be problematic for applications such as tumor segmentation, where such benchmarks are crucial. For example, high Dice scores accompanied by significant Hausdorff errors could indicate that the predictions fail to detect small tumors. We propose the Weighted Normalized Boundary Loss, a novel loss function to minimize Hausdorff-based metrics with more desirable numerical properties than current methods and with weighting terms for class imbalance. Our loss function outperforms other losses when tested on the BraTS dataset using a standard 3D U-Net and the state-of-the-art nnUNet architectures. These results suggest we can improve segmentation accuracy with our novel loss function.
翻訳日:2023-02-09 17:24:01 公開日:2023-02-08
# CRAFT:メモリベースディープニューラルネットワークの臨界性を考慮した耐故障性向上技術

CRAFT: Criticality-Aware Fault-Tolerance Enhancement Techniques for Emerging Memories-Based Deep Neural Networks ( http://arxiv.org/abs/2302.03862v1 )

ライセンス: Link先を確認
Thai-Hoang Nguyen, Muhammad Imran, Jaehyuk Choi and Joon-Sung Yang(参考訳) ディープニューラルネットワーク(DNN)は、コンピュータビジョンと自然言語処理アプリケーションにとって最も効果的なプログラミングパラダイムとして登場した。 DNNの急速な開発に伴い、エッジデバイスにDNNベースのアプリケーションをデプロイするための効率的なハードウェアアーキテクチャが広く研究されている。 新しい非揮発性メモリ(NVM)は、スケーラビリティ、非揮発性、読み出し性能が向上し、DNNのデプロイに有望な候補であることが判明した。 しかし、その約束にもかかわらず、新しいNVMは、チップの収量/メモリ寿命を減らし、DNNの精度に深刻な影響を及ぼす、故障などの信頼性の問題に悩まされることが多い。 スタッキアットセルは読み上げられるが再プログラムされないため、nvmのスタッキアット障害は、格納するデータによってエラーを生じさせる可能性がある。 故障によるエラー回数を減らすことにより、DNNベースのシステムの信頼性を向上させることができる。 本稿では,NVMベースのDNNの信頼性を高めるために,CRAFT(Criticality-Aware Fault-Tolerance Enhancement Techniques)を提案する。 データブロックリマッピング技術は,DNNの精度への影響を低減するために用いられる。 さらに,様々なDNNに対してビットレベル臨界度解析を行うことで,ネットワークパラメータの臨界ビット位置が精度に大きく影響することを明らかにする。 そこで本研究では,臨界ビットにより多くのエラー(故障のため)が存在する場合に,臨界ビット位置と非臨界ビットの位置とを効果的に交換する符号化手法を提案する。

Deep Neural Networks (DNNs) have emerged as the most effective programming paradigm for computer vision and natural language processing applications. With the rapid development of DNNs, efficient hardware architectures for deploying DNN-based applications on edge devices have been extensively studied. Emerging Non-Volatile Memories (NVMs), with their better scalability, non-volatility and good read performance, are found to be promising candidates for deploying DNNs. However, despite the promise, emerging NVMs often suffer from reliability issues such as stuck-at faults, which decrease the chip yield/memory lifetime and severely impact the accuracy of DNNs. A stuck-at cell can be read but not reprogrammed, thus, stuck-at faults in NVMs may or may not result in errors depending on the data to be stored. By reducing the number of errors caused by stuck-at faults, the reliability of a DNN-based system can be enhanced. This paper proposes CRAFT, i.e., Criticality-Aware Fault-Tolerance Enhancement Techniques to enhance the reliability of NVM-based DNNs in the presence of stuck-at faults. A data block remapping technique is used to reduce the impact of stuck-at faults on DNNs accuracy. Additionally, by performing bit-level criticality analysis on various DNNs, the critical-bit positions in network parameters that can significantly impact the accuracy are identified. Based on this analysis, we propose an encoding method which effectively swaps the critical bit positions with that of non-critical bits when more errors (due to stuck-at faults) are present in the critical bits.
翻訳日:2023-02-09 17:23:43 公開日:2023-02-08
# SwinCross:PET/CT画像における頭頸部腫瘍切除用クロスモーダルスウィントランス

SwinCross: Cross-modal Swin Transformer for Head-and-Neck Tumor Segmentation in PET/CT Images ( http://arxiv.org/abs/2302.03861v1 )

ライセンス: Link先を確認
Gary Y. Li, Junyu Chen, Se-In Jang, Kuang Gong, and Quanzheng Li(参考訳) 放射線療法とセトキシマブを併用した放射線療法は, 頭頸部癌に対する標準治療である。 頭頸部腫瘍(H&N)の分節は放射線治療計画に必須であるが,時間を要する。 近年、深層畳み込みニューラルネットワークは、自動画像セグメンテーションのデファクトスタンダードとなっている。 しかし,DCNNにおける視野拡大に伴うコストのかかる計算コストのため,長距離依存性をモデル化する能力は依然として限られており,背景コンテキストが長距離にまたがるオブジェクトに対して,最適なセグメンテーション性能が得られる。 一方,トランスフォーマーモデルは,医用画像上で行う複数の意味的セグメンテーションタスクにおいて,このような長距離情報をキャプチャする優れた性能を示している。 Inspired by the recent success of Vision Transformers and advances in multi-modal image analysis, we propose a novel segmentation model, debuted, Cross-Modal Swin Transformer (SwinCross), with cross-modal attention (CMA) module to incorporate cross-modal feature extraction at multiple resolutions.To validate the effectiveness of the proposed method, we performed experiments on the HECKTOR 2021 challenge dataset and compared it with the nnU-Net (the backbone of the top-5 methods in HECKTOR 2021) and other state-of-the-art transformer-based methods such as UNETR, and Swin UNETR. 提案手法は, 頭頸部腫瘍の分節作業において, cma モジュールがpet と ct 間の相補的特徴表現をよりよくとらえる能力により, 比較手法を上回らせることを実験的に示している。

Radiotherapy (RT) combined with cetuximab is the standard treatment for patients with inoperable head and neck cancers. Segmentation of head and neck (H&N) tumors is a prerequisite for radiotherapy planning but a time-consuming process. In recent years, deep convolutional neural networks have become the de facto standard for automated image segmentation. However, due to the expensive computational cost associated with enlarging the field of view in DCNNs, their ability to model long-range dependency is still limited, and this can result in sub-optimal segmentation performance for objects with background context spanning over long distances. On the other hand, Transformer models have demonstrated excellent capabilities in capturing such long-range information in several semantic segmentation tasks performed on medical images. Inspired by the recent success of Vision Transformers and advances in multi-modal image analysis, we propose a novel segmentation model, debuted, Cross-Modal Swin Transformer (SwinCross), with cross-modal attention (CMA) module to incorporate cross-modal feature extraction at multiple resolutions.To validate the effectiveness of the proposed method, we performed experiments on the HECKTOR 2021 challenge dataset and compared it with the nnU-Net (the backbone of the top-5 methods in HECKTOR 2021) and other state-of-the-art transformer-based methods such as UNETR, and Swin UNETR. The proposed method is experimentally shown to outperform these comparing methods thanks to the ability of the CMA module to capture better inter-modality complimentary feature representations between PET and CT, for the task of head-and-neck tumor segmentation.
翻訳日:2023-02-09 17:23:17 公開日:2023-02-08
# EVEN: 逆夜間における単眼深度推定のためのイベントベースフレームワーク

EVEN: An Event-Based Framework for Monocular Depth Estimation at Adverse Night Conditions ( http://arxiv.org/abs/2302.03860v1 )

ライセンス: Link先を確認
Peilun Shi, Jiachuan Peng, Jianing Qiu, Xinwei Ju, Frank Po Wen Lo, and Benny Lo(参考訳) 悪条件下での正確な深度推定は、自律運転や救助ロボットなど、実用的な影響と応用をもたらす。 本研究では,RGBとイベントの両モードで収集したデータを用いて,悪天候,光,異なる道路条件が存在する夜間の単眼深度推定について検討した。 イベントカメラは、高ダイナミックレンジ(hdr)によって強度の変化をよりよく捉えることができ、特にシーン内で光の量が制限された夜の状況に適用するのに適している。 イベントデータは、従来のrgbカメラがキャプチャできないという視覚知覚を保持できるが、イベントデータのテクスチャや色情報の欠如は、深度を正確に推定する可能性を妨げる。 この問題に対処するために、RGBソースの低照度化を統合し、RGBとイベントデータの相補的な利点を利用するイベントビジョンベースのフレームワークを提案する。 ペア化されたRGBとイベントストリーム、地上の真理深度マップを含むデータセットが構築されている。 総合的な実験を行い、異なる悪天候の組み合わせがフレームワークの性能に及ぼす影響についても検討した。 その結果,提案フレームワークは6つのベースラインよりも,夜間に単眼深度を推定できることがわかった。

Accurate depth estimation under adverse night conditions has practical impact and applications, such as on autonomous driving and rescue robots. In this work, we studied monocular depth estimation at night time in which various adverse weather, light, and different road conditions exist, with data captured in both RGB and event modalities. Event camera can better capture intensity changes by virtue of its high dynamic range (HDR), which is particularly suitable to be applied at adverse night conditions in which the amount of light is limited in the scene. Although event data can retain visual perception that conventional RGB camera may fail to capture, the lack of texture and color information of event data hinders its applicability to accurately estimate depth alone. To tackle this problem, we propose an event-vision based framework that integrates low-light enhancement for the RGB source, and exploits the complementary merits of RGB and event data. A dataset that includes paired RGB and event streams, and ground truth depth maps has been constructed. Comprehensive experiments have been conducted, and the impact of different adverse weather combinations on the performance of framework has also been investigated. The results have shown that our proposed framework can better estimate monocular depth at adverse nights than six baselines.
翻訳日:2023-02-09 17:22:52 公開日:2023-02-08
# DeepVATS: 時系列のためのディープビジュアル分析

DeepVATS: Deep Visual Analytics for Time Series ( http://arxiv.org/abs/2302.03858v1 )

ライセンス: Link先を確認
Victor Rodriguez-Fernandez, David Montalvo, Francesco Piccialli, Grzegorz J. Nalepa, David Camacho(参考訳) ディープ・ビジュアル・アナリティクス(DVA)の分野は最近、ディープラーニング技術によってサポートされているビジュアル・インタラクティブ・システム(Visual Interactive Systems)の開発から生まれた。 本稿では,DVAのフィールドを時系列データに組み込むオープンソースツールであるDeepVATSについて述べる。 DeepVATSは自己監督的な方法で、時系列のパッチを再構築するマスク付き時系列自動エンコーダを訓練し、そのモデルの埋め込みに含まれる知識をインタラクティブなプロットに投影する。 このツールは合成データセットと実際のデータセットの両方でテストされており、コードはhttps://github.com/vrodriguezf/deepvatsで公開されている。

The field of Deep Visual Analytics (DVA) has recently arisen from the idea of developing Visual Interactive Systems supported by deep learning techniques, in order to provide them with large-scale data processing capabilities and to unify their implementation across different data modalities and domains of application. In this paper we present DeepVATS, an open-source tool that brings the field of DVA into time series data. DeepVATS trains, in a self-supervised way, a masked time series autoencoder that reconstructs patches of a time series, and projects the knowledge contained in the embeddings of that model in an interactive plot, from which time series patterns and anomalies emerge and can be easily spotted. The tool has been tested on both synthetic and real datasets, and its code is publicly available on https://github.com/vrodriguezf/deepvats
翻訳日:2023-02-09 17:22:30 公開日:2023-02-08
# ロバストネスを考慮したコアセット選択による効率よい対人コントラスト学習

Efficient Adversarial Contrastive Learning via Robustness-Aware Coreset Selection ( http://arxiv.org/abs/2302.03857v1 )

ライセンス: Link先を確認
Xilie Xu, Jingfeng Zhang, Feng Liu, Masashi Sugiyama, Mohan Kankanhalli(参考訳) ACL(Adversarial contrastive Learning)は、高価なデータアノテーションを必要としないが、敵攻撃に耐える堅牢な表現を出力し、幅広い下流タスクに一般化する。 しかし、ACLは、すべてのトレーニングデータの逆の変種を生成するために、膨大な実行時間を必要とします。 ACLを高速化するために,ロバストネス対応コアセット選択法(RCS)を提案する。 RCSはラベル情報を必要とせず、自然なデータとその仮想逆数との表現の距離である表現の発散を最小限に抑える情報的サブセットを検索する。 すべての可能な部分集合をトラバースするRCSのバニラ解は計算的に禁じられている。 そこで, 理論上はrcsをサブモジュラー最大化のサロゲート問題に変換し, グリーディ探索は元の問題に対して最適性を保証する効率的な解である。 実証的な結果から,RCSはロバスト性や標準転送性を著しく損なうことなく,大きなマージンでACLを高速化できる可能性が示唆された。 特に,我々の知る限りでは,大規模な ImageNet-1K データセット上で ACL を効率的に実行し,RCS による効率的なロバスト表現を実現するのは初めてである。

Adversarial contrastive learning (ACL) does not require expensive data annotations but outputs a robust representation that withstands adversarial attacks and also generalizes to a wide range of downstream tasks. However, ACL needs tremendous running time to generate the adversarial variants of all training data, which limits its scalability to large datasets. To speed up ACL, this paper proposes a robustness-aware coreset selection (RCS) method. RCS does not require label information and searches for an informative subset that minimizes a representational divergence, which is the distance of the representation between natural data and their virtual adversarial variants. The vanilla solution of RCS via traversing all possible subsets is computationally prohibitive. Therefore, we theoretically transform RCS into a surrogate problem of submodular maximization, of which the greedy search is an efficient solution with an optimality guarantee for the original problem. Empirically, our comprehensive results corroborate that RCS can speed up ACL by a large margin without significantly hurting the robustness and standard transferability. Notably, to the best of our knowledge, we are the first to conduct ACL efficiently on the large-scale ImageNet-1K dataset to obtain an effective robust representation via RCS.
翻訳日:2023-02-09 17:22:13 公開日:2023-02-08
# EQuaTE: HCIベースの視覚フィードバックによる動的解析のための効率的な量子トレインエンジン

EQuaTE: Efficient Quantum Train Engine for Dynamic Analysis via HCI-based Visual Feedback ( http://arxiv.org/abs/2302.03853v1 )

ライセンス: Link先を確認
Soohyun Park, Won Joon Yun, Chanyoung Park, Youn Kyu Lee, Soyi Jung, Hao Feng, and Joongheon Kim(参考訳) 本稿では、量子ニューラルネットワーク(QNN)が局所的なミニマ(QNNではバレンプラトーと呼ばれる)に陥るかどうかを確認するために勾配分散をプロットする量子機械学習ソフトウェアのための新しいツールである効率的な量子トレインエンジン(EQuaTE)を提案する。 これは、未決定確率量子ビット状態による動的解析によって実現できる。 さらに、当社のEQuaTEは、ソフトウェア技術者がビジュアライゼーションによって不毛の高原を認識できるため、HCIベースの視覚フィードバックが可能であり、また、この情報に基づいてQNNを修正できる。

This paper proposes an efficient quantum train engine (EQuaTE), a novel tool for quantum machine learning software which plots gradient variances to check whether our quantum neural network (QNN) falls into local minima (called barren plateaus in QNN). This can be realized via dynamic analysis due to undetermined probabilistic qubit states. Furthermore, our EQuaTE is capable for HCI-based visual feedback because software engineers can recognize barren plateaus via visualization; and also modify QNN based on this information.
翻訳日:2023-02-09 17:21:52 公開日:2023-02-08
# 拡散モデルを用いた平文物語からのコヒーレントストーリーブックのゼロショット生成

Zero-shot Generation of Coherent Storybook from Plain Text Story using Diffusion Models ( http://arxiv.org/abs/2302.03900v1 )

ライセンス: Link先を確認
Hyeonho Jeong, Gihyun Kwon, Jong Chul Ye(参考訳) 近年の大規模テキストから画像へのモデルの進歩は、自然言語による画像生成を導く新たな可能性を開いた。 しかし,従来の文献は個々の画像の生成に重点を置いてきたが,ストーリーテリングなどの現実的な応用の要求を満たすために,画像列内のコヒーレンシーを確保するためには,これらのモデルの有効性を考えることが不可欠である。 そこで,本稿では,ストーリーの平易なテキストからコヒーレントなストーリーブックを生成するための新しいニューラルパイプラインを提案する。 具体的には,事前学習した大規模言語モデルとテキスト誘導潜在拡散モデルを組み合わせてコヒーレント画像を生成する。 従来のストーリー合成フレームワークは、通常、コヒーレンシーを維持するために高価な画像キャプチャペアでトレーニングされた大規模なテキストから画像へのモデルを必要とするが、私たちは単純なテキスト反転技術と、コヒーレントなストーリーブックのゼロショット生成を可能にする検出器ベースのセマンティック画像編集技術を用いる。 実験の結果,提案手法は最先端の画像編集ベースラインよりも優れていた。

Recent advancements in large scale text-to-image models have opened new possibilities for guiding the creation of images through human-devised natural language. However, while prior literature has primarily focused on the generation of individual images, it is essential to consider the capability of these models to ensure coherency within a sequence of images to fulfill the demands of real-world applications such as storytelling. To address this, here we present a novel neural pipeline for generating a coherent storybook from the plain text of a story. Specifically, we leverage a combination of a pre-trained Large Language Model and a text-guided Latent Diffusion Model to generate coherent images. While previous story synthesis frameworks typically require a large-scale text-to-image model trained on expensive image-caption pairs to maintain the coherency, we employ simple textual inversion techniques along with detector-based semantic image editing which allows zero-shot generation of the coherent storybook. Experimental results show that our proposed method outperforms state-of-the-art image editing baselines.
翻訳日:2023-02-09 17:16:40 公開日:2023-02-08
# 自動学習:自然言語生成のための2つの事前学習モデルの逆処理

Auto-Learning: An Adversarial Process of Two Pre-trained Models for Natural Language Generation ( http://arxiv.org/abs/2302.03896v1 )

ライセンス: Link先を確認
Zhengqing Yuan, Yuelin Lu, Chao Zhang, Huiwen Xue(参考訳) 事前訓練されたモデルは、自然言語理解からコンピュータビジョン、自然言語生成まで、近年多くの分野で使われている。 しかし、これらの自然言語生成モデルの性能は、モデルの大きさとデータセットのサイズに過度に依存している。 より大きな言語モデルはいくつかの点で優れているが、最新の知識を学ぶことはできず、再学習が比較的困難である。 本稿では,自動学習と呼ばれる新しい逆プロセス学習手法について述べる。 これにより、追加のデータセットを使わずに、自然言語生成モデルのパフォーマンスを向上させることができる。 自動学習には2つのモデルがある。 $g$はテキスト生成モデルであり、$d$はgによって生成されたデータが正当かどうかをテストする。 まず、細調整されたD$モデルは、プロセスの前に脳の知識基盤として使用される。 次に$G$モデルによって生成されたテキストを$D$の入力として使用して、テキストが正当かどうかを判断する。 最後に、$D$の出力に応じて$G$を微調整する。 この敵対的プロセスは、事前知識を通じて脳の自己エスカレーションのようなものです。 この敵対的なシステムが何か新しいことを学びたい場合、単に$D$モデルに精通するだけです。 我々のアプローチは、全てのトランスフォーマークラスの自己回帰言語モデリングに適用する。 結果は、文法的なテキスト生成やテキスト理解タスクのパフォーマンス向上など、既存の実験的なタスクに適しています。

Pre-trained models have been used in many fields in recent years, ranging from natural language understanding to computer vision and natural language generation. However, the performance of these natural language generation models is overly dependent on the scale of the model and the size of the dataset. While the larger language model is excellent in some respects, it cannot learn up-to-date knowledge and is relatively difficult to relearn. In this paper, a new adversarial process learning method called Auto-Learning. This can improve the performance of any natural language generation model without the help of additional datasets. Auto-Learning includes two models: $G$ is a text generation model and $D$ can test whether the data generated by G is legitimate. Firstly, the fine-tuned $D$ model is used as the brain's knowledge base before the process. Then the text generated by the $G$ model is used as the input of $D$ to determine whether the text is legitimate or not. Finally, $G$ is fine-tuned according to the output of $D$. This adversarial process is like a self-escalation of the brain through some a priori knowledge. When this adversarial system wants to learn something new, simply fine-tune the $D$ model. Our approach applies to Autoregressive Language Modeling for all Transformer classes. The results are good in existing experimental tasks, including more grammatical text generation and better performance on some text comprehension tasks.
翻訳日:2023-02-09 17:16:20 公開日:2023-02-08
# ブレーンローカライズスカラーフィールドを用いたAdS/BCFT

AdS/BCFT with Brane-Localized Scalar Field ( http://arxiv.org/abs/2302.03895v1 )

ライセンス: Link先を確認
Hiroki Kanda, Masahide Sato, Yu-ki Suzuki, Tadashi Takayanagi and Zixia Wei(参考訳) 本稿では,境界を持つ多様体上のcftの新たな重力双対のクラスとして,ブレーン上に局所化されたスカラー場を持つ広告において,世界の終端(eow)ブレーンのダイナミクスについて検討する。 これにより境界 rg フローに双対な明示解を構成できる。 また,スカラーフィールドがなければ不可能な,円錐状あるいは円錐状形状のEOWブレーンも多数得られる。 また, 温度とスカラーポテンシャルの関数として閉じ込め/分解様遷移が認められるスカラーポテンシャルによる2つの異なる境界条件を持つストリップ上に, CFTの重力双対も提示する。 最後に, この相転移は, wick回転による測定誘起相転移と密接に関係していることを指摘した。

In this paper, we study the dynamics of end-of-the-world (EOW) branes in AdS with scalar fields localized on the branes as a new class of gravity duals of CFTs on manifolds with boundaries. This allows us to construct explicit solutions dual to boundary RG flows. We also obtain a variety of annulus-like or cone-like shaped EOW branes, which are not possible without the scalar field. We also present a gravity dual of a CFT on a strip with two different boundary conditions due to the scalar potential, where we find the confinement/deconfinement-like transition as a function of temperature and the scalar potential. Finally, we point out that this phase transition is closely related to the measurement-induced phase transition, via a Wick rotation.
翻訳日:2023-02-09 17:16:00 公開日:2023-02-08
# 有限部分積分によるスティルチェス級数から大域的構造への継続

Continuation of the Stieltjes Series to the Large Regime by Finite-part Integration ( http://arxiv.org/abs/2302.03891v1 )

ライセンス: Link先を確認
Christian D. Tica and Eric A. Galapon(参考訳) 我々は,スティルチェス積分の強漸近展開とその一般化 [galapon e.a proc.r.soc a 473, 20160567(2017)] を用いた新しい収束展開を用いて,すべての漸近展開に付随するスティルチェスの発散級数をまとめた。 新たな展開は、我々がアダマールの有限部分積分として扱った発散する負のパワーモーメントを利用する。 その結果、クォート、セクシュアルアンハーモニック振動子、および$\mathcal{PT}$対称立方振動子の基底状態エネルギーと、発散する弱い結合型摂動系列から構築され、既知のスペクトルの前方強結合挙動を組み込んだ単一の膨張による全ての摂動状態のファンネルポテンシャルを計算できた。

We devise a prescription to utilize a novel convergent expansion in the strong-asymptotic regime for the Stieltjes integral and its generalizations [Galapon E.A Proc.R.Soc A 473, 20160567(2017)] to sum the associated divergent series of Stieltjes across all asymptotic regimes. The novel expansion makes use of the divergent negative-power moments which we treated as Hadamard's finite part integrals. The result allowed us to compute the ground-state energy of the quartic, sextic anharmonic oscillators as well as the $\mathcal{PT}$ symmetric cubic oscillator, and the funnel potential across all perturbation regimes from a single expansion that is built from the divergent weak-coupling perturbation series and incorporates the known leading-order strong-coupling behavior of the spectra.
翻訳日:2023-02-09 17:15:45 公開日:2023-02-08
# 任意の関数のフーリエ近似をロードするための線形深さ量子回路

Linear-depth quantum circuits for loading Fourier approximations of arbitrary functions ( http://arxiv.org/abs/2302.03888v1 )

ライセンス: Link先を確認
Mudassir Moosa, Thomas W. Watts, Yiyou Chen, Abhijat Sarma, Peter L. McMahon(参考訳) 関数を高い忠実度で量子コンピュータに効率的にロードする能力は、多くの量子アルゴリズムにとって不可欠である。 線形深度量子回路を用いて多次元フーリエ系列を正確にエンコードする量子状態を作成するためのフーリエ級数ローダ(FSL)法を提案する。 FSL法は、$D$次元フーリエ級数で指定された$D$次元関数の$$Dn}$ポイント均一離散化を符号化する$Dn$)量子状態を作成する。 自由パラメータ $m < n$ は関数を表すために使われるフーリエ係数 $2^{d(m+1)}$ の数を決定する。 FSL法は、最大で2(n-2)+\lceil \log_{2}(n-m) \rceil + 2^{D(m+1)+2} -2D(m+1)$という深さの量子回路を用いており、これはフーリエ係数の数で線型であり、ロード関数の離散化が指数的に多くの(2^{Dn}$)ポイントを超越しているにもかかわらず、キュービット(Dn$)の数で線型である。 与えられたフーリエ級数に対するFSL回路を決定するために,ランタイム$O(2^{3D(m+1)})$の古典的コンパイルアルゴリズムを提案する。 FSL法は、有限項のフーリエ級数によってよく近似される複素数値関数の高精度なロードを可能にする。 ノイズレス量子回路シミュレーションの結果を,FSL法が連続1D関数をロードする能力,不連続1D関数をそれぞれ10〜6$未満の20量子ビット,10〜3$未満の不連続1D関数に記述した。 また, 量子量子コンピュータにおけるfsl法の実用性を示すために, 量子量子コンピュータ上で行った実験を提示することにより, 3量子ビット上での複素数値関数の忠実度が 95\%$ 以上の複素数値関数と, 古典的フィデリティが $\approx 99\%$ の6量子ビットの様々な 1d 実数値関数, 古典的忠実度が $\approx 94\%$ の 10 量子ビット上の 2d 関数と, 古典的忠実度が $\approx 94\%$ の 2d 関数にロードした。

The ability to efficiently load functions on quantum computers with high fidelity is essential for many quantum algorithms. We introduce the Fourier Series Loader (FSL) method for preparing quantum states that exactly encode multi-dimensional Fourier series using linear-depth quantum circuits. The FSL method prepares a ($Dn$)-qubit state encoding the $2^{Dn}$-point uniform discretization of a $D$-dimensional function specified by a $D$-dimensional Fourier series. A free parameter $m < n$ determines the number of Fourier coefficients, $2^{D(m+1)}$, used to represent the function. The FSL method uses a quantum circuit of depth at most $2(n-2)+\lceil \log_{2}(n-m) \rceil + 2^{D(m+1)+2} -2D(m+1)$, which is linear in the number of Fourier coefficients, and linear in the number of qubits ($Dn$) despite the fact that the loaded function's discretization is over exponentially many ($2^{Dn}$) points. We present a classical compilation algorithm with runtime $O(2^{3D(m+1)})$ to determine the FSL circuit for a given Fourier series. The FSL method allows for the highly accurate loading of complex-valued functions that are well-approximated by a Fourier series with finitely many terms. We report results from noiseless quantum circuit simulations, illustrating the capability of the FSL method to load various continuous 1D functions, and a discontinuous 1D function, on 20 qubits with infidelities of less than $10^{-6}$ and $10^{-3}$, respectively. We also demonstrate the practicality of the FSL method for near-term quantum computers by presenting experiments performed on the Quantinuum H$1$-$1$ and H$1$-$2$ trapped-ion quantum computers: we loaded a complex-valued function on 3 qubits with a fidelity of over $95\%$, as well as various 1D real-valued functions on up to 6 qubits with classical fidelities $\approx 99\%$, and a 2D function on 10 qubits with a classical fidelity $\approx 94\%$.
翻訳日:2023-02-09 17:15:27 公開日:2023-02-08
# テンソル分解におけるほぼ最適コア形状

Approximately Optimal Core Shapes for Tensor Decompositions ( http://arxiv.org/abs/2302.03886v1 )

ライセンス: Link先を確認
Mehrdad Ghadiri, Matthew Fahrbach, Gang Fu, Vahab Mirrokni(参考訳) この研究は、サイズ制約タッカー分解に対する最適コアテンソル形状(マルチ線形階数とも呼ばれる)の組合せ最適化問題を研究する。 我々は,高次特異値への接続による再構成誤差の証明可能な近似保証付きアルゴリズムを提案する。 具体的には,npハードであることが証明された新しいタッカーパッキング問題を導入し,マトロイド制約付き2次元ナップサック問題への還元に基づく多項式時間近似スキームを与える。 また、この手法をテンソルネットワーク分解木に一般化する。 我々は整数計画解法を用いてアルゴリズムを実装し、その解法品質が各ステップで真のタッカー分解損失を使い、最大1000倍高速に動作するグリージーアルゴリズムと競合する(時としてより優れている)ことを示す。

This work studies the combinatorial optimization problem of finding an optimal core tensor shape, also called multilinear rank, for a size-constrained Tucker decomposition. We give an algorithm with provable approximation guarantees for its reconstruction error via connections to higher-order singular values. Specifically, we introduce a novel Tucker packing problem, which we prove is NP-hard, and give a polynomial-time approximation scheme based on a reduction to the 2-dimensional knapsack problem with a matroid constraint. We also generalize our techniques to tree tensor network decompositions. We implement our algorithm using an integer programming solver, and show that its solution quality is competitive with (and sometimes better than) the greedy algorithm that uses the true Tucker decomposition loss at each step, while also running up to 1000x faster.
翻訳日:2023-02-09 17:14:35 公開日:2023-02-08
# 遠隔患者モニタリングのための臨床用警報信号の低減方法の分類 : 批判的レビュー

Classification of Methods to Reduce Clinical Alarm Signals for Remote Patient Monitoring: A Critical Review ( http://arxiv.org/abs/2302.03885v1 )

ライセンス: Link先を確認
Teena Arora, Venki Balasubramanian, Andrew Stranieri, Shenhan Mai, Rajkumar Buyya, Sardar Islam(参考訳) 遠隔患者モニタリング(rpm)は、インテリジェントアラーム信号の自動監視と収集によって臨床作業量を削減する、新たな技術パラダイムである。 RPMデバイスで使用される高感度でインテリジェントなデータ処理アルゴリズムは、しばしば偽陽性アラームを発生させ、アラーム疲労を引き起こす。 本研究の目的は、これらの誤報の原因を特定するために既存の文献を批判的にレビューし、これらの原因を取り除くために文献で使用される様々な介入を分類することである。 これはカタログとして機能し、誤警報低減アルゴリズムの設計に役立つ。 本研究では, 臨床用アラーム信号生成装置の開発を段階的に進めるアプローチが提案されている。 第2に, RPM アプリケーションにおける偽陽性アラームの原因を文献から分析した。 第3に, 臨床知識, 生理データ, 医療センサ装置, 臨床環境の4つの主要なアプローチに基づいて, 文献における様々な介入について批判的なレビューを行った。 ペンタゴン法を施行することで,実用的な臨床診断戦略が開発できる。 このアプローチの第1フェーズでは、多数の偽陽性警報の様々な原因を特定することを強調する。 今後の研究は,データマイニングを用いた誤警報低減手法の開発に焦点をあてる。

Remote Patient Monitoring (RPM) is an emerging technology paradigm that helps reduce clinician workload by automated monitoring and raising intelligent alarm signals. High sensitivity and intelligent data-processing algorithms used in RPM devices result in frequent false-positive alarms, resulting in alarm fatigue. This study aims to critically review the existing literature to identify the causes of these false-positive alarms and categorize the various interventions used in the literature to eliminate these causes. That act as a catalog and helps in false alarm reduction algorithm design. A step-by-step approach to building an effective alarm signal generator for clinical use has been proposed in this work. Second, the possible causes of false-positive alarms amongst RPM applications were analyzed from the literature. Third, a critical review has been done of the various interventions used in the literature depending on causes and classification based on four major approaches: clinical knowledge, physiological data, medical sensor devices, and clinical environments. A practical clinical alarm strategy could be developed by following our pentagon approach. The first phase of this approach emphasizes identifying the various causes for the high number of false-positive alarms. Future research will focus on developing a false alarm reduction method using data mining.
翻訳日:2023-02-09 17:14:20 公開日:2023-02-08
# DIFF2:非凸分散学習のための勾配差による微分プライベート最適化

DIFF2: Differential Private Optimization via Gradient Differences for Nonconvex Distributed Learning ( http://arxiv.org/abs/2302.03884v1 )

ライセンス: Link先を確認
Tomoya Murata and Taiji Suzuki(参考訳) 非凸滑らかな目的に対する微分プライベート最適化を考える。 以前の研究では、最もよく知られたユーティリティ境界は$\widetilde O(\sqrt{d}/(n\varepsilon_\mathrm{DP})$であり、これは二乗全勾配ノルムの観点で、差分プライベート勾配(DP-GD)によってインスタンスとして達成され、$n$はサンプルサイズ、$d$は問題次元、$\varepsilon_\mathrm{DP}$は差分プライバシーパラメータである。 そこで我々は,最もよく知られたユーティリティ境界を改善するために,勾配自体ではなく,通信された 'emph{gradient difference' に基づいて,おそらく非常に小さなばらつきを持つ微分プライベートグローバル勾配推定器を構成する, 'emph{DIFF2 (DIFFerential private optimization via gradient DIFFerences) と呼ばれる新しい微分プライベート最適化フレームワークを提案する。 勾配降下サブルーチンを持つ DIFF2 が $\widetilde O(d^{2/3}/(n\varepsilon_\mathrm{DP})^{4/3})$ の効用を達成することが示され、サンプルサイズ$n$ への依存の観点からすると、以前のものよりもかなり良い。 我々の知る限り、これは標準ユーティリティ $\widetilde O(\sqrt{d}/(n\varepsilon_\mathrm{DP})$ を非凸目的に対して改善する最初の基本的な結果である。 さらに、より計算的で効率的なサブルーチンがDIFF2と組み合わせられ、その理論的解析も与えられる。 数値実験によりDIFF2フレームワークの優位性を検証した。

Differential private optimization for nonconvex smooth objective is considered. In the previous work, the best known utility bound is $\widetilde O(\sqrt{d}/(n\varepsilon_\mathrm{DP}))$ in terms of the squared full gradient norm, which is achieved by Differential Private Gradient Descent (DP-GD) as an instance, where $n$ is the sample size, $d$ is the problem dimensionality and $\varepsilon_\mathrm{DP}$ is the differential privacy parameter. To improve the best known utility bound, we propose a new differential private optimization framework called \emph{DIFF2 (DIFFerential private optimization via gradient DIFFerences)} that constructs a differential private global gradient estimator with possibly quite small variance based on communicated \emph{gradient differences} rather than gradients themselves. It is shown that DIFF2 with a gradient descent subroutine achieves the utility of $\widetilde O(d^{2/3}/(n\varepsilon_\mathrm{DP})^{4/3})$, which can be significantly better than the previous one in terms of the dependence on the sample size $n$. To the best of our knowledge, this is the first fundamental result to improve the standard utility $\widetilde O(\sqrt{d}/(n\varepsilon_\mathrm{DP}))$ for nonconvex objectives. Additionally, a more computational and communication efficient subroutine is combined with DIFF2 and its theoretical analysis is also given. Numerical experiments are conducted to validate the superiority of DIFF2 framework.
翻訳日:2023-02-09 17:13:59 公開日:2023-02-08
# マルチモーダル推薦システム:調査

Multimodal Recommender Systems: A Survey ( http://arxiv.org/abs/2302.03883v1 )

ライセンス: Link先を確認
Qidong Liu, Jiaxi Hu, Yutian Xiao, Jingtong Gao and Xiangyu Zhao(参考訳) 推薦システム(RS)はオンラインサービスの統合ツールキットである。 識別子と属性情報に基づいてユーザの好みをモデル化する様々なディープラーニング技術を備えている。 ショートビデオやニュースなどのマルチメディアサービスが出現すると、推奨しながらコンテンツを理解することが重要になる。 さらに、マルチモーダル機能は、rsのデータスパーシティの問題を解決するのにも役立ちます。 このように、近年、学界と産業の双方からMRS(Multimodal Recommender System)が注目されている。 本稿では,主に技術的観点から,MSSモデルに関する総合的な調査を行う。 まず、mrsの一般的な手順と主な課題をまとめ、既存のmrsモデルを3つのカテゴリ(機能インタラクション、機能拡張、モデル最適化)に従って紹介する。 この分野で研究したい人には便利にするために、データセットとコードリソースを要約します。 最後に,mrsの今後の方向性について議論し,本論文をまとめる。

The recommender system (RS) has been an integral toolkit of online services. They are equipped with various deep learning techniques to model user preference based on identifier and attribute information. With the emergence of multimedia services, such as short video, news and etc., understanding these contents while recommending becomes critical. Besides, multimodal features are also helpful in alleviating the problem of data sparsity in RS. Thus, Multimodal Recommender System (MRS) has attracted much attention from both academia and industry recently. In this paper, we will give a comprehensive survey of the MRS models, mainly from technical views. First, we conclude the general procedures and major challenges for MRS. Then, we introduce the existing MRS models according to three categories, i.e., Feature Interaction, Feature Enhancement and Model Optimization. To make it convenient for those who want to research this field, we also summarize the dataset and code resources. Finally, we discuss some promising future directions of MRS and conclude this paper.
翻訳日:2023-02-09 17:13:20 公開日:2023-02-08
# グラフニューラルネットワークにおける一般化Degree Fairnessについて

On Generalized Degree Fairness in Graph Neural Networks ( http://arxiv.org/abs/2302.03881v1 )

ライセンス: Link先を確認
Zemin Liu, Trung-Kien Nguyen, Yuan Fang(参考訳) 従来のグラフニューラルネットワーク(GNN)は、ノード属性やノードを取り巻く隣人など、入力から生じる公平性の問題に直面していることが多い。 センシティブな属性に根ざしたバイアスを取り除くために、近年いくつかのアプローチが提案されているが、GNNの他の重要な入力、すなわちノードの隣人を無視している。 特に、ノード間の様々な近傍構造は、大きく異なるノードの次数で表され、ノードの多様な振る舞いとバイアスのある結果をもたらす。 本稿では,まず,ノードの次数の定義を,異なるノードを囲む異なるマルチホップ構造の顕在化と定量化として用いて,次数バイアスを定義し,一般化する。 ノード分類の文脈におけるバイアスに対処するため,汎用デグレーフェア中心グラフニューラルネットワーク(Deg-FairGNN)と呼ばれる新しいGNNフレームワークを提案する。 具体的には,各gnn層において,学習可能なデバイアス関数を用いてデバイアスコンテキストを生成し,レイヤ単位近傍のアグリゲーションを変調し,ノード間の多様度に由来する次数バイアスを解消する。 3つのベンチマークデータセットに対する大規模な実験は、精度と公正度の両方でモデルの有効性を示す。

Conventional graph neural networks (GNNs) are often confronted with fairness issues that may stem from their input, including node attributes and neighbors surrounding a node. While several recent approaches have been proposed to eliminate the bias rooted in sensitive attributes, they ignore the other key input of GNNs, namely the neighbors of a node, which can introduce bias since GNNs hinge on neighborhood structures to generate node representations. In particular, the varying neighborhood structures across nodes, manifesting themselves in drastically different node degrees, give rise to the diverse behaviors of nodes and biased outcomes. In this paper, we first define and generalize the degree bias using a generalized definition of node degree as a manifestation and quantification of different multi-hop structures around different nodes. To address the bias in the context of node classification, we propose a novel GNN framework called Generalized Degree Fairness-centric Graph Neural Network (Deg-FairGNN). Specifically, in each GNN layer, we employ a learnable debiasing function to generate debiasing contexts, which modulate the layer-wise neighborhood aggregation to eliminate the degree bias originating from the diverse degrees among nodes. Extensive experiments on three benchmark datasets demonstrate the effectiveness of our model on both accuracy and fairness metrics.
翻訳日:2023-02-09 17:13:06 公開日:2023-02-08
# 数点学習のためのgestalt誘導画像理解

Gestalt-Guided Image Understanding for Few-Shot Learning ( http://arxiv.org/abs/2302.03922v1 )

ライセンス: Link先を確認
Kun Song, Yuchen Wu, Jiansheng Chen, Tianyu Hu, and Huimin Ma(参考訳) 利用可能なデータの不足のため、ディープラーニングは、少数の学習タスクではうまく機能しない。 しかし、人間はごく少数のサンプルから新しいカテゴリーの特徴を素早く学ぶことができる。 それにもかかわらず、これまでの研究は人間の認知行動を模倣する方法をほとんど考慮せず、少数の学習に適用している。 本稿では,数発学習にゲシュタルト心理学を導入するとともに,ゲシュタルト誘導画像理解法(ggiu)を提案する。 ゲシュタルト心理学における総性原理と閉包の法則を参考に,総性誘導画像理解と閉包誘導画像理解をデザインし,画像特徴を抽出する。 その後、画像の正確な特徴を推定するために特徴推定モジュールが使用される。 大規模な実験により,既存のモデルの性能を再現・微調整することなく効果的かつ柔軟に向上できることを示した。 私たちのコードはhttps://github.com/skingorz/ggiuでリリースしています。

Due to the scarcity of available data, deep learning does not perform well on few-shot learning tasks. However, human can quickly learn the feature of a new category from very few samples. Nevertheless, previous work has rarely considered how to mimic human cognitive behavior and apply it to few-shot learning. This paper introduces Gestalt psychology to few-shot learning and proposes Gestalt-Guided Image Understanding, a plug-and-play method called GGIU. Referring to the principle of totality and the law of closure in Gestalt psychology, we design Totality-Guided Image Understanding and Closure-Guided Image Understanding to extract image features. After that, a feature estimation module is used to estimate the accurate features of images. Extensive experiments demonstrate that our method can improve the performance of existing models effectively and flexibly without retraining or fine-tuning. Our code is released on https://github.com/skingorz/GGIU.
翻訳日:2023-02-09 17:07:08 公開日:2023-02-08
# 教師なしモデルベースRLの予測可能なMDP抽象化

Predictable MDP Abstraction for Unsupervised Model-Based RL ( http://arxiv.org/abs/2302.03921v1 )

ライセンス: Link先を確認
Seohong Park, Sergey Levine(参考訳) モデルベース強化学習(RL)の重要な構成要素は、アクションの結果を予測するダイナミクスモデルである。 この予測モデルの誤差はモデルベースコントローラの性能を低下させ、複雑なマルコフ決定プロセス(MDP)は極めて難しい予測問題を示す。 この問題を緩和するために、予測可能なMDP抽象化(PMA)を提案し、元のMDP上で予測モデルをトレーニングする代わりに、予測可能かつ容易なモデルアクションのみを許容する学習アクション空間を持つ変換MDP上でモデルをトレーニングし、元の状態アクション空間をできるだけカバーする。 その結果、モデル学習はより簡単で正確になり、堅牢で安定したモデルベースの計画やモデルベースのrlが可能になる。 この変換は、ユーザがタスクを指定する前に、教師なしの方法で学習される。 ダウンストリームタスクは、追加の環境相互作用なしにゼロショットでモデルベースの制御で解決できる。 我々はPMAを理論的に解析し、PMAが様々なベンチマーク環境における教師なしモデルベースRLアプローチよりも大きな改善をもたらすことを実証した。 私たちのコードとビデオはhttps://seohong.me/projects/pma/で閲覧できます。

A key component of model-based reinforcement learning (RL) is a dynamics model that predicts the outcomes of actions. Errors in this predictive model can degrade the performance of model-based controllers, and complex Markov decision processes (MDPs) can present exceptionally difficult prediction problems. To mitigate this issue, we propose predictable MDP abstraction (PMA): instead of training a predictive model on the original MDP, we train a model on a transformed MDP with a learned action space that only permits predictable, easy-to-model actions, while covering the original state-action space as much as possible. As a result, model learning becomes easier and more accurate, which allows robust, stable model-based planning or model-based RL. This transformation is learned in an unsupervised manner, before any task is specified by the user. Downstream tasks can then be solved with model-based control in a zero-shot fashion, without additional environment interactions. We theoretically analyze PMA and empirically demonstrate that PMA leads to significant improvements over prior unsupervised model-based RL approaches in a range of benchmark environments. Our code and videos are available at https://seohong.me/projects/pma/
翻訳日:2023-02-09 17:06:50 公開日:2023-02-08
# 量子断熱のためのフロケット条件

Floquet Condition for Quantum Adiabaticity ( http://arxiv.org/abs/2302.03918v1 )

ライセンス: Link先を確認
Jie Gu, X.-G. Zhang(参考訳) 量子断熱性は、遷移のない時間依存ハミルトニアンの瞬間固有状態に近い量子系の進化として定義される。 Floquetフォーマリズムを用いて、周期的に駆動されるシステムにおける量子断熱性の厳密な条件を証明し、任意に長い期間有効である。 伝統的な条件とは異なり、フロッケ状態は厳密であり、追加の制約を必要とせず、高頻度で断熱性が存在するかもしれないと予測する。 Floquet条件を従来の条件と比較する3つの例がある。

Quantum adiabaticity is defined as the evolution of a quantum system close to an instantaneous eigenstate of a time-dependent Hamiltonian without transition. Using Floquet formalism, we prove a rigorous sufficient condition for quantum adiabaticity in periodically driven systems, valid for arbitrarily long period. Unlike traditional conditions, the Floquet condition is tight, does not require additional constraints, and predicts that adiabaticity may exist at high frequencies. Three examples are given to illustrate and contrast the Floquet condition against traditional conditions.
翻訳日:2023-02-09 17:06:29 公開日:2023-02-08
# Noise2Music:拡散モデルによるテキスト調和音楽生成

Noise2Music: Text-conditioned Music Generation with Diffusion Models ( http://arxiv.org/abs/2302.03917v1 )

ライセンス: Link先を確認
Qingqing Huang, Daniel S. Park, Tao Wang, Timo I. Denk, Andy Ly, Nanxin Chen, Zhengdong Zhang, Zhishuai Zhang, Jiahui Yu, Christian Frank, Jesse Engel, Quoc V. Le, William Chan, Wei Han(参考訳) テキストプロンプトから高品質な30秒の楽曲クリップを生成するために,一連の拡散モデルを訓練したノイズ2musicを導入する。 テキスト上に条件付けされた中間表現を生成するジェネレータモデルと、中間表現とおそらくテキスト上に条件付けされた高忠実なオーディオを生成するカスケーダモデルとの2種類の拡散モデルを訓練し、次いで高忠実な音楽を生成する。 中間表現の2つの選択肢について検討する。一方はスペクトログラム,もう一方は低忠実度音声を用いた。 生成した音声は、ジャンル、テンポ、楽器、ムード、時代といったテキストプロンプトの重要な要素を忠実に反映できるだけでなく、そのプロンプトの微妙な意味論を根底から得ることができる。 トレーニングセットのオーディオのためにペア化されたテキストを生成し、拡散モデルによって取り込まれたテキストプロンプトの埋め込みを抽出するために使用される。 生成された例: https://google-research.github.io/noise2music

We introduce Noise2Music, where a series of diffusion models is trained to generate high-quality 30-second music clips from text prompts. Two types of diffusion models, a generator model, which generates an intermediate representation conditioned on text, and a cascader model, which generates high-fidelity audio conditioned on the intermediate representation and possibly the text, are trained and utilized in succession to generate high-fidelity music. We explore two options for the intermediate representation, one using a spectrogram and the other using audio with lower fidelity. We find that the generated audio is not only able to faithfully reflect key elements of the text prompt such as genre, tempo, instruments, mood, and era, but goes beyond to ground fine-grained semantics of the prompt. Pretrained large language models play a key role in this story -- they are used to generate paired text for the audio of the training set and to extract embeddings of the text prompts ingested by the diffusion models. Generated examples: https://google-research.github.io/noise2music
翻訳日:2023-02-09 17:06:20 公開日:2023-02-08
# QS-ADN: 局所的類似性を考慮した低次元CT画像のための準スーパービジョンアーチファクト歪みネットワーク

QS-ADN: Quasi-Supervised Artifact Disentanglement Network for Low-Dose CT Image Denoising by Local Similarity Among Unpaired Data ( http://arxiv.org/abs/2302.03916v1 )

ライセンス: Link先を確認
Yuhui Ruan, Qiao Yuan, Chuang Niu, Chen Li, Yudong Yao, Ge Wang and Yueyang Teng(参考訳) 深層学習は低線量CT(LDCT)画像に成功し,放射線リスクの低減に寄与している。 しかし、広く報告されている教師付きldctデノイジングネットワークは、ペア画像のトレーニングセットを必要としており、取得にコストがかかり、完全なシミュレーションはできない。 教師なし学習は障害のないデータを利用しており、LDCT復調に非常に望ましい。 例えば、アーティファクト・ディスタングルメント・ネットワーク(adn)は、分離されていない画像に依存し、監視の必要性を回避しているが、アーティファクトの削減の結果は教師付き学習によるものほど良くない。 本稿では, ldct画像に対してadnを付与するために, 擬似教師付き学習と呼ばれる新しい学習モードを導入し, ldct画像毎に最適なマッチング画像が, 非ペア型正規線ct(ndct)データセットから最初に見出される。 次に、マッチングされたペアと、先行情報として対応するマッチング度を用いて、ldct用adn型ネットワークを構築し、訓練し、提案手法は、教師付きおよび半教師付き学習モードと異なり、既存のネットワークを変更して容易に実装することができる。 実験結果から,本手法は騒音抑制と文脈忠実度の観点から,最先端の手法と競合することが示された。 コードと動作データセットはhttps://github.com/ruanyuhui/ADN-QSDL.gitで公開されている。

Deep learning has been successfully applied to low-dose CT (LDCT) image denoising for reducing potential radiation risk. However, the widely reported supervised LDCT denoising networks require a training set of paired images, which is expensive to obtain and cannot be perfectly simulated. Unsupervised learning utilizes unpaired data and is highly desirable for LDCT denoising. As an example, an artifact disentanglement network (ADN) relies on unparied images and obviates the need for supervision but the results of artifact reduction are not as good as those through supervised learning.An important observation is that there is often hidden similarity among unpaired data that can be utilized. This paper introduces a new learning mode, called quasi-supervised learning, to empower the ADN for LDCT image denoising.For every LDCT image, the best matched image is first found from an unpaired normal-dose CT (NDCT) dataset. Then, the matched pairs and the corresponding matching degree as prior information are used to construct and train our ADN-type network for LDCT denoising.The proposed method is different from (but compatible with) supervised and semi-supervised learning modes and can be easily implemented by modifying existing networks. The experimental results show that the method is competitive with state-of-the-art methods in terms of noise suppression and contextual fidelity. The code and working dataset are publicly available at https://github.com/ruanyuhui/ADN-QSDL.git.
翻訳日:2023-02-09 17:05:59 公開日:2023-02-08
# 自律走行用LiDAR点雲の一般ショット3次元物体検出

Generalized Few-Shot 3D Object Detection of LiDAR Point Cloud for Autonomous Driving ( http://arxiv.org/abs/2302.03914v1 )

ライセンス: Link先を確認
Jiawei Liu and Xingping Dong and Sanyuan Zhao and Jianbing Shen(参考訳) 近年では、自動運転車(例えば、車や歩行者)の共通物体を認識する3dオブジェクト検出が大きな成功を収めている。 しかし、ほとんどの手法は十分なラベル付きトレーニングデータに大きく依存している。 これにより、緊急救助などの特殊事件において重要なまれな細粒度物体(例えば、警察車や救急車)を検出する能力が制限される。 共通オブジェクトとレアオブジェクトの同時検出を実現するために,共通オブジェクト(ベース)用のトレーニングデータが多いが,レアオブジェクト(ノベル)クラスのデータが少ないという,一般化されたマイズショット3dオブジェクト検出という新しいタスクを提案する。 具体的には、画像と点雲の奥行きの違いを分析し、3D LiDARデータセットにおける少数ショット設定の実践的原理を示す。 そこで本研究では,(1)一般物体とレア物体の両方を認識するために,既存の3次元検出モデルを拡張するインクリメンタルな微調整法,(2)自動運転シナリオにおけるロングテールデータ分布の問題を緩和するためのサンプル適応バランス損失法など,簡便で効果的な検出フレームワークを提案する。 nuScenesデータセットでは,いくつかのトレーニングデータのみを含む希少な(ノベルな)クラスを,一般的なオブジェクトの検出精度を維持しながら検出できることを実証するために十分な実験を行う。

Recent years have witnessed huge successes in 3D object detection to recognize common objects for autonomous driving (e.g., vehicles and pedestrians). However, most methods rely heavily on a large amount of well-labeled training data. This limits their capability of detecting rare fine-grained objects (e.g., police cars and ambulances), which is important for special cases, such as emergency rescue, and so on. To achieve simultaneous detection for both common and rare objects, we propose a novel task, called generalized few-shot 3D object detection, where we have a large amount of training data for common (base) objects, but only a few data for rare (novel) classes. Specifically, we analyze in-depth differences between images and point clouds, and then present a practical principle for the few-shot setting in the 3D LiDAR dataset. To solve this task, we propose a simple and effective detection framework, including (1) an incremental fine-tuning method to extend existing 3D detection models to recognize both common and rare objects, and (2) a sample adaptive balance loss to alleviate the issue of long-tailed data distribution in autonomous driving scenarios. On the nuScenes dataset, we conduct sufficient experiments to demonstrate that our approach can successfully detect the rare (novel) classes that contain only a few training data, while also maintaining the detection accuracy of common objects.
翻訳日:2023-02-09 17:05:33 公開日:2023-02-08
# フェデレーション部分監督と部位適応による多部位臓器セグメンテーション

Multi-site Organ Segmentation with Federated Partial Supervision and Site Adaptation ( http://arxiv.org/abs/2302.03911v1 )

ライセンス: Link先を確認
Pengbo Liu, Mengke Sun and S. Kevin Zhou(参考訳) 目的と影響のステートメント: 臓器の正確な分割は、異なる臨床部位における多くの臨床応用において重要である。 しかし,多数の注釈付き画像のオンサイトキュレーションが必要な場合が多いため,高品質な部位別臓器分割モデルの学習は困難である。 セキュリティ上の懸念はさらに問題を複雑にする。 方法:本論文は,2相アグリゲーション・then-adaptationアプローチにより,これらの課題に対処することを目的とする。 フェデレーションアグリゲーションの第1フェーズは、"大きなデータ"の強みを利用して単一のマルチ組織セグメンテーションモデルを学ぶ。 (i)異なるオルガンラベルを持つ複数のサイトからデータセットを集約し、部分的な監督を提供する (二)データ漏洩のない部分教師付き学習を行うこと。 サイト適応の第2フェーズは、フェデレートされたマルチオルガンセグメンテーションモデルをサイト毎のモデルであるサイト固有臓器セグメンテーションモデルに移すことで、各サイトの臓器セグメンテーションタスクの性能をさらに向上させる。 さらに, 限界損失と排除損失関数の改善により, 部分監督機構の「知識衝突」問題を回避することができる。 結果と結論:5つの臓器セグメンテーションデータセットの広範な実験により,多地点アプローチの有効性が示され,サイト単位の学習モデルに有意に優れ,中央学習モデルに匹敵する性能が達成された。

Objective and Impact Statement: Accurate organ segmentation is critical for many clinical applications at different clinical sites, which may have their specific application requirements that concern different organs. Introduction: However, learning high-quality, site-specific organ segmentation models is challenging as it often needs on-site curation of a large number of annotated images. Security concerns further complicate the matter. Methods: The paper aims to tackle these challenges via a two-phase aggregation-then-adaptation approach. The first phase of federated aggregation learns a single multi-organ segmentation model by leveraging the strength of 'bigger data', which are formed by (i) aggregating together datasets from multiple sites that with different organ labels to provide partial supervision, and (ii) conducting partially supervised learning without data breach. The second phase of site adaptation is to transfer the federated multi-organ segmentation model to site-specific organ segmentation models, one model per site, in order to further improve the performance of each site's organ segmentation task. Furthermore, improved marginal loss and exclusion loss functions are used to avoid 'knowledge conflict' problem in a partially supervision mechanism. Results and Conclusion: Extensive experiments on five organ segmentation datasets demonstrate the effectiveness of our multi-site approach, significantly outperforming the site-per-se learned models and achieving the performance comparable to the centrally learned models.
翻訳日:2023-02-09 17:05:08 公開日:2023-02-08
# 教師なしプログラム翻訳のための構文とドメイン認識モデル

Syntax and Domain Aware Model for Unsupervised Program Translation ( http://arxiv.org/abs/2302.03908v1 )

ライセンス: Link先を確認
Fang Liu, Jia Li, Li Zhang(参考訳) ソフトウェアと社会の発展に伴って、ソフトウェア移行への関心が高まっている。 手動で言語間でプロジェクトを移行することは、エラーを起こしやすく、高価である。 近年,大規模並列コードコーパスから学習することにより,教師あり深層学習技術を用いた自動プログラム翻訳の研究が始まっている。 しかし、並列リソースはプログラミング言語領域では不足しており、バイリンガルデータを手動で収集するのはコストがかかる。 この問題に対処するために,教師なしプログラミング翻訳システムをいくつか提案する。 しかし、これらのシステムはトレーニングに巨大な単言語ソースコードに依存しているため、非常に高価である。 さらに、これらのモデルは、事前トレーニング手順中に見られない言語を翻訳する上ではうまく機能しない。 本稿では,SDA-Transを提案する。SDA-Transは,構文構造とドメイン知識を活用し,言語間変換能力を向上させるプログラム翻訳のための構文とドメイン認識モデルである。 SDA-Transは、PythonやJavaのモノリンガルプログラムを含む、小規模のコーパスで教師なしのトレーニングを採用する。 Python、Java、C++間の関数変換タスクの実験結果から、SDA-Transは多くの大規模事前学習モデル、特に目に見えない言語翻訳において性能が向上していることが示された。

There is growing interest in software migration as the development of software and society. Manually migrating projects between languages is error-prone and expensive. In recent years, researchers have begun to explore automatic program translation using supervised deep learning techniques by learning from large-scale parallel code corpus. However, parallel resources are scarce in the programming language domain, and it is costly to collect bilingual data manually. To address this issue, several unsupervised programming translation systems are proposed. However, these systems still rely on huge monolingual source code to train, which is very expensive. Besides, these models cannot perform well for translating the languages that are not seen during the pre-training procedure. In this paper, we propose SDA-Trans, a syntax and domain-aware model for program translation, which leverages the syntax structure and domain knowledge to enhance the cross-lingual transfer ability. SDA-Trans adopts unsupervised training on a smaller-scale corpus, including Python and Java monolingual programs. The experimental results on function translation tasks between Python, Java, and C++ show that SDA-Trans outperforms many large-scale pre-trained models, especially for unseen language translation.
翻訳日:2023-02-09 17:04:43 公開日:2023-02-08
# ddemon:動的多重ネットワークからのディープラーニングによるオントロジに基づく関数予測

DDeMON: Ontology-based function prediction by Deep Learning from Dynamic Multiplex Networks ( http://arxiv.org/abs/2302.03907v1 )

ライセンス: Link先を確認
Jan Kralj, Bla\v{z} \v{S}krlj, \v{Z}iva Ram\v{s}ak, Nada Lavra\v{c}, Kristina Gruden(参考訳) 生物学的システムは、遺伝子、タンパク質、rnaおよび異なる相互作用ネットワークレベルを含む様々なレベルの情報で研究することができる。 本研究の目的は, システムレベルの情報と遺伝子発現の時間的ダイナミクスの融合が, 深層ニューラルネットワークの非線形近似と組み合わせることで, 非モデル生物ジャガイモ \emph{Solanum tuberosum} の新規遺伝子機能を予測することにある。 DDeMON(Dynamic Deep Learning from temporal Multiplex Ontology- Annotated Networks)は,時間依存型多スケール生体情報を用いた関数アノテーションのスケーラブルでシステムレベルの推論手法である。 対象遺伝子間の数十億の潜在的なリンクを考慮し,未知の機能を持つ遺伝子を,実験データセットに関連付けられた5種類の機能オントロジーカテゴリに確実に分類するために,実験的遺伝子発現データと背景知識ネットワークに適用した。 広範囲なタンパク質ドメイン探索手法を用いて, 遺伝子の新規機能の予測を行った。

Biological systems can be studied at multiple levels of information, including gene, protein, RNA and different interaction networks levels. The goal of this work is to explore how the fusion of systems' level information with temporal dynamics of gene expression can be used in combination with non-linear approximation power of deep neural networks to predict novel gene functions in a non-model organism potato \emph{Solanum tuberosum}. We propose DDeMON (Dynamic Deep learning from temporal Multiplex Ontology-annotated Networks), an approach for scalable, systems-level inference of function annotation using time-dependent multiscale biological information. The proposed method, which is capable of considering billions of potential links between the genes of interest, was applied on experimental gene expression data and the background knowledge network to reliably classify genes with unknown function into five different functional ontology categories, linked to the experimental data set. Predicted novel functions of genes were validated using extensive protein domain search approach.
翻訳日:2023-02-09 17:04:25 公開日:2023-02-08
# COMBO: Open KG標準化のための完全なベンチマーク

COMBO: A Complete Benchmark for Open KG Canonicalization ( http://arxiv.org/abs/2302.03905v1 )

ライセンス: Link先を確認
Chengyue Jiang, Yong Jiang, Weiqi Wu, Yuting Zheng, Pengjun Xie, Kewei Tu(参考訳) オープンナレッジグラフ(KG)は、何百万もの原文から抽出された(対象、関係、対象)3重データからなる。 主語と対象名詞句とオープンkgにおける関係は深刻な冗長性と曖昧さを持ち、正統化される必要がある。 既存のKG標準化データセットは、名詞句のゴールドエンティティレベル標準化のみを提供する。 本稿では, Open KG 標準化のための完全ベンチマーク COMBO を提案する。 既存のデータセットと比較して,関係句に対する金正準化,名詞句に対する金オントロジーレベルの正準化,三重項を抽出した元文なども提供する。 また,各種類の正準化を評価する指標を提案する。 COMBOデータセットでは,従来提案されていた正規化手法と,事前学習した言語モデルに基づく単純なベースライン手法を実証的に比較する。 事前学習された言語モデルを用いて三重項を適切にエンコードすると、名詞句の正準化とオントロジーレベルの正準化がより良くなる。 私たちはデータセット、ベースライン、評価スクリプトをhttps://github.com/jeffchy/COMBO/tree/mainでリリースしています。

Open knowledge graph (KG) consists of (subject, relation, object) triples extracted from millions of raw text. The subject and object noun phrases and the relation in open KG have severe redundancy and ambiguity and need to be canonicalized. Existing datasets for open KG canonicalization only provide gold entity-level canonicalization for noun phrases. In this paper, we present COMBO, a Complete Benchmark for Open KG canonicalization. Compared with existing datasets, we additionally provide gold canonicalization for relation phrases, gold ontology-level canonicalization for noun phrases, as well as source sentences from which triples are extracted. We also propose metrics for evaluating each type of canonicalization. On the COMBO dataset, we empirically compare previously proposed canonicalization methods as well as a few simple baseline methods based on pretrained language models. We find that properly encoding the phrases in a triple using pretrained language models results in better relation canonicalization and ontology-level canonicalization of the noun phrase. We release our dataset, baselines, and evaluation scripts at https://github.com/jeffchy/COMBO/tree/main.
翻訳日:2023-02-09 17:04:07 公開日:2023-02-08
# スクエントロピーで損失をカットする

Cut your Losses with Squentropy ( http://arxiv.org/abs/2302.03952v1 )

ライセンス: Link先を確認
Like Hui, Mikhail Belkin, Stephen Wright(参考訳) ほとんど全ての実用的な神経モデルの分類は、クロスエントロピー損失を用いて訓練される。 しかし、このユビキタスな選択は、ほとんど理論的あるいは実証的な証拠によって支持されている。 最近の研究(Hui & Belkin, 2020)は、(再スケール)正方形損失を用いたトレーニングが、分類精度において優れていることを示唆している。 本稿では,2つの項の和である"squentropy"損失,すなわち,逆エントロピー損失と不正確なクラスの平均2乗損失を提案する。 マルチクラス分類問題において,スキントロピー損失が純粋なクロスエントロピーと再スケールされた2乗損失の両方を,分類精度の点で上回ることを示す実験を行った。 また, モデルキャリブレーションは, いずれの代替損失よりも大幅に向上し, さらに, ランダム初期化に関して, ばらつきが小さいことも実証した。 さらに、正方形損失とは対照的に、スクエントロピー損失は、通常、通常のクロスエントロピー損失である学習率を含む全く同じ最適化パラメータを使用してトレーニングすることができ、真の「プラグ・アンド・プレイ」代替となる。 最後に、再スケールされた正方形損失とは異なり、マルチクラススクエントロピーは調整する必要のあるパラメータを含まない。

Nearly all practical neural models for classification are trained using cross-entropy loss. Yet this ubiquitous choice is supported by little theoretical or empirical evidence. Recent work (Hui & Belkin, 2020) suggests that training using the (rescaled) square loss is often superior in terms of the classification accuracy. In this paper we propose the "squentropy" loss, which is the sum of two terms: the cross-entropy loss and the average square loss over the incorrect classes. We provide an extensive set of experiments on multi-class classification problems showing that the squentropy loss outperforms both the pure cross entropy and rescaled square losses in terms of the classification accuracy. We also demonstrate that it provides significantly better model calibration than either of these alternative losses and, furthermore, has less variance with respect to the random initialization. Additionally, in contrast to the square loss, squentropy loss can typically be trained using exactly the same optimization parameters, including the learning rate, as the standard cross-entropy loss, making it a true "plug-and-play" replacement. Finally, unlike the rescaled square loss, multiclass squentropy contains no parameters that need to be adjusted.
翻訳日:2023-02-09 16:58:22 公開日:2023-02-08
# コメント-返信インタラクションによる帰納的社会関係情報による認識検出の改善

Improving (Dis)agreement Detection with Inductive Social Relation Information From Comment-Reply Interactions ( http://arxiv.org/abs/2302.03950v1 )

ライセンス: Link先を確認
Yun Luo and Zihan Liu and Stan Z. Li and Yue Zhang(参考訳) (Dis)認識検出は、特定のテキストに対する著者の態度や位置(\textit{agree, disagree, neutral}})を特定することを目的としている。 既存のメソッドでは、テキスト情報のみを使用して、特にドメイン横断の設定を識別する(dis)。 社会関係情報は、テキスト情報以外の(認識)タスクにおいて補助的な役割を果たす。 そこで本稿では,プラットフォーム固有の情報のないコメント-返信ペアを用いて,そのような関係情報を帰納的ソーシャル関係グラフに抽出する手法を提案する。 帰納的社会関係は、歴史的議論と著者間の関係を世界的に考慮している。 事前学習された言語モデルに基づくテキスト情報と、事前学習されたrpcnで符号化された社会関係情報とを併用して(dis)分断検出する。 実験の結果、ベンチマークにおけるドメイン内タスクとドメイン間タスクの両方 -- の最先端のパフォーマンスが達成できることが分かりました。 社会関係は,特に長期のコメント-返信ペアに対して,社会関係グラフの有効性を実証し,認識検出モデルの性能を高めることができる。 また,本モデルの有効性を示す社会関係グラフ構築における知識グラフ埋め込み法,情報融合法,時間間隔の影響についても検討した。

(Dis)agreement detection aims to identify the authors' attitudes or positions (\textit{{agree, disagree, neutral}}) towards a specific text. It is limited for existing methods merely using textual information for identifying (dis)agreements, especially for cross-domain settings. Social relation information can play an assistant role in the (dis)agreement task besides textual information. We propose a novel method to extract such relation information from (dis)agreement data into an inductive social relation graph, merely using the comment-reply pairs without any additional platform-specific information. The inductive social relation globally considers the historical discussion and the relation between authors. Textual information based on a pre-trained language model and social relation information encoded by pre-trained RGCN are jointly considered for (dis)agreement detection. Experimental results show that our model achieves state-of-the-art performance for both the in-domain and cross-domain tasks on the benchmark -- DEBAGREEMENT. We find social relations can boost the performance of the (dis)agreement detection model, especially for the long-token comment-reply pairs, demonstrating the effectiveness of the social relation graph. We also explore the effect of the knowledge graph embedding methods, the information fusing method, and the time interval in constructing the social relation graph, which shows the effectiveness of our model.
翻訳日:2023-02-09 16:58:01 公開日:2023-02-08
# ギブシアン極スライスサンプリング

Gibbsian polar slice sampling ( http://arxiv.org/abs/2302.03945v1 )

ライセンス: Link先を確認
Philip Sch\"ar, Michael Habeck, Daniel Rudolf(参考訳) 極スライスサンプリング (Roberts & Rosenthal, 2002) は、分布の近似的サンプリングのためのマルコフ連鎖アプローチであり、効率的に実装することは困難であるが、次元に関して証明可能な振る舞いをする。 チェーンの方向成分と半径成分を別々に更新することにより, 偏光スライスサンプリングを模倣するサンプリング器のファミリーを得るが, 効率よく実装できる。 様々な設定における数値実験により,提案手法は,楕円スライスサンプリング (murray et al., 2010) と一様スライスサンプリング (mackay, 2003) の2つの手法よりも優れていることが示された。 我々は,対象分布に対する適切な仮定の下での手法の well-definedness と収束性を証明する。

Polar slice sampling (Roberts & Rosenthal, 2002) is a Markov chain approach for approximate sampling of distributions that is difficult, if not impossible, to implement efficiently, but behaves provably well with respect to the dimension. By updating the directional and radial components of chain iterates separately, we obtain a family of samplers that mimic polar slice sampling, and yet can be implemented efficiently. Numerical experiments for a variety of settings indicate that our proposed algorithm outperforms the two most closely related approaches, elliptical slice sampling (Murray et al., 2010) and hit-and-run uniform slice sampling (MacKay, 2003). We prove the well-definedness and convergence of our methods under suitable assumptions on the target distribution.
翻訳日:2023-02-09 16:57:39 公開日:2023-02-08
# 状態依存光トワイザーにおける単一原子の運動基底状態冷却

Motional ground-state cooling of single atoms in state-dependent optical tweezers ( http://arxiv.org/abs/2302.03940v1 )

ライセンス: Link先を確認
Christian H\"olzl, Aaron G\"otzelmann, Moritz Wirth, Marianna S. Safronova, Sebastian Weber, Florian Meinert(参考訳) 光ツイーザーにおける単一原子のレーザー冷却は、中性原子量子コンピューティングとシミュレーションの前提条件である。 解決されたサイドバンド冷却は、効率的な基底状態の準備のための確立された方法を含むが、通常、いわゆるマジックトラップの光シフトを慎重にキャンセルする必要がある。 本稿では,このような制約を克服する新しいレーザー冷却方式について検討し,狭い冷却遷移の基底状態が励起状態よりも強く捕捉された場合に適用する。 本研究では,冷却光の周波数チャープによる赤色側帯遷移のシーケンシャルなアドレッシングを,$^{88}$sr原子の例で活用し,最近のマジック・ツイーザーの実験と整合する基底状態の個体群を報告する。 このスキームはまた、大きな原子配列の組み立ての鍵となる光アシスト衝突を誘導する。 我々の研究は、tweezerベースの量子技術のためのツールボックスを強化し、解決されたサイドバンド冷却条件と互換性のないtweezerトラップ分子やイオンへの応用を可能にしています。

Laser cooling of single atoms in optical tweezers is a prerequisite for neutral atom quantum computing and simulation. Resolved sideband cooling comprises a well-established method for efficient motional ground-state preparation, but typically requires careful cancellation of light shifts in so-called magic traps. Here, we study a novel laser cooling scheme which overcomes such constraints, and applies when the ground-state of a narrow cooling transition is trapped stronger than the excited state. We demonstrate our scheme, which exploits sequential addressing of red sideband transitions via frequency chirping of the cooling light, at the example of $^{88}$Sr atoms, and report ground-state populations compatible with recent experiments in magic tweezers. The scheme also induces light-assisted collisions, which are key to the assembly of large atom arrays. Our work enriches the toolbox for tweezer-based quantum technology, also enabling applications for tweezer-trapped molecules and ions that are incompatible with resolved sideband cooling conditions.
翻訳日:2023-02-09 16:57:24 公開日:2023-02-08
# 魚眼映像の時空間的変形知覚

Spatiotemporal Deformation Perception for Fisheye Video Rectification ( http://arxiv.org/abs/2302.03934v1 )

ライセンス: Link先を確認
Shangrong Yang, Chunyu Lin, Kang Liao, Yao Zhao(参考訳) 魚眼画像の歪み補正は広く研究されているが,魚眼映像の歪み補正はいまだに難しい課題である。 魚眼映像の異なるフレームに対して、既存の画像補正手法はシーケンスの相関を無視し、補正映像内の時間的ジッタを生じさせる。 そこで本研究では,フレームの重みを段階的に減らしてジッタ効果を緩和する,可塑性大域的光フローを得るための時間重み付け手法を提案する。 次に,魚眼映像の局所的空間的変形を知覚するために,映像のフレーム間光の流れが促進されることを観察する。 そこで,魚眼と歪みのない動画の流れによる空間的変形を導出し,予測結果の局所的精度を向上させる。 しかし,各フレームの独立補正は時間的相関を乱す。 魚眼ビデオの特性から、歪んだ物体は別の瞬間にその歪みのないパターンを見つけることができるかもしれない。 この目的のために、フレーム間の変形相関を再構築し、信頼性の高い大域的特徴を提供する時間変形集約器を設計する。 本手法は,SOTA補正法と比較して,補正品質と安定性が優れていることを示す。

Although the distortion correction of fisheye images has been extensively studied, the correction of fisheye videos is still an elusive challenge. For different frames of the fisheye video, the existing image correction methods ignore the correlation of sequences, resulting in temporal jitter in the corrected video. To solve this problem, we propose a temporal weighting scheme to get a plausible global optical flow, which mitigates the jitter effect by progressively reducing the weight of frames. Subsequently, we observe that the inter-frame optical flow of the video is facilitated to perceive the local spatial deformation of the fisheye video. Therefore, we derive the spatial deformation through the flows of fisheye and distorted-free videos, thereby enhancing the local accuracy of the predicted result. However, the independent correction for each frame disrupts the temporal correlation. Due to the property of fisheye video, a distorted moving object may be able to find its distorted-free pattern at another moment. To this end, a temporal deformation aggregator is designed to reconstruct the deformation correlation between frames and provide a reliable global feature. Our method achieves an end-to-end correction and demonstrates superiority in correction quality and stability compared with the SOTA correction methods.
翻訳日:2023-02-09 16:57:04 公開日:2023-02-08
# インダクティブ1ビット行列補完のためのグラフ信号サンプリング:閉形式解

Graph Signal Sampling for Inductive One-Bit Matrix Completion: a Closed-form Solution ( http://arxiv.org/abs/2302.03933v1 )

ライセンス: Link先を確認
Chao Chen, Haoyu Geng, Gang Zeng, Zhaobing Han, Hua Chai, Xiaokang Yang, Junchi Yan(参考訳) インダクティブな1ビット行列の完成は、リコメンダシステムのような現代的なアプリケーションによって動機付けられ、新しいユーザがテストステージに現れる。 本稿では,グラフ信号解析と処理の利点を享受する統一グラフ信号サンプリングフレームワークを提案する。 キーとなるアイデアは、アイテム上の各ユーザのレーティングをアイテムイットグラフの頂点上の関数(信号)に変換し、それから構造グラフ特性を学び、特定の頂点上の値から関数を回復させることである。 本稿では,グラフ頂点領域における離散的ランダムラベルノイズを考慮した正規化関数のクラスを提案する。 理論的には、正確な復元は穏やかな条件下で達成できる。 オンライン環境では、グラフフーリエ領域における連続的ランダムガウス雑音を考慮したベイズ拡張BGS-IMCを開発し、予測補正更新アルゴリズムに基づいて、バイアスのない最小分散再構成を得る。 GS-IMC と BGS-IMC はどちらもクローズドフォームのソリューションであるため、大規模データでは非常にスケーラブルである。 実験により,提案手法が公開ベンチマークで最先端のパフォーマンスを実現することが示された。

Inductive one-bit matrix completion is motivated by modern applications such as recommender systems, where new users would appear at test stage with the ratings consisting of only ones and no zeros. We propose a unified graph signal sampling framework which enjoys the benefits of graph signal analysis and processing. The key idea is to transform each user's ratings on the items to a function (signal) on the vertices of an item-item graph, then learn structural graph properties to recover the function from its values on certain vertices -- the problem of graph signal sampling. We propose a class of regularization functionals that takes into account discrete random label noise in the graph vertex domain, then develop the GS-IMC approach which biases the reconstruction towards functions that vary little between adjacent vertices for noise reduction. Theoretical result shows that accurate reconstructions can be achieved under mild conditions. For the online setting, we develop a Bayesian extension, i.e., BGS-IMC which considers continuous random Gaussian noise in the graph Fourier domain and builds upon a prediction-correction update algorithm to obtain the unbiased and minimum-variance reconstruction. Both GS-IMC and BGS-IMC have closed-form solutions and thus are highly scalable in large data. Experiments show that our methods achieve state-of-the-art performance on public benchmarks.
翻訳日:2023-02-09 16:56:45 公開日:2023-02-08
# デュアルコントラストヘッドを用いた多視点特徴抽出

Multi-view Feature Extraction based on Dual Contrastive Head ( http://arxiv.org/abs/2302.03932v1 )

ライセンス: Link先を確認
Hongjie Zhang(参考訳) マルチビュー特徴抽出は,高次元多視点データにおける次元性の問題を軽減するための効率的な手法である。 自己教師あり学習法であるコントラスト学習(cl)が近年注目されている。 ほとんどのCL法はサンプルレベルからのみ構築された。 本研究では,サンプルレベルcl法に構造レベルのコントラスト損失を導入する,デュアルコントラストヘッドに基づく新しいマルチビュー特徴抽出法を提案する。 構造レベルCLは、潜在的な部分空間構造を任意の2つの交差ビューに整合させ、サンプルレベルCLがより効果的に識別的特徴を抽出するのを助ける。 さらに, 構造レベルのclと相互情報の関係と, 高い性能を理論的に支援する確率的内・間散乱の関係が証明された。 最後に,6つの実データを用いた数値実験により,提案手法が従来の手法よりも優れた性能を示す。

Multi-view feature extraction is an efficient approach for alleviating the issue of dimensionality in highdimensional multi-view data. Contrastive learning (CL), which is a popular self-supervised learning method, has recently attracted considerable attention. Most CL-based methods were constructed only from the sample level. In this study, we propose a novel multiview feature extraction method based on dual contrastive head, which introduce structural-level contrastive loss into sample-level CL-based method. Structural-level CL push the potential subspace structures consistent in any two cross views, which assists sample-level CL to extract discriminative features more effectively. Furthermore, it is proven that the relationships between structural-level CL and mutual information and probabilistic intraand inter-scatter, which provides the theoretical support for the excellent performance. Finally, numerical experiments on six real datasets demonstrate the superior performance of the proposed method compared to existing methods.
翻訳日:2023-02-09 16:56:22 公開日:2023-02-08
# PILOTによる高速線形モデル木

Fast Linear Model Trees by PILOT ( http://arxiv.org/abs/2302.03931v1 )

ライセンス: Link先を確認
Jakob Raymaekers, Peter J. Rousseeuw, Tim Verdonck, Ruicong Yao(参考訳) 線形モデル木は、葉ノードに線形モデルを含む回帰木である。 これにより、決定木の直感的な解釈が保たれると同時に、線形関係をよりよく捉えることが可能となり、標準決定木では難しい。 しかし、線形モデル木を適合させる既存の方法のほとんどは時間を要するため、大規模なデータセットには拡張性がない。 さらに、それらは標準的な回帰木よりも、過剰フィッティングや外挿の問題を起こしやすい。 本稿では,高速,正規化,安定,解釈可能な線形モデル木のための新しいアルゴリズムであるPILOTを紹介する。 PILOTは古典的回帰木のような派手な方法で訓練するが、$L^2$のブースティングアプローチと、ノードに線形モデルを取り付けるためのモデル選択ルールが組み込まれている。 略称 PILOT は$PI$ecewise $L$inear $O$rganic $T$ree の略で、'organic' はプルーニングを行わないという事実を指す。 PILOT は CART と同じ時間と空間の複雑さを持つ。 実証的研究は、PILOTが様々なデータセット上で標準決定木や他の線形モデル木より優れていることを示している。 さらに,弱仮定下での加法モデルの設定において,その一貫性を証明する。 データが線形モデルによって生成されるとき、収束率は多項式である。

Linear model trees are regression trees that incorporate linear models in the leaf nodes. This preserves the intuitive interpretation of decision trees and at the same time enables them to better capture linear relationships, which is hard for standard decision trees. But most existing methods for fitting linear model trees are time consuming and therefore not scalable to large data sets. In addition, they are more prone to overfitting and extrapolation issues than standard regression trees. In this paper we introduce PILOT, a new algorithm for linear model trees that is fast, regularized, stable and interpretable. PILOT trains in a greedy fashion like classic regression trees, but incorporates an $L^2$ boosting approach and a model selection rule for fitting linear models in the nodes. The abbreviation PILOT stands for $PI$ecewise $L$inear $O$rganic $T$ree, where `organic' refers to the fact that no pruning is carried out. PILOT has the same low time and space complexity as CART without its pruning. An empirical study indicates that PILOT tends to outperform standard decision trees and other linear model trees on a variety of data sets. Moreover, we prove its consistency in an additive model setting under weak assumptions. When the data is generated by a linear model, the convergence rate is polynomial.
翻訳日:2023-02-09 16:56:06 公開日:2023-02-08
# Bi-LSTMアルゴリズムを用いたナイジェリア港の大気質指数予測モデル

A Model for Forecasting Air Quality Index in Port Harcourt Nigeria Using Bi-LSTM Algorithm ( http://arxiv.org/abs/2302.03930v1 )

ライセンス: Link先を確認
O. E. Taylor and P. S. Ezekiel(参考訳) 産業による有害ガスの放出、自動車からの排出、大気中の有害ガスや粒子状物質の濃度の増加は、いずれも空気の質の低下に寄与する要因である。 産業、都市化、人口増加、自動車の利用の増加といった要因は、汚染レベルの増加に寄与し、人間の健康に悪影響を及ぼす可能性がある。 本稿では,二方向LSTMモデルを用いてナイジェリアの大気質指数を予測するモデルを提案する。 大気汚染データは、オンラインデータベース(UCL)からダウンロードされた。 データセットはpythonのpandasツールを使って事前に処理された。 その結果,Bi-LSTMモデルを用いて粒子状物質Pm2.5,Pm10の値の将来の予測を行った。 Bi-LSTMモデルは平均平方誤差,平均絶対誤差,絶対平均平方,R^2平方などの評価パラメータを用いて評価した。 Bi-LSTMの結果、平均平方誤差は52.99%、相対平均平方誤差は7.28%、絶対絶対誤差は3.4%、R^2平方誤差は97%である。 モデル。 このモデルはナイジェリアのポートハーコートにおける空気質予測においてシームレスな傾向を示している。

The release of toxic gases by industries, emissions from vehicles, and an increase in the concentration of harmful gases and particulate matter in the atmosphere are all contributing factors to the deterioration of the quality of the air. Factors such as industries, urbanization, population growth, and the increased use of vehicles contribute to the rapid increase in pollution levels, which can adversely impact human health. This paper presents a model for forecasting the air quality index in Nigeria using the Bi-directional LSTM model. The air pollution data was downloaded from an online database (UCL). The dataset was pre-processed using both pandas tools in python. The pre-processed result was used as input features in training a Bi-LSTM model in making future forecasts of the values of the particulate matter Pm2.5, and Pm10. The Bi-LSTM model was evaluated using some evaluation parameters such as mean square error, mean absolute error, absolute mean square, and R^2 square. The result of the Bi-LSTM shows a mean square error of 52.99%, relative mean square error of 7.28%, mean absolute error of 3.4%, and R^2 square of 97%. The model. This shows that the model follows a seamless trend in forecasting the air quality in Port Harcourt, Nigeria.
翻訳日:2023-02-09 16:55:45 公開日:2023-02-08
# CCRep: 事前トレーニングされたコードモデルとクエリバックによるコード変更表現の学習

CCRep: Learning Code Change Representations via Pre-Trained Code Model and Query Back ( http://arxiv.org/abs/2302.03924v1 )

ライセンス: Link先を確認
Zhongxin Liu, Zhijie Tang, Xin Xia, Xiaohu Yang(参考訳) コード変更を数値的特徴ベクトル、すなわちコード変更表現として表現することは、一般的に、コミットメッセージ生成やジャストインタイムの欠陥予測など、コード変更に関連する多くのソフトウェアエンジニアリングタスクを自動化する上で不可欠なステップである。 直感的には、コード変更の表現の品質は自動化アプローチの有効性に不可欠です。 コード変更に対する事前の作業は、通常、特定のタスクのコード変更表現アプローチを設計、評価するが、様々なタスクで使用し、共同でトレーニングできるコード変更エンコーダについては、ほとんど調査されていない。 このギャップを埋めるために、この研究はCCRepと呼ばれる新しいコード変更表現学習アプローチを提案する。 具体的には、CCRepは、コード変更を事前変更と変更後のコードの組み合わせとみなし、事前訓練されたコードモデルを利用してコードの高品質なコンテキスト埋め込みを取得し、変更したコードフラグメントを抽出してエンコードするために、クエリと呼ばれる新しいメカニズムを使用して、コード変更全体と明示的に対話させる。 CCRepを評価し,多様なコード変更関連タスクに適用可能であることを示すために,コミットメッセージ生成,パッチの正当性評価,ジャスト・イン・タイム欠陥予測という3つのタスクに適用する。 実験の結果,CCRepは各タスクにおける最先端技術よりも優れていた。

Representing code changes as numeric feature vectors, i.e., code change representations, is usually an essential step to automate many software engineering tasks related to code changes, e.g., commit message generation and just-in-time defect prediction. Intuitively, the quality of code change representations is crucial for the effectiveness of automated approaches. Prior work on code changes usually designs and evaluates code change representation approaches for a specific task, and little work has investigated code change encoders that can be used and jointly trained on various tasks. To fill this gap, this work proposes a novel Code Change Representation learning approach named CCRep, which can learn to encode code changes as feature vectors for diverse downstream tasks. Specifically, CCRep regards a code change as the combination of its before-change and after-change code, leverages a pre-trained code model to obtain high-quality contextual embeddings of code, and uses a novel mechanism named query back to extract and encode the changed code fragments and make them explicitly interact with the whole code change. To evaluate CCRep and demonstrate its applicability to diverse code-change-related tasks, we apply it to three tasks: commit message generation, patch correctness assessment, and just-in-time defect prediction. Experimental results show that CCRep outperforms the state-of-the-art techniques on each task.
翻訳日:2023-02-09 16:55:24 公開日:2023-02-08
# 単語を識別するために訓練された畳み込みニューラルネットワークは、視覚的形態のプライミング効果をうまく評価する

Convolutional Neural Networks Trained to Identify Words Provide a Good Account of Visual Form Priming Effects ( http://arxiv.org/abs/2302.03992v1 )

ライセンス: Link先を確認
Dong Yin and Valerio Biscione and Jeffrey Bowers(参考訳) 文字文字列間の正書法類似度を測るマスク付きプライミングデータを考慮するために,多様な正書法符号化方式と視覚単語識別モデルが開発されている。 これらのモデルは、特定の知識形式(例えば、ある位置や文字列の文字を符号化する単位など)を符号化する単一の単位を持つ手書きの正書法表現を含む傾向がある。 本稿では,form primingプロジェクトから得られたフォルムプライミング効果のパターンを,これらの符号化方式やモデルの範囲がどの程度適切に評価し,コンピュータサイエンスで開発された11の標準ディープニューラルネットワークモデル (dnn) と比較する。 深層畳み込みネットワークは符号化方式や単語認識モデルよりも性能が良いが,トランスフォーマーネットワークは性能が低かった。 畳み込みネットワークの成功は、単語認識をサポートするためのアーキテクチャが開発されず(それらはオブジェクト認識でよく機能するように設計された)、単語のピクセル画像(文字文字列の人工符号化)を分類するという点で顕著である。 この発見は、近年の(Hannagan et al., 2021)の成果に加え、畳み込みネットワークが視覚的単語識別の重要な側面を捉えていることを示唆している。

A wide variety of orthographic coding schemes and models of visual word identification have been developed to account for masked priming data that provide a measure of orthographic similarity between letter strings. These models tend to include hand-coded orthographic representations with single unit coding for specific forms of knowledge (e.g., units coding for a letter in a given position or a letter sequence). Here we assess how well a range of these coding schemes and models account for the pattern of form priming effects taken from the Form Priming Project and compare these findings to results observed in with 11 standard deep neural network models (DNNs) developed in computer science. We find that deep convolutional networks perform as well or better than the coding schemes and word recognition models, whereas transformer networks did less well. The success of convolutional networks is remarkable as their architectures were not developed to support word recognition (they were designed to perform well on object recognition) and they classify pixel images of words (rather artificial encodings of letter strings). The findings add to the recent work of (Hannagan et al., 2021) suggesting that convolutional networks may capture key aspects of visual word identification.
翻訳日:2023-02-09 16:49:13 公開日:2023-02-08
# 部分的に欠落したマルチオミクス変量データの予測手法:文献レビューと経験的比較研究

Prediction approaches for partly missing multi-omics covariate data: A literature review and an empirical comparison study ( http://arxiv.org/abs/2302.03991v1 )

ライセンス: Link先を確認
Roman Hornung, Frederik Ludwigs, Jonas Hagenberg, Anne-Laure Boulesteix(参考訳) ここ数年でomicsデータの可用性が高まるにつれて、ゲノム、転写学、プロテオミクスといった複数のタイプからなる高次元の分子データが、同じ患者から得られる、より多くのマルチオミクスデータを生成するようになった。 このようなデータは、それぞれのオミクスタイプがユニークな情報に寄与する可能性があるため、自動結果予測において共変量として使用されるのに役立つ。 しかしながら、自動予測ルールを適用するべきトレーニングデータやデータでは、テストデータでは、すべての患者に対して異なるオミクスデータ型が利用できないことが多い。 この種のデータをブロックワイズに欠落したマルチオミクスデータと呼ぶ。 まず,このようなデータに適用可能な既存の予測手法について文献レビューを行う。 その後、利用可能な13個のマルチオミクスデータセットの集合を用いて、これらのアプローチの予測性能をブロック単位の欠点パターンで比較した。 最後に,本実験の結果について検討し,仮結論を導出する。

As the availability of omics data has increased in the last few years, more multi-omics data have been generated, that is, high-dimensional molecular data consisting of several types such as genomic, transcriptomic, or proteomic data, all obtained from the same patients. Such data lend themselves to being used as covariates in automatic outcome prediction because each omics type may contribute unique information, possibly improving predictions compared to using only one omics data type. Frequently, however, in the training data and the data to which automatic prediction rules should be applied, the test data, the different omics data types are not available for all patients. We refer to this type of data as block-wise missing multi-omics data. First, we provide a literature review on existing prediction methods applicable to such data. Subsequently, using a collection of 13 publicly available multi-omics data sets, we compare the predictive performances of several of these approaches for different block-wise missingness patterns. Finally, we discuss the results of this empirical comparison study and draw some tentative conclusions.
翻訳日:2023-02-09 16:48:47 公開日:2023-02-08
# クラウドソースによるトリプレット比較によるマルチビュー表現学習

Multiview Representation Learning from Crowdsourced Triplet Comparisons ( http://arxiv.org/abs/2302.03987v1 )

ライセンス: Link先を確認
Xiaotian Lu, Jiyi Li, Koh Takeuchi, Hisashi Kashima(参考訳) クラウドソーシングは、さまざまな分野で大規模なデータ収集に使用されている。 トリプルト類似性比較は、クラウドソーシングのタスクの一種であり、群衆労働者は「与えられた3つのオブジェクトのうち、2つはより類似している?」という質問を受ける。 しかし、その比較は、色や形状などの異なる独立した属性など、複数のビューに基づくこともある。 各ビューは同じ3つのオブジェクトに対して異なる結果をもたらす可能性がある。 マルチビュー埋め込みを作成するアルゴリズムが先行研究で提案されているが、(1)既存のアルゴリズムでは、新しいサンプルのマルチビュー埋め込みを独立して予測できない、(2)異なる人が異なるビューを好む、という2つの問題がある。 本研究では,多視点表現学習問題を解決するために,エンドツーエンドのインダクティブディープラーニングフレームワークを提案する。 提案手法は,各ビューがオブジェクトの独立属性に対応するような,任意のオブジェクトのマルチビュー埋め込みを得ることができることを示す。 クラウドソーシングプラットフォームから2つのデータセットを収集し,従来のベースライン手法と比較して提案手法の性能を実験的に検討した。

Crowdsourcing has been used to collect data at scale in numerous fields. Triplet similarity comparison is a type of crowdsourcing task, in which crowd workers are asked the question ``among three given objects, which two are more similar?'', which is relatively easy for humans to answer. However, the comparison can be sometimes based on multiple views, i.e., different independent attributes such as color and shape. Each view may lead to different results for the same three objects. Although an algorithm was proposed in prior work to produce multiview embeddings, it involves at least two problems: (1) the existing algorithm cannot independently predict multiview embeddings for a new sample, and (2) different people may prefer different views. In this study, we propose an end-to-end inductive deep learning framework to solve the multiview representation learning problem. The results show that our proposed method can obtain multiview embeddings of any object, in which each view corresponds to an independent attribute of the object. We collected two datasets from a crowdsourcing platform to experimentally investigate the performance of our proposed approach compared to conventional baseline methods.
翻訳日:2023-02-09 16:48:28 公開日:2023-02-08
# 層注意によるクロスレイヤレトロスペクティブ検索

Cross-Layer Retrospective Retrieving via Layer Attention ( http://arxiv.org/abs/2302.03985v1 )

ライセンス: Link先を確認
Yanwen Fang, Yuxi Cai, Jintai Chen, Jingyu Zhao, Guangjian Tian, Guodong Li(参考訳) 層間相互作用の強化はディープニューラルネットワークの表現力を高め、自己注意はクエリアクティベートされた情報を取得することによって相互依存の学習に長けている、という証拠がますます増えている。 そこで我々は,マルチヘッドリカレント層アテンション (mrla) と呼ばれる層間アテンション機構を考案し,この機構により,従来のすべてのレイヤに現在のレイヤのクエリ表現を送信し,さまざまなレベルのレセプティブフィールドからクエリ関連情報を取得する。 また,2次計算コストを削減するため,MRLAの軽量バージョンも提案されている。 提案されたレイヤアテンション機構は、cnnや視覚トランスフォーマーなど、最先端のビジョンネットワークの表現力を増強することができる。 その効果は画像分類、オブジェクト検出、インスタンス分割タスクにおいて広く評価されており、改善は一貫して観察できる。 例えば、MRLAはResNet-50で1.6\%のTop-1精度を向上できます。 驚くべきことに、密度の高い予測タスクにおいて、パフォーマンスを3~4倍に向上させることができる。 私たちのコードはhttps://github.com/joyfang1106/MRLAで利用可能です。

More and more evidence has shown that strengthening layer interactions can enhance the representation power of a deep neural network, while self-attention excels at learning interdependencies by retrieving query-activated information. Motivated by this, we devise a cross-layer attention mechanism, called multi-head recurrent layer attention (MRLA), that sends a query representation of the current layer to all previous layers to retrieve query-related information from different levels of receptive fields. A light-weighted version of MRLA is also proposed to reduce the quadratic computation cost. The proposed layer attention mechanism can enrich the representation power of many state-of-the-art vision networks, including CNNs and vision transformers. Its effectiveness has been extensively evaluated in image classification, object detection and instance segmentation tasks, where improvements can be consistently observed. For example, our MRLA can improve 1.6\% Top-1 accuracy on ResNet-50, while only introducing 0.16M parameters and 0.07B FLOPs. Surprisingly, it can boost the performances by a large margin of 3-4\% box AP and mask AP in dense prediction tasks. Our code is available at https://github.com/joyfang1106/MRLA.
翻訳日:2023-02-09 16:48:08 公開日:2023-02-08
# エネルギーネットワークのための構造階層学習

Structural hierarchical learning for energy networks ( http://arxiv.org/abs/2302.03978v1 )

ライセンス: Link先を確認
Julien Leprince, Waqas Khan, Henrik Madsen, Jan Kloppenborg M{\o}ller, Wim Zeiler(参考訳) 現在、多くの部門は、効果的に運営するために組織全体の正確で一貫性のある予測を必要としている。 さもなければ、意思決定者は未来に対する異なる見方を使って計画し、その結果、各部門で矛盾した決定を下すことになる。 階層間のコヒーレンシを確保するため、最近の研究では、最適調整法に基づくカスタム損失関数によって機械学習のパワーを活用する、コヒーレンシに準拠した階層レグレッサである階層学習が進められている。 有望なポテンシャルを概説する一方で,コヒーレンシー情報が階層的予測を1つの環境で改善した不一致性能を示した。 本研究は階層のトポロジカル構造に触発されたカスタムニューラルネットワークの設計を検討することにより,これらの障害に取り組むことを提案する。 その結果、データ制限された環境では、接続が少ない構造モデルが全体的なベストを尽くし、精度とコヒーレンシ予測性能の両方のコヒーレンシ情報値を示すことが判明した。 全体として、この研究は、構造化されたネットワーク設計と組み合わされた構造的スケールの学習メカニズムの拡張により、階層的な学習方法を拡張し、改善する。

Many sectors nowadays require accurate and coherent predictions across their organization to effectively operate. Otherwise, decision-makers would be planning using disparate views of the future, resulting in inconsistent decisions across their sectors. To secure coherency across hierarchies, recent research has put forward hierarchical learning, a coherency-informed hierarchical regressor leveraging the power of machine learning thanks to a custom loss function founded on optimal reconciliation methods. While promising potentials were outlined, results exhibited discordant performances in which coherency information only improved hierarchical forecasts in one setting. This work proposes to tackle these obstacles by investigating custom neural network designs inspired by the topological structures of hierarchies. Results unveil that, in a data-limited setting, structural models with fewer connections perform overall best and demonstrate the coherency information value for both accuracy and coherency forecasting performances, provided individual forecasts were generated within reasonable accuracy limits. Overall, this work expands and improves hierarchical learning methods thanks to a structurally-scaled learning mechanism extension coupled with tailored network designs, producing a resourceful, data-efficient, and information-rich learning process.
翻訳日:2023-02-09 16:47:45 公開日:2023-02-08
# ランドスケープ修正による確率最適化のためのLangevin Monte Carloの改良

Improved Langevin Monte Carlo for stochastic optimization via landscape modification ( http://arxiv.org/abs/2302.03973v1 )

ライセンス: Link先を確認
Michael C. H. Choi, Youjia Wang(参考訳) Given a target function $H$ to minimize or a target Gibbs distribution $\pi_{\beta}^0 \propto e^{-\beta H}$ to sample from in the low temperature, in this paper we propose and analyze Langevin Monte Carlo (LMC) algorithms that run on an alternative landscape as specified by $H^f_{\beta,c,1}$ and target a modified Gibbs distribution $\pi^f_{\beta,c,1} \propto e^{-\beta H^f_{\beta,c,1}}$, where the landscape of $H^f_{\beta,c,1}$ is a transformed version of that of $H$ which depends on the parameters $f,\beta$ and $c$. 元のLog-Sobolev定数は$\pi^0_{\beta}$に関連付けられており、低温条件下では$M$と$\beta$の両方に指数関数依存を示し、これらのパラメータを適切にチューニングし、$H$に仮定するが、変換されたランドスケープのエネルギー障壁は減少し、その結果$\beta$と$M$が$\pi^f_{\beta,c,1}$に関連付けられた修正Log-Sobolev定数に多項式依存することを証明する。 この収率は全変量混合時間境界を改善し、世界最小の$H$への収束を改善した。 本稿では,本手法がLCCに限らず,他の勾配最適化やサンプリングアルゴリズムにも広く適用可能であることを強調する。

Given a target function $H$ to minimize or a target Gibbs distribution $\pi_{\beta}^0 \propto e^{-\beta H}$ to sample from in the low temperature, in this paper we propose and analyze Langevin Monte Carlo (LMC) algorithms that run on an alternative landscape as specified by $H^f_{\beta,c,1}$ and target a modified Gibbs distribution $\pi^f_{\beta,c,1} \propto e^{-\beta H^f_{\beta,c,1}}$, where the landscape of $H^f_{\beta,c,1}$ is a transformed version of that of $H$ which depends on the parameters $f,\beta$ and $c$. While the original Log-Sobolev constant affiliated with $\pi^0_{\beta}$ exhibits exponential dependence on both $\beta$ and the energy barrier $M$ in the low temperature regime, with appropriate tuning of these parameters and subject to assumptions on $H$, we prove that the energy barrier of the transformed landscape is reduced which consequently leads to polynomial dependence on both $\beta$ and $M$ in the modified Log-Sobolev constant associated with $\pi^f_{\beta,c,1}$. This yield improved total variation mixing time bounds and improved convergence toward a global minimum of $H$. We stress that the technique developed in this paper is not only limited to LMC and is broadly applicable to other gradient-based optimization or sampling algorithms.
翻訳日:2023-02-09 16:47:21 公開日:2023-02-08
# LHCbシリコン画素検出器におけるリアルタイムクラスタ検出のためのFPGAアーキテクチャ

A FPGA-based architecture for real-time cluster finding in the LHCb silicon pixel detector ( http://arxiv.org/abs/2302.03972v1 )

ライセンス: Link先を確認
G. Bassi, L. Giambastiani, K. Hennessy, F. Lazzari, M. J. Morello, T. Pajero, A. Fernandez Prieto, G. Punzi(参考訳) 本稿では、LHCb Upgradeの一部である新しい頂点画素検出器(VELO)のヒット位置を再構築するための2次元クラスタファインダーアーキテクチャのカスタムVHDLファームウェアの実装について述べる。 このファームウェアは、DAQシステムのさらなる強化として、VELOの読み出しを行う既存のFPGAカードにデプロイされ、LHC衝突速度でVELOがオンザフライで座標を打つ物理データ取得、再構成の間、リアルタイムに実行される。 この前処理により、第1レベルのソフトウェアトリガーが11%以上のイベントを受信できるようになり、既製のヒット座標がトラックの再構築を加速し、電力消費量が大幅に減少する。 さらに、生のピクセルデータを読み出しレベルに落として、DAQ帯域幅の約14%を節約できる。 詳細なシミュレーション研究により、このリアルタイムクラスタ発見の使用は、本格的なソフトウェア実装と比較してトラッキング性能の劣化を生じさせないことが示されている。 この作業は、HEP実験のリアルタイム処理能力を向上するために、データ取得チェーンの初期段階にデプロイされた専用コンピューティングアクセラレーターに集中的なタスクを委譲することを目的としている。

This article describes a custom VHDL firmware implementation of a two-dimensional cluster-finder architecture for reconstructing hit positions in the new vertex pixel detector (VELO) that is part of the LHCb Upgrade. This firmware has been deployed to the existing FPGA cards that perform the readout of the VELO, as a further enhancement of the DAQ system, and will run in real time during physics data taking, reconstructing VELO hits coordinates on-the-fly at the LHC collision rate. This pre-processing allows the first level of the software trigger to accept a 11% higher rate of events, as the ready-made hits coordinates accelerate the track reconstruction and consumes significantly less electrical power. It additionally allows the raw pixel data to be dropped at the readout level, thus saving approximately 14% of the DAQ bandwidth. Detailed simulation studies have shown that the use of this real-time cluster finding does not introduce any appreciable degradation in the tracking performance in comparison to a full-fledged software implementation. This work is part of a wider effort aimed at boosting the real-time processing capability of HEP experiments by delegating intensive tasks to dedicated computing accelerators deployed at the earliest stages of the data acquisition chain.
翻訳日:2023-02-09 16:46:50 公開日:2023-02-08
# 自律移動制御のための学習に基づくオンライン最適化

Learning-based Online Optimization for Autonomous Mobility-on-Demand Fleet Control ( http://arxiv.org/abs/2302.03963v1 )

ライセンス: Link先を確認
Kai Jungel, Axel Parmentier, Maximilian Schiffer, Thibaut Vidal(参考訳) 自律型モビリティ・オン・デマンドシステムは、都市部における車両の量の増加や交通関連汚染など、多くの交通関連外部性を緩和する手段として、有効な選択肢である。 しかし、これらのシステムの成功は、効率的かつ効果的な艦隊統制戦略に大きく依存している。 本研究では,自律移動オンデマンドシステムのためのオンライン制御アルゴリズムについて検討し,最適全情報ソリューションからオンラインディスパッチとリバランスポリシを学習するハイブリッド組合せ最適化強化機械学習パイプラインを開発した。 我々は,車両群の大きさや要求密度の異なる大規模実世界のシナリオで,ハイブリッドパイプラインをテストする。 提案手法は, 様々なKPI(例えば, 最大17.1%, 平均6.3%)に対して, 最先端の欲求とモデル予測制御のアプローチより優れていることを示す。

Autonomous mobility-on-demand systems are a viable alternative to mitigate many transportation-related externalities in cities, such as rising vehicle volumes in urban areas and transportation-related pollution. However, the success of these systems heavily depends on efficient and effective fleet control strategies. In this context, we study online control algorithms for autonomous mobility-on-demand systems and develop a novel hybrid combinatorial optimization enriched machine learning pipeline which learns online dispatching and rebalancing policies from optimal full-information solutions. We test our hybrid pipeline on large-scale real-world scenarios with different vehicle fleet sizes and various request densities. We show that our approach outperforms state-of-the-art greedy, and model-predictive control approaches with respect to various KPIs, e.g., by up to 17.1% and on average by 6.3% in terms of realized profit.
翻訳日:2023-02-09 16:46:29 公開日:2023-02-08
# 強化学習によるマルチ車両駆動のためのノンゼロサムゲーム制御

Non-zero-sum Game Control for Multi-vehicle Driving via Reinforcement Learning ( http://arxiv.org/abs/2302.03958v1 )

ライセンス: Link先を確認
Xujie Song, Zexi Lin(参考訳) 車両が道路を走行するとき、その挙動は周囲の車両に影響される。 全ての車両が対話的に意思決定を行うため、予測と決定は2つの別々の段階として考慮すべきではない。 本稿では,非ゼロサムゲームとしてマルチサイクル駆動シナリオを構築し,予測,決定,制御全体を考慮した新しいゲーム制御フレームワークを提案する。 車両間の相互作用の相互影響は、ナッシュ均衡戦略によって決定されるため、この枠組みで考慮される。 この戦略を効率的に得るために、ハミルトン・ヤコビ・ベルマン連成方程式を解くためにモデルベース強化学習法adpを用いる。 運転性能は、トラッキング、効率、安全性、快適性指数によって評価される。 実験により,加速度と操舵角度を直接制御することで,我々のアルゴリズムが完全に駆動できることが判明した。 車両は乗っ取りや通行といった対話的な行動を学べる。 そこで本研究では,多車両駆動をモデル化する非ゼロサムゲームフレームワークを提案し,nash平衡駆動戦略を効果的に解決し,非信号化交差点で検証する。

When a vehicle drives on the road, its behaviors will be affected by surrounding vehicles. Prediction and decision should not be considered as two separate stages because all vehicles make decisions interactively. This paper constructs the multi-vehicle driving scenario as a non-zero-sum game and proposes a novel game control framework, which consider prediction, decision and control as a whole. The mutual influence of interactions between vehicles is considered in this framework because decisions are made by Nash equilibrium strategy. To efficiently obtain the strategy, ADP, a model-based reinforcement learning method, is used to solve coupled Hamilton-Jacobi-Bellman equations. Driving performance is evaluated by tracking, efficiency, safety and comfort indices. Experiments show that our algorithm could drive perfectly by directly controlling acceleration and steering angle. Vehicles could learn interactive behaviors such as overtaking and pass. In summary, we propose a non-zero-sum game framework for modeling multi-vehicle driving, provide an effective way to solve the Nash equilibrium driving strategy, and validate at non-signalized intersections.
翻訳日:2023-02-09 16:46:13 公開日:2023-02-08
# neural congealing: イメージをジョイントセマンティックアトラスにアライメントする

Neural Congealing: Aligning Images to a Joint Semantic Atlas ( http://arxiv.org/abs/2302.03956v1 )

ライセンス: Link先を確認
Dolev Ofri-Amar, Michal Geyer, Yoni Kasten, Tali Dekel(参考訳) ニューラル・コンガリング(Neural Congealing) - 与えられた画像集合にまたがるセマンティックなコンテントを検出し、協調的に調整するための、ゼロショットのセルフ教師付きフレームワーク。 我々のアプローチは、事前訓練されたDINO-ViT機能を利用して学習する。 (i)ジョイント・セマンティクス・アトラス(joint semantic atlas) -- 入力セット内のdino-vit特徴のモードをキャプチャする2dグリッド。 (ii)統一アトラスから各入力画像への密接なマッピング。 我々は、画像セットごとにatlas表現とマッピングを最適化する新しいロバストな自己教師付きフレームワークを導出し、追加の入力情報(例えば、セグメンテーションマスク)なしで、ほんの数枚の実世界の画像を入力として要求する。 特に、外見、ポーズ、背景の散らばり、その他の注意をそそる物体において、共有コンテンツのみを考慮に入れた損失とトレーニングパラダイムを設計する。 例えば、猫の彫刻やアートワークを描いた画像など)、関連があるが異なる対象のカテゴリ(例えば、犬やトラ)を描いたセット、大規模なトレーニングデータが少ない領域(例えば、コーヒーマグカップ)など、多くの挑戦的な画像セットで結果を示す。 本手法を徹底的に評価し,大規模データセットの広範なトレーニングを必要とする最先端手法と比較して,テスト時間最適化手法が良好に動作することを示す。

We present Neural Congealing -- a zero-shot self-supervised framework for detecting and jointly aligning semantically-common content across a given set of images. Our approach harnesses the power of pre-trained DINO-ViT features to learn: (i) a joint semantic atlas -- a 2D grid that captures the mode of DINO-ViT features in the input set, and (ii) dense mappings from the unified atlas to each of the input images. We derive a new robust self-supervised framework that optimizes the atlas representation and mappings per image set, requiring only a few real-world images as input without any additional input information (e.g., segmentation masks). Notably, we design our losses and training paradigm to account only for the shared content under severe variations in appearance, pose, background clutter or other distracting objects. We demonstrate results on a plethora of challenging image sets including sets of mixed domains (e.g., aligning images depicting sculpture and artwork of cats), sets depicting related yet different object categories (e.g., dogs and tigers), or domains for which large-scale training data is scarce (e.g., coffee mugs). We thoroughly evaluate our method and show that our test-time optimization approach performs favorably compared to a state-of-the-art method that requires extensive training on large-scale datasets.
翻訳日:2023-02-09 16:45:58 公開日:2023-02-08
# システムの観点からの事象予測手法に関する調査研究 : 異なる研究領域をまとめて

A Survey on Event Prediction Methods from a Systems Perspective: Bringing Together Disparate Research Areas ( http://arxiv.org/abs/2302.04018v1 )

ライセンス: Link先を確認
Janik-Vasily Benzin, Stefanie Rinderle-Ma(参考訳) イベント予測(event prediction)は、将来のイベント、すなわち将来の実世界発生を予測する能力であり、将来のイベントを望ましい状態へ変更するアクションを決定するユーザを支援することを目的としている。 イベント予測方法は、過去のイベントの特徴と将来のイベントの関係を学習する。 新たに観測されたイベントに適用し、ユーザの希望する将来状態に対して評価される対応する将来のイベントを予測する。 予測される将来の事象がこの状態に従わない場合、望ましい将来の状態を達成するための行動をとる。 明らかに、イベント予測はビジネスや自然災害のような多くのアプリケーションドメインで価値がある。 アプリケーションドメインの多様性は、さまざまな研究領域に散在するさまざまな方法をもたらす。 これにより、将来の事象予測方法を開発するための共有方法や知識が制限される。 イベント予測手法の総合的な分類,統合,評価を考慮した知識共有を容易にするため,分類学とシステムの観点から,イベント予測手法を単一システムに統合し,要件を抽出し,要件に関する既存の作業を評価する。 評価に基づき,オープン課題を特定し,今後の研究方向性について議論する。

Event prediction is the ability of anticipating future events, i.e., future real-world occurrences, and aims to support the user in deciding on actions that change future events towards a desired state. An event prediction method learns the relation between features of past events and future events. It is applied to newly observed events to predict corresponding future events that are evaluated with respect to the user's desired future state. If the predicted future events do not comply with this state, actions are taken towards achieving desirable future states. Evidently, event prediction is valuable in many application domains such as business and natural disasters. The diversity of application domains results in a diverse range of methods that are scattered across various research areas which, in turn, use different terminology for event prediction methods. Consequently, sharing methods and knowledge for developing future event prediction methods is restricted. To facilitate knowledge sharing on account of a comprehensive classification, integration, and assessment of event prediction methods, we combine taxonomies and take a systems perspective to integrate event prediction methods into a single system, elicit requirements and assess existing work with respect to the requirements. Based on the assessment, we identify open challenges and discuss future research directions.
翻訳日:2023-02-09 16:40:12 公開日:2023-02-08
# ゼロショットsim2実環境適応

Zero-shot Sim2Real Adaptation Across Environments ( http://arxiv.org/abs/2302.04013v1 )

ライセンス: Link先を確認
Buddhika Laknath Semage, Thommen George Karimpanal, Santu Rana, Svetha Venkatesh(参考訳) シミュレーションに基づく学習はしばしば、ロボット工学における強化学習アプリケーションに対する費用効率のよいリコースを提供する。 しかし、シミュレータは現実のダイナミクスを正確に再現できないため、シミュレーションベースの学習において、シム2リアルギャップをブリッジすることは重要な問題である。 sim2realギャップを埋める現在の解決策は、ニューラル残留モデルで強化されたハイブリッドシミュレータを含む。 残念なことに、個々の環境設定(例えば、質量、摩擦などの環境変数の固定設定)に対して別々の残留モデルが必要であるため、新しい環境に素早く移行することはできない。 この問題に対処するために,実世界のシミュレートされたポリシーを模倣することを学ぶリバースアクショントランスフォーメーション(RAT)ポリシーを提案する。 一度単一の環境から学習すると、RATはUniversal Policy Network上にデプロイされ、新しい環境へのゼロショット適応が達成される。 我々は,一連の連続制御タスクにおいて,そのアプローチを経験的に評価し,そのアドバンテージを,競合するベースラインよりも少数およびゼロショット学習者として観察する。

Simulation based learning often provides a cost-efficient recourse to reinforcement learning applications in robotics. However, simulators are generally incapable of accurately replicating real-world dynamics, and thus bridging the sim2real gap is an important problem in simulation based learning. Current solutions to bridge the sim2real gap involve hybrid simulators that are augmented with neural residual models. Unfortunately, they require a separate residual model for each individual environment configuration (i.e., a fixed setting of environment variables such as mass, friction etc.), and thus are not transferable to new environments quickly. To address this issue, we propose a Reverse Action Transformation (RAT) policy which learns to imitate simulated policies in the real-world. Once learnt from a single environment, RAT can then be deployed on top of a Universal Policy Network to achieve zero-shot adaptation to new environments. We empirically evaluate our approach in a set of continuous control tasks and observe its advantage as a few-shot and zero-shot learner over competing baselines.
翻訳日:2023-02-09 16:39:52 公開日:2023-02-08
# ブラックボックスコード生成モデルにおけるセキュリティ脆弱性の体系的発見

Systematically Finding Security Vulnerabilities in Black-Box Code Generation Models ( http://arxiv.org/abs/2302.04012v1 )

ライセンス: Link先を確認
Hossein Hajipour, Thorsten Holz, Lea Sch\"onherr, Mario Fritz(参考訳) 近年、コード生成のための大規模言語モデルは、いくつかのプログラミング言語タスクにおいてブレークスルーを達成している。 競争レベルのプログラミング問題における彼らの進歩は、AI支援ペアプログラミングにおける新たな柱となっている。 GitHub Copilotのようなツールは、すでにデイリープログラミングワークフローの一部であり、100万人以上の開発者が使用している。 これらのモデルのトレーニングデータは通常、ソフトウェア障害とセキュリティ脆弱性を含むオープンソースリポジトリ(githubなど)から収集される。 この不衛生なトレーニングデータによって、言語モデルがこれらの脆弱性を学習し、コード生成手順に伝播する可能性がある。 開発者の日々のワークフローでこれらのモデルが広く使われていることを考えると、これらのモデルのセキュリティ面を体系的に研究することが重要です。 本研究では,ブラックボックスコード生成モデルにおいて,セキュリティ脆弱性を自動的に発見する手法を提案する。 これを実現するために,少数ショットプロンプトに基づく新しいブラックボックス・インバージョン手法を提案する。 リスクの高いセキュリティ脆弱性の生成におけるコード生成モデルを検討することにより,提案手法の有効性を評価する。 このアプローチは,商用のブラックボックスモデルであるGitHub Copilotなど,さまざまなコード生成モデルにおいて,1000のセキュリティ脆弱性を自動的にかつ体系的に検出する。

Recently, large language models for code generation have achieved breakthroughs in several programming language tasks. Their advances in competition-level programming problems have made them an emerging pillar in AI-assisted pair programming. Tools such as GitHub Copilot are already part of the daily programming workflow and are used by more than a million developers. The training data for these models is usually collected from open-source repositories (e.g., GitHub) that contain software faults and security vulnerabilities. This unsanitized training data can lead language models to learn these vulnerabilities and propagate them in the code generation procedure. Given the wide use of these models in the daily workflow of developers, it is crucial to study the security aspects of these models systematically. In this work, we propose the first approach to automatically finding security vulnerabilities in black-box code generation models. To achieve this, we propose a novel black-box inversion approach based on few-shot prompting. We evaluate the effectiveness of our approach by examining code generation models in the generation of high-risk security weaknesses. We show that our approach automatically and systematically finds 1000s of security vulnerabilities in various code generation models, including the commercial black-box model GitHub Copilot.
翻訳日:2023-02-09 16:39:33 公開日:2023-02-08
# 探索・移動におけるモデルベース学習の役割の検討

Investigating the role of model-based learning in exploration and transfer ( http://arxiv.org/abs/2302.04009v1 )

ライセンス: Link先を確認
Jacob Walker, Eszter V\'ertes, Yazhe Li, Gabriel Dulac-Arnold, Ankesh Anand, Th\'eophane Weber, Jessica B. Hamrick(参考訳) state of the art reinforcement learningは、複雑さが増すタスクのトレーニングエージェントを可能にした。 しかし、現在のパラダイムでは、新しいタスクや新しいタスク構成への一般化を目的としたタスクの集合に対して、トレーニングエージェントをスクラッチから優先する傾向がある。 前者はデータ効率の低下に悩まされ、後者はテストタスクが配布外である場合に困難である。 世界の知識を効果的に伝達できるエージェントは、これらの問題に対する潜在的な解決策となる。 本稿ではモデルベースエージェントの文脈における伝達学習について検討する。 具体的には、環境モデルに利点と理由を正確に理解することを目指している。 モデルベースアプローチは、トランスファー学習のモデルフリーベースラインよりも優れています。 アブレーションにより, 政策モデルとダイナミクスモデルの両方が, 移動を成功させるために探索物質を通して学習できることを実証する。 転送要求が異なる3つの領域 – in-distriion procedural (Crafter), in-distriion same (RoboDesk), out-of-distriion (Meta-World) – で結果を示す。 本研究の結果から,本質的な探索と環境モデルが組み合わさって,自己監督的かつ新たな報酬関数に一般化可能なエージェントの方向性を示すことが明らかとなった。

State of the art reinforcement learning has enabled training agents on tasks of ever increasing complexity. However, the current paradigm tends to favor training agents from scratch on every new task or on collections of tasks with a view towards generalizing to novel task configurations. The former suffers from poor data efficiency while the latter is difficult when test tasks are out-of-distribution. Agents that can effectively transfer their knowledge about the world pose a potential solution to these issues. In this paper, we investigate transfer learning in the context of model-based agents. Specifically, we aim to understand when exactly environment models have an advantage and why. We find that a model-based approach outperforms controlled model-free baselines for transfer learning. Through ablations, we show that both the policy and dynamics model learnt through exploration matter for successful transfer. We demonstrate our results across three domains which vary in their requirements for transfer: in-distribution procedural (Crafter), in-distribution identical (RoboDesk), and out-of-distribution (Meta-World). Our results show that intrinsic exploration combined with environment models present a viable direction towards agents that are self-supervised and able to generalize to novel reward functions.
翻訳日:2023-02-09 16:39:14 公開日:2023-02-08
# ibm量子コンピュータを用いた量子重力絡み合いのディジタル量子シミュレーション

Digital quantum simulation of quantum gravitational entanglement with IBM quantum computers ( http://arxiv.org/abs/2302.04006v1 )

ライセンス: Link先を確認
Carlos Sab\'in(参考訳) 重力による量子絡み合いの発生に関与するハミルトニアンのディジタル量子シミュレーションについて報告する。 特に、1対の量子調和振動子に焦点をあて、量子重力場による相互作用は、量子光学における非標準過程である両モードでの単一モードのスクイーズを同時に生成する。 我々は、IBM量子デバイス専用のボソン量子ビットマッピングとデジタルゲート分解を行う。 誤差軽減とポストセレクションを用いて、直接実験範囲からパラメータ状態にアクセスし、高忠実度を実現する。

We report the digital quantum simulation of a hamiltonian involved in the generation of quantum entanglement by gravitational means. In particular, we focus on a pair of quantum harmonic oscillators, whose interaction via a quantum gravitational field generates single-mode squeezing in both modes at the same time, a non-standard process in quantum optics. We perform a boson-qubit mapping and a digital gate decomposition specific for IBM quantum devices. We use error mitigation and post-selection to achieve high-fidelity, accessing a parameter regime out of direct experimental reach.
翻訳日:2023-02-09 16:38:55 公開日:2023-02-08
# 悪は誤って分類されたサンプルにある:統一されたオープンセット認識を目指して

The Devil is in the Wrongly-classified Samples: Towards Unified Open-set Recognition ( http://arxiv.org/abs/2302.04002v1 )

ライセンス: Link先を確認
Jun Cen, Di Luan, Shiwei Zhang, Yixuan Pei, Yingya Zhang, Deli Zhao, Shaojie Shen, Qifeng Chen(参考訳) Open-set Recognition (OSR) は、トレーニングプロセス中にクラスが見えないテストサンプルを特定することを目的としている。 近年、統一オープンセット認識 (unified open-set recognition, uosr) は未知のサンプルだけでなく、既知のサンプルも否定することが提案されている。 UOSRは提案されてからほとんど注目されていないが、未知のサンプルと同様、未知の分類されたサンプルの評価結果が間違っているため、実世界のアプリケーションではOSRよりも実用的であることがある。 本稿では,UOSRタスクを異なるトレーニングおよび評価設定下で深く分析し,この有望な研究方向性を明らかにする。 そこで本研究では,いくつかのosr法のuosr性能をまず評価し,同一手法においてuosr性能がosr性能を一貫して上回っていることを示す。 その結果,不確かさ分布は未知の試料に非常に近いため,未知の分類標本よりも未知の分類標本に非常に近いことが明らかとなった。 第2に、OSRの2つのトレーニング設定(事前トレーニングと外部露出)がUOSRにどのように影響するかを分析する。 未知のサンプルから既知の分類標本と正しく分類された試料を区別するのに有用であるが、事前訓練は未知の分類標本を識別するのにも有用である。 異なるトレーニング設定に加えて、未知のクラスごとに1つまたは5つのサンプルしか使用できないUOSRと呼ばれるUOSRの新しい評価設定を定式化し、未知のサンプルを特定するのに役立てる。 FS-KNNSを複数ショットのUOSRに対して提案し,全設定で最先端性能を実現する。

Open-set Recognition (OSR) aims to identify test samples whose classes are not seen during the training process. Recently, Unified Open-set Recognition (UOSR) has been proposed to reject not only unknown samples but also known but wrongly classified samples, which tends to be more practical in real-world applications. The UOSR draws little attention since it is proposed, but we find sometimes it is even more practical than OSR in the real world applications, as evaluation results of known but wrongly classified samples are also wrong like unknown samples. In this paper, we deeply analyze the UOSR task under different training and evaluation settings to shed light on this promising research direction. For this purpose, we first evaluate the UOSR performance of several OSR methods and show a significant finding that the UOSR performance consistently surpasses the OSR performance by a large margin for the same method. We show that the reason lies in the known but wrongly classified samples, as their uncertainty distribution is extremely close to unknown samples rather than known and correctly classified samples. Second, we analyze how the two training settings of OSR (i.e., pre-training and outlier exposure) influence the UOSR. We find although they are both beneficial for distinguishing known and correctly classified samples from unknown samples, pre-training is also helpful for identifying known but wrongly classified samples while outlier exposure is not. In addition to different training settings, we also formulate a new evaluation setting for UOSR which is called few-shot UOSR, where only one or five samples per unknown class are available during evaluation to help identify unknown samples. We propose FS-KNNS for the few-shot UOSR to achieve state-of-the-art performance under all settings.
翻訳日:2023-02-09 16:38:45 公開日:2023-02-08
# 医療報告書要約の概要指導の活用

Leveraging Summary Guidance on Medical Report Summarization ( http://arxiv.org/abs/2302.04001v1 )

ライセンス: Link先を確認
Yunqi Zhu, Xuebing Yang, Yuanyuan Wu, Wensheng Zhang(参考訳) 本研究は,MIMIC-IIIから抽出した50K,16K,378Kのレポートと要約を含む,D DISCHARGE,ECHO,RADIOLOGYの3つの大規模医療用テキストデータセットについて述べる。 我々は,提案したデータセットに対して,BERT2BERT,T5-large,BARTなど,事前学習したエンコーダ・デコーダ言語モデルを用いて,自動抽象要約の説得力のあるベースラインを実装した。 さらに,BARTモデルに基づいて,列車セットのサンプル要約を事前知識指導として利用し,エンコーダによる誘導の文脈表現の追加を符号化し,デコーダにおける復号表現の強化を図る。 実験により,提案手法により得られたROUGEスコアとBERTScoreの改善が確認され,より大きなモデルであるT5-largeよりも優れていた。

This study presents three deidentified large medical text datasets, named DISCHARGE, ECHO and RADIOLOGY, which contain 50K, 16K and 378K pairs of report and summary that are derived from MIMIC-III, respectively. We implement convincing baselines of automated abstractive summarization on the proposed datasets with pre-trained encoder-decoder language models, including BERT2BERT, T5-large and BART. Further, based on the BART model, we leverage the sampled summaries from the train set as prior knowledge guidance, for encoding additional contextual representations of the guidance with the encoder and enhancing the decoding representations in the decoder. The experimental results confirm the improvement of ROUGE scores and BERTScore made by the proposed method, outperforming the larger model T5-large.
翻訳日:2023-02-09 16:38:13 公開日:2023-02-08
# 基礎物理学のための量子エレクトロニクス

Quantum Electronics for Fundamental Physics ( http://arxiv.org/abs/2302.04000v1 )

ライセンス: Link先を確認
Stafford Withington(参考訳) 量子センサと電子工学の基礎物理学の新たな分野が紹介され、薄膜超伝導デバイスの役割を強調している。 次世代の地上実験と宇宙実験は電磁スペクトル全体にわたる高度な技術開発を必要とするが、本稿は、既存のデバイスが理論的限界に満たない電波から遠赤外線への超低ノイズ技術に焦点を当てる。 受動回路、検出器、増幅器は古典的および量子的な視点から説明され、検出器ベースおよび増幅器ベースの機器の感度が議論されている。 進歩は既存の技術の改良によって達成されるが、イノベーションは不可欠である。 必要とされる発展は工学を超えて、量子情報理論、量子場理論、古典回路理論、デバイス物理学の概念をまとめる理論的研究に関係している。 この記事は、正式なレビューではなく、大学院レベルの科学者を量子センサー物理学に紹介するために書かれた。

The emerging field of quantum sensors and electronics for fundamental physics is introduced, emphasising the role of thin-film superconducting devices. Although the next generation of ground-based and space-based experiments requires the development of advanced technology across the whole of the electromagnetic spectrum, this article focuses on ultra-low-noise techniques for radio to far-infrared wavelengths, where existing devices fall short of theoretical limits. Passive circuits, detectors and amplifiers are described from classical and quantum perspectives, and the sensitivities of detector-based and amplifier-based instruments discussed. Advances will be achieved through refinements in existing technology, but innovation is essential. The needed developments go beyond engineering and relate to theoretical studies that bring together concepts from quantum information theory, quantum field theory, classical circuit theory, and device physics. This article has been written to introduce graduate-level scientists to quantum sensor physics, rather than as a formal review.
翻訳日:2023-02-09 16:37:56 公開日:2023-02-08
# simcgnn:セッションベースレコメンデーションのための単純なコントラストグラフニューラルネットワーク

SimCGNN: Simple Contrastive Graph Neural Network for Session-based Recommendation ( http://arxiv.org/abs/2302.03997v1 )

ライセンス: Link先を確認
Yuan Cao, Xudong Zhang, Fan Zhang, Feifei Kou, Josiah Poon, Xiongnan Jin, Yongheng Wang and Jinpeng Chen(参考訳) 匿名ユーザに対する次の項目予測に焦点を当てたセッションベースレコメンデーション(sbr)問題は、研究者からますます注目を集めている。 既存のグラフベースのSBRメソッドには、すべて同じ最終項目のセッションを区別する能力がなく、重大な人気バイアスに悩まされている。 近年のコントラスト学習法に着想を得て,セッションベースレコメンデーション(simcgnn)のための単純なコントラストグラフニューラルネットワークを提案する。 SimCGNNでは、構築したセッショングラフ上に正規化されたセッション埋め込みを得る。 次に,2つの前方伝播と新規な負のサンプル選択戦略によりセッションの正および負のサンプルを構築し,構成的損失を算出する。 最後に、セッション埋め込みが予測に使用される。 2つの実単語データセットで広範な実験を行った結果,simcgnnは最先端手法よりも大幅に改善した。

Session-based recommendation (SBR) problem, which focuses on next-item prediction for anonymous users, has received increasingly more attention from researchers. Existing graph-based SBR methods all lack the ability to differentiate between sessions with the same last item, and suffer from severe popularity bias. Inspired by nowadays emerging contrastive learning methods, this paper presents a Simple Contrastive Graph Neural Network for Session-based Recommendation (SimCGNN). In SimCGNN, we first obtain normalized session embeddings on constructed session graphs. We next construct positive and negative samples of the sessions by two forward propagation and a novel negative sample selection strategy, and then calculate the constructive loss. Finally, session embeddings are used to give prediction. Extensive experiments conducted on two real-word datasets show our SimCGNN achieves a significant improvement over state-of-the-art methods.
翻訳日:2023-02-09 16:37:41 公開日:2023-02-08
# 最悪の更新時間保証を備えた完全動的近似決定木

Fully-Dynamic Approximate Decision Trees With Worst-Case Update Time Guarantees ( http://arxiv.org/abs/2302.03994v1 )

ライセンス: Link先を確認
Marco Bressan and Mauro Sozio(参考訳) ラベル付き例の挿入と削除の任意のシーケンス上で近似決定木を維持する最初のアルゴリズムを与え,更新要求毎の最悪のケースの実行時間に対して強い保証を与える。 例えば、すべての頂点がginiゲインを持つ決定木を最適値の付加値$\alpha$で維持する方法を示す。$o\big(\frac{d\,(\log n)^4}{\alpha^3}\big)$ 更新ごとに基本操作を実行し、$d$ は特徴数、$n$ はアクティブセットの最大サイズ(更新要求のネット結果)である。 我々は、情報ゲインと分散ゲインに同様の境界を与える。 実際、これらの境界はすべてより一般的な結果の系であり、決定規則の項で述べられている - ラベル付き例のセット$S$を与えられた関数は、$S$を分割するかラベルを予測するかを決定する。 決定規則は、例やラベル領域に関係なく、欲張りな決定木アルゴリズムの統一的なビューを与え、また、id3やc4.5で使われるような自然決定木に対して、上記のゲイン近似の保証を意味する$\epsilon$-approximate 決定木という一般的な概念に繋がる。 私たちの研究の核心は決定論的アルゴリズムを提供し、任意の決定規則と$\epsilon > 0$が与えられた場合、$O\! \left(\frac{d\, f(n)}{n} \operatorname{poly}\frac{h}{\epsilon}\right)$ operations per update ここで$f(n)$は$n$の例のセットに対するルールの評価の複雑さであり、$h$は維持ツリーの最大高さである。

We give the first algorithm that maintains an approximate decision tree over an arbitrary sequence of insertions and deletions of labeled examples, with strong guarantees on the worst-case running time per update request. For instance, we show how to maintain a decision tree where every vertex has Gini gain within an additive $\alpha$ of the optimum by performing $O\Big(\frac{d\,(\log n)^4}{\alpha^3}\Big)$ elementary operations per update, where $d$ is the number of features and $n$ the maximum size of the active set (the net result of the update requests). We give similar bounds for the information gain and the variance gain. In fact, all these bounds are corollaries of a more general result, stated in terms of decision rules -- functions that, given a set $S$ of labeled examples, decide whether to split $S$ or predict a label. Decision rules give a unified view of greedy decision tree algorithms regardless of the example and label domains, and lead to a general notion of $\epsilon$-approximate decision trees that, for natural decision rules such as those used by ID3 or C4.5, implies the gain approximation guarantees above. The heart of our work provides a deterministic algorithm that, given any decision rule and any $\epsilon > 0$, maintains an $\epsilon$-approximate tree using $O\!\left(\frac{d\, f(n)}{n} \operatorname{poly}\frac{h}{\epsilon}\right)$ operations per update, where $f(n)$ is the complexity of evaluating the rule over a set of $n$ examples and $h$ is the maximum height of the maintained tree.
翻訳日:2023-02-09 16:37:24 公開日:2023-02-08
# Rover: 汎用トランスファー学習によるオンラインSpark SQLチューニングサービス

Rover: An online Spark SQL tuning service via generalized transfer learning ( http://arxiv.org/abs/2302.04046v1 )

ライセンス: Link先を確認
Yu Shen, Xinyuyang Ren, Yupeng Lu, Huaijun Jiang, Huanyong Xu, Di Peng, Yang Li, Wentao Zhang, Bin Cui(参考訳) Sparkのような分散データ分析エンジンは、業界で大量のデータを処理する一般的な選択肢である。 しかし、Spark SQLのパフォーマンスは、実行中のワークロードによって最適なものが異なる設定の選択に大きく依存する。 Spark SQLチューニングの代替として、Bayesian Optimization(BO)は、十分な予算が与えられたほぼ最適設定を見つける人気フレームワークであるが、再最適化の問題に悩まされており、実運用では実用的ではない。 チューニングプロセスを加速するために転写学習を適用する場合、ドメイン固有の2つの課題に気づく。 1) これまでの作業はチューニング履歴の転送に重点を置いていたが,Sparkの技術者による専門家の知識はチューニングのパフォーマンス向上に大きな可能性を持っている。 2) 履歴タスクを慎重に利用し, 異種タスクを使用することで生産性能が低下する。 本稿では,産業ワークロードの効率的かつ安全な検索を行うオンラインSpark SQLチューニングサービスであるRoverを紹介する。 この課題に対処するために,専門家支援ベイズ最適化や制御履歴転送など,外部知識に基づくチューニング性能を向上させるために,一般化した転送学習を提案する。 公開ベンチマークと実世界のタスクに関する実験は、ローバーが競合ベースラインよりも優れていることを示している。 特にローバーは、1k実世界のspark sqlタスクのメモリコストの50.1%を20回のイテレーションで節約し、その76.2%が60%以上のメモリ削減を達成している。

Distributed data analytic engines like Spark are common choices to process massive data in industry. However, the performance of Spark SQL highly depends on the choice of configurations, where the optimal ones vary with the executed workloads. Among various alternatives for Spark SQL tuning, Bayesian optimization (BO) is a popular framework that finds near-optimal configurations given sufficient budget, but it suffers from the re-optimization issue and is not practical in real production. When applying transfer learning to accelerate the tuning process, we notice two domain-specific challenges: 1) most previous work focus on transferring tuning history, while expert knowledge from Spark engineers is of great potential to improve the tuning performance but is not well studied so far; 2) history tasks should be carefully utilized, where using dissimilar ones lead to a deteriorated performance in production. In this paper, we present Rover, a deployed online Spark SQL tuning service for efficient and safe search on industrial workloads. To address the challenges, we propose generalized transfer learning to boost the tuning performance based on external knowledge, including expert-assisted Bayesian optimization and controlled history transfer. Experiments on public benchmarks and real-world tasks show the superiority of Rover over competitive baselines. Notably, Rover saves an average of 50.1% of the memory cost on 12k real-world Spark SQL tasks in 20 iterations, among which 76.2% of the tasks achieve a significant memory reduction of over 60%.
翻訳日:2023-02-09 16:31:38 公開日:2023-02-08
# オフライン圧縮の再検討: トランスフォーマー言語モデルのための因子化に基づく方法を超える

Revisiting Offline Compression: Going Beyond Factorization-based Methods for Transformer Language Models ( http://arxiv.org/abs/2302.04045v1 )

ライセンス: Link先を確認
Mohammadreza Banaei, Klaudia Ba{\l}azy, Artur Kasymov, R\'emi Lebret, Jacek Tabor, Karl Aberer(参考訳) 最近のトランスフォーマー言語モデルは、多くの自然言語処理(NLP)タスクにおいて顕著な結果をもたらす。 しかし、その巨大なサイズはメモリ制限されたデバイスでは実用的ではなく、実践者はそれを小さなネットワークに圧縮する必要がある。 本稿では,圧縮モデルのさらなる微調整を必要としないオフライン圧縮手法について検討する。 我々は,新しい高性能なオートエンコーダベースのフレームワークを提案することで,古典的な行列分解法に挑戦する。 我々は,このアプローチを包括的に研究し,その異なる側面を様々な評価条件で検証した。 さらに, あるモジュールを一緒に圧縮することで, レイヤ間の協調が最終的なモデル性能に肯定的な影響を与えることを示す。 様々なNLPタスクの実験により,本手法は係数化に基づくオフライン圧縮法よりも大幅に優れていることが示された。

Recent transformer language models achieve outstanding results in many natural language processing (NLP) tasks. However, their enormous size often makes them impractical on memory-constrained devices, requiring practitioners to compress them to smaller networks. In this paper, we explore offline compression methods, meaning computationally-cheap approaches that do not require further fine-tuning of the compressed model. We challenge the classical matrix factorization methods by proposing a novel, better-performing autoencoder-based framework. We perform a comprehensive ablation study of our approach, examining its different aspects over a diverse set of evaluation settings. Moreover, we show that enabling collaboration between modules across layers by compressing certain modules together positively impacts the final model performance. Experiments on various NLP tasks demonstrate that our approach significantly outperforms commonly used factorization-based offline compression methods.
翻訳日:2023-02-09 16:31:14 公開日:2023-02-08
# GFlowNetsを用いたサンプル効率多目的分子最適化

Sample-efficient Multi-objective Molecular Optimization with GFlowNets ( http://arxiv.org/abs/2302.04040v1 )

ライセンス: Link先を確認
Yiheng Zhu, Jialu Wu, Chaowen Hu, Jiahuan Yan, Chang-Yu Hsieh, Tingjun Hou, Jian Wu(参考訳) 多くの重要な科学的問題は、望ましい性質を持つ新しい分子を設計することであり、これは離散化学空間上の高価なブラックボックス最適化問題として定式化することができる。 計算手法は最初成功したが、サンプル効率の良い方法で複数の競合特性を同時に最適化するのに苦労している。 本研究では,ハイパーネットワークベースのGFlowNets (HN-GFN) を用いた多目的ベイズ最適化 (MOBO) アルゴリズムを提案する。 HN-GFNは、単一の嗜好条件のハイパーネットワークを用いて、目的間の様々なトレードオフを探索する。 さらに,HN-GFNの学習を高速化するため,強化学習にインスパイアされたハイパフォーマンス分子を選好的に共有する,後見的なオフ政治戦略を提案する。 合成実験により,HN-GFNは嗜好を一般化するのに十分な能力を有することを示した。 大規模な実験により,現実世界のMOBO設定におけるハイパーボリュームの点で,我々のフレームワークが最高のベースラインを上回っていることが示された。

Many crucial scientific problems involve designing novel molecules with desired properties, which can be formulated as an expensive black-box optimization problem over the discrete chemical space. Computational methods have achieved initial success but still struggle with simultaneously optimizing multiple competing properties in a sample-efficient manner. In this work, we propose a multi-objective Bayesian optimization (MOBO) algorithm leveraging the hypernetwork-based GFlowNets (HN-GFN) as an acquisition function optimizer, with the purpose of sampling a diverse batch of candidate molecular graphs from an approximate Pareto front. Using a single preference-conditioned hypernetwork, HN-GFN learns to explore various trade-offs between objectives. Inspired by reinforcement learning, we further propose a hindsight-like off-policy strategy to share high-performing molecules among different preferences in order to speed up learning for HN-GFN. Through synthetic experiments, we illustrate that HN-GFN has adequate capacity to generalize over preferences. Extensive experiments show that our framework outperforms the best baselines by a large margin in terms of hypervolume in various real-world MOBO settings.
翻訳日:2023-02-09 16:31:00 公開日:2023-02-08
# 空間情報強化グラフニューラルネットワークを用いたTSPのアルゴリズム選択問題の再検討

Revisit the Algorithm Selection Problem for TSP with Spatial Information Enhanced Graph Neural Networks ( http://arxiv.org/abs/2302.04035v1 )

ライセンス: Link先を確認
Ya Song, Laurens Bliek, Yingqian Zhang(参考訳) アルゴリズムの選択はよく知られた問題であり、研究者は問題インスタンスを表す有用な機能を構築し、特徴ベースの機械学習モデルを適用して、与えられたインスタンスで最適なアルゴリズムを予測する。 しかしながら、ユークリッド旅行セールスマン問題 (TSP) のような単純な最適化問題においても、問題インスタンスに汎用的で効果的な特徴表現がない。 TSPの重要な特徴は、広範なドメイン知識とソリューションの分析に基づいて、文献で比較的よく理解されている。 近年、畳み込みニューラルネットワーク(CNN)は、TSPのためのアルゴリズムを選択する一般的なアプローチとなっている。 従来の機能ベースの機械学習モデルと比較して、cnnは自動的な機能学習能力を持ち、ドメインの専門知識を必要としない。 しかし、TSPインスタンスを最初に表現するためには、中間表現、すなわち複数の画像を生成する必要がある。 本稿では,TSPのアルゴリズム選択問題を再検討し,GINESと呼ばれる新しいグラフニューラルネットワーク(GNN)を提案する。 GINESは都市の座標と都市間の距離を入力としている。 TSPインスタンスの空間情報を学習するための新しいメッセージパッシング機構と局所近傍特徴抽出器から構成される。 GINESを2つのベンチマークデータセットで評価する。 その結果,GINESはCNNやオリジナルのGINEモデルよりも優れていた。 従来の手作りの機能ベースのアプローチよりも優れているのです。 コードとデータセットは、この論文の最終バージョンでリリースされる。

Algorithm selection is a well-known problem where researchers investigate how to construct useful features representing the problem instances and then apply feature-based machine learning models to predict which algorithm works best with the given instance. However, even for simple optimization problems such as Euclidean Traveling Salesman Problem (TSP), there lacks a general and effective feature representation for problem instances. The important features of TSP are relatively well understood in the literature, based on extensive domain knowledge and post-analysis of the solutions. In recent years, Convolutional Neural Network (CNN) has become a popular approach to select algorithms for TSP. Compared to traditional feature-based machine learning models, CNN has an automatic feature-learning ability and demands less domain expertise. However, it is still required to generate intermediate representations, i.e., multiple images to represent TSP instances first. In this paper, we revisit the algorithm selection problem for TSP, and propose a novel Graph Neural Network (GNN), called GINES. GINES takes the coordinates of cities and distances between cities as input. It is composed of a new message-passing mechanism and a local neighborhood feature extractor to learn spatial information of TSP instances. We evaluate GINES on two benchmark datasets. The results show that GINES outperforms CNN and the original GINE models. It is better than the traditional handcrafted feature-based approach on one dataset. The code and dataset will be released in the final version of this paper.
翻訳日:2023-02-09 16:30:30 公開日:2023-02-08
# 深層知覚損失ネットワークの系統的性能解析が転校学習規約を破る

A Systematic Performance Analysis of Deep Perceptual Loss Networks Breaks Transfer Learning Conventions ( http://arxiv.org/abs/2302.04032v1 )

ライセンス: Link先を確認
Gustav Grund Pihlgren, Konstantina Nikolaidou, Prakash Chandra Chhipa, Nosheen Abid, Rajkumar Saini, Fredrik Sandin, Marcus Liwicki(参考訳) ディープ・パーセプチュアル・ロス(deep perceptual loss)は、ニューラルネットワークから抽出された深い特徴を用いて人間の知覚を模倣することを目的としたコンピュータビジョンにおける損失関数の一種である。 近年では、特に画像や画像のような出力を持つタスクに対して、興味深いコンピュータビジョンタスクのホストに大きな効果がある。 この手法の多くのアプリケーションは事前訓練されたネットワーク(しばしば畳み込みネットワーク)を損失計算に利用する。 関心が高まり、広く使われるようになったにも拘わらず、深い知覚的損失を計算するためにどのネットワークを使うか、どの層から特徴を抽出するかを探索するにはより多くの努力が必要である。 本研究の目的は,既存の4つの重度知覚喪失例において,多種多様な特徴抽出点に対して,広く利用され,容易に利用できる事前学習ネットワークのホストを体系的に評価することである。 4つのユースケースは、選択したネットワークと抽出ポイントを元の作業で使用するネットワークと抽出ポイントの代わりに評価する以前の作業の実装である。 実験課題は次元減少、画像分割、超解像、知覚的類似性である。 これら4つのタスク、ネットワークの属性、抽出ポイントのパフォーマンスは、詳細な分析の基盤として使用される。 この分析は、どのアーキテクチャが深い知覚損失に対して優れたパフォーマンスを提供するか、特定のタスクやデータセットの適切な抽出ポイントをどのように選択するかに関する重要な情報を明らかにする。 さらに本研究は, 深い知覚喪失に対する結果の意義と, 転校学習の幅広い分野について論じる。 その結果、転帰学習における深い知覚損失は、ほとんどの転校学習環境から逸脱するか、あるいはこれらの仮定を徹底的に再評価する必要があるということが示唆される。

Deep perceptual loss is a type of loss function in computer vision that aims to mimic human perception by using the deep features extracted from neural networks. In recent years the method has been applied to great effect on a host of interesting computer vision tasks, especially for tasks with image or image-like outputs. Many applications of the method use pretrained networks, often convolutional networks, for loss calculation. Despite the increased interest and broader use, more effort is needed toward exploring which networks to use for calculating deep perceptual loss and from which layers to extract the features. This work aims to rectify this by systematically evaluating a host of commonly used and readily available, pretrained networks for a number of different feature extraction points on four existing use cases of deep perceptual loss. The four use cases are implementations of previous works where the selected networks and extraction points are evaluated instead of the networks and extraction points used in the original work. The experimental tasks are dimensionality reduction, image segmentation, super-resolution, and perceptual similarity. The performance on these four tasks, attributes of the networks, and extraction points are then used as a basis for an in-depth analysis. This analysis uncovers essential information regarding which architectures provide superior performance for deep perceptual loss and how to choose an appropriate extraction point for a particular task and dataset. Furthermore, the work discusses the implications of the results for deep perceptual loss and the broader field of transfer learning. The results break commonly held assumptions in transfer learning, which imply that deep perceptual loss deviates from most transfer learning settings or that these assumptions need a thorough re-evaluation.
翻訳日:2023-02-09 16:29:54 公開日:2023-02-08
# CrossCodeBench: ソースコードモデルのクロスタスク一般化のベンチマーク

CrossCodeBench: Benchmarking Cross-Task Generalization of Source Code Models ( http://arxiv.org/abs/2302.04030v1 )

ライセンス: Link先を確認
Changan Niu, Chuanyi Li, Vincent Ng, Bin Luo(参考訳) 大規模ソースコードデータに事前トレーニングされたモデルが認識可能な一般化能力を得ることができるという最近の進歩にもかかわらず、微調整にはターゲットタスク上の大きな量のデータが必要である。 また、モデル一般化の有効性は、限られたリソースや利用できないリソースを対象とするタスクに有害な微調整データのサイズと品質に大きく影響される。 したがって、クロスタスクの一般化は、これまで見たことのないタスクに対するモデルの一般化を改善することを目的としており、強力な研究と応用価値である。 本稿では,既存の216のコード関連タスクを含む大規模ベンチマークを提案する。 そして,タスクの詳細な情報と解答ガイドを含むタスク記述や指示などのメタ情報を用いて,各タスクにアノテートを行う。 これはまた、モデルの様々なクロスタスク一般化能力を評価するために、 ``training/evaluation'タスク分割を簡単に作成するのに役立ちます。 そこで本研究では,タスク命令からの少数ショット学習や学習といったコンテキスト内学習手法により,モデルのクロスタスク一般化が大幅に向上できることを実証するために,予備実験を行った。 データセットとベンチマークの収集が,タスク間の一般化に限らず,今後の作業を促進することを期待しています。

Despite the recent advances showing that a model pre-trained on large-scale source code data is able to gain appreciable generalization capability, it still requires a sizeable amount of data on the target task for fine-tuning. And the effectiveness of the model generalization is largely affected by the size and quality of the fine-tuning data, which is detrimental for target tasks with limited or unavailable resources. Therefore, cross-task generalization, with the goal of improving the generalization of the model to unseen tasks that have not been seen before, is of strong research and application value. In this paper, we propose a large-scale benchmark that includes 216 existing code-related tasks. Then, we annotate each task with the corresponding meta information such as task description and instruction, which contains detailed information about the task and a solution guide. This also helps us to easily create a wide variety of ``training/evaluation'' task splits to evaluate the various cross-task generalization capabilities of the model. Then we perform some preliminary experiments to demonstrate that the cross-task generalization of models can be largely improved by in-context learning methods such as few-shot learning and learning from task instructions, which shows the promising prospects of conducting cross-task learning research on our benchmark. We hope that the collection of the datasets and our benchmark will facilitate future work that is not limited to cross-task generalization.
翻訳日:2023-02-09 16:29:28 公開日:2023-02-08
# WAT: 対人訓練における最悪級ロバスト性の改善

WAT: Improve the Worst-class Robustness in Adversarial Training ( http://arxiv.org/abs/2302.04025v1 )

ライセンス: Link先を確認
Boqi Li, Weiwei Liu(参考訳) ディープニューラルネットワーク(DNN)は、敵の例に弱いことが示されている。 敵の攻撃から守るために、敵の訓練(AT)は人気があり効果的な戦略である。 最近の研究 (Benz et al., 2020; Xu et al., 2021; Tian et al., 2021) は、ATによりよく訓練された頑健なモデルは、クラス間で顕著な頑健さの相違を示すことを示した。 残念ながら、これらの手法は平均的なロバストな精度を犠牲にしている。 そこで本論文では,非回帰力学を応用してこの問題を解くための新しい枠組みを提案する。 私たちのゴールは、最悪のクラスで優れたパフォーマンスと、少しだけ高い精度を犠牲にできる分類器を得ることです。 そこで我々は,提案アルゴリズムの理論的特性と,最低級ロバストリスクの観点からの一般化誤差を厳密に解析する。 さらに,提案手法を平均値と最低値の両方から評価する手法を提案する。 様々なデータセットやネットワークの実験により,提案手法は最先端の手法よりも優れていることが示された。

Deep Neural Networks (DNN) have been shown to be vulnerable to adversarial examples. Adversarial training (AT) is a popular and effective strategy to defend against adversarial attacks. Recent works (Benz et al., 2020; Xu et al., 2021; Tian et al., 2021) have shown that a robust model well-trained by AT exhibits a remarkable robustness disparity among classes, and propose various methods to obtain consistent robust accuracy across classes. Unfortunately, these methods sacrifice a good deal of the average robust accuracy. Accordingly, this paper proposes a novel framework of worst-class adversarial training and leverages no-regret dynamics to solve this problem. Our goal is to obtain a classifier with great performance on worst-class and sacrifice just a little average robust accuracy at the same time. We then rigorously analyze the theoretical properties of our proposed algorithm, and the generalization error bound in terms of the worst-class robust risk. Furthermore, we propose a measurement to evaluate the proposed method in terms of both the average and worst-class accuracies. Experiments on various datasets and networks show that our proposed method outperforms the state-of-the-art approaches.
翻訳日:2023-02-09 16:29:07 公開日:2023-02-08
# InMyFace: 顔認識のための慣性・メカノノノグラフィに基づくセンサフュージョン

InMyFace: Inertial and Mechanomyography-Based Sensor Fusion for Wearable Facial Activity Recognition ( http://arxiv.org/abs/2302.04024v1 )

ライセンス: Link先を確認
Hymalai Bello, Luis Alfredo Sanchez Marin, Sungho Suh, Bo Zhou and Paul Lukowicz(参考訳) 顔の活動を認識することは、よく理解されている(しかし自明ではない)コンピュータビジョンの問題である。 しかし、信頼できるソリューションには、顔をよく見るカメラが必要であり、ウェアラブル設定では利用できないことが多い。 さらに、毎日のアクティビティを通じてシステムがユーザに付随するウェアラブルアプリケーションでは、永久に動いているカメラがプライバシー(および合法)の理由で問題となることがある。 本研究は,ウェアラブル慣性センサ,平面圧センサ,音響機械学(筋音)の融合に基づく代替ソリューションを提案する。 顔の表情に関連する顔の筋活動を監視するために、センサーをスポーツキャップに入れた。 本研究では,異なる文化背景(8カ国)と性別(6人の女性と7人の男性)の被験者13名を対象に,統合型ウェアラブルセンサシステムを構築し,データ融合と分析手法について述べる。 ユーザ毎の1モデル方式とレイトフュージョン方式では、全てのセンシングモダリティが組み合わされた場合の平均F1スコアが85.00%となった。 F1スコアは13名(女性6名,男性7名)に対して79.00%であった。 さらに、ハイブリッドフュージョン(クロスユーザー)アプローチと6クラスでは、平均F1スコアは8ユーザに対して82.00%であった。 その結果は、最先端の非カメラベースのソリューションと競合する。 さらに、私たちのユニークな参加者セットは、このアプローチの包括性と一般化性を示しています。

Recognizing facial activity is a well-understood (but non-trivial) computer vision problem. However, reliable solutions require a camera with a good view of the face, which is often unavailable in wearable settings. Furthermore, in wearable applications, where systems accompany users throughout their daily activities, a permanently running camera can be problematic for privacy (and legal) reasons. This work presents an alternative solution based on the fusion of wearable inertial sensors, planar pressure sensors, and acoustic mechanomyography (muscle sounds). The sensors were placed unobtrusively in a sports cap to monitor facial muscle activities related to facial expressions. We present our integrated wearable sensor system, describe data fusion and analysis methods, and evaluate the system in an experiment with thirteen subjects from different cultural backgrounds (eight countries) and both sexes (six women and seven men). In a one-model-per-user scheme and using a late fusion approach, the system yielded an average F1 score of 85.00% for the case where all sensing modalities are combined. With a cross-user validation and a one-model-for-all-user scheme, an F1 score of 79.00% was obtained for thirteen participants (six females and seven males). Moreover, in a hybrid fusion (cross-user) approach and six classes, an average F1 score of 82.00% was obtained for eight users. The results are competitive with state-of-the-art non-camera-based solutions for a cross-user study. In addition, our unique set of participants demonstrates the inclusiveness and generalizability of the approach.
翻訳日:2023-02-09 16:28:43 公開日:2023-02-08
# 推論・幻覚・対話性におけるchatgptのマルチタスク・マルチリンガル・マルチモーダル評価

A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on Reasoning, Hallucination, and Interactivity ( http://arxiv.org/abs/2302.04023v1 )

ライセンス: Link先を確認
Yejin Bang, Samuel Cahyawijaya, Nayeon Lee, Wenliang Dai, Dan Su, Bryan Wilie, Holy Lovenia, Ziwei Ji, Tiezheng Yu, Willy Chung, Quyet V. Do, Yan Xu, Pascale Fung(参考訳) 本稿では,ChatGPT などの対話型 LLM を公開データセットを用いて定量的に評価するためのフレームワークを提案する。 8種類の共通NLPアプリケーションタスクをカバーする21のデータセットを用いてChatGPTの広範な技術的評価を行う。 これらのデータセットと、新たに設計されたマルチモーダルデータセットに基づいて、ChatGPTのマルチタスク、マルチ言語、マルチモーダルの側面を評価する。 また、ChatGPTは、ほとんどのタスクでゼロショット学習でLLMよりも優れており、一部のタスクでは微調整モデルよりも優れています。 生成するよりも、非ラテン語のスクリプト言語を理解する方が優れていることが分かりました。 中間のコード生成ステップを通じて、テキストプロンプトからマルチモーダルコンテンツを生成することができる。 さらに、ChatGPTは論理的推論、非文的推論、コモンセンス推論の10種類の推論カテゴリにおいて平均64.33%正確であることから、信頼できない推論となる。 例えば、帰納的推論よりも推論的に優れている。 ChatGPTは、他のLLMのような幻覚障害に悩まされており、外部知識ベースにアクセスできないため、そのパラメトリックメモリから外因性幻覚を生成する。 最後に、ChatGPTの対話的機能により、基礎となるLLMとの人間によるコラボレーションにより、要約における8%のROUGE-1、機械翻訳における2%のChrF++をマルチターンの"プロンプトエンジニアリング"方式で改善することができる。

This paper proposes a framework for quantitatively evaluating interactive LLMs such as ChatGPT using publicly available data sets. We carry out an extensive technical evaluation of ChatGPT using 21 data sets covering 8 different common NLP application tasks. We evaluate the multitask, multilingual and multi-modal aspects of ChatGPT based on these data sets and a newly designed multimodal dataset. We find that ChatGPT outperforms LLMs with zero-shot learning on most tasks and even outperforms fine-tuned models on some tasks. We find that it is better at understanding non-Latin script languages than generating them. It is able to generate multimodal content from textual prompts, via an intermediate code generation step. Moreover, we find that ChatGPT is 64.33% accurate on average in 10 different reasoning categories under logical reasoning, non-textual reasoning, and commonsense reasoning, hence making it an unreliable reasoner. It is, for example, better at deductive than inductive reasoning. ChatGPT suffers from hallucination problems like other LLMs and it generates more extrinsic hallucinations from its parametric memory as it does not have access to an external knowledge base. Finally, the interactive feature of ChatGPT enables human collaboration with the underlying LLM to improve its performance, i.e, 8% ROUGE-1 on summarization and 2% ChrF++ on machine translation, in a multi-turn "prompt engineering" fashion.
翻訳日:2023-02-09 16:28:16 公開日:2023-02-08
# Fortuna: ディープラーニングにおける不確実性定量化のためのライブラリ

Fortuna: A Library for Uncertainty Quantification in Deep Learning ( http://arxiv.org/abs/2302.04019v1 )

ライセンス: Link先を確認
Gianluca Detommaso, Alberto Gasparin, Michele Donini, Matthias Seeger, Andrew Gordon Wilson, Cedric Archambeau(参考訳) ディープラーニングにおける不確実性定量化のためのオープンソースライブラリであるFortunaを紹介する。 fortunaは、トレーニングされたニューラルネットワークに適用して信頼性の高い不確実性推定を生成するような共形予測や、スクラッチからトレーニングされたflaxベースのディープニューラルネットワークに適用可能なスケーラブルなベイズ推論手法など、さまざまなキャリブレーション技術をサポートしている。 高度な不確実性定量化方法のための一貫性のあるフレームワークを提供することで、Fortunaはベンチマークのプロセスを単純化し、実践者が堅牢なAIシステムを構築するのに役立つ。

We present Fortuna, an open-source library for uncertainty quantification in deep learning. Fortuna supports a range of calibration techniques, such as conformal prediction that can be applied to any trained neural network to generate reliable uncertainty estimates, and scalable Bayesian inference methods that can be applied to Flax-based deep neural networks trained from scratch for improved uncertainty quantification and accuracy. By providing a coherent framework for advanced uncertainty quantification methods, Fortuna simplifies the process of benchmarking and helps practitioners build robust AI systems.
翻訳日:2023-02-09 16:27:49 公開日:2023-02-08
# Monge, Bregman, Occam:特徴空間マップを用いた高次元の最適輸送の解釈

Monge, Bregman and Occam: Interpretable Optimal Transport in High-Dimensions with Feature-Sparse Maps ( http://arxiv.org/abs/2302.04065v1 )

ライセンス: Link先を確認
Marco Cuturi, Michal Klein, Pierre Ablin(参考訳) 最適輸送 (OT) 理論は、すべての写像 $T:\mathbb{R}^d\rightarrow \mathbb{R}^d$ において、確率測度を ``thriftiest'' であるもの、すなわち平均的なコスト $c(x, T) に変形させることができることに焦点をあてる。 (x))$-$x$とその画像$t (x)$ をできるだけ小さくする。 例えば、エントロピー写像 [Pooladian'22] やニューラルネットワーク [Makkuva'20, Korotin'20] を用いて、$c$が$\ell_2^2$ 距離であるときに、そのようなモンジュ写像を推定する多くの計算手法が提案されている。 本研究では, 変換不変コスト$c(x, ) の族を基礎とした輸送写像の新しいモデルを提案する。 h:=\tfrac{1}{2}\|\cdot\|_2^2+\tau$ であり、$\tau$ は正規化である。 我々は、h$ に適したエントロピー写像の一般化を提案し、h$ によって生成される発散値 $d_h$ のbregman centroid と、$\tau$ の近位作用素との驚くべきリンクを強調する。 我々は、変位ベクトルが$\Delta であるという意味で、Occam's razor を輸送に適用する写像において、$\tau$ に対してスパース性誘導ノルムを選択することを示す。 (x):=T (x)-x$ は sparse であり、$x$ に依存するスパーシティパターンがある。 我々は,高次元単細胞転写データに対する意味のあるOTマップを,次元的縮小を使わずに34000$-d$の細胞数空間で推定できることを示し,遺伝子レベルでの全ての変位を解釈する能力を保持する。

Optimal transport (OT) theory focuses, among all maps $T:\mathbb{R}^d\rightarrow \mathbb{R}^d$ that can morph a probability measure onto another, on those that are the ``thriftiest'', i.e. such that the averaged cost $c(x, T(x))$ between $x$ and its image $T(x)$ be as small as possible. Many computational approaches have been proposed to estimate such Monge maps when $c$ is the $\ell_2^2$ distance, e.g., using entropic maps [Pooladian'22], or neural networks [Makkuva'20, Korotin'20]. We propose a new model for transport maps, built on a family of translation invariant costs $c(x, y):=h(x-y)$, where $h:=\tfrac{1}{2}\|\cdot\|_2^2+\tau$ and $\tau$ is a regularizer. We propose a generalization of the entropic map suitable for $h$, and highlight a surprising link tying it with the Bregman centroids of the divergence $D_h$ generated by $h$, and the proximal operator of $\tau$. We show that choosing a sparsity-inducing norm for $\tau$ results in maps that apply Occam's razor to transport, in the sense that the displacement vectors $\Delta(x):= T(x)-x$ they induce are sparse, with a sparsity pattern that varies depending on $x$. We showcase the ability of our method to estimate meaningful OT maps for high-dimensional single-cell transcription data, in the $34000$-$d$ space of gene counts for cells, without using dimensionality reduction, thus retaining the ability to interpret all displacements at the gene level.
翻訳日:2023-02-09 16:22:30 公開日:2023-02-08
# 映像アライメントと分析のための弱教師付き表現学習

Weakly-supervised Representation Learning for Video Alignment and Analysis ( http://arxiv.org/abs/2302.04064v1 )

ライセンス: Link先を確認
Guy Bar-Shalom, George Leifman, Michael Elad, Ehud Rivlin(参考訳) ビデオ分析や理解における多くのタスクは、フレームベースの特徴学習の必要性に起因し、より簡単で簡単な処理を可能にするために、関連する視覚コンテンツをカプセル化することを目的としている。 この学習課題の教師付き戦略は想定できるが、ラベル付きデータの取得が困難であるため、自己および弱教師付き代替案が好ましい。 本稿では,同一アクションカテゴリの映像ペア間の時間的アライメントの適用に重点を置いた,新しい弱教師付き表現学習手法であるlrpropを提案する。 提案手法では,フレームレベルの特徴を抽出するためにトランスフォーマーエンコーダを使用し,ビデオペア間のアライメントパスを特定するために,トレーニングイテレーション内にDTWアルゴリズムを用いる。 適切な位置伝播」と呼ばれるプロセスを通して、これらの対応の確率分布は、KL分割最小化によるフレームレベルの特徴の類似性と一致する。 提案アルゴリズムは、学習した特徴をよりよくチューニングするために、正規化されたSoftDTW損失も利用する。 我々の新しい表現学習パラダイムは、時間的アライメントタスクにおける技術の現状を一貫して上回り、複数の下流ビデオ解析アプリケーションに対して新しいパフォーマンスバーを確立する。

Many tasks in video analysis and understanding boil down to the need for frame-based feature learning, aiming to encapsulate the relevant visual content so as to enable simpler and easier subsequent processing. While supervised strategies for this learning task can be envisioned, self and weakly-supervised alternatives are preferred due to the difficulties in getting labeled data. This paper introduces LRProp -- a novel weakly-supervised representation learning approach, with an emphasis on the application of temporal alignment between pairs of videos of the same action category. The proposed approach uses a transformer encoder for extracting frame-level features, and employs the DTW algorithm within the training iterations in order to identify the alignment path between video pairs. Through a process referred to as ``pair-wise position propagation'', the probability distributions of these correspondences per location are matched with the similarity of the frame-level features via KL-divergence minimization. The proposed algorithm uses also a regularized SoftDTW loss for better tuning the learned features. Our novel representation learning paradigm consistently outperforms the state of the art on temporal alignment tasks, establishing a new performance bar over several downstream video analysis applications.
翻訳日:2023-02-09 16:21:51 公開日:2023-02-08
# 合成データ生成のための機械学習: レビュー

Machine Learning for Synthetic Data Generation: a Review ( http://arxiv.org/abs/2302.04062v1 )

ライセンス: Link先を確認
Yingzhou Lu, Huazheng Wang, Wenqi Wei(参考訳) データは機械学習において重要な役割を果たす。 しかし、現実世界のアプリケーションでは、データの品質が低い、限られた数のデータポイントが機械学習モデルの過度な適合に繋がる、プライバシー、安全性、規制上の懸念によるデータへのアクセスが困難など、データにはいくつかの問題がある。 \textit{Synthetic data generation}は、現実世界のデータではできない方法で共有し、使用することができる、有望な新しい道を提供する。 本稿では、合成データ生成に機械学習モデルを利用する既存の作品を体系的にレビューする。 具体的には,様々な視点から合成データ生成手法について考察する。 (i) コンピュータビジョン、音声、自然言語、医療及び事業を含む出願 (二 機械学習方法、特にニューラルネットワークアーキテクチャ及び深層生成モデル (三)プライバシーと公平性の問題 さらに、この新興分野における課題と機会を特定し、今後の研究方向性を提案する。

Data plays a crucial role in machine learning. However, in real-world applications, there are several problems with data, e.g., data are of low quality; a limited number of data points lead to under-fitting of the machine learning model; it is hard to access the data due to privacy, safety and regulatory concerns. \textit{Synthetic data generation} offers a promising new avenue, as it can be shared and used in ways that real-world data cannot. This paper systematically reviews the existing works that leverage machine learning models for synthetic data generation. Specifically, we discuss the synthetic data generation works from several perspectives: (i) applications, including computer vision, speech, natural language, healthcare, and business; (ii) machine learning methods, particularly neural network architectures and deep generative models; (iii) privacy and fairness issue. In addition, we identify the challenges and opportunities in this emerging field and suggest future research directions.
翻訳日:2023-02-09 16:21:31 公開日:2023-02-08
# 深い複数インスタンス学習のためのガウス過程に基づく確率的注意

Probabilistic Attention based on Gaussian Processes for Deep Multiple Instance Learning ( http://arxiv.org/abs/2302.04061v1 )

ライセンス: Link先を確認
Arne Schmidt, Pablo Morales-\'Alvarez, Rafael Molina(参考訳) マルチインスタンス学習(MIL)は弱い教師付き学習パラダイムであり、完全な教師付きメソッドよりもラベル付けの労力が少ないため、ますます人気が高まっている。 これは医学のように、大きな注釈付きデータセットの作成が困難な領域では特に興味深い。 近年の深層学習のMIL手法は最先端の結果を得たが、それらは完全に決定論的であり、予測に対する不確実性評価を提供していない。 本稿では,深いMILのためのガウス過程に基づく新しい確率的注意機構であるアテンションガウス過程(AGP)モデルを紹介する。 AGPは正確なバッグレベルの予測とインスタンスレベルの説明可能性を提供し、エンドツーエンドでトレーニングすることができる。 さらに、その確率的性質は、小さなデータセットの過剰フィッティングと予測の不確実性推定に対する堅牢性を保証する。 後者は、患者の健康に直接影響する決定を下す医学的応用において特に重要である。 提案モデルは,以下の実験によって検証される。 まず,よく知られたmnistとcifar-10データセットに基づく2つの合成ミル実験でその挙動を示す。 そして、3つの異なる実世界の癌検出実験で評価される。 AGPは、決定論的深層学習を含む最先端のMILアプローチより優れている。 100ラベル未満の小さなデータセットでも高いパフォーマンスを示し、外部テストセットの競合メソッドよりも優れた一般化を実現している。 さらに,予測の不確実性は誤った予測のリスクと相関していることを示す。 私たちのコードは公開されています。

Multiple Instance Learning (MIL) is a weakly supervised learning paradigm that is becoming increasingly popular because it requires less labeling effort than fully supervised methods. This is especially interesting for areas where the creation of large annotated datasets remains challenging, as in medicine. Although recent deep learning MIL approaches have obtained state-of-the-art results, they are fully deterministic and do not provide uncertainty estimations for the predictions. In this work, we introduce the Attention Gaussian Process (AGP) model, a novel probabilistic attention mechanism based on Gaussian Processes for deep MIL. AGP provides accurate bag-level predictions as well as instance-level explainability, and can be trained end-to-end. Moreover, its probabilistic nature guarantees robustness to overfitting on small datasets and uncertainty estimations for the predictions. The latter is especially important in medical applications, where decisions have a direct impact on the patient's health. The proposed model is validated experimentally as follows. First, its behavior is illustrated in two synthetic MIL experiments based on the well-known MNIST and CIFAR-10 datasets, respectively. Then, it is evaluated in three different real-world cancer detection experiments. AGP outperforms state-of-the-art MIL approaches, including deterministic deep learning ones. It shows a strong performance even on a small dataset with less than 100 labels and generalizes better than competing methods on an external test set. Moreover, we experimentally show that predictive uncertainty correlates with the risk of wrong predictions, and therefore it is a good indicator of reliability in practice. Our code is publicly available.
翻訳日:2023-02-09 16:21:18 公開日:2023-02-08
# Zero-ShotからFew-Shot Learningへ:埋め込み型生成モデルのステップ

From Zero-Shot to Few-Shot Learning: A Step of Embedding-Aware Generative Models ( http://arxiv.org/abs/2302.04060v1 )

ライセンス: Link先を確認
Liangjun Feng, Jiancheng Zhao, Chunhui Zhao(参考訳) 埋め込み認識生成モデル(EAGM)は、意味的空間と視覚的埋め込み空間の間にジェネレータを構築することにより、ゼロショット学習(ZSL)におけるデータ不足問題に対処する。 事前定義されたベンチマークとプロトコルのおかげで、ZSL用のEAGMが急速に増えている。 我々は一歩後退し、埋め込み型生成パラダイムを再考する時が来たと論じる。 本論文の目的は3倍である。 まず、ベンチマークデータセットの現在の組み込み機能が何らかの時代遅れであるという事実から、組み込み機能に対する恥ずかしいほど単純な修正によって、zslのeagmsのパフォーマンスが著しく向上します。 これは重要な貢献であり、EAGMの埋め込みがより注目に値する結果となった。 第2に,多数のEAGMを深く比較し,分析する。 5つのベンチマークデータセットに基づいて、ZSLの最先端の結果を更新し、古典的未確認の複数ショットラーニング(UFSL)や、より難易度の高い数ショットラーニング(SFSL)を含む、数ショットラーニング(FSL)の強力なベースラインを提供する。 最後に、ZSLとFSLのためのEAGMのモデル、特徴、パラメータ、設定を含む包括的な生成モデルリポジトリ、すなわち、GASL(generative any-shot learning)リポジトリが提供される。 本論文の任意の結果は,GASLに基づく1つのコマンド行だけで容易に再現できる。

Embedding-aware generative model (EAGM) addresses the data insufficiency problem for zero-shot learning (ZSL) by constructing a generator between semantic and visual embedding spaces. Thanks to the predefined benchmark and protocols, the number of proposed EAGMs for ZSL is increasing rapidly. We argue that it is time to take a step back and reconsider the embedding-aware generative paradigm. The purpose of this paper is three-fold. First, given the fact that the current embedding features in benchmark datasets are somehow out-of-date, we improve the performance of EAGMs for ZSL remarkably with embarrassedly simple modifications on the embedding features. This is an important contribution, since the results reveal that the embedding of EAGMs deserves more attention. Second, we compare and analyze a significant number of EAGMs in depth. Based on five benchmark datasets, we update the state-of-the-art results for ZSL and give a strong baseline for few-shot learning (FSL), including the classic unseen-class few-shot learning (UFSL) and the more challenging seen-class few-shot learning (SFSL). Finally, a comprehensive generative model repository, namely, generative any-shot learning (GASL) repository, is provided, which contains the models, features, parameters, and settings of EAGMs for ZSL and FSL. Any results in this paper can be readily reproduced with only one command line based on GASL.
翻訳日:2023-02-09 16:20:55 公開日:2023-02-08
# 共鳴蛍光における絡み合い

Entanglement in Resonance Fluorescence ( http://arxiv.org/abs/2302.04059v1 )

ライセンス: Link先を確認
Juan Camilo L\'opez Carre\~no, Santiago Berm\'udez Feijoo and Magdalena Stobi\'nska(参考訳) 粒子絡み合いは、多くの量子技術に基づく基本的な資源である。 しかし、近現代において最も優れた光子源はパラメトリックダウンコンバージョンプロセスに依存しており、これは特定の周波数でしか最適であり、絡み合いの恩恵を受けることができる凝縮マター系のエネルギーとはほとんど一致しない。 この書簡では、この問題を回避する方法を示し、共振蛍光による光子対を真空の重ね合わせとベル状態である$\left| \phi^-\right\rangle$ に基づく新しい絡み合った光子源を紹介する。 本提案は、強いオフ共振レーザーによって駆動される2レベル系の衛星ピークの放射に依存しており、その強度は絡み合う光子の周波数を制御する。 さらに、エンタングルメントは1対の周波数ごとに最適化できるため、既存の技術よりも明らかに有利である。 最後に、ポラリトン系を励起することで、絡み合う光子の源としての共鳴蛍光の力を示し、我々の源が最大に絡み合った定常状態にあることを示す。

Particle entanglement is a fundamental resource upon which are based many quantum technologies. However, the up-to-now best sources of entangled photons rely on parametric down-conversion processes, which are optimal only at certain frequencies, which rarely match the energies of condensed-matter systems that can benefit from entanglement. In this Letter, we show a way to circumvent this issue, and we introduce a new source of entangled photons based on resonance fluorescence delivering photon pairs as a superposition of vacuum and the Bell state $\left| \Phi^-\right\rangle$. Our proposal relies on the emission of the satellite peaks of a two-level system driven by a strong off-resonant laser, whose intensity controls the frequencies of the entangled photons. Furthermore, entanglement can be optimized for every pair of frequencies, thus demonstrating a clear advantage over existing technologies. Finally, we illustrate the power of resonance fluorescence as a source of entangled photons by exciting a system of polaritons and showing that our source leaves them in a maximally entangled steady state.
翻訳日:2023-02-09 16:20:28 公開日:2023-02-08
# 機械学習研究の推論可能性に向けて

Towards Inferential Reproducibility of Machine Learning Research ( http://arxiv.org/abs/2302.04054v1 )

ライセンス: Link先を確認
Michael Hagmann and Stefan Riezler(参考訳) 機械学習評価の信頼性 -- 再現されたモデルトレーニング実行における観察された評価スコアの一貫性 -- は、測定ノイズと見なされる複数の非決定性源に影響される。 研究結果の再現性を強制するためにノイズを除去する現在の傾向は、実装レベルで固有の非決定性を無視し、アルゴリズム的ノイズ要因とデータ特性の間の重要な相互作用効果を無視している。 これはそのような実験から引き出すことができる結論の範囲を制限する。 ノイズを除去する代わりに、学習モデルの特定のインスタンスを超えて推論を引き出すことを目的とした、機械学習評価の重要度と信頼性の分析に、データ特性との相互作用を含む複数のばらつき源を組み込むことを提案する。 本稿では,線形混合効果モデル (LMEM) を用いて評価スコアを解析し,一般確率比テスト (GLRT) を用いて統計的推論を行う方法を示す。 これにより、メタパラメータの変動のような任意のノイズ源を統計的に有意なテストに組み込むことができ、データ特性に基づく性能差を評価することができる。 さらに、分散成分分析(VCA)により、ノイズ源の総合的な分散への寄与の分析と、全分散に対する実質的な比による信頼性係数の計算が可能となる。

Reliability of machine learning evaluation -- the consistency of observed evaluation scores across replicated model training runs -- is affected by several sources of nondeterminism which can be regarded as measurement noise. Current tendencies to remove noise in order to enforce reproducibility of research results neglect inherent nondeterminism at the implementation level and disregard crucial interaction effects between algorithmic noise factors and data properties. This limits the scope of conclusions that can be drawn from such experiments. Instead of removing noise, we propose to incorporate several sources of variance, including their interaction with data properties, into an analysis of significance and reliability of machine learning evaluation, with the aim to draw inferences beyond particular instances of trained models. We show how to use linear mixed effects models (LMEMs) to analyze performance evaluation scores, and to conduct statistical inference with a generalized likelihood ratio test (GLRT). This allows us to incorporate arbitrary sources of noise like meta-parameter variations into statistical significance testing, and to assess performance differences conditional on data properties. Furthermore, a variance component analysis (VCA) enables the analysis of the contribution of noise sources to overall variance and the computation of a reliability coefficient by the ratio of substantial to total variance.
翻訳日:2023-02-09 16:20:10 公開日:2023-02-08
# 薄いInAs-Alハイブリッドナノワイヤを用いたゲートモン量子ビット

Gatemon qubit based on a thin InAs-Al hybrid nanowire ( http://arxiv.org/abs/2302.04053v1 )

ライセンス: Link先を確認
Jierong Huo, Zezhou Xia, Zonglin Li, Shan Zhang, Yuqing Wang, Dong Pan, Qichun Liu, Yulong Liu, Zhichuan Wang, Yichun Gao, Jianhua Zhao, Tiefu Li, Jianghua Ying, Runan Shang, Hao Zhang(参考訳) 薄膜inas-alハイブリッドナノワイヤを用いたゲート可変超電導量子ビット(gatemon)の研究を行った。 ジョゼフソンエネルギーを制御するためにゲート電圧を用いることで、ゲートモンは強い結合状態からマイクロ波空洞に到達することができる。 分散系では、エネルギー緩和時間 $T_1\sim$0.56 $\mu$s とデファス化時間 $T_2^* \sim$0.38 $\mu$s を抽出する。 薄型InAs-Alナノワイヤはサブバンドの占有が少なく、最近の輸送実験ではほぼ量子化されたゼロバイアス導電ピークの存在が示されているため、回路量子力学を用いて薄型InAs-Alナノワイヤにおけるマヨラナゼロモードの検出に関連性がある。

We study a gate-tunable superconducting qubit (gatemon) based on a thin InAs-Al hybrid nanowire. Using a gate voltage to control its Josephson energy, the gatemon can reach the strong coupling regime to a microwave cavity. In the dispersive regime, we extract the energy relaxation time $T_1\sim$0.56 $\mu$s and the dephasing time $T_2^* \sim$0.38 $\mu$s. Since thin InAs-Al nanowires can have fewer or single sub-band occupation and recent transport experiment shows the existence of nearly quantized zero-bias conductance peaks, our result holds relevancy for detecting Majorana zero modes in thin InAs-Al nanowires using circuit quantum electrodynamics.
翻訳日:2023-02-09 16:19:49 公開日:2023-02-08
# 連続時間アテンションポリシーネットワークを用いた不規則時系列における短い信号の探索

Finding Short Signals in Long Irregular Time Series with Continuous-Time Attention Policy Networks ( http://arxiv.org/abs/2302.04052v1 )

ライセンス: Link先を確認
Thomas Hartvigsen, Jidapa Thadajarassiri, Xiangnan Kong, Elke Rundensteiner(参考訳) 不規則にサンプリングされた時系列(its)は、医療などのハイインパクトなドメインに固有のもので、不均一な間隔で測定値が収集される。 しかし、多くの分類問題において、長い時系列の小さな部分だけが、しばしばクラスラベルに関係している。 この場合、既存のITSモデルは、注意深い計算に依存するため、関連する領域のオーバーサンプリングやアンダーサンプリングが容易であるため、長いシリーズの分類に失敗することが多い。 この知見を用いて、入力系列のタイムラインの高関連部分を明示的に求め、多変量ITSを分類するモデルであるCATを提案する。 1) モーメントネットワークは、強化学習を用いて、ITSの連続タイムラインで関連する瞬間を求めることを学習する。 2) Receptor Network は,観測の時間的ダイナミクスと予測モーメントの周囲に局在したタイミングをモデル化する。 3) 再帰遷移モデルは、これらのモーメント間の遷移列をモデル化し、級数を分類した表現を育む。 合成データと実データを用いて、CATは長い不規則な時系列で短い信号を見つけることで、最先端の10の手法より優れていることがわかった。

Irregularly-sampled time series (ITS) are native to high-impact domains like healthcare, where measurements are collected over time at uneven intervals. However, for many classification problems, only small portions of long time series are often relevant to the class label. In this case, existing ITS models often fail to classify long series since they rely on careful imputation, which easily over- or under-samples the relevant regions. Using this insight, we then propose CAT, a model that classifies multivariate ITS by explicitly seeking highly-relevant portions of an input series' timeline. CAT achieves this by integrating three components: (1) A Moment Network learns to seek relevant moments in an ITS's continuous timeline using reinforcement learning. (2) A Receptor Network models the temporal dynamics of both observations and their timing localized around predicted moments. (3) A recurrent Transition Model models the sequence of transitions between these moments, cultivating a representation with which the series is classified. Using synthetic and real data, we find that CAT outperforms ten state-of-the-art methods by finding short signals in long irregular time series.
翻訳日:2023-02-09 16:19:33 公開日:2023-02-08
# トランスフォーマーによるコード関連タスクの自動化:事前学習の影響

Automating Code-Related Tasks Through Transformers: The Impact of Pre-training ( http://arxiv.org/abs/2302.04048v1 )

ライセンス: Link先を確認
Rosalia Tufano, Luca Pascarella, Gabriele Bavota(参考訳) トランスフォーマーは、ソフトウェア工学(SE)文学で人気を博している。 これらのディープラーニングモデルは、通常、自制的な目的を通じて事前訓練され、関心のある言語(例えばJava)に関する基本的な知識をモデルに提供する。 古典的な事前学習の対象は、入力(例えば、Javaメソッド)からのトークンのパーセンテージをマスクし、予測を行うモデルであるマスメッド言語モデル(MLM)である。 一度事前訓練すると、モデルは特定の下流タスク(例えばコード要約)をサポートするように微調整される。 事前トレーニングによるパフォーマンスの向上を示す証拠はあるが、特定の事前トレーニング目的が与えた影響についてはほとんど知られていない。 実際、MLMは事前学習対象の1つに過ぎず、近年の自然言語処理分野の研究から、特定の下流タスクに適した事前学習対象がモデルの性能を大幅に向上させる可能性が示唆されている。 本研究では,事前学習目標がコード関連タスクの自動化におけるトランスフォーマーの性能に与える影響に注目した。 まず,seにおける事前学習目標の同定を目的とした体系的文献レビューから始める。 次に,両変圧器を用いた32列車前変圧器について検討する。 (i)通常seで採用される総合的事前訓練目標 2) 実験対象の特定のコード関連タスク,すなわちバグフィックス,コードの要約,コード補完に適した事前学習目標。 また,事前学習モデルと事前学習モデルとの比較を行った。 結果はこう示しています (i)事前訓練は、利用可能な微調整データの量が少ない場合に限り、性能の向上に資する。 (ii)mlm目標は通常,下流課題に特化した事前学習目標と比較しても,モデルの予測性能を最大化するのに十分である。

Transformers have gained popularity in the software engineering (SE) literature. These deep learning models are usually pre-trained through a self-supervised objective, meant to provide the model with basic knowledge about a language of interest (e.g., Java). A classic pre-training objective is the masked language model (MLM), in which a percentage of tokens from the input (e.g., a Java method) is masked, with the model in charge of predicting them. Once pre-trained, the model is then fine-tuned to support the specific downstream task of interest (e.g., code summarization). While there is evidence suggesting the boost in performance provided by pre-training, little is known about the impact of the specific pre-training objective(s) used. Indeed, MLM is just one of the possible pre-training objectives and recent work from the natural language processing field suggest that pre-training objectives tailored for the specific downstream task of interest may substantially boost the model's performance. In this study, we focus on the impact of pre-training objectives on the performance of transformers when automating code-related tasks. We start with a systematic literature review aimed at identifying the pre-training objectives used in SE. Then, we pre-train 32 transformers using both (i) generic pre-training objectives usually adopted in SE; and (ii) pre-training objectives tailored to specific code-related tasks subject of our experimentation, namely bug-fixing, code summarization, and code completion. We also compare the pre-trained models with non pre-trained ones. Our results show that: (i) pre-training helps in boosting performance only if the amount of fine-tuning data available is small; (ii) the MLM objective is usually sufficient to maximize the prediction performance of the model, even when comparing it with pre-training objectives specialized for the downstream task at hand.
翻訳日:2023-02-09 16:19:12 公開日:2023-02-08
# マルチエージェントナビゲーションのためのグラフエンハンスドコマンダエグゼクタの学習

Learning Graph-Enhanced Commander-Executor for Multi-Agent Navigation ( http://arxiv.org/abs/2302.04094v1 )

ライセンス: Link先を確認
Xinyi Yang, Shiyu Huang, Yiwen Sun, Yuxiang Yang, Chao Yu, Wei-Wei Tu, Huazhong Yang, Yu Wang(参考訳) 本稿では,複数のエージェントが目標目標を達成するのに限られた時間を要するマルチエージェントナビゲーション問題について検討する。 マルチエージェント強化学習(MARL)はこの問題を解決する上で有望な結果を示している。 しかしながら,エージェント数の増加(10+エージェントなど)や環境の複雑化(3dシミュレータなど)に伴って悪化する大規模な探索空間において,marlが(ほぼ)最適方針を直接探索することは非効率である。 目標条件付き階層型強化学習(HRL)は,探索空間を分解する階層構造を導入することで,この課題に取り組む上で有望な方向を提供する。 本稿では,マルチエージェントナビゲーションタスクのためのグラフベースの目標条件付き階層的手法であるMAGE-Xを提案する。 MAGE-Xは高レベルゴールコマンドと低レベルアクション実行器で構成される。 ゴールコマンドはゴールの確率分布を予測し、それらを利用して各エージェントを最も適切な最終目標に割り当てる。 Action Executorはグラフニューラルネットワーク(GNN)を使用して,重要なパートナのみを含む各エージェントのサブグラフを構築し,コラボレーションを改善する。 さらに、アクションエグゼキュータ内の目標エンコーダは、エージェントと指定された目標との関係をキャプチャし、エージェントが最終目標に到達するように促す。 以上の結果から,mage-xは,マルチエージェント粒子環境 (mpe) において約300万のトレーニングステップで100%の成功率,より複雑なクワッドローター3dナビゲーションタスクでは,少なくとも12%以上の成功率と2倍のデータ効率で,最先端のmarlベースラインよりも優れていた。

This paper investigates the multi-agent navigation problem, which requires multiple agents to reach the target goals in a limited time. Multi-agent reinforcement learning (MARL) has shown promising results for solving this issue. However, it is inefficient for MARL to directly explore the (nearly) optimal policy in the large search space, which is exacerbated as the agent number increases (e.g., 10+ agents) or the environment is more complex (e.g., 3D simulator). Goal-conditioned hierarchical reinforcement learning (HRL) provides a promising direction to tackle this challenge by introducing a hierarchical structure to decompose the search space, where the low-level policy predicts primitive actions in the guidance of the goals derived from the high-level policy. In this paper, we propose Multi-Agent Graph-Enhanced Commander-Executor (MAGE-X), a graph-based goal-conditioned hierarchical method for multi-agent navigation tasks. MAGE-X comprises a high-level Goal Commander and a low-level Action Executor. The Goal Commander predicts the probability distribution of goals and leverages them to assign each agent the most appropriate final target. The Action Executor utilizes graph neural networks (GNN) to construct a subgraph for each agent that only contains crucial partners to improve cooperation. Additionally, the Goal Encoder in the Action Executor captures the relationship between the agent and the designated goal to encourage the agent to reach the final target. The results show that MAGE-X outperforms the state-of-the-art MARL baselines with a 100% success rate with only 3 million training steps in multi-agent particle environments (MPE) with 50 agents, and at least a 12% higher success rate and 2x higher data efficiency in a more complicated quadrotor 3D navigation task.
翻訳日:2023-02-09 16:13:27 公開日:2023-02-08
# レーザー支援ファノ共鳴:アト秒量子制御とダイナミックイメージング

Laser-assisted Fano resonance: attosecond quantum control and dynamical imaging ( http://arxiv.org/abs/2302.04090v1 )

ライセンス: Link先を確認
Meng Han, Hao Liang, Jia-bao Ji, Leung Chung Sum, Kiyoshi Ueda, Jan Michael Rost, Hans Jakob W\"orner(参考訳) ファノ共鳴は離散状態と連続状態の間の経路干渉から生じ、物理学、化学、物質科学の多くの分野において基本的な役割を果たす。 本稿では,レーザー支援ファノ共鳴の概念について紹介する。この2つの干渉経路は,レーザー場を付加することで結合され,その位相遅延が制御可能となり,一般化されたファノ線状体となり,itアト秒時間スケールでアクティブに制御できる。 前例のない分解能の実験的結果に基づいて、時間領域内で直接進行する共鳴電子波パケットを動的に撮像し、振幅と位相の両方を抽出し、光イオン化時間遅延の測定を可能にする。 物理的に透明な2レベルモデルを用いたab-initio計算とシミュレーションは実験結果と一致し、概念を複素系のアト秒量子制御に拡張する基礎研究を行った。

A Fano resonance arises from the pathway interference between discrete and continuum states, playing a fundamental role in many branches of physics, chemistry and material science. Here, we introduce the concept of a laser-assisted Fano resonance, created from two interferometric pathways that are coupled together by an additional laser field, which introduces a controllable phase delay between them and results in a generalized Fano lineshape that can be actively controlled on the {\it attosecond} time scale. Based on our experimental results of unprecedented resolution, we dynamically image a resonant electron wave packet during its evolution directly in the time domain, extracting both the amplitude and the phase, which allows for the measurement of the {\it resonant} photoionization time delay. Ab-initio calculations and simulations employing a physically transparent two-level model agree with our experimental results, laying the groundwork for extending our concepts into attosecond quantum control of complex systems.
翻訳日:2023-02-09 16:12:51 公開日:2023-02-08
# Reception Reader: 初期のイギリスの出版物でテキストの再利用を探る

Reception Reader: Exploring Text Reuse in Early Modern British Publications ( http://arxiv.org/abs/2302.04084v1 )

ライセンス: Link先を確認
David Rosson, Eetu M\"akel\"a, Ville Vaara, Ananth Mahadevan, Yann Ryan and Mikko Tolonen(参考訳) Reception Readerは、Early English Books Online (EEBO-TCP) と Eighteenth Century Collections Online (ECCO) のデータでテキストの再利用を研究するためのウェブツールである。 ユーザーは: 1)共有テキストセグメントに基づいて、作業の受信、又はその受信接続の視覚的概要を時間にわたって探索する。 2)連結文書の詳細を対話的に調査し, 3) "クローズリーディング" のための再利用テキストのコンテキストを検討する。 このツールが研究や調査のタスクを合理化する例を示し、ユーザインタフェースと現在のデータソースの有用性と限界について論じる。

The Reception Reader is a web tool for studying text reuse in the Early English Books Online (EEBO-TCP) and Eighteenth Century Collections Online (ECCO) data. Users can: 1) explore a visual overview of the reception of a work, or its incoming connections, across time based on shared text segments, 2) interactively survey the details of connected documents, and 3) examine the context of reused text for "close reading". We show examples of how the tool streamlines research and exploration tasks, and discuss the utility and limitations of the user interface along with its current data sources.
翻訳日:2023-02-09 16:11:32 公開日:2023-02-08
# 分散学習におけるモデル一貫性の改善

Improving the Model Consistency of Decentralized Federated Learning ( http://arxiv.org/abs/2302.04083v1 )

ライセンス: Link先を確認
Yifan Shi, Li Shen, Kang Wei, Yan Sun, Bo Yuan, Xueqian Wang, Dacheng Tao(参考訳) フェデレートラーニング(FL)のプライバシー漏洩と通信負担を軽減するため、分散FL(DFL)は中央サーバを捨て、各クライアントは、分散化された通信ネットワークにおいて隣人とのみ通信する。 しかし、既存のDFLは、特に異種データや疎通信トポロジにおいて、集中型FL(CFL)と比較して、分布シフトと性能の低下をもたらすローカルクライアント間の不整合に悩まされている。 この問題を軽減するために,DFedSAMとDFedSAM-MGSという2つのDFLアルゴリズムを提案する。 具体的には、DFedSAMは勾配の摂動を利用してシャープネス認識最小化(SAM)を介して局所的な平坦なモデルを生成する。 DFedSAM-MGSはさらに、複数のGossip Steps(MGS)を採用して、モデルの一貫性を改善し、局所的なフラットモデルの集約を加速し、通信の複雑さと一般化のバランスを改善することで、DFedSAMをさらに強化する。 理論的には、改善収束率 $\small \mathcal{O}\big(\frac{1}{\sqrt{KT}}+\frac{1}{K^{1/2}T^{3/2}(1-\lambda)^2}\big)$と$\small \mathcal{O}\big(\frac{1}{\sqrt{KT}}+\frac{1}{T}+\frac{\lambda^Q+1}{K^{1/2}T^{3/2}(1-\lambda^Q)^2}\big)$はそれぞれDFedSAMとDFedSAM-MGSの非凸設定において、1-\lambda$はゴシップのギャップであり、$QはMGSのギャップである。 実験により,提案手法は既存のDFL法よりも優れ,CFL法と比較して競争性能が向上する。

To mitigate the privacy leakages and communication burdens of Federated Learning (FL), decentralized FL (DFL) discards the central server and each client only communicates with its neighbors in a decentralized communication network. However, existing DFL suffers from high inconsistency among local clients, which results in severe distribution shift and inferior performance compared with centralized FL (CFL), especially on heterogeneous data or sparse communication topology. To alleviate this issue, we propose two DFL algorithms named DFedSAM and DFedSAM-MGS to improve the performance of DFL. Specifically, DFedSAM leverages gradient perturbation to generate local flat models via Sharpness Aware Minimization (SAM), which searches for models with uniformly low loss values. DFedSAM-MGS further boosts DFedSAM by adopting Multiple Gossip Steps (MGS) for better model consistency, which accelerates the aggregation of local flat models and better balances communication complexity and generalization. Theoretically, we present improved convergence rates $\small \mathcal{O}\big(\frac{1}{\sqrt{KT}}+\frac{1}{T}+\frac{1}{K^{1/2}T^{3/2}(1-\lambda)^2}\big)$ and $\small \mathcal{O}\big(\frac{1}{\sqrt{KT}}+\frac{1}{T}+\frac{\lambda^Q+1}{K^{1/2}T^{3/2}(1-\lambda^Q)^2}\big)$ in non-convex setting for DFedSAM and DFedSAM-MGS, respectively, where $1-\lambda$ is the spectral gap of gossip matrix and $Q$ is the number of MGS. Empirically, our methods can achieve competitive performance compared with CFL methods and outperform existing DFL methods.
翻訳日:2023-02-09 16:11:21 公開日:2023-02-08
# モデルミス種別を補う決定木

Decision trees compensate for model misspecification ( http://arxiv.org/abs/2302.04081v1 )

ライセンス: Link先を確認
Hugh Panton and Gavin Leech and Laurence Aitchison(参考訳) MLの最高のパフォーマンスモデルは解釈できない。 その理由を説明できれば、これらのメカニズムを再現して、解釈可能性とパフォーマンスの両方を得ることができるかもしれません。 例えば、決定木とその下降勾配ブースティングマシン(gbms)である。 これらは複雑な相互作用の存在下でうまく機能し、木深さは相互作用の順序を規定する。 しかし、相互作用は実際に見つかった木の深さを完全に説明できない。 実際の相互作用がない場合,木深度がパフォーマンスに与える影響について5つの仮説を立証し,データセットのバッテリ実験の結果を提示する。 ツリーモデルの成功の一部は、様々な種類のミス特定に対する堅牢性に起因する。 本稿では,複合応答と混合応答のシナリオに対処する,堅牢な一般化線形モデル(GLM)の2つの手法を提案する。

The best-performing models in ML are not interpretable. If we can explain why they outperform, we may be able to replicate these mechanisms and obtain both interpretability and performance. One example are decision trees and their descendent gradient boosting machines (GBMs). These perform well in the presence of complex interactions, with tree depth governing the order of interactions. However, interactions cannot fully account for the depth of trees found in practice. We confirm 5 alternative hypotheses about the role of tree depth in performance in the absence of true interactions, and present results from experiments on a battery of datasets. Part of the success of tree models is due to their robustness to various forms of mis-specification. We present two methods for robust generalized linear models (GLMs) addressing the composite and mixed response scenarios.
翻訳日:2023-02-09 16:10:17 公開日:2023-02-08
# 意味セグメンテーションのための深層アクティブラーニングの再検討

Revisiting Deep Active Learning for Semantic Segmentation ( http://arxiv.org/abs/2302.04075v1 )

ライセンス: Link先を確認
Sudhanshu Mittal, Joshua Niemeijer, J\"org P. Sch\"afer, Thomas Brox(参考訳) active learningは、データプールからアノテーション用のサンプルを自動的に選択し、最小限のアノテーションコストで最大パフォーマンスを達成する。 これはアノテーションが高価であるセグメンテーションにおいて特に重要である。 本研究では,本論文で提案する各種能動的学習目標の性能に対して,データ分布が決定的であることを意味的セグメンテーションの文脈で示す。 特にデータの冗長性は、ほとんどの駆動シナリオやビデオデータセットに見られるように、大きな役割を果たす。 半教師付き学習とアクティブラーニングの統合は,2つの目標が整列した際の性能向上を実証する。 実験の結果,運転シナリオにおけるセグメント化のための現在のアクティブラーニングベンチマークは,最大多様性のためにすでにキュレートされたデータを扱うため,現実的ではないことがわかった。 そこで,本研究では,アクティブラーニングの価値を,それ自身と半教師付き学習と組み合わせることで,より現実的な評価手法を提案する。

Active learning automatically selects samples for annotation from a data pool to achieve maximum performance with minimum annotation cost. This is particularly critical for semantic segmentation, where annotations are costly. In this work, we show in the context of semantic segmentation that the data distribution is decisive for the performance of the various active learning objectives proposed in the literature. Particularly, redundancy in the data, as it appears in most driving scenarios and video datasets, plays a large role. We demonstrate that the integration of semi-supervised learning with active learning can improve performance when the two objectives are aligned. Our experimental study shows that current active learning benchmarks for segmentation in driving scenarios are not realistic since they operate on data that is already curated for maximum diversity. Accordingly, we propose a more realistic evaluation scheme in which the value of active learning becomes clearly visible, both by itself and in combination with semi-supervised learning.
翻訳日:2023-02-09 16:10:06 公開日:2023-02-08
# グラフに基づく時空間予測における局所的効果の減衰

Taming Local Effects in Graph-based Spatiotemporal Forecasting ( http://arxiv.org/abs/2302.04071v1 )

ライセンス: Link先を確認
Andrea Cini, Ivan Marisca, Daniele Zambon, Cesare Alippi(参考訳) 時空間グラフニューラルネットワークは時系列予測アプリケーションに有効であることが示されており、いくつかの設定で標準の単変量予測よりも優れたパフォーマンスを実現している。 これらのアーキテクチャはグラフ構造と関係帰納バイアスを利用して単一の(グローバル)帰納モデルを学び、グラフノードに関連付けられた入力時系列の任意の数を予測する。 局所モデルの集合に適合する計算とデータ効率において達成された利益にもかかわらず、時系列の一部が異なる時空間確率過程によって生成される場合、単一のグローバルモデルに依存することは制限となる。 本稿では,グラフに基づく時空間予測におけるグローバル性と局所性の相互作用を理解すると同時に,学習可能なノード埋め込みを含む実践を合理化する方法論的枠組みを提案する。 訓練可能なノードを埋め込み、特殊なコンポーネントの学習を暗記する役割を担います。 さらに、埋め込みが許される 1)共有メッセージパス層とノード固有パラメータの利点を効果的に結合する 2)学習したモデルを新しいノード集合に効率的に転送する。 強力な実証的証拠によって支持され、グラフベースのモデルを各時系列のダイナミクスに特殊化する洞察とガイドラインを提供し、この側面が正確な予測を得る上で重要な役割を果たすことを示す。

Spatiotemporal graph neural networks have shown to be effective in time series forecasting applications, achieving better performance than standard univariate predictors in several settings. These architectures take advantage of a graph structure and relational inductive biases to learn a single (global) inductive model to predict any number of the input time series, each associated with a graph node. Despite the gain achieved in computational and data efficiency w.r.t. fitting a set of local models, relying on a single global model can be a limitation whenever some of the time series are generated by a different spatiotemporal stochastic process. The main objective of this paper is to understand the interplay between globality and locality in graph-based spatiotemporal forecasting, while contextually proposing a methodological framework to rationalize the practice of including trainable node embeddings in such architectures. We ascribe to trainable node embeddings the role of amortizing the learning of specialized components. Moreover, embeddings allow for 1) effectively combining the advantages of shared message-passing layers with node-specific parameters and 2) efficiently transferring the learned model to new node sets. Supported by strong empirical evidence, we provide insights and guidelines for specializing graph-based models to the dynamics of each time series and show how this aspect plays a crucial role in obtaining accurate predictions.
翻訳日:2023-02-09 16:09:50 公開日:2023-02-08
# ホーキング放射の時間変化格子モデル

Time varying gratings model Hawking radiation ( http://arxiv.org/abs/2302.04066v1 )

ライセンス: Link先を確認
Simon A. R. Horsley and John B. Pendry(参考訳) 透過速度で合成的に移動する回折格子は、波動と格子速度が等しい点を含む。 これらの点を、波動エネルギーが捕捉・増幅され、量子真空状態から放射される一連の光学事象の地平線として捉えることができる。 この放射光のスペクトルを計算し、格子プロファイルに依存する特徴を持つ準熱スペクトルと、格子の長さと指数関数的にスケールする有効温度を求め、非常に小さな格子コントラストでも測定可能なフラックスを放出する。

Diffraction gratings synthetically moving at trans-luminal velocities contain points where wave and grating velocities are equal. We show these points can be understood as a series of optical event horizons where wave energy can be trapped and amplified, leading to radiation from the quantum vacuum state. We calculate the spectrum of this emitted radiation, finding a quasi-thermal spectrum with features that depend on the grating profile, and an effective temperature that scales exponentially with the length of the grating, emitting a measurable flux even for very small grating contrast.
翻訳日:2023-02-09 16:09:29 公開日:2023-02-08
# 言語モデルによる無訓練語彙バックドア攻撃

Training-free Lexical Backdoor Attacks on Language Models ( http://arxiv.org/abs/2302.04116v1 )

ライセンス: Link先を確認
Yujin Huang, Terry Yue Zhuo, Qiongkai Xu, Han Hu, Xingliang Yuan, Chunyang Chen(参考訳) 大規模言語モデルは様々な自然言語処理(nlp)アプリケーションで大きな成功を収めている。 それでも、言語モデルはバックドア攻撃に弱いため、ステルス的なトリガーをモデルに注入することで、好ましくない振る舞いをコントロールできる。 データ中毒のような既存のバックドア攻撃のほとんどは、意図したバックドアパターンを学ぶために、さらなる(再)トレーニングまたは微調整言語モデルを必要とする。 しかし、追加のトレーニングプロセスは、通常、言語モデルのトレーニングには長い最適化時間、大量のデータ、モデルパラメータの大幅な変更が必要であるため、攻撃のステルス性が低下する。 本稿では,言語モデルに対する最初のトレーニングフリーバックドア攻撃として,トレーニングフリーの語彙バックドア攻撃(tflexattack)を提案する。 この攻撃は,言語モデルのトークン化に語彙トリガを注入し,その埋め込み辞書を注意深く設計したルールで操作することで達成される。 これらのルールは、幅広いハッカーからの攻撃を誘発する人間開発者に説明できる。 辞書のまばらな操作は、我々の攻撃のステルス性も和らげる。 攻撃の有効性と普遍性を示すため,9つの言語モデルに基づく3つのNLPタスクについて広範な実験を行った。 この作業のコードはhttps://github.com/jinxhy/tflexattackで入手できる。

Large-scale language models have achieved tremendous success across various natural language processing (NLP) applications. Nevertheless, language models are vulnerable to backdoor attacks, which inject stealthy triggers into models for steering them to undesirable behaviors. Most existing backdoor attacks, such as data poisoning, require further (re)training or fine-tuning language models to learn the intended backdoor patterns. The additional training process however diminishes the stealthiness of the attacks, as training a language model usually requires long optimization time, a massive amount of data, and considerable modifications to the model parameters. In this work, we propose Training-Free Lexical Backdoor Attack (TFLexAttack) as the first training-free backdoor attack on language models. Our attack is achieved by injecting lexical triggers into the tokenizer of a language model via manipulating its embedding dictionary using carefully designed rules. These rules are explainable to human developers which inspires attacks from a wider range of hackers. The sparse manipulation of the dictionary also habilitates the stealthiness of our attack. We conduct extensive experiments on three dominant NLP tasks based on nine language models to demonstrate the effectiveness and universality of our attack. The code of this work is available at https://github.com/Jinxhy/TFLexAttack.
翻訳日:2023-02-09 16:03:26 公開日:2023-02-08
# AI分野における規制と標準がイノベーションに与える影響を評価する

Assessing the impact of regulations and standards on innovation in the field of AI ( http://arxiv.org/abs/2302.04110v1 )

ライセンス: Link先を確認
Alessio Tartaro, Adam Leon Smith, Patricia Shaw(参考訳) 人工知能(AI)の分野における規制と基準は、リスクを最小化し、利益を最大化するために必要である。 本稿では,AI分野における規制がイノベーションを阻害するという考えを批判的に考察する。 AI規制の現在の動向、特に欧州AI法とその実施を支持する標準について論じている。 規制がイノベーションを阻害するという考えを支持する議論は分析され、批判され、また別の視点が提供され、規制と標準がAIの分野でイノベーションを促進する方法を示している。

Regulations and standards in the field of artificial intelligence (AI) are necessary to minimise risks and maximise benefits, yet some argue that they stifle innovation. This paper critically examines the idea that regulation stifles innovation in the field of AI. Current trends in AI regulation, particularly the proposed European AI Act and the standards supporting its implementation, are discussed. Arguments in support of the idea that regulation stifles innovation are analysed and criticised, and an alternative point of view is offered, showing how regulation and standards can foster innovation in the field of AI.
翻訳日:2023-02-09 16:03:07 公開日:2023-02-08
# 感情評価システムにおける説明可能なラベルフリッピング攻撃

Explainable Label-flipping Attacks on Human Emotion Assessment System ( http://arxiv.org/abs/2302.04109v1 )

ライセンス: Link先を確認
Zhibo Zhang, Ahmed Y. Al Hammadi, Ernesto Damiani, and Chan Yeob Yeun(参考訳) 本研究の目的は、脳波(EEG)信号を用いて人間の感情を評価するシステムのトレーニング段階でラベルフリップを使用するデータ中毒攻撃に対する攻撃者の視点を提供することである。 適応ブースティング(AdaBoost)やランダムフォレスト(Random Forest)のように,脳波信号を用いた4種類の人間の感情の分類を行う機械学習分類器を攻撃するために,ラベルフリップ方式の2つのシナリオを提案する。 実験の結果,ラベルフリップに基づくデータ中毒攻撃はモデルによらず成功したが,異なるモデルでは攻撃に対する抵抗の程度が異なることがわかった。 さらに、脳波信号に基づく人間の感情評価システムに対するデータ毒攻撃を説明するために、多数の説明可能な人工知能(XAI)技術が使用されている。

This paper's main goal is to provide an attacker's point of view on data poisoning assaults that use label-flipping during the training phase of systems that use electroencephalogram (EEG) signals to evaluate human emotion. To attack different machine learning classifiers such as Adaptive Boosting (AdaBoost) and Random Forest dedicated to the classification of 4 different human emotions using EEG signals, this paper proposes two scenarios of label-flipping methods. The results of the studies show that the proposed data poison attacksm based on label-flipping are successful regardless of the model, but different models show different degrees of resistance to the assaults. In addition, numerous Explainable Artificial Intelligence (XAI) techniques are used to explain the data poison attacks on EEG signal-based human emotion evaluation systems.
翻訳日:2023-02-09 16:02:56 公開日:2023-02-08
# 表情認識シナリオにおける三重項ロスレス中心損失サンプリング戦略

Triplet Loss-less Center Loss Sampling Strategies in Facial Expression Recognition Scenarios ( http://arxiv.org/abs/2302.04108v1 )

ライセンス: Link先を確認
Hossein Rajoli, Fatemeh Lotfi, Adham Atyabi, Fatemeh Afghah(参考訳) 表情は膨大な情報を伝達し、感情表現において重要な役割を果たす。 ディープ・ニューラルネットワーク(DNN)とディープ・メトリック・ラーニング(DML)技術は、表情認識(FER)アプリケーションにおけるモデルの識別能力を高める。 クロスエントロピーのような分類損失関数のみを備えるdnnは、dmlサポート損失項目によって強化された場合と同様に、クラス内特徴変動やクラス間特徴距離をコンパクト化することはできない。 三重項中心損失(TCL)関数は、試料の埋め込み空間におけるすべての次元に適用される。 本研究では,完全合成,半合成,予測に基づく負サンプル選択戦略の3つの戦略を開発した。 より優れた結果を得るために,入力サンプルの高セマンティックディープ特徴を用いた画素ワイドと素子ワイドアテンション係数の組み合わせを提供する選択的アテンションモジュールを導入する。 提案手法を高度に不均衡なデータセットであるRAF-DB上で評価した。 実験結果から,3つの陰性試料選択戦略の基準値と比較して有意に改善した。

Facial expressions convey massive information and play a crucial role in emotional expression. Deep neural network (DNN) accompanied by deep metric learning (DML) techniques boost the discriminative ability of the model in facial expression recognition (FER) applications. DNN, equipped with only classification loss functions such as Cross-Entropy cannot compact intra-class feature variation or separate inter-class feature distance as well as when it gets fortified by a DML supporting loss item. The triplet center loss (TCL) function is applied on all dimensions of the sample's embedding in the embedding space. In our work, we developed three strategies: fully-synthesized, semi-synthesized, and prediction-based negative sample selection strategies. To achieve better results, we introduce a selective attention module that provides a combination of pixel-wise and element-wise attention coefficients using high-semantic deep features of input samples. We evaluated the proposed method on the RAF-DB, a highly imbalanced dataset. The experimental results reveal significant improvements in comparison to the baseline for all three negative sample selection strategies.
翻訳日:2023-02-09 16:02:41 公開日:2023-02-08
# 物理インフォームドニューラルネットワークは有限要素法に勝てるか?

Can Physics-Informed Neural Networks beat the Finite Element Method? ( http://arxiv.org/abs/2302.04107v1 )

ライセンス: Link先を確認
Tamara G. Grossmann, Urszula Julia Komorowska, Jonas Latz, Carola-Bibiane Sch\"onlieb(参考訳) 偏微分方程式は、物理、生物学的、その他の科学における多くのプロセスやシステムの数学的モデリングにおいて基本的な役割を果たす。 このようなプロセスやシステムをシミュレートするには、PDEの解を数値的に近似する必要があることが多い。 例えば、有限要素法(英語版)は通常の標準的な方法である。 様々な近似タスクにおけるディープニューラルネットワークの成功は、PDEの数値解における彼らの利用を動機付けている。 これらの物理インフォームドニューラルネットワークとその変種は、幅広い偏微分方程式をうまく近似できることが示されている。 これまでのところ、物理インフォームドニューラルネットワークと有限要素法は主に互いに分離して研究されている。 本研究では,本手法を系統的計算研究で比較する。 実際、線形および非線形偏微分方程式の数値解法は、Poisson in 1D, 2D, 3D, Allen-Cahn in 1D, semilinear Schr\odinger in 1D and 2Dである。 次に計算コストと近似確率を比較する。 解の時間と精度の面では、物理インフォームドニューラルネットワークは、我々の研究において有限要素法よりも優れていなかった。 いくつかの実験では、解いたPDEを評価するのが速い。

Partial differential equations play a fundamental role in the mathematical modelling of many processes and systems in physical, biological and other sciences. To simulate such processes and systems, the solutions of PDEs often need to be approximated numerically. The finite element method, for instance, is a usual standard methodology to do so. The recent success of deep neural networks at various approximation tasks has motivated their use in the numerical solution of PDEs. These so-called physics-informed neural networks and their variants have shown to be able to successfully approximate a large range of partial differential equations. So far, physics-informed neural networks and the finite element method have mainly been studied in isolation of each other. In this work, we compare the methodologies in a systematic computational study. Indeed, we employ both methods to numerically solve various linear and nonlinear partial differential equations: Poisson in 1D, 2D, and 3D, Allen-Cahn in 1D, semilinear Schr\"odinger in 1D and 2D. We then compare computational costs and approximation accuracies. In terms of solution time and accuracy, physics-informed neural networks have not been able to outperform the finite element method in our study. In some experiments, they were faster at evaluating the solved PDE.
翻訳日:2023-02-09 16:02:24 公開日:2023-02-08
# WF-UNet: 降雨予報のための気象融合UNet

WF-UNet: Weather Fusion UNet for Precipitation Nowcasting ( http://arxiv.org/abs/2302.04102v1 )

ライセンス: Link先を確認
Christos Kaparakis, Siamak Mehrkanoon(参考訳) 厳しい天候や都市洪水や地すべりなどの影響に対する早期警戒システムの設計には、降水の正確な短期予測(現在の予測)が必要である。 nowcastingは、農業管理や飛行安全の向上など、いくつかの環境応用において重要なタスクである。 本研究では,UNetコアモデルの利用状況と西ヨーロッパでの降水量の増加について,最大3時間前に検討した。 特に,コア3D-UNetモデルを用いて,降水および風速変数を学習プロセスの入力として統合し,降水目標タスクに与える影響を解析する天気融合UNet(WF-UNet)モデルを提案する。 欧州14カ国の2016年1月から2021年12月までの6年間の降水と風のレーダー画像を収集し,ERA5データセットに基づいた時間分解能と31平方kmの空間分解能を欧州連合の地球観測プログラムであるCopernicusによって提供した。 提案したWF-UNetモデルと,降雨レーダ入力データのみを用いてトレーニングされた他のUNetアーキテクチャとの比較を行った。 その結果,WF-UNetは22%,8%,6%低いMSEをそれぞれ1,2,3時間で比較した。

Designing early warning systems for harsh weather and its effects, such as urban flooding or landslides, requires accurate short-term forecasts (nowcasts) of precipitation. Nowcasting is a significant task with several environmental applications, such as agricultural management or increasing flight safety. In this study, we investigate the use of a UNet core-model and its extension for precipitation nowcasting in western Europe for up to 3 hours ahead. In particular, we propose the Weather Fusion UNet (WF-UNet) model, which utilizes the Core 3D-UNet model and integrates precipitation and wind speed variables as input in the learning process and analyze its influences on the precipitation target task. We have collected six years of precipitation and wind radar images from Jan 2016 to Dec 2021 of 14 European countries, with 1-hour temporal resolution and 31 square km spatial resolution based on the ERA5 dataset, provided by Copernicus, the European Union's Earth observation programme. We compare the proposed WF-UNet model to persistence model as well as other UNet based architectures that are trained only using precipitation radar input data. The obtained results show that WF-UNet outperforms the other examined best-performing architectures by 22%, 8% and 6% lower MSE at a horizon of 1, 2 and 3 hours respectively.
翻訳日:2023-02-09 16:02:04 公開日:2023-02-08
# 実量子プロセッサ上での擬似ランダム量子状態の生成

Generation of Pseudo-Random Quantum States on Actual Quantum Processors ( http://arxiv.org/abs/2302.04101v1 )

ライセンス: Link先を確認
Gabriele Cenedese, Maria Bondani, Dario Rosa and Giuliano Benenti(参考訳) 大量の絡み合いの発生は、量子コンピュータが量子優位を達成するために必要な条件である。 本稿では,多成分の絡み合いの程度が極大に近い擬似ランダム量子状態を効率的に生成する手法を提案する。 提案手法は最適であり,実際の超伝導(IBMのibm_lagos)およびイオントラップ(IonQのHarmony)量子プロセッサのベンチマークに用いられている。 ibm_lagosはシングルキュービットと2キュービットのエラー率が低いにもかかわらず、状態準備と測定におけるエラー率の低さと、全てのキュービットの接続性により、Harmonyの全体的な性能は向上している。 その結果、非常に絡み合った状態を生成するためのqubitsネットワークアーキテクチャの関連性が浮き彫りになった。

The generation of a large amount of entanglement is a necessary condition for a quantum computer to achieve quantum advantage. In this paper, we propose a method to efficiently generate pseudo-random quantum states, for which the degree of multipartite entanglement is nearly maximal. We argue that the method is optimal, and use it to benchmark actual superconducting (IBM's ibm_lagos) and ion trap (IonQ's Harmony) quantum processors. Despite the fact that ibm_lagos has lower single-qubit and two-qubit error rates, the overall performance of Harmony is better thanks to low error rate in state preparation and measurement and to the all-to-all connectivity of qubits. Our result highlights the relevance of the qubits network architecture to generate highly entangled state.
翻訳日:2023-02-09 16:01:40 公開日:2023-02-08
# Co-ヒポモノトン包有物に対する$\mathcal{O}(1/k)$収束率の漸進型法

Extragradient-Type Methods with $\mathcal{O}(1/k)$ Convergence Rates for Co-Hypomonotone Inclusions ( http://arxiv.org/abs/2302.04099v1 )

ライセンス: Link先を確認
Quoc Tran-Dinh(参考訳) 本稿では,2つの作用素の和で構成されるコヒポモノトン包含の解を近似するために,よく知られた指数関数法である「ネステロフ加速法」の2つの変種を開発し,一方がリプシッツ連続であり,他方が多値であることを示す。 第1のスキームは、Tsengのフォワード-フォワード分割法の加速変種と見なすことができ、第2のスキームは反射フォワード-フォワード分割法の変種であり、リプシッツ作用素の1つの評価と、多値作用素の1つのリゾルバを必要とする。 アルゴリズムパラメータの適切な選択とコヒポモノトンパラメータの適切な条件の下で、どちらのアルゴリズムも残余のノルム上で$\mathcal{O}(1/k)$収束率を達成し、$k$が反復カウンタであることを理論的に証明する。 この結果は,近年の根探索問題に対するhalpern型スキームの代替案と見なすことができる。

In this paper, we develop two ``Nesterov's accelerated'' variants of the well-known extragradient method to approximate a solution of a co-hypomonotone inclusion constituted by the sum of two operators, where one is Lipschitz continuous and the other is possibly multivalued. The first scheme can be viewed as an accelerated variant of Tseng's forward-backward-forward splitting method, while the second one is a variant of the reflected forward-backward splitting method, which requires only one evaluation of the Lipschitz operator, and one resolvent of the multivalued operator. Under a proper choice of the algorithmic parameters and appropriate conditions on the co-hypomonotone parameter, we theoretically prove that both algorithms achieve $\mathcal{O}(1/k)$ convergence rates on the norm of the residual, where $k$ is the iteration counter. Our results can be viewed as alternatives of a recent class of Halpern-type schemes for root-finding problems.
翻訳日:2023-02-09 16:01:24 公開日:2023-02-08
# ASTRIDE: 時系列データベースの適応的シンボル化

ASTRIDE: Adaptive Symbolization for Time Series Databases ( http://arxiv.org/abs/2302.04097v1 )

ライセンス: Link先を確認
Sylvain W. Combettes, Charles Truong, and Laurent Oudre(参考訳) 我々は,新しい時系列表現であるastride (adaptive symbolization for time series databases) と,fastride (fast astride) の高速化について紹介する。 ほとんどの記号化手順とは異なり、アストライドは分節化ステップにおいて変化点検出を行い、量子化ステップを量子化することで適応する。 信号によって信号を進める代わりに、ASTRIDEはデータセット内のすべての信号に共通するシンボルの辞書を構築する。 また,D-GED(Dynamic General Edit Distance)についても紹介する。 本稿では,SAX (Symbolic Aggregate approXimation), 1d-SAX, SFA (Symbolic Fourier Approximation), ABBA (Adaptive Brownian Bridge-based Aggregation) と比較して,ASTRIDE と FASTRIDE の表現性能を示す。 これらのアルゴリズムは、udr時系列分類アーカイブから86個の平等なデータセットで評価される。 astrideというオープンソースのgithubリポジトリで、すべての実験をpythonで再現することができる。

We introduce ASTRIDE (Adaptive Symbolization for Time seRIes DatabasEs), a novel symbolic representation of time series, along with its accelerated variant FASTRIDE (Fast ASTRIDE). Unlike most symbolization procedures, ASTRIDE is adaptive during both the segmentation step by performing change-point detection and the quantization step by using quantiles. Instead of proceeding signal by signal, ASTRIDE builds a dictionary of symbols that is common to all signals in a data set. We also introduce D-GED (Dynamic General Edit Distance), a novel similarity measure on symbolic representations based on the general edit distance. We demonstrate the performance of the ASTRIDE and FASTRIDE representations compared to SAX (Symbolic Aggregate approXimation), 1d-SAX, SFA (Symbolic Fourier Approximation), and ABBA (Adaptive Brownian Bridge-based Aggregation) on reconstruction and, when applicable, on classification tasks. These algorithms are evaluated on 86 univariate equal-size data sets from the UCR Time Series Classification Archive. An open source GitHub repository called astride is made available to reproduce all the experiments in Python.
翻訳日:2023-02-09 16:01:02 公開日:2023-02-08
# 医用画像分割のためのマルチモーダル評価手法

Multi-Modal Evaluation Approach for Medical Image Segmentation ( http://arxiv.org/abs/2302.04135v1 )

ライセンス: Link先を確認
Seyed M.R. Modaresi, Aomar Osmani, Mohammadreza Razzazi, Abdelghani Chibani(参考訳) 医用画像の手動分割(例えばCTスキャンにおける腫瘍のセグメント化など)は、機械学習技術で加速できる高精細な作業である。 しかし, 適切なセグメンテーションアプローチを選択するには, 評価機能, 特に医用画像セグメンテーションでは, ボクセル間の依存性に対処する必要がある。 例えば、予測が正しいか間違ったかの古典的なシステムとは対照的に、医用画像の分割における予測は部分的に正確であり同時に誤りである。 本稿では,これらのシステムの有用性を抽出するためにこの表現性を探求し,異なるセグメンテーション手法の有効性を測定するための新しいマルチモーダル評価(MME)手法を正式に定義する。 本手法は, 検出特性, 境界アライメント, 均一性, 総体積, 相対体積など, 関連性, 解釈可能な新しい特性を導入することにより, セグメンテーション評価を改善する。 提案するアプローチはオープンソースで,使用することができる。 提案手法の適用性を示すため,膵・肝腫瘍・多臓器データセットの分節化など再現性のあるいくつかの実験を行った。

Manual segmentation of medical images (e.g., segmenting tumors in CT scans) is a high-effort task that can be accelerated with machine learning techniques. However, selecting the right segmentation approach depends on the evaluation function, particularly in medical image segmentation where we must deal with dependency between voxels. For instance, in contrast to classical systems where the predictions are either correct or incorrect, predictions in medical image segmentation may be partially correct and incorrect simultaneously. In this paper, we explore this expressiveness to extract the useful properties of these systems and formally define a novel multi-modal evaluation (MME) approach to measure the effectiveness of different segmentation methods. This approach improves the segmentation evaluation by introducing new relevant and interpretable characteristics, including detection property, boundary alignment, uniformity, total volume, and relative volume. Our proposed approach is open-source and publicly available for use. We have conducted several reproducible experiments, including the segmentation of pancreas, liver tumors, and multi-organs datasets, to show the applicability of the proposed approach.
翻訳日:2023-02-09 15:54:45 公開日:2023-02-08
# 時空間拡散過程の初期状態推定のための逆モデル

Inverse Models for Estimating the Initial Condition of Spatio-Temporal Advection-Diffusion Processes ( http://arxiv.org/abs/2302.04134v1 )

ライセンス: Link先を確認
Xiao Liu, Kyongmin Yeo(参考訳) 逆問題には、観測データを用いて物理プロセスの未知のパラメータを推論することが含まれる。 本稿では,空間的にスパースなデータストリームを用いた時空間移流拡散過程の初期条件推定という,逆問題の重要なクラスについて検討する。 不規則、不均一、シフト均一サンプリングを含む3つの空間サンプリング方式が検討されている。 不規則サンプリングスキームは一般的なシナリオであり、非一様およびシフト均一サンプリングのためのスペクトル領域では計算効率の良い解が利用できる。 各サンプリングスキームに対して、逆問題は、前方モデルの出力と観測の間の距離を最小化する正規化凸最適化問題として定式化される。 最適化問題は、線形不等式制約(例えば、非負性性)がモデル出力に課される状況にも対処する乗算器アルゴリズムの交互方向法によって解決される。 数値的な例が提示され、コードはgithubで公開され、提案された逆モデリングアプローチの有用な洞察を生み出すための議論が提供されている。

Inverse problems involve making inference about unknown parameters of a physical process using observational data. This paper investigates an important class of inverse problems -- the estimation of the initial condition of a spatio-temporal advection-diffusion process using spatially sparse data streams. Three spatial sampling schemes are considered, including irregular, non-uniform and shifted uniform sampling. The irregular sampling scheme is the general scenario, while computationally efficient solutions are available in the spectral domain for non-uniform and shifted uniform sampling. For each sampling scheme, the inverse problem is formulated as a regularized convex optimization problem that minimizes the distance between forward model outputs and observations. The optimization problem is solved by the Alternating Direction Method of Multipliers algorithm, which also handles the situation when a linear inequality constraint (e.g., non-negativity) is imposed on the model output. Numerical examples are presented, code is made available on GitHub, and discussions are provided to generate some useful insights of the proposed inverse modeling approaches.
翻訳日:2023-02-09 15:54:24 公開日:2023-02-08
# スプリアス相関に対するロバスト性はセマンティクスの分散検出を改善する

Robustness to Spurious Correlations Improves Semantic Out-of-Distribution Detection ( http://arxiv.org/abs/2302.04132v1 )

ライセンス: Link先を確認
Lily H. Zhang and Rajesh Ranganath(参考訳) 画像入力のアウト・オブ・ディストリビューション(OOD)検出のための有望なアプローチとして,予測モデルの出力や特徴表現を利用する手法が登場した。 しかし、これらの手法は、ニュアンス値(例えば背景)を分配しない入力と共有するOOD入力を検出するのに苦労する。 SN-OOD(Share-nuisance Out-of-Distribution)インプットの検出は、実際のアプリケーションでは特に重要であり、デプロイ中に同じ設定で異常や分布内インプットをキャプチャする傾向がある。 そこで本研究では,SN-OOD検出障害について説明し,その対策としてニュアンス対応OOD検出を提案する。 nuisance-aware ood detectionは経験的リスク最小化とクロスエントロピー損失によって訓練された分類器を置き換える 1. ニュアンスとラベルの関係が壊れた分布でトレーニングされる。 2.この分布の下での迷惑とは無関係な表現を、そのラベル上で辺限かつ条件付きで与える。 我々はこれらの目的を達成するために,OOD一般化のためのアルゴリズムであるNuRD(Nuisance-Randomized Distillation)を用いて分類器を訓練することができる。 出力特性に基づくニュアンス対応OOD検出は、ドメイン一般化アルゴリズムに基づく検出が性能改善に失敗しても、元の検出よりも大幅に向上する。

Methods which utilize the outputs or feature representations of predictive models have emerged as promising approaches for out-of-distribution (OOD) detection of image inputs. However, these methods struggle to detect OOD inputs that share nuisance values (e.g. background) with in-distribution inputs. The detection of shared-nuisance out-of-distribution (SN-OOD) inputs is particularly relevant in real-world applications, as anomalies and in-distribution inputs tend to be captured in the same settings during deployment. In this work, we provide a possible explanation for SN-OOD detection failures and propose nuisance-aware OOD detection to address them. Nuisance-aware OOD detection substitutes a classifier trained via empirical risk minimization and cross-entropy loss with one that 1. is trained under a distribution where the nuisance-label relationship is broken and 2. yields representations that are independent of the nuisance under this distribution, both marginally and conditioned on the label. We can train a classifier to achieve these objectives using Nuisance-Randomized Distillation (NuRD), an algorithm developed for OOD generalization under spurious correlations. Output- and feature-based nuisance-aware OOD detection perform substantially better than their original counterparts, succeeding even when detection based on domain generalization algorithms fails to improve performance.
翻訳日:2023-02-09 15:54:08 公開日:2023-02-08
# 入射ニューラル表現を用いたハイパースペクトル画像圧縮

Hyperspectral Image Compression Using Implicit Neural Representation ( http://arxiv.org/abs/2302.04129v1 )

ライセンス: Link先を確認
Shima Rezasoltani, Faisal Z. Qureshi(参考訳) ハイパースペクトル画像は、シーンの画像中のピクセルの電磁スペクトルを記録し、しばしば1ピクセルあたり数百のチャネルを格納し、典型的な同様の大きさのカラー画像よりも桁違いに多くの情報を含む。 その結果、これらの画像の撮影コストの低減と相まって、ハイパースペクトル画像の保存、送信、解析のための効率的な技術を開発する必要がある。 本稿では,多層型パーセプトロンネットワークである$\phi_\theta$ と正弦波活性化関数 ``learns'' を用いて,与えられた超スペクトル画像 $i$ の画素位置をピクセル強度にマッピングする,暗黙的ニューラルネットワークを用いたハイパースペクトル画像圧縮法を開発した。 したがって$\phi_\theta$は、この画像の圧縮符号化として機能する。 元の画像は、各ピクセル位置で$\Phi_\theta$を評価することで再構成される。 本手法はインドマツ, カップライト, パヴィア大学, ジャスパーリッジの4つのベンチマークで評価し, 低ビットレートでjpeg, jpeg2000, pca-dct, hvecよりも優れた圧縮を実現することを示す。

Hyperspectral images, which record the electromagnetic spectrum for a pixel in the image of a scene, often store hundreds of channels per pixel and contain an order of magnitude more information than a typical similarly-sized color image. Consequently, concomitant with the decreasing cost of capturing these images, there is a need to develop efficient techniques for storing, transmitting, and analyzing hyperspectral images. This paper develops a method for hyperspectral image compression using implicit neural representations where a multilayer perceptron network $\Phi_\theta$ with sinusoidal activation functions ``learns'' to map pixel locations to pixel intensities for a given hyperspectral image $I$. $\Phi_\theta$ thus acts as a compressed encoding of this image. The original image is reconstructed by evaluating $\Phi_\theta$ at each pixel location. We have evaluated our method on four benchmarks -- Indian Pines, Cuprite, Pavia University, and Jasper Ridge -- and we show the proposed method achieves better compression than JPEG, JPEG2000, PCA-DCT, and HVEC at low bitrates.
翻訳日:2023-02-09 15:53:41 公開日:2023-02-08
# 多変量注目型BiLSTMエンコーダデコーダニューラルネットワークを用いた建物におけるハイブリッド換気の性能予測

Predicting the performance of hybrid ventilation in buildings using a multivariate attention-based biLSTM Encoder-Decoder neural network ( http://arxiv.org/abs/2302.04126v1 )

ライセンス: Link先を確認
Gaurav Chaudhary, Hicham Johra, Laurent Georges, Bj{\o}rn Austb{\o}(参考訳) ハイブリッド換気(自然と機械の換気を結合する)は多くの気候に新鮮な空気を供給するためのエネルギー効率の高いソリューションである。 このようなシステムを最適に運用するには、高忠実度制御指向モデルが必要である。 窓開放やHVACスケジュールなどの運用条件に基づいて室内の気温と湿度をほぼリアルタイムに予測できるようにする。 しかし、広く使われている物理に基づくシミュレーションモデル(ホワイトボックスモデル)は労働集約的で計算コストが高い。 あるいは、ニューラルネットワークに基づくブラックボックスモデルは、ダイナミクスを構築するための優れた推定器として訓練することができる。 本稿では,多変量多目的注意型長短期記憶(LSTM)エンコーダ・デコーダニューラルネットワークを用いて,ハイブリッド換気装置を備えた建物の室内空気環境を予測する機能について検討する。 本研究で使用する深層ニューラルネットワークは,窓の開閉時の室内空気温度動態を予測することを目的としている。 詳細なマルチゾーンオフィスビルディングモデル(EnergyPlus)からトレーニングデータとテストデータを生成した。 ディープニューラルネットワークは、窓が開いて閉じたときに5つのゾーンの屋内空気温度を正確に予測することができる。

Hybrid ventilation (coupling natural and mechanical ventilation) is an energy-efficient solution to provide fresh air for most climates, given that it has a reliable control system. To operate such systems optimally, a high-fidelity control-oriented model is required. It should enable near-real time forecast of the indoor air temperature and humidity based on operational conditions such as window opening and HVAC schedules. However, widely used physics-based simulation models (i.e., white-box models) are labour-intensive and computationally expensive. Alternatively, black-box models based on artificial neural networks can be trained to be good estimators for building dynamics. This paper investigates the capabilities of a multivariate multi-head attention-based long short-term memory (LSTM) encoder-decoder neural network to predict indoor air conditions of a building equipped with hybrid ventilation. The deep neural network used for this study aims to predict indoor air temperature dynamics when a window is opened and closed, respectively. Training and test data were generated from detailed multi-zone office building model (EnergyPlus). The deep neural network is able to accurately predict indoor air temperature of five zones whenever a window was opened and closed.
翻訳日:2023-02-09 15:53:02 公開日:2023-02-08
# パラメトリック類似法:意味的注釈付き大データセットに基づく比較実験

A Parametric Similarity Method: Comparative Experiments based on Semantically Annotated Large Datasets ( http://arxiv.org/abs/2302.04123v1 )

ライセンス: Link先を確認
Antonio De Nicola, Anna Formica, Michele Missikoff, Elaheh Pourabbas, Francesco Taglino(参考訳) 本稿では,デジタルリソースの意味的類似性の測定を目的としたパラメトリック手法SemSimpを提案する。 SemSimpは情報内容の概念に基づいており、オントロジーの概念を重み付けするための様々なアプローチを含む参照オントロジーと分類学的推論を利用している。 特に重みは、利用可能なデジタルリソースまたは与えられた領域の参照オントロジーの構造を考慮することで計算することができる。 SemSimpは、統計的分析と専門家の判断評価の両方を含む実験を行うことにより、文献で提案されている概念の集合を比較するための6つの代表的意味的類似性手法に対して評価される。 信頼性の高い評価を実現するために,acm(association for computing machinery)のデジタルライブラリに基づく実世界の大規模データセットと,acmコンピューティング分類システム(acm-ccs)から派生した参照オントロジーを用いた。 各方法について2つの指標を検討した。 第1は、acm transactions on information systems journalから選択されたいくつかの特別号に含まれる論文の類似性を特定するための信頼度に関するもので、第2はpearson correlation with human judgementである。 以上の結果から,semsimpの構成の1つが,他の評価手法よりも優れていることが明らかとなった。 物理学の領域で実施された追加の実験は、一般に、SemSimpは他の類似性法よりも優れた結果をもたらすことを示した。

We present the parametric method SemSimp aimed at measuring semantic similarity of digital resources. SemSimp is based on the notion of information content, and it leverages a reference ontology and taxonomic reasoning, encompassing different approaches for weighting the concepts of the ontology. In particular, weights can be computed by considering either the available digital resources or the structure of the reference ontology of a given domain. SemSimp is assessed against six representative semantic similarity methods for comparing sets of concepts proposed in the literature, by carrying out an experimentation that includes both a statistical analysis and an expert judgement evaluation. To the purpose of achieving a reliable assessment, we used a real-world large dataset based on the Digital Library of the Association for Computing Machinery (ACM), and a reference ontology derived from the ACM Computing Classification System (ACM-CCS). For each method, we considered two indicators. The first concerns the degree of confidence to identify the similarity among the papers belonging to some special issues selected from the ACM Transactions on Information Systems journal, the second the Pearson correlation with human judgement. The results reveal that one of the configurations of SemSimp outperforms the other assessed methods. An additional experiment performed in the domain of physics shows that, in general, SemSimp provides better results than the other similarity methods.
翻訳日:2023-02-09 15:52:30 公開日:2023-02-08
# 局所則144:回帰メトリクスの批判的分析

Local Law 144: A Critical Analysis of Regression Metrics ( http://arxiv.org/abs/2302.04119v1 )

ライセンス: Link先を確認
Giulio Filippi, Sara Zannone, Airlie Hilliard, Adriano Koshiyama(参考訳) 採用における自動意思決定ツールの使用は、ますます注目を集めている。 2021年11月、ニューヨーク市議会は自動雇用決定ツールのバイアス監査を義務付ける法律(地方法144条)を可決した。 2023年4月15日からは、従業員の雇用や昇進に自動化ツールを使用する企業は、これらのシステムを独立した機関で監査する必要がある。 観客は、セックス/ジェンダーと人種/倫理のカテゴリに基づいて、異なるグループの結果を比較するバイアスメトリクスを計算するように求められます。 局所則144は、回帰タスク(自動システムが連続的な値範囲で候補をスコアするスセナリオ)のための新しいバイアスメトリクスを提案する。 以前のバージョンでは、異なるグループの平均スコアを比較するバイアスメトリックが提案されていた。 新しい改定バイアスメトリックは、中央値より上に位置する各グループの候補者の割合を比較する。 本稿では,両指標が領域全体の分布差を捉えることができず,従ってバイアスを確実に検出できないことを論じる。 まずは2つの指標を紹介します。 次に、これらの指標を、提案された指標が過小評価されるような、さまざまな理論的例と比較する。 最後に、実際のデータを調査し、実際の採用アプリケーションでも同様に、規制基準が失敗する可能性があることを示す。

The use of automated decision tools in recruitment has received an increasing amount of attention. In November 2021, the New York City Council passed a legislation (Local Law 144) that mandates bias audits of Automated Employment Decision Tools. From 15th April 2023, companies that use automated tools for hiring or promoting employees are required to have these systems audited by an independent entity. Auditors are asked to compute bias metrics that compare outcomes for different groups, based on sex/gender and race/ethnicity categories at a minimum. Local Law 144 proposes novel bias metrics for regression tasks (scenarios where the automated system scores candidates with a continuous range of values). A previous version of the legislation proposed a bias metric that compared the mean scores of different groups. The new revised bias metric compares the proportion of candidates in each group that falls above the median. In this paper, we argue that both metrics fail to capture distributional differences over the whole domain, and therefore cannot reliably detect bias. We first introduce two metrics, as possible alternatives to the legislation metrics. We then compare these metrics over a range of theoretical examples, for which the legislation proposed metrics seem to underestimate bias. Finally, we study real data and show that the legislation metrics can similarly fail in a real-world recruitment application.
翻訳日:2023-02-09 15:52:05 公開日:2023-02-08
# 校正の豊かさについて

On the Richness of Calibration ( http://arxiv.org/abs/2302.04118v1 )

ライセンス: Link先を確認
Benedikt H\"oltgen and Robert C Williamson(参考訳) 確率的予測は、観測されたラベル周波数、すなわちキャリブレーションレンズによる比較によって評価することができる。 アルゴリズムの公正性に関する最近の研究は、多校正の名のもと、様々なキャリブレーションに基づく目的に注目し始めているが、いまだにかなり制限されている。 本稿では,キャリブレーションスコアの設計に関わる選択を明確化し,キャリブレーションによる評価形態を調査し分析する。 これらを3つのグループ選択と,グループエラーの集約に関する選択にまとめる。 これは、以前に提案されたキャリブレーションスコアを比較するためのフレームワークを提供し、望ましい数学的特性を持つ新しいスコアを定式化するのに役立つ。 特に,予測ではなく,入力特徴に基づいてデータポイントをグループ化する可能性について検討し,その利点を正式に示している。 また,予め提案した校正スコアを一般化し,グループ誤りに対する適切な凝集関数の空間を特徴付ける。 このような集団レベルのスコアを補完し,個人レベルでのキャリブレーションスコアを調査し,グループ化の選択との関係を分析する。 人口レベルのスコアに対する公平度逸脱対策の導入と公理化について考察する。 グループ化の適切な選択により、これらの新しいグローバルフェアネススコアは(サブ)グループや個人フェアネスの概念を提供することができることを示す。

Probabilistic predictions can be evaluated through comparisons with observed label frequencies, that is, through the lens of calibration. Recent scholarship on algorithmic fairness has started to look at a growing variety of calibration-based objectives under the name of multi-calibration but has still remained fairly restricted. In this paper, we explore and analyse forms of evaluation through calibration by making explicit the choices involved in designing calibration scores. We organise these into three grouping choices and a choice concerning the agglomeration of group errors. This provides a framework for comparing previously proposed calibration scores and helps to formulate novel ones with desirable mathematical properties. In particular, we explore the possibility of grouping datapoints based on their input features rather than on predictions and formally demonstrate advantages of such approaches. We also characterise the space of suitable agglomeration functions for group errors, generalising previously proposed calibration scores. Complementary to such population-level scores, we explore calibration scores at the individual level and analyse their relationship to choices of grouping. We draw on these insights to introduce and axiomatise fairness deviation measures for population-level scores. We demonstrate that with appropriate choices of grouping, these novel global fairness scores can provide notions of (sub-)group or individual fairness.
翻訳日:2023-02-09 15:51:44 公開日:2023-02-08
# 多項式時間における埋め込みイジング問題に対する最適要件

Optimal Sufficient Requirements on the Embedded Ising Problem in Polynomial Time ( http://arxiv.org/abs/2302.04162v1 )

ライセンス: Link先を確認
Elisabeth Lobe and Volker Kaibel(参考訳) 量子アニールの中心的な応用の1つはイジング問題の解を見つけることである。 しかし、適切なイジング問題は、一方、ハードウェアの特定の制限を尊重し、他方で、実際に解決されるであろう元の問題を表すように定式化する必要がある。 このような組込みイジング問題の十分な要件を解析的に評価し,線形最適化問題に変換する。 最大絶対問題パラメータの最小化を目的とした目的関数を用いて、アニールの精度問題に対処する。 いくつかの制約の冗長性から、形式的に指数関数的に大きい最適化問題を減らし、組込み頂点が木を誘導する標準埋め込み設定の多項式時間で解けることを示すことができる。 これにより、実用的な設定で証明可能な等価な埋め込みイジング問題を定式化することができる。

One of the central applications for quantum annealers is to find the solutions of Ising problems. Suitable Ising problems, however, need to be formulated such that they, on the one hand, respect the specific restrictions of the hardware and, on the other hand, represent the original problems which shall actually be solved. We evaluate sufficient requirements on such an embedded Ising problem analytically and transform them into a linear optimization problem. With an objective function aiming to minimize the maximal absolute problem parameter, the precision issues of the annealers are addressed. Due to the redundancy of several constraints, we can show that the formally exponentially large optimization problem can be reduced and finally solved in polynomial time for the standard embedding setting where the embedded vertices induce trees. This allows to formulate provably equivalent embedded Ising problems in a practical setup.
翻訳日:2023-02-09 15:45:04 公開日:2023-02-08
# マルチモーダルHateful Meme分類のためのプロンプト

Prompting for Multimodal Hateful Meme Classification ( http://arxiv.org/abs/2302.04156v1 )

ライセンス: Link先を確認
Rui Cao, Roy Ka-Wei Lee, Wen-Haw Chong, Jing Jiang(参考訳) 憎しみのあるミーム分類は複雑な推論と背景知識を必要とする複雑なマルチモーダルタスクである。 理想的には、明示的な外部知識ベースを利用して、憎悪のあるミームで文脈的、文化的情報を補うことができる。 しかし、そのようなヘイトスピーチの文脈情報を提供できるような明示的な外部知識ベースは存在しない。 このギャップに対処するために,憎しみのあるミーム分類のための事前学習言語モデル(PLM)を誘導する,シンプルで効果的なプロンプトベースモデルであるPromptHateを提案する。 具体的には、単純なプロンプトを構築し、ヘイトフルミーム分類のための事前学習されたRoBERTa言語モデルにおける暗黙の知識を利用するためのいくつかのコンテキスト内例を提供する。 我々は、公開可能な2つの憎悪と攻撃的なミームデータセットに対して広範な実験を行う。 実験の結果,PromptHateは90.96のAUCを達成でき,ヘイトフルなミーム分類タスクにおいて最先端のベースラインを達成できることがわかった。 また,様々なプロンプト設定のきめ細かい分析とケーススタディを行い,ヘイトフルミーム分類におけるプロンプトの有効性を実証した。

Hateful meme classification is a challenging multimodal task that requires complex reasoning and contextual background knowledge. Ideally, we could leverage an explicit external knowledge base to supplement contextual and cultural information in hateful memes. However, there is no known explicit external knowledge base that could provide such hate speech contextual information. To address this gap, we propose PromptHate, a simple yet effective prompt-based model that prompts pre-trained language models (PLMs) for hateful meme classification. Specifically, we construct simple prompts and provide a few in-context examples to exploit the implicit knowledge in the pre-trained RoBERTa language model for hateful meme classification. We conduct extensive experiments on two publicly available hateful and offensive meme datasets. Our experimental results show that PromptHate is able to achieve a high AUC of 90.96, outperforming state-of-the-art baselines on the hateful meme classification task. We also perform fine-grained analyses and case studies on various prompt settings and demonstrate the effectiveness of the prompts on hateful meme classification.
翻訳日:2023-02-09 15:44:49 公開日:2023-02-08
# 集団作用素価率を持つ開量子システムの平均場ダイナミクス:妥当性と応用

Mean-field dynamics of open quantum systems with collective operator-valued rates: validity and application ( http://arxiv.org/abs/2302.04155v1 )

ライセンス: Link先を確認
Eliana Fiorelli, Markus M\"uller, Igor Lesanovsky, Federico Carollo(参考訳) 開量子多体リンドブラッド力学のクラスは、全対全結合ハミルトニアンと集合「状態依存」の速度を特徴とする散逸によって特徴づけられる。 後者は、システムの平均特性に依存する局所的非コヒーレント遷移を符号化する。 この種の開量子力学は古典的(平均場)確率的マルコフ力学の一般化と見なすことができ、そこでは系の瞬間的な構成に依存して量子領域へ遷移する。 無限大系の極限における時間発展を研究し,平均作用素のダイナミクスに対する平均場方程式の厳密性を示す。 さらに、(準)局所作用素の時間発展を管理する効果的な動的生成器を導出する。 この結果から,量子一般化ホップフィールド連想記憶や(平均)運動論的制約モデルなどのパラダイム的古典モデルに対する量子効果の影響について,厳密で体系的な研究が可能となった。

We consider a class of open quantum many-body Lindblad dynamics characterized by an all-to-all coupling Hamiltonian and by dissipation featuring collective ``state-dependent" rates. The latter encodes local incoherent transitions that depend on average properties of the system. This type of open quantum dynamics can be seen as a generalization of classical (mean-field) stochastic Markov dynamics, in which transitions depend on the instantaneous configuration of the system, to the quantum domain. We study the time evolution in the limit of infinitely large systems, and we demonstrate the exactness of the mean-field equations for the dynamics of average operators. We further derive the effective dynamical generator governing the time evolution of (quasi-)local operators. Our results allow for a rigorous and systematic investigation of the impact of quantum effects on paradigmatic classical models, such as quantum generalized Hopfield associative memories or (mean-field) kinetically-constrained models.
翻訳日:2023-02-09 15:44:29 公開日:2023-02-08
# 信頼共有型分散型PMDPの政策評価

Policy Evaluation in Decentralized POMDPs with Belief Sharing ( http://arxiv.org/abs/2302.04151v1 )

ライセンス: Link先を確認
Mert Kayaalp, Fatima Ghadieh, Ali H. Sayed(参考訳) 多くの場合、マルチエージェント強化学習は環境の状態が完全に観察可能なシナリオに焦点を当てている。 本研究は,エージェントが直接環境状態を観察しないことを前提とした協調政策評価タスクについて検討する。 その代わり、エージェントはノイズの観測や信念ベクトルへのアクセスしかできない。 マルチエージェント環境下でのグローバル後方分布の発見は一般にnpハードであることが知られている。 本稿では,コミュニケーションネットワーク上での個別更新と局所的インタラクションに依存する,完全に分散化された信念形成戦略を提案する。 信念の交換に加えて、エージェントは価値関数パラメータの見積もりを交換することで通信ネットワークを利用する。 本稿では,提案手法がネットワーク上で情報拡散を可能にすることを解析的に示し,エージェントのパラメータが集中ベースラインと有界な差を持つことを示す。 シミュレーションでは,マルチセンサ目標追跡アプリケーションについて検討する。

Most works on multi-agent reinforcement learning focus on scenarios where the state of the environment is fully observable. In this work, we consider a cooperative policy evaluation task in which agents are not assumed to observe the environment state directly. Instead, agents can only have access to noisy observations and to belief vectors. It is well-known that finding global posterior distributions under multi-agent settings is generally NP-hard. As a remedy, we propose a fully decentralized belief forming strategy that relies on individual updates and on localized interactions over a communication network. In addition to the exchange of the beliefs, agents exploit the communication network by exchanging value function parameter estimates as well. We analytically show that the proposed strategy allows information to diffuse over the network, which in turn allows the agents' parameters to have a bounded difference with a centralized baseline. A multi-sensor target tracking application is considered in the simulations.
翻訳日:2023-02-09 15:44:13 公開日:2023-02-08
# 実世界自律運転のための合成運転データセットのドメイン適応

Domain Adaptation of Synthetic Driving Datasets for Real-World Autonomous Driving ( http://arxiv.org/abs/2302.04149v1 )

ライセンス: Link先を確認
Koustav Mullick, Harshil Jain, Sanchit Gupta, Amit Arvind Kale(参考訳) 知覚に基づくディープラーニングモデルを開発する一方で、合成データの利点は巨大である。 しかし、特定のコンピュータビジョンタスクのための合成データで訓練されたネットワークの性能は、それらの間のドメインギャップにより、実世界のデータでテストすると著しく低下する。 この合成データと実際の世界データの間のギャップを埋める一般的な解決策の1つは、それをドメイン適応タスクとしてフレーム化することだ。 本稿では,このようなアプローチを改良するための新しい方法を提案し,評価する。 特にUNIT-GANの手法に基づいて構築する。 ドメイン翻訳作業のための通常のGANトレーニングでは、両方のドメイン(viz、実および合成)からのイメージのペアリングがランダムに行われる。 本稿では,このペア選択に意味的監督を効率的に組み込む新しい手法を提案し,変換画像の視覚品質の向上とともに,モデルの性能向上に寄与する。 cityscapes \cite{cityscapes} と challenge synthetic dataset synscapes での経験的な結果を示す。 これらの結果はUNIT-GANのベースネットワーク上で報告されているが、他の類似ネットワークにも容易に拡張できる。

While developing perception based deep learning models, the benefit of synthetic data is enormous. However, performance of networks trained with synthetic data for certain computer vision tasks degrade significantly when tested on real world data due to the domain gap between them. One of the popular solutions in bridging this gap between synthetic and actual world data is to frame it as a domain adaptation task. In this paper, we propose and evaluate novel ways for the betterment of such approaches. In particular we build upon the method of UNIT-GAN. In normal GAN training for the task of domain translation, pairing of images from both the domains (viz, real and synthetic) is done randomly. We propose a novel method to efficiently incorporate semantic supervision into this pair selection, which helps in boosting the performance of the model along with improving the visual quality of such transformed images. We illustrate our empirical findings on Cityscapes \cite{cityscapes} and challenging synthetic dataset Synscapes. Though the findings are reported on the base network of UNIT-GAN, they can be easily extended to any other similar network.
翻訳日:2023-02-09 15:44:01 公開日:2023-02-08
# 量子コンピュータのためのエネルギー推定ベンチマーク

An Energy Estimation Benchmark for Quantum Computers ( http://arxiv.org/abs/2302.04144v1 )

ライセンス: Link先を確認
Andreas J. C. Woitzik, Lukas Hoffmann, Andreas Buchleitner and Edoardo G. Carnio(参考訳) 量子コンピュータの性能確認には、標準化されたテストが必要である。 量子化学から動機付けられた簡単なエネルギー推定ベンチマークを提案する。 このベンチマークでは、ドイツのエルンゲンにあるIBM Quantum System Oneのノイズを統計的に特徴づける。 ベンチマークの結果は, ゲートエラーやリードアウトエラーとほとんど相関しないことがわかった。 時間分解分析では、デバイスを数時間にわたって監視し、ベンチマーク結果の2時間の振動と、報告されたデバイス状態から説明できない異常値を検出する。 その結果, 測定誤差低減手法はこれらの振動を解消できないことを示し, 理論的なベンチマーク結果統計からの偏差は, デバイスの測定ノイズのみに起因するものではないことを示唆した。

Certifying the performance of quantum computers requires standardized tests. We propose a simple energy estimation benchmark that is motivated from quantum chemistry. With this benchmark we statistically characterize the noisy outcome of the IBM Quantum System One in Ehningen, Germany. We find that the benchmark results hardly correlate with the gate errors and readout errors reported for the device. In a time-resolved analysis, we monitor the device over several hours and find two-hour oscillations of the benchmark results, as well as outliers, which we cannot explain from the reported device status. We then show that the implemented measurement error mitigation techniques cannot resolve these oscillations, which suggests that deviations from the theoretical benchmark outcome statistics do not stem solely from the measurement noise of the device.
翻訳日:2023-02-09 15:43:44 公開日:2023-02-08
# 深層学習モデルを用いたCT画像からの血栓摘出の予測

Predicting Thrombectomy Recanalization from CT Imaging Using Deep Learning Models ( http://arxiv.org/abs/2302.04143v1 )

ライセンス: Link先を確認
Haoyue Zhang, Jennifer S. Polson, Eric J. Yang, Kambiz Nael, William Speier, Corey W. Arnold(参考訳) 大血管閉塞を有する急性虚血性脳梗塞(AIS)患者に対しては,機械的血栓摘出術(MTB)の利点が侵襲的手術後のリスクと合併症を上回りうるか否かを臨床医が判断する必要がある。 術前CT (Pre-treatment Computed Tomography) と血管造影 (Angiography) は脳血管の閉塞を特徴付けるために広く用いられている。 患者が適当と判断された場合、mTICIスコアの修正治療が、MDBの手術中および術後の血流の回復の度合いを評価するために用いられる。 再カンカナライゼーションの成功可能性の推定は、治療の意思決定を支援することができる。 本研究では,術前CTとCTA画像を用いて,患者の再石灰化スコアの完全自動予測を提案した。 我々は,視覚変換器を用いた空間的クロスアテンションネットワーク(SCANet)を設計し,関連するスライスや脳領域にローカライズした。 我々のトップモデルは平均クロスバリデーションROC-AUC 77.33 $\pm$ 3.9\%を達成した。 MTBのAIS患者を特定するため,CTおよびCTAにおける深層学習の今後の活用を支援する有望な成果である。

For acute ischemic stroke (AIS) patients with large vessel occlusions, clinicians must decide if the benefit of mechanical thrombectomy (MTB) outweighs the risks and potential complications following an invasive procedure. Pre-treatment computed tomography (CT) and angiography (CTA) are widely used to characterize occlusions in the brain vasculature. If a patient is deemed eligible, a modified treatment in cerebral ischemia (mTICI) score will be used to grade how well blood flow is reestablished throughout and following the MTB procedure. An estimation of the likelihood of successful recanalization can support treatment decision-making. In this study, we proposed a fully automated prediction of a patient's recanalization score using pre-treatment CT and CTA imaging. We designed a spatial cross attention network (SCANet) that utilizes vision transformers to localize to pertinent slices and brain regions. Our top model achieved an average cross-validated ROC-AUC of 77.33 $\pm$ 3.9\%. This is a promising result that supports future applications of deep learning on CT and CTA for the identification of eligible AIS patients for MTB.
翻訳日:2023-02-09 15:43:34 公開日:2023-02-08
# 非定常データストリームに対する自己ラベルと需要に基づくアクティブラーニングの組み合わせ

Combining self-labeling and demand based active learning for non-stationary data streams ( http://arxiv.org/abs/2302.04141v1 )

ライセンス: Link先を確認
Valerie Vaquet, Fabian Hinder, Johannes Brinkrolf, and Barbara Hammer(参考訳) 非定常データストリームからの学習は、ソーシャルメディアやスマートフォン、産業プロセスの監視など、ストリーム形式のより多くのデータが利用可能になるにつれて、関心が高まる研究方向である。 ほとんどのアプローチでは、サンプルの基礎的真理が利用可能になり(おそらく多少の遅れがある)、テストテーマトレイン方式で教師付きオンライン学習を行う。 この仮定はいくつかのシナリオで有効かもしれませんが、すべての設定に適用できません。 本研究では,少ないラベル付きデータストリームに着目し,徐々に漂流するデータストリームにおける自己ラベル化の可能性を探る。 我々はこの設定を形式化し、自己ラベルと需要に基づくアクティブラーニングを組み合わせた新しいオンライン$k$-nn分類器を提案する。

Learning from non-stationary data streams is a research direction that gains increasing interest as more data in form of streams becomes available, for example from social media, smartphones, or industrial process monitoring. Most approaches assume that the ground truth of the samples becomes available (possibly with some delay) and perform supervised online learning in the test-then-train scheme. While this assumption might be valid in some scenarios, it does not apply to all settings. In this work, we focus on scarcely labeled data streams and explore the potential of self-labeling in gradually drifting data streams. We formalize this setup and propose a novel online $k$-nn classifier that combines self-labeling and demand-based active learning.
翻訳日:2023-02-09 15:43:15 公開日:2023-02-08
# 2ドル(約2万5000円)の散歩用のシンプルなコイン

A simple coin for a $2d$ entangled walk ( http://arxiv.org/abs/2302.04140v1 )

ライセンス: Link先を確認
Ahmadullah Zahed and Kallol Sen(参考訳) 我々は、ベルペアで構築された単純なコイン演算子の効果を、2ドルの離散量子ランダムウォーク(DQRW)問題で解析する。 コインの特定の形態は、DQRWの再帰関係に対する解析的および閉形式解を見つけることができる。 この硬貨はスピンと位置自由度の間の絡み合いを引き起こし、時間と振動し漸近的に一定値に達する。 硬貨操作者の絡み合い特性をさらに2つの異なる尺度で調査する。 まず、初期テンソル積状態の空間上で積分することにより、コイン作用素の {\it Entangling Power} を決定する。 第二に、エンタングル状態に対する対応する密度行列と初期純アンタングル状態の間の一般相対R\'{e}nyiエントロピーを計算する。 {\it Entangling Power} と {\it Generalized Relative R\'{e}nyi Entropy} は共に時間との絡み合いと同様の振る舞いをする。 最後に、連続限界において、特定のコイン操作者は、2d$ dqrwを2つの1d$大質量フェルミオンに還元し、質量項とゲージ場の両方がコインパラメータから構築される合成ゲージ場に結合する。

We analyze the effect of a simple coin operator, built out of Bell pairs, in a $2d$ Discrete Quantum Random Walk (DQRW) problem. The specific form of the coin enables us to find analytical and closed form solutions to the recursion relations of the DQRW. The coin induces entanglement between the spin and position degrees of freedom, which oscillates with time and reaches a constant value asymptotically. We probe the entangling properties of the coin operator further, by two different measures. First, by integrating over the space of initial tensor product states, we determine the {\it Entangling Power} of the coin operator. Secondly, we compute the {\it Generalized Relative R\'{e}nyi Entropy} between the corresponding density matrices for the entangled state and the initial pure unentangled state. Both the {\it Entangling Power} and {\it Generalized Relative R\'{e}nyi Entropy} behaves similar to the entanglement with time. Finally, in the continuum limit, the specific coin operator reduces the $2d$ DQRW into two $1d$ massive fermions coupled to synthetic gauge fields, where both the mass term and the gauge fields are built out of the coin parameters.
翻訳日:2023-02-09 15:43:02 公開日:2023-02-08
# ミラー対称性破壊アト秒干渉法によるウィグナーと連続連続連続遅延の分離

Separation of Wigner and Continuum-continuum Delays by Mirror-symmetry-broken Attosecond Interferometry ( http://arxiv.org/abs/2302.04137v1 )

ライセンス: Link先を確認
Meng Han, Jia-Bao Ji, Leung Chung Sum, Kiyoshi Ueda, Hans Jakob W\"orner(参考訳) 物質の光イオン化は自然界で最速の電子過程の1つである。 光イオン化ダイナミクスの実験的測定は、アト秒メートル法によって可能になった。 しかし、これまで報告されたすべての実験には、連続連続体(cc)またはクーロンレーザー結合遅延として知られる、避けられない測定による寄与が含まれている。 最近特徴付けられた円偏光アト秒パルス列を活用し、固有1光子イオン化遅延と連続体-連続体遅延の直接および分離測定を可能にするミラー対称性ブロッキングアト秒干渉法の概念を導入する。 本手法は,1光子イオン化(またはウィグナー)遅延と測定誘起(CC)遅延の両方を実験的に分離する,長年にわたる課題を解決する。 この進歩は、電子構造と電子力学の手法の精度をベンチマークするために、実験と理論のアト秒科学において大きな進歩をもたらすであろう新しい世代の精度測定への扉を開く。

Photoionization of matter is one of the fastest electronic processes in nature. Experimental measurements of photoionization dynamics have become possible through attosecond metrology. However, all experiments reported to date contain a so-far unavoidable measurement-induced contribution, known as continuum-continuum (CC) or Coulomb-laser-coupling delay. Exploiting the recently characterized circularly polarized attosecond pulse trains, we introduce the concept of mirror-symmetry-broken attosecond interferometry, which enables the direct and separate measurement of both the native one-photon ionization delays as well as the continuum-continuum delays. Our technique solves the longstanding challenge of experimentally isolating both the native one-photon-ionization (or Wigner) delays and the measurement-induced (CC) delays. This advance opens the door to a new generation of precision measurements that is likely to drive major progress in experimental and theoretical attosecond science with implications for benchmarking the accuracy of electronic-structure and electron-dynamics methods.
翻訳日:2023-02-09 15:42:41 公開日:2023-02-08
# 収束解析を用いたスケール独立多目的強化学習

A Scale-Independent Multi-Objective Reinforcement Learning with Convergence Analysis ( http://arxiv.org/abs/2302.04179v1 )

ライセンス: Link先を確認
Mohsen Amidzadeh(参考訳) 多くのシーケンシャルな意思決定問題は、異なる目的を最適化する必要がある。 マルチタスク問題に対処する従来の方法は、異なる目的の線形結合に基づいてスカラー目的関数を確立することである。 しかし、異なるスケールで相反する目的を持つ場合、この手法は組み合わせの適切な重みを適切に見つけるために試行錯誤のアプローチを必要とする。 したがって、ほとんどの場合、このアプローチは最適パレート解を保証することはできない。 本稿では,Advantage Actor-Critic (A2C)アルゴリズムに基づいて,単エージェントスケール非依存型多目的強化学習を開発する。 次に、収束保証を提供する考案された多目的アルゴリズムに対して収束解析を行う。 次に,提案アルゴリズムの性能を評価するために,マルチタスク問題に対していくつかの実験を行う。 シミュレーションの結果, 単目的アルゴリズムに対する多目的A2Cアプローチの優位性を示した。

Many sequential decision-making problems need optimization of different objectives which possibly conflict with each other. The conventional way to deal with a multi-task problem is to establish a scalar objective function based on a linear combination of different objectives. However, for the case of having conflicting objectives with different scales, this method needs a trial-and-error approach to properly find proper weights for the combination. As such, in most cases, this approach cannot guarantee an optimal Pareto solution. In this paper, we develop a single-agent scale-independent multi-objective reinforcement learning on the basis of the Advantage Actor-Critic (A2C) algorithm. A convergence analysis is then done for the devised multi-objective algorithm providing a convergence-in-mean guarantee. We then perform some experiments over a multi-task problem to evaluate the performance of the proposed algorithm. Simulation results show the superiority of developed multi-objective A2C approach against the single-objective algorithm.
翻訳日:2023-02-09 15:36:39 公開日:2023-02-08
# DynGFN:生成フローネットワークを用いたベイズ動的因果探索

DynGFN: Bayesian Dynamic Causal Discovery using Generative Flow Networks ( http://arxiv.org/abs/2302.04178v1 )

ライセンス: Link先を確認
Lazar Atanackovic, Alexander Tong, Jason Hartford, Leo J. Lee, Bo Wang, Yoshua Bengio(参考訳) 観測変数の因果構造を学習することは科学的な発見の中心となる。 ベイズ因果発見法は、我々の事前と観測から許容されるグラフの集合の後方を学習することでこの問題に取り組む。 既存の手法は主に静的系からの観測を考慮し、基礎となる因果構造が有向非巡回グラフ(DAG)の形をとると仮定する。 個々の変数の軌跡を調節する動的フィードバック機構による設定では、この非周期性仮定は時間を考慮しない限り失敗する。 循環グラフ上でのベイズ後部学習に焦点をあて,因果発見を力学系のスパース同定の問題として扱う。 これは変数間の自然な時間的因果順序を課し、時間を通じて循環フィードバックループをキャプチャする。 本稿では,動的システムに対するベイズ因果探索のための新しい枠組みを提案し,本課題に適した新しい生成フローネットワークアーキテクチャ(DynGFN)を提案する。 以上の結果から,DynGFNは,最先端のアプローチと比較して,許容可能な周期的因果構造上の分布をよりうまくカプセル化した後部学習を行っていることが示唆された。

Learning the causal structure of observable variables is a central focus for scientific discovery. Bayesian causal discovery methods tackle this problem by learning a posterior over the set of admissible graphs given our priors and observations. Existing methods primarily consider observations from static systems and assume the underlying causal structure takes the form of a directed acyclic graph (DAG). In settings with dynamic feedback mechanisms that regulate the trajectories of individual variables, this acyclicity assumption fails unless we account for time. We focus on learning Bayesian posteriors over cyclic graphs and treat causal discovery as a problem of sparse identification of a dynamical system. This imposes a natural temporal causal order between variables and captures cyclic feedback loops through time. Under this lens, we propose a new framework for Bayesian causal discovery for dynamical systems and present a novel generative flow network architecture (DynGFN) tailored for this task. Our results indicate that DynGFN learns posteriors that better encapsulate the distributions over admissible cyclic causal structures compared to counterpart state-of-the-art approaches.
翻訳日:2023-02-09 15:36:26 公開日:2023-02-08
# イベントベース認識のためのクロス表現蒸留を用いた動的グラフCNN

A Dynamic Graph CNN with Cross-Representation Distillation for Event-Based Recognition ( http://arxiv.org/abs/2302.04177v1 )

ライセンス: Link先を確認
Yongjian Deng, Hao Chen, Bochen Xie, Hai Liu, Youfu Li(参考訳) イベントを高密度なフレームベース表現に変換して、十分に制約されたCNNを手元で使用するのが一般的である。 魅力的な性能ではあるものの、この一連の作業はイベントの空間的・時間的精度を犠牲にし、通常重量級モデルを必要とするため、イベントカメラの利点と実際の応用可能性は大きく低下する。 よりアプリケーションフレンドリな方法は、イベントからスパースポイントベースの表現を学ぶためにディープグラフモデルを設計することだ。 しかし、これらのグラフモデルの有効性は、フレームベースのものに比較して2つの重要な制限がある: (i$) 単純なグラフ構築戦略 それぞれの頂点の変種属性(意味論、空間座標、時間座標など)を慎重に統合することなく、バイアスのあるグラフ表現(英語版)につながる。 ここでは,新しいイベントベースグラフcnn(edgcn)と動的アグリゲーションモジュールを導入し,頂点の属性をすべて適応的に統合することで,最初の問題を解決する。 学習の難しさを緩和するために,イベントの濃密表現を相互表現補助として活用し,イベントグラフに対する追加の監督と事前知識を提供する。 そこで我々は, 層間における相互表現のギャップをよく考慮するため, 混合蒸留損失をカスタマイズしたフレーム間転写学習フレームワークを構築した。 複数の視覚課題に関する広範囲な実験により,提案するモデルと蒸留戦略の有効性と高汎化能力が検証された(我々のコードのコアコンポーネントは補足資料で提出され,受理次第公開される)。

It is a popular solution to convert events into dense frame-based representations to use the well-pretrained CNNs in hand. Although with appealing performance, this line of work sacrifices the sparsity/temporal precision of events and usually necessitates heavy-weight models, thereby largely weakening the advantages and real-life application potential of event cameras. A more application-friendly way is to design deep graph models for learning sparse point-based representations from events. Yet, the efficacy of these graph models is far behind the frame-based counterpart with two key limitations: ($i$) simple graph construction strategies without carefully integrating the variant attributes (i.e., semantics, spatial and temporal coordinates) for each vertex, leading to biased graph representation; ($ii$) deficient learning because the lack of well pretraining models available. Here we solve the first problem by introducing a new event-based graph CNN (EDGCN), with a dynamic aggregation module to integrate all attributes of vertices adaptively. To alleviate the learning difficulty, we propose to leverage the dense representation counterpart of events as a cross-representation auxiliary to supply additional supervision and prior knowledge for the event graph. To this end, we form a frame-to-graph transfer learning framework with a customized hybrid distillation loss to well respect the varying cross-representation gaps across layers. Extensive experiments on multiple vision tasks validate the effectiveness and high generalization ability of our proposed model and distillation strategy (Core components of our codes are submitted with supplementary material and will be made publicly available upon acceptance)
翻訳日:2023-02-09 15:36:09 公開日:2023-02-08
# スパイクニューラルネットワークにおける重みの量子化とプルーニングのハードウェア的影響

The Hardware Impact of Quantization and Pruning for Weights in Spiking Neural Networks ( http://arxiv.org/abs/2302.04174v1 )

ライセンス: Link先を確認
Clemens JS Schaefer, Pooria Taheri, Mark Horeni, and Siddharth Joshi(参考訳) スパイキングニューラルネットワーク(SNN)のエネルギー効率の高い実装と展開は、生体脳の計算能力とエネルギー効率を達成する人工システムを開発する可能性から大きな関心を集めている。 現代のデジタルハードウェア上でのSNNの効率的な実装も、機械学習とディープニューラルネットワーク(DNN)の進歩にインスパイアされている。 DNNの効率的なデプロイに広く採用されている2つのテクニック -- パラメータの量子化とプルーニング — は、モデルサイズを圧縮し、メモリフットプリントを削減し、低レイテンシ実行を容易にする。 量子化とプルーニングの相互作用とSNNアクセラレーターにおけるモデルパフォーマンスへの影響は現時点では不明である。 動的視覚センサカメラ(dvs)のための最先端のsn目標ジェスチャ認識に対して,pruning と quantization の分離,累積的および同時的組み合わせについて検討した。 この最先端のモデルは攻撃的パラメータ量子化に適しており、三元重みによる精度の損失に苦しむことはない。 しかし、プルーニングは最大80%のスパース性しか維持せず、建築モデルの最良の量子化よりも45%のエネルギーを消費します。 プルーニングと量子化の両方を適用すると精度が低下し、与えられたハードウェア構成の正確なpareto-frontierに対する有利なトレードオフが得られる。

Energy efficient implementations and deployments of Spiking neural networks (SNNs) have been of great interest due to the possibility of developing artificial systems that can achieve the computational powers and energy efficiency of the biological brain. Efficient implementations of SNNs on modern digital hardware are also inspired by advances in machine learning and deep neural networks (DNNs). Two techniques widely employed in the efficient deployment of DNNs -- the quantization and pruning of parameters, can both compress the model size, reduce memory footprints, and facilitate low-latency execution. The interaction between quantization and pruning and how they might impact model performance on SNN accelerators is currently unknown. We study various combinations of pruning and quantization in isolation, cumulatively, and simultaneously (jointly) to a state-of-the-art SNN targeting gesture recognition for dynamic vision sensor cameras (DVS). We show that this state-of-the-art model is amenable to aggressive parameter quantization, not suffering from any loss in accuracy down to ternary weights. However, pruning only maintains iso-accuracy up to 80% sparsity, which results in 45% more energy than the best quantization on our architectural model. Applying both pruning and quantization can result in an accuracy loss to offer a favourable trade-off on the energy-accuracy Pareto-frontier for the given hardware configuration.
翻訳日:2023-02-09 15:35:38 公開日:2023-02-08
# Axial Brain Magnetic Resonance Imaging の平面部分の局所化のための特徴検出法の検討

A Survey of Feature detection methods for localisation of plain sections of Axial Brain Magnetic Resonance Imaging ( http://arxiv.org/abs/2302.04173v1 )

ライセンス: Link先を確認
Ji\v{r}\'i Martin\r{u}, Jan Novotn\'y, Karel Ad\'amek, Petr \v{C}erm\'ak, Ji\v{r}\'i Kozel, David \v{S}koloud\'ik(参考訳) 患者のMRI画像と患者のMRIスライスを脳の模擬アトラスにマッピングすることは、脳のMRIの自動登録の鍵となる。 MRI画像にマッチする機能は、複数の患者間でMRI画像のインデックス付けや検索、興味のある領域からの画像の選択などを可能にする。 本研究では,脳のMRIと異なる患者のMRIのマッチングや,MRIのスライスと脳のアトラスの位置をマッチングする手法とアプローチを比較できるように,ロバストネス,精度,累積距離の測定手法を導入している。 そこで我々は,画像処理において確立された手法であるアガスト,アカゼ,ブリスク,gftt,ハードネット,orbの特徴検出法を用いて,画像劣化に対する耐性と,異なる患者の同じ脳mriスライスに適合する能力について比較した。 これらの手法のいくつかは、異なる患者の脳mriスライスのほとんどと正しくマッチできることを実証した。 人間の脳のアトラスとマッチングした場合、その性能は著しく低下する。 最も優れた特徴検出方法はsift検出器とhardnetディスクリプタの組み合わせで、他の患者とのマッチングで93%の精度を達成し、atlasと比較して52%の精度で一致した。

Matching MRI brain images between patients or mapping patients' MRI slices to the simulated atlas of a brain is key to the automatic registration of MRI of a brain. The ability to match MRI images would also enable such applications as indexing and searching MRI images among multiple patients or selecting images from the region of interest. In this work, we have introduced robustness, accuracy and cumulative distance metrics and methodology that allows us to compare different techniques and approaches in matching brain MRI of different patients or matching MRI brain slice to a position in the brain atlas. To that end, we have used feature detection methods AGAST, AKAZE, BRISK, GFTT, HardNet, and ORB, which are established methods in image processing, and compared them on their resistance to image degradation and their ability to match the same brain MRI slice of different patients. We have demonstrated that some of these techniques can correctly match most of the brain MRI slices of different patients. When matching is performed with the atlas of the human brain, their performance is significantly lower. The best performing feature detection method was a combination of SIFT detector and HardNet descriptor that achieved 93% accuracy in matching images with other patients and only 52% accurately matched images when compared to atlas.
翻訳日:2023-02-09 15:35:13 公開日:2023-02-08
# 異方性空間における GUP への代数的アプローチについて

On the algebraic approach to GUP in anisotropic space ( http://arxiv.org/abs/2302.04170v1 )

ライセンス: Link先を確認
Andr\'e H. Gomes(参考訳) 自然界におけるローレンツ対称性違反の信号の現在の探索と、異方性空間における一般化不確実性原理(GUP)モデルに関する最近の研究により、本論文では、2つの基準を満たすGUPモデルを同定する。 (i)標準変換下の可換子の不変性、及び (ii)その定義における補助作用素の順序に関する位置と運動量の物理的独立性。 代数的アプローチを用いて GUP を曖昧に記述したい場合、これらの基準のコンプライアンスは基本的であるが、驚くべきことに、GAP が異方性空間内で仮定されるとき、どちらも自明に満足しない。 その結果、これらの基準を用いて、GUPモデルがどのように代数的にアプローチされるかについて重要な制約を課す。

Motivated by current searches for signals of Lorentz symmetry violation in nature and recent investigations on generalized uncertainty principle (GUP) models in anisotropic space, in this paper we identify GUP models satisfying two criteria: (i) invariance of commutators under canonical transformations, and (ii) physical independence of position and momentum on the ordering of auxiliary operators in their definitions. Compliance of these criteria is fundamental if one wishes to unambiguously describe GUP using an algebraic approach but, surprisingly, neither is trivially satisfied when GUP is assumed within anisotropic space. As a consequence, we use these criteria to place important restrictions on what or how GUP models may be approached algebraically.
翻訳日:2023-02-09 15:34:45 公開日:2023-02-08
# 神経波動関数の一般化

Generalizing Neural Wave Functions ( http://arxiv.org/abs/2302.04168v1 )

ライセンス: Link先を確認
Nicholas Gao, Stephan G\"unnemann(参考訳) 最近のニューラルネットワークに基づく波動関数は、アブ初期基底ポテンシャルエネルギー表面のモデリングにおいて最先端の精度を達成した。 しかし、これらのネットワークは同じ原子の集合の異なる空間配置しか解決できない。 この制限を克服するために、我々は、異なる分子に神経波関数を適応できるニューラルネットワークに基づく再パラメータ化法であるグラフ学習軌道埋め込み(Globe)を提案する。 分子軌道の局在化法と空間的メッセージパッシングネットワークを組み合わせることでこれを実現できる。 さらに,異なる分子のschr\"odinger方程式を共同で解くために,局所性駆動の波動関数である分子オリブタルネットワーク(moon)を提案する。 我々の実験では、Globeがより小さな分子からより大きな分子への移動を可能にするのに対して、Moonは異なる分子で共同で訓練する際と同様の精度に8倍のステップで収束する必要がありました。 さらに,より大きい分子上の最近のトランスフォーマー系波動関数と同様に,ムーンが収束することを示した。 計算化学と機械学習の両方の文献において、単一の波動関数が異なる原子を結合した分子のシュリンガー方程式を解くことができることを初めて証明する。

Recent neural network-based wave functions have achieved state-of-the-art accuracies in modeling ab-initio ground-state potential energy surface. However, these networks can only solve different spatial arrangements of the same set of atoms. To overcome this limitation, we present Graph-learned Orbital Embeddings (Globe), a neural network-based reparametrization method that can adapt neural wave functions to different molecules. We achieve this by combining a localization method for molecular orbitals with spatial message-passing networks. Further, we propose a locality-driven wave function, the Molecular Oribtal Network (Moon), tailored to solving Schr\"odinger equations of different molecules jointly. In our experiments, we find Moon requiring 8 times fewer steps to converge to similar accuracies as previous methods when trained on different molecules jointly while Globe enabling the transfer from smaller to larger molecules. Further, our analysis shows that Moon converges similarly to recent transformer-based wave functions on larger molecules. In both the computational chemistry and machine learning literature, we are the first to demonstrate that a single wave function can solve the Schr\"odinger equation of molecules with different atoms jointly.
翻訳日:2023-02-09 15:34:31 公開日:2023-02-08
# 動的補正非線形幾何量子計算

Dynamical-Corrected Nonadiabatic Geometric Quantum Computation ( http://arxiv.org/abs/2302.04167v1 )

ライセンス: Link先を確認
Cheng-Yun Ding, Li Chen, Li-Hua Zhang and Zheng-Yuan Xue(参考訳) 近年,非断熱的幾何量子計算は,その動作速度と固有誤差のレジリエンスから大きな注目を集めている。 しかし, 従来の単ループ方式を基本とした非断熱的幾何ゲートのロバスト性は, 厳密なマルチセグメント幾何制御を必要とするため, いまだに同じ大きさであり, 固有の幾何的耐故障特性は十分に解明されていない。 本稿では,従来の単一ループおよび2ループ複合パルス戦略,すなわち$\sigma_x$ 誤差に抵抗する手法を用いて,超ロバスト非断熱幾何ゲートを構成できる汎用力学補正手法と組み合わせた効率的な幾何学スキームを提案する。 さらに、デコヒーレンスフリー部分空間(DFS)符号化と組み合わせることで、結果として得られる幾何ゲートは、集合的デフォーカスによる$\sigma_z$エラーを効果的に抑制することができる。 特に、我々のプロトコルは、単純な実験的なセットアップを持つ一般的なプロトコルであり、rydberg原子、閉じ込められたイオン、超伝導量子ビットなど、異なる量子システムで実装できる可能性がある。 これらの結果から,本手法は大規模フォールトトレラント量子計算において有望な手法であることが示唆された。

Recently, nonadiabatic geometric quantum computation has been received great attentions, due to its fast operation and intrinsic error resilience. However, compared with the corresponding dynamical gates, the robustness of implemented nonadiabatic geometric gates based on the conventional single-loop scheme still has the same order of magnitude due to the requirement of strict multi-segment geometric controls, and the inherent geometric fault-tolerance characteristic is not fully explored. Here, we present an effective geometric scheme combined with a general dynamical-corrected technique, with which the super-robust nonadiabatic geometric quantum gates can be constructed over the conventional single-loop and two-loop composite-pulse strategies, in terms of resisting the systematic error, i.e., $\sigma_x$ error. In addition, combined with the decoherence-free subspace (DFS) coding, the resulting geometric gates can also effectively suppress the $\sigma_z$ error caused by the collective dephasing. Notably, our protocol is a general one with simple experimental setups, which can be potentially implemented in different quantum systems, such as Rydberg atoms, trapped ions and superconducting qubits. These results indicate that our scheme represents a promising way to explore large-scale fault-tolerant quantum computation.
翻訳日:2023-02-09 15:34:10 公開日:2023-02-08
# GPTScore: 期待通りの評価

GPTScore: Evaluate as You Desire ( http://arxiv.org/abs/2302.04166v1 )

ライセンス: Link先を確認
Jinlan Fu, See-Kiong Ng, Zhengbao Jiang, Pengfei Liu(参考訳) 生成人工知能(AI)は、大規模な事前訓練されたモデルを利用することで、高精細なテキスト、画像、その他の出力を生成できる洗練されたモデルの開発を可能にした。 それにもかかわらず、世代の品質を評価することは世代そのものよりもさらに厳しい課題であり、この問題は最近十分な検討がなされていない。 本稿では,生成事前学習モデルから創発的能力(ゼロショット命令など)を利用して生成したテキストをスコアする新しい評価フレームワークGPTScoreを提案する。 4つのテキスト生成タスク、22の評価アスペクト、および対応する37のデータセットに関する実験の結果から、このアプローチは自然言語命令だけでテキストの評価を効果的に達成できることを示している。 この性質は、テキスト評価における長年の課題を克服するのに役立ちます。注釈付きサンプルを必要とせず、カスタマイズされた多面的な評価を実現する方法です。 私たちはコードをhttps://github.com/jinlanfu/gptscoreで公開しています。

Generative Artificial Intelligence (AI) has enabled the development of sophisticated models that are capable of producing high-caliber text, images, and other outputs through the utilization of large pre-trained models. Nevertheless, assessing the quality of the generation is an even more arduous task than the generation itself, and this issue has not been given adequate consideration recently. This paper proposes a novel evaluation framework, GPTScore, which utilizes the emergent abilities (e.g., zero-shot instruction) from generative pre-trained models to score generated texts. Experimental results on four text generation tasks, 22 evaluation aspects, and corresponding 37 datasets demonstrate that this approach can effectively allow us to achieve what one desires to evaluate for texts simply by natural language instructions. This nature helps us overcome several long-standing challenges in text evaluation--how to achieve customized, multi-faceted evaluation without the need for annotated samples. We make our code publicly available at https://github.com/jinlanfu/GPTScore.
翻訳日:2023-02-09 15:33:44 公開日:2023-02-08
# IRTCI:カテゴリー計算における項目応答理論

IRTCI: Item Response Theory for Categorical Imputation ( http://arxiv.org/abs/2302.04165v1 )

ライセンス: Link先を確認
Adrienne Kline and Yuan Luo(参考訳) ほとんどのデータセットは部分的あるいは完全的欠落値に苦しんでおり、データをテストするための利用可能なモデルや、データから作成可能な任意の統計推論に限界がある。 欠落したデータをスタンドインの値に置き換えるために、いくつかのインプテーション技術が設計されている。 様々なアプローチは、臨床スコア、モデル構築、モデルテストの計算に影響を及ぼす。 ここで紹介された研究は、アイテム応答理論(IRT)に基づいた分類論的計算の新しい手段を提供し、k-nearest neighbors(kNN)、MICE(Multiple Imputed chained equation)、Amazon Web Services(AWS)ディープラーニングメソッドDatawigなどの機械学習分野で現在使用されている方法論と比較する。 これらの手法を比較する分析は、順序、名目、二項のカテゴリを表す3つの異なるデータセット上で行われた。 データは、データの欠落率と欠落データの体系化の両方で変化するように修正された。 性能評価には, 欠落値の再現精度, インデュートデータを用いた予測性能の2つの異なる評価結果が得られた。 その結果,新しい手法であるIRTCI(Item Response Theory for Categorical Imputation)が,現在使用されている手法と比較して非常に優れており,多くの条件においてそのいくつかを上回る結果が得られた。 新たなアプローチの理論的基礎と、欠損細胞に属するカテゴリを決定するための一意の確率的項を考えると、IRTCIは現在のアプローチの代替となる。

Most datasets suffer from partial or complete missing values, which has downstream limitations on the available models on which to test the data and on any statistical inferences that can be made from the data. Several imputation techniques have been designed to replace missing data with stand in values. The various approaches have implications for calculating clinical scores, model building and model testing. The work showcased here offers a novel means for categorical imputation based on item response theory (IRT) and compares it against several methodologies currently used in the machine learning field including k-nearest neighbors (kNN), multiple imputed chained equations (MICE) and Amazon Web Services (AWS) deep learning method, Datawig. Analyses comparing these techniques were performed on three different datasets that represented ordinal, nominal and binary categories. The data were modified so that they also varied on both the proportion of data missing and the systematization of the missing data. Two different assessments of performance were conducted: accuracy in reproducing the missing values, and predictive performance using the imputed data. Results demonstrated that the new method, Item Response Theory for Categorical Imputation (IRTCI), fared quite well compared to currently used methods, outperforming several of them in many conditions. Given the theoretical basis for the new approach, and the unique generation of probabilistic terms for determining category belonging for missing cells, IRTCI offers a viable alternative to current approaches.
翻訳日:2023-02-09 15:33:28 公開日:2023-02-08
# 可変オートエンコーダと物理バイアスを組み合わせた顕微鏡データ解析

Combining Variational Autoencoders and Physical Bias for Improved Microscopy Data Analysis ( http://arxiv.org/abs/2302.04216v1 )

ライセンス: Link先を確認
Arpan Biswas, Maxim Ziatdinov and Sergei V. Kalinin(参考訳) 電子顕微鏡と走査型プローブ顕微鏡は、脳波や4D STEMのような画像や超分光データのような、幅広い構造、物理的、化学的性質に関する情報を含む膨大な量のデータを生成する。 これらのデータから貴重な洞察を抽出するためには、位相、強磁性変種、それらの間の境界など、物理的に分離したデータ領域を特定することが重要である。 本稿では,データ内の可変性の要因を分離するために可変オートエンコーダの能力と,潜在表現に対応する画像の不連続性の総長を最小化しようとする物理駆動損失関数を組み合わせた物理拡張機械学習手法を提案する。 本手法はNiO-LSMO, BiFeO3, グラフェンなど様々な材料に適用される。 その結果,大量の画像データから有意な情報を抽出する手法の有効性が示された。 コードと分析ワークフローの実装を含む完全なノートブックはhttps://github.com/arpanbiswas52/PaperNotebooksで入手できる。

Electron and scanning probe microscopy produce vast amounts of data in the form of images or hyperspectral data, such as EELS or 4D STEM, that contain information on a wide range of structural, physical, and chemical properties of materials. To extract valuable insights from these data, it is crucial to identify physically separate regions in the data, such as phases, ferroic variants, and boundaries between them. In order to derive an easily interpretable feature analysis, combining with well-defined boundaries in a principled and unsupervised manner, here we present a physics augmented machine learning method which combines the capability of Variational Autoencoders to disentangle factors of variability within the data and the physics driven loss function that seeks to minimize the total length of the discontinuities in images corresponding to latent representations. Our method is applied to various materials, including NiO-LSMO, BiFeO3, and graphene. The results demonstrate the effectiveness of our approach in extracting meaningful information from large volumes of imaging data. The fully notebook containing implementation of the code and analysis workflow is available at https://github.com/arpanbiswas52/PaperNotebooks
翻訳日:2023-02-09 15:27:28 公開日:2023-02-08
# 実世界自発音声におけるテキスト音声合成のためのベクトル量子化手法

A Vector Quantized Approach for Text to Speech Synthesis on Real-World Spontaneous Speech ( http://arxiv.org/abs/2302.04215v1 )

ライセンス: Link先を確認
Li-Wei Chen, Shinji Watanabe, Alexander Rudnicky(参考訳) 近年のテキスト・トゥ・スペーチ(TTS)システムでは,人間レベルの自然さに近づいた。 しかし、人間の言論の多様性は、しばしばこれらのコーパスの範囲を超えている。 このような多様性を扱う能力は、人間レベルのコミュニケーションを実現するためにAIシステムにとって不可欠だと考えています。 本研究は,より豊富な実世界データを用いた音声シンセサイザー構築について検討する。 我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。 mel-spectrogramに基づく自己回帰モデルにおけるトレーニングと推論アライメントのミスマッチを観察し,理解不能な合成を導き,複数のコードグループで学習された離散符号がこの問題を効果的に解決できることを実証した。 本稿では,複数のコード生成とモノトニックアライメントのために設計したmqttsシステムと,合成品質向上のためのクリーンサイレントプロンプトについて紹介する。 本手法の有効性を明らかにするためにアブレーション解析を行う。 MQTTSは既存のTSシステムよりも,いくつかの客観的かつ主観的な尺度で優れていることを示す。

Recent Text-to-Speech (TTS) systems trained on reading or acted corpora have achieved near human-level naturalness. The diversity of human speech, however, often goes beyond the coverage of these corpora. We believe the ability to handle such diversity is crucial for AI systems to achieve human-level communication. Our work explores the use of more abundant real-world data for building speech synthesizers. We train TTS systems using real-world speech from YouTube and podcasts. We observe the mismatch between training and inference alignments in mel-spectrogram based autoregressive models, leading to unintelligible synthesis, and demonstrate that learned discrete codes within multiple code groups effectively resolves this issue. We introduce our MQTTS system whose architecture is designed for multiple code generation and monotonic alignment, along with the use of a clean silence prompt to improve synthesis quality. We conduct ablation analyses to identify the efficacy of our methods. We show that MQTTS outperforms existing TTS systems in several objective and subjective measures.
翻訳日:2023-02-09 15:27:11 公開日:2023-02-08
# G\"odel数計算の複雑さについて

On the Complexity of Computing G\"odel Numbers ( http://arxiv.org/abs/2302.04213v1 )

ライセンス: Link先を確認
Vasco Brattka(参考訳) 計算可能な自然数の列が与えられたとき、この列を生成するプログラムの G\"odel number を見つけることは自然なタスクである。 この問題は連続的でも計算可能でもないことが分かりやすい。 アルゴリズム学習理論では、この問題はいくつかの観点からよく研究されており、ある質問では、この問題がどの順序でその極限において少なくとも学習可能であるかが論じられている。 ここでは、すべての計算可能な列の問題を研究し、Wehrauch複雑性を分類する。 この目的のために、学習理論で知られている融合技術を利用することができる。 分類のベンチマークとして、我々は閉かつコンパクトな選択問題とその自然数へのジャンプを使い、これらの問題は帰納的および有界性原理に対応し、それらは逆数学のカービー・パリ階層から知られている。 位相的および計算可能性理論的な分類を提供し,いくつかの重要な違いを明らかにした。

Given a computable sequence of natural numbers, it is a natural task to find a G\"odel number of a program that generates this sequence. It is easy to see that this problem is neither continuous nor computable. In algorithmic learning theory this problem is well studied from several perspectives and one question studied there is for which sequences this problem is at least learnable in the limit. Here we study the problem on all computable sequences and we classify the Weihrauch complexity of it. For this purpose we can, among other methods, utilize the amalgamation technique known from learning theory. As a benchmark for the classification we use closed and compact choice problems and their jumps on natural numbers, and we argue that these problems correspond to induction and boundedness principles, as they are known from the Kirby-Paris hierarchy in reverse mathematics. We provide a topological as well as a computability-theoretic classification, which reveal some significant differences.
翻訳日:2023-02-09 15:26:55 公開日:2023-02-08
# hermiticity-preserving superoperatorsのための完全グラフィカル言語

Complete Graphical Language for Hermiticity-Preserving Superoperators ( http://arxiv.org/abs/2302.04212v1 )

ライセンス: Link先を確認
Titouan Carette, Timoth\'ee Hoffreumon, \'Emile Larroque, and Renaud Vilmart(参考訳) 普遍および完全グラフィカル言語は、ヒルベルト空間の間の線型写像に対応する純粋状態量子力学と、完全に正の超作用素に対応する混合状態量子力学のためにうまく設計されている。 本稿では、さらに一歩進んで、Hermiticity保存スーパーオペレータのための普遍的で完全なグラフィカル言語を提案する。 このような言語は、Choi-Jamio{\l}kowski同型、スピンフリップ、エンタングルメント目撃者など、様々な物理的状況で特徴付けられる反線型変換の図式的構成研究の可能性を開く。 我々の構成は、エルミート行列の正規形式を示すZW-計算の拡張に依存している。

Universal and complete graphical languages have been successfully designed for pure state quantum mechanics, corresponding to linear maps between Hilbert spaces, and mixed states quantum mechanics, corresponding to completely positive superoperators. In this paper, we go one step further and present a universal and complete graphical language for Hermiticity-preserving superoperators. Such a language opens the possibility of diagrammatic compositional investigations of antilinear transformations featured in various physical situations, such as the Choi-Jamio{\l}kowski isomorphism, spin-flip, or entanglement witnesses. Our construction relies on an extension of the ZW-calculus exhibiting a normal form for Hermitian matrices.
翻訳日:2023-02-09 15:26:39 公開日:2023-02-08
# ディファレンシャルプライバシを考慮したフェデレーション学習法の探索的解析-iii

Exploratory Analysis of Federated Learning Methods with Differential Privacy on MIMIC-III ( http://arxiv.org/abs/2302.04208v1 )

ライセンス: Link先を確認
Aron N. Horvath, Matteo Berchier, Farhad Nooralahzadeh, Ahmed Allam, Michael Krauthammer(参考訳) 背景: フェデレートされた学習方法は、プライバシーに敏感なデータセット上で機械学習モデルをトレーニングする可能性を提供する。 複数の規制が医療データの保存と使用に厳しい要件を課しており、データはサイロ(医療施設のロックイン)に置かれている。 これらのデータセットへのフェデレーションアルゴリズムの適用は、疾患の診断、薬物開発を加速し、患者のケアを改善する。 方法: オープンソースのMIMIC-IIIデータセット上でのトレーニングモデルにおいて, 異なるフェデレーションと差分プライバシー技術の影響を広範囲に評価する。 我々は,フェデレーションモデルの性能に影響を及ぼすパラメータ,すなわち,データ分散(均一かつ均一),コミュニケーション戦略(コミュニケーションラウンド対ローカルトレーニングエポック),フェデレーション戦略(FedAvg vs. FedProx)について分析する。 さらに,モデルトレーニング中の差分プライバシ(dp)手法について,確率勾配降下型差分プライバシアルゴリズム(dp-sgd)とスパースベクトル差分プライバシ手法(dp-svt)の比較を行った。 結果:FedAvg戦略を用いてトレーニングすると,各部位の極端なデータ分布(患者数とサイト間の正のラベル比のバランスの相違)がモデル性能の低下につながることが明らかとなった。 この問題は、適切なハイパーパラメータチューニングを使用してFedProxを使用する場合に解決される。 さらに,両者の差分プライバシー手法はDPを使わずにトレーニングしたモデルと同様のモデル性能を達成できることが示唆された。 結論: 2つのフェデレーション戦略の利点を実証的に評価し,差分プライバシー手法を用いたパラメータ選択のための最適戦略を提案する。

Background: Federated learning methods offer the possibility of training machine learning models on privacy-sensitive data sets, which cannot be easily shared. Multiple regulations pose strict requirements on the storage and usage of healthcare data, leading to data being in silos (i.e. locked-in at healthcare facilities). The application of federated algorithms on these datasets could accelerate disease diagnostic, drug development, as well as improve patient care. Methods: We present an extensive evaluation of the impact of different federation and differential privacy techniques when training models on the open-source MIMIC-III dataset. We analyze a set of parameters influencing a federated model performance, namely data distribution (homogeneous and heterogeneous), communication strategies (communication rounds vs. local training epochs), federation strategies (FedAvg vs. FedProx). Furthermore, we assess and compare two differential privacy (DP) techniques during model training: a stochastic gradient descent-based differential privacy algorithm (DP-SGD), and a sparse vector differential privacy technique (DP-SVT). Results: Our experiments show that extreme data distributions across sites (imbalance either in the number of patients or the positive label ratios between sites) lead to a deterioration of model performance when trained using the FedAvg strategy. This issue is resolved when using FedProx with the use of appropriate hyperparameter tuning. Furthermore, the results show that both differential privacy techniques can reach model performances similar to those of models trained without DP, however at the expense of a large quantifiable privacy leakage. Conclusions: We evaluate empirically the benefits of two federation strategies and propose optimal strategies for the choice of parameters when using differential privacy techniques.
翻訳日:2023-02-09 15:26:26 公開日:2023-02-08
# 階層型イベントグラウンド

Hierarchical Event Grounding ( http://arxiv.org/abs/2302.04197v1 )

ライセンス: Link先を確認
Jiefu Ou, Adithya Pratapa, Rishubh Gupta, Teruko Mitamura(参考訳) イベントグラウンディングは、テキストコーパス内の参照参照を知識ベース(KB)からのイベントにリンクすることを目的としている。 このタスクに関する以前の作業は、主に単一のkbイベントへのリンクに重点を置いており、イベントの階層的な側面を見下ろしている。 文書中の出来事は、通常、時空間的粒度の様々なレベルに記述される(Glavas et al. 2014)。 これらの階層関係は、ナラティブ理解とスキーマ構築の下流タスクで利用される。 本稿では、kbから階層的なイベント構造に取り組む必要があるイベントグランド化タスクの拡張を提案する。 提案するタスクは、kb内のサブイベント階層から、参照参照とイベントラベルのセットをリンクすることです。 補助的な階層的損失(murty et al. 2018)を通じてイベント階層を利用する検索手法を提案する。 ウィキペディアとウィキデータから自動生成した多言語データセットを用いて,検索・再ランクベースラインに対する階層的損失の有効性を実証した(Wu et al. 2020, Pratapa, Gupta, Mitamura 2022)。 さらに,未発見事象の階層的発見を支援するシステムの能力を示す。

Event grounding aims at linking mention references in text corpora to events from a knowledge base (KB). Previous work on this task focused primarily on linking to a single KB event, thereby overlooking the hierarchical aspects of events. Events in documents are typically described at various levels of spatio-temporal granularity (Glavas et al. 2014). These hierarchical relations are utilized in downstream tasks of narrative understanding and schema construction. In this work, we present an extension to the event grounding task that requires tackling hierarchical event structures from the KB. Our proposed task involves linking a mention reference to a set of event labels from a subevent hierarchy in the KB. We propose a retrieval methodology that leverages event hierarchy through an auxiliary hierarchical loss (Murty et al. 2018). On an automatically created multilingual dataset from Wikipedia and Wikidata, our experiments demonstrate the effectiveness of the hierarchical loss against retrieve and re-rank baselines (Wu et al. 2020; Pratapa, Gupta, and Mitamura 2022). Furthermore, we demonstrate the systems' ability to aid hierarchical discovery among unseen events.
翻訳日:2023-02-09 15:25:54 公開日:2023-02-08
# 制約問題に対する多目的変動量子最適化:キャッシュ管理への応用

Multiobjective variational quantum optimization for constrained problems: an application to Cash Management ( http://arxiv.org/abs/2302.04196v1 )

ライセンス: Link先を確認
Pablo D\'iez-Valle, Jorge Luis-Hita, Senaida Hern\'andez-Santana, Fernando Mart\'inez-Garc\'ia, \'Alvaro D\'iaz-Fern\'andez, Eva Andr\'es, Juan Jos\'e Garc\'ia-Ripoll, Escol\'astico S\'anchez-Mart\'inez, Diego Porras(参考訳) 組合せ最適化の問題は、業界には至るところにある。 最小コストの解を見つけることに加えて、高い関連性の問題は、解が満たさなければならない多くの制約を含んでいる。 変分量子アルゴリズムは、ノイズの多い中間スケール量子段階でこれらの問題を解くための有望な候補として登場した。 しかし、制約はしばしば、量子ハードウェアへの効率的なマッピングを困難または不可能にするほど複雑である。 別の標準手法として、これらの制約をペナルティ項として含めるように最適化問題を変換するが、この方法は追加のハイパーパラメータを伴い、局所ミニマの存在により制約が満たされることを保証しない。 本稿では,変分量子アルゴリズムを用いた制約を伴う組合せ最適化問題を解く新しい手法を提案する。 遺伝的アルゴリズムによる多目的最適化により変動パラメータを古典的に更新する多目的変分制約最適化器(movco)を提案する。 この最適化により、アルゴリズムはこれらの状態のエネルギーを最適化しながら、制約内空間内の状態のみを段階的にサンプリングすることができる。 我々は,金融に多大な関連性を持つ実世界の問題であるキャッシュマネージメントの問題について,提案を検証した。 この問題に対して新しい数学的定式化を導入し,MOVCOの性能とペナルティに基づく最適化を比較した。 実験の結果, 実現した解のコストは著しく向上したが, 特に, 制約を満たさない局所最小値の回避は困難であった。

Combinatorial optimization problems are ubiquitous in industry. In addition to finding a solution with minimum cost, problems of high relevance involve a number of constraints that the solution must satisfy. Variational quantum algorithms have emerged as promising candidates for solving these problems in the noisy intermediate-scale quantum stage. However, the constraints are often complex enough to make their efficient mapping to quantum hardware difficult or even infeasible. An alternative standard approach is to transform the optimization problem to include these constraints as penalty terms, but this method involves additional hyperparameters and does not ensure that the constraints are satisfied due to the existence of local minima. In this paper, we introduce a new method for solving combinatorial optimization problems with challenging constraints using variational quantum algorithms. We propose the Multi-Objective Variational Constrained Optimizer (MOVCO) to classically update the variational parameters by a multiobjective optimization performed by a genetic algorithm. This optimization allows the algorithm to progressively sample only states within the in-constraints space, while optimizing the energy of these states. We test our proposal on a real-world problem with great relevance in finance: the Cash Management problem. We introduce a novel mathematical formulation for this problem, and compare the performance of MOVCO versus a penalty based optimization. Our empirical results show a significant improvement in terms of the cost of the achieved solutions, but especially in the avoidance of local minima that do not satisfy any of the mandatory constraints.
翻訳日:2023-02-09 15:25:35 公開日:2023-02-08
# フーリエネットワークを用いた臨床名前付きエンティティ認識と関係抽出のための効果的な共同学習:逆薬物事象の事例

Efficient Joint Learning for Clinical Named Entity Recognition and Relation Extraction Using Fourier Networks: A Use Case in Adverse Drug Events ( http://arxiv.org/abs/2302.04185v1 )

ライセンス: Link先を確認
Anthony Yazdani, Dimitrios Proios, Hossein Rouhizadeh, Douglas Teodoro(参考訳) 臨床情報抽出の現在のアプローチは、計算コストとメモリ消費の点で非効率であり、大規模な電子健康記録(EHR)の処理を妨げている。 可変長文書に対する名前付きエンティティ認識と関係抽出のタスクを協調的に学習するための,効率的なエンドツーエンドモデルであるJoint-NER-RE-Fourier (JNRF)を提案する。 このアーキテクチャは、可変長文書を処理するために位置符号化とユニタリバッチサイズを使用し、低複雑さトークン混合のために重み共有フーリエネットワーク層を使用する。 最後に,学習可能な多項式距離関数を用いた選択的プーリング戦略と距離認識注意重みを用いた関係抽出のための理論計算複雑性を低く抑える。 我々は、2018 N2C2 ADEベンチマークを用いてJNRFアーキテクチャを評価し、変動長EHR要約における薬物関連物質と関係を共同抽出した。 JNRFは転がり窓のBERTを0.42%上回り、列車の速度は2倍である。 N2C2 ADEベンチマークの最先端のBiLSTM-CRFアーキテクチャと比較すると、提案手法は、外部ツールや手作りルール、後処理を使わずに、GPUメモリ使用量を1.75倍に削減し、適切な性能上のトレードオフを90%削減する。 深層学習モデルの炭素フットプリントと現在のエネルギー危機を考えると、これらの手法はEHRやその他の大規模文書データベースの効率的でクリーンな情報抽出を支援することができる。

Current approaches for clinical information extraction are inefficient in terms of computational costs and memory consumption, hindering their application to process large-scale electronic health records (EHRs). We propose an efficient end-to-end model, the Joint-NER-RE-Fourier (JNRF), to jointly learn the tasks of named entity recognition and relation extraction for documents of variable length. The architecture uses positional encoding and unitary batch sizes to process variable length documents and uses a weight-shared Fourier network layer for low-complexity token mixing. Finally, we reach the theoretical computational complexity lower bound for relation extraction using a selective pooling strategy and distance-aware attention weights with trainable polynomial distance functions. We evaluated the JNRF architecture using the 2018 N2C2 ADE benchmark to jointly extract medication-related entities and relations in variable-length EHR summaries. JNRF outperforms rolling window BERT with selective pooling by 0.42%, while being twice as fast to train. Compared to state-of-the-art BiLSTM-CRF architectures on the N2C2 ADE benchmark, results show that the proposed approach trains 22 times faster and reduces GPU memory consumption by 1.75 folds, with a reasonable performance tradeoff of 90%, without the use of external tools, hand-crafted rules or post-processing. Given the significant carbon footprint of deep learning models and the current energy crises, these methods could support efficient and cleaner information extraction in EHRs and other types of large-scale document databases.
翻訳日:2023-02-09 15:25:13 公開日:2023-02-08
# Knapsack問題のある非定常バンドとアドバイス

Non-Stationary Bandits with Knapsack Problems with Advice ( http://arxiv.org/abs/2302.04182v1 )

ライセンス: Link先を確認
Lixing Lyu and Wang Chi Cheung(参考訳) Knapsack問題を持つ非定常帯域を考える。 各時点の成果分布は、変化する需要量を示す非定常量によってスケールされる。 限られた非定常性で設定を勉強する代わりに、総需要量$q$のオンライン予測がどのようにパフォーマンス保証を改善するかを調査します。 予測がなければ、オンラインアルゴリズムがリニアイン・$t$の後悔を負うことが分かる。 対照的に,$q$のオンライン予測とは対照的に,予測を巧みに取り入れ,予測の正確性に依存する後悔の限界を達成するオンラインアルゴリズムを提案する。 これらの境界は、予測精度が時間にわたって改善されたときに設定が厳密であることが示される。 我々の理論的結果は数値的な結果と一致している。

We consider a non-stationary Bandits with Knapsack problem. The outcome distribution at each time is scaled by a non-stationary quantity that signifies changing demand volumes. Instead of studying settings with limited non-stationarity, we investigate how online predictions on the total demand volume $Q$ allows us to improve our performance guarantees. We show that, without any prediction, any online algorithm incurs a linear-in-$T$ regret. In contrast, with online predictions on $Q$, we propose an online algorithm that judiciously incorporates the predictions, and achieve regret bounds that depends on the accuracy of the predictions. These bounds are shown to be tight in settings when prediction accuracy improves across time. Our theoretical results are corroborated by our numerical findings.
翻訳日:2023-02-09 15:24:43 公開日:2023-02-08
# グラフトランスフォーマーに参加する

Attending to Graph Transformers ( http://arxiv.org/abs/2302.04181v1 )

ライセンス: Link先を確認
Luis M\"uller, Mikhail Galkin, Christopher Morris, Ladislav Ramp\'a\v{s}ek(参考訳) 近年、グラフのトランスフォーマーアーキテクチャは、グラフニューラルネットワークのようなグラフを用いた機械学習の確立された技術に代わるものとして登場した。 これまでのところ、分子予測データセットのような有望な実証結果が示されており、しばしば、過剰なスムーシングや過剰な探索のようなグラフニューラルネットワークの欠点を回避する能力によって引き起こされている。 ここではグラフトランスフォーマーアーキテクチャの分類を導出し、この新興分野に秩序をもたらします。 それらの理論的性質を概説し、構造的および位置的エンコーディングを調査し、重要なグラフクラス(例えば3次元分子グラフ)の拡張について議論する。 経験的に、グラフトランスフォーマーが様々なグラフ特性を回復し、親和性グラフをどれだけうまく処理できるか、どの程度過剰な探索を防ぐかを調査した。 さらに,今後の課題と研究の方向性について概説する。 私たちのコードはhttps://github.com/luis-mueller/probing-graph-transformersで利用可能です。

Recently, transformer architectures for graphs emerged as an alternative to established techniques for machine learning with graphs, such as graph neural networks. So far, they have shown promising empirical results, e.g., on molecular prediction datasets, often attributed to their ability to circumvent graph neural networks' shortcomings, such as over-smoothing and over-squashing. Here, we derive a taxonomy of graph transformer architectures, bringing some order to this emerging field. We overview their theoretical properties, survey structural and positional encodings, and discuss extensions for important graph classes, e.g., 3D molecular graphs. Empirically, we probe how well graph transformers can recover various graph properties, how well they can deal with heterophilic graphs, and to what extent they prevent over-squashing. Further, we outline open challenges and research direction to stimulate future work. Our code is available at https://github.com/luis-mueller/probing-graph-transformers.
翻訳日:2023-02-09 15:24:31 公開日:2023-02-08
# 分子色中心を用いた磁場の量子センシング

Quantum sensing of magnetic fields with molecular color centers ( http://arxiv.org/abs/2302.04248v1 )

ライセンス: Link先を確認
Kathleen R. Mullin, Daniel W. Laorenza, Danna E. Freedman, James M. Rondinelli(参考訳) S=1$ Cr($o$-tolyl)$_{4}$のような分子色中心は、磁気量子センシングのための適応可能なプラットフォームとして約束を示す。 その内在的に小さなサイズ、すなわち 1-2 nm は、短距離および様々な幾何学で場を感知することができる。 この特徴は、調整可能なスピン情報の光学的読み出しと共に、分子色中心がダイヤモンド-NV中心を超えるパラダイムシフト材料になる可能性を提供し、距離スケールの不透明なNVにアクセスする。 この能力は、例えば、2次元磁石から生じる報告された磁場の曖昧さに対処でき、単一のセンシング技術がより広い距離にわたって使用できる。 しかし、今のところこれらの能力は理論的な検証が欠如していると仮定されているのみである。 cr($o$-tolyl)$_{4}$は、分子の励起状態がどのように影響するかを定量化することによって、単層cri$_{3}$からの近接交換と直接磁場効果を空間的に解決できることをシミュレーションにより示す。 近距離では、近接交換は分子-層間相互作用によって支配されるが、さらに遠距離では分子は典型的な磁気センサとして振る舞う。 本モデルでは,分子色中心を用いて2次元磁石の磁場を計測し,距離依存性の異なる相互作用が測定場に与える影響を効果的に示す。

Molecular color centers, such as $S=1$ Cr($o$-tolyl)$_{4}$, show promise as an adaptable platform for magnetic quantum sensing. Their intrinsically small size, i.e., 1-2 nm, enables them to sense fields at short distances and in various geometries. This feature, in conjunction with tunable optical read-out of spin information, offers the potential for molecular color centers to be a paradigm shifting materials class beyond diamond-NV centers by accessing a distance scale opaque to NVs. This capability could, for example, address ambiguity in the reported magnetic fields arising from two-dimensional magnets by allowing for a single sensing technique to be used over a wider range of distances. Yet, so far, these abilities have only been hypothesized with theoretical validation absent. We show through simulation that Cr($o$-tolyl)$_{4}$ can spatially resolve proximity-exchange versus direct magnetic field effects from monolayer CrI$_{3}$ by quantifying how these interactions impact the excited states of the molecule. At short distances, proximity exchange dominates through molecule-substrate interactions, but at further distances the molecule behaves as a typical magnetic sensor, with magnetostatic effects dominating changes to the energy of the excited state. Our models effectively demonstrate how a molecular color center could be used to measure the magnetic field of a 2D magnet and the role different distance-dependent interactions contribute to the measured field.
翻訳日:2023-02-09 15:18:29 公開日:2023-02-08
# 変分オートエンコーダによる近道検出

Shortcut Detection with Variational Autoencoders ( http://arxiv.org/abs/2302.04246v1 )

ライセンス: Link先を確認
Nicolas M. M\"uller, Simon Roschmann, Shahbaz Khan, Philip Sperl, Konstantin B\"ottinger(参考訳) 機械学習(ML)の現実的な応用においては、モデルがデータの素早い相関ではなく、適切に一般化された特徴に基づいて予測を行うことが不可欠である。 このようなスプリアス相関の同定はショートカットとしても知られ、難しい問題であり、これまでほとんど解決されていない。 本稿では,可変オートエンコーダ(vaes)を用いて,画像および音声データセットのショートカットを検出する新しい手法を提案する。 VAEの潜在空間における特徴の分散により、データセット内の相関関係を発見し、MLショートカットに対して半自動評価することができる。 本手法の適用性を実世界のいくつかのデータセットに適用し,これまで発見されていないショートカットを同定する。 これらの結果に基づき,近距離逆例の構築も検討した。

For real-world applications of machine learning (ML), it is essential that models make predictions based on well-generalizing features rather than spurious correlations in the data. The identification of such spurious correlations, also known as shortcuts, is a challenging problem and has so far been scarcely addressed. In this work, we present a novel approach to detect shortcuts in image and audio datasets by leveraging variational autoencoders (VAEs). The disentanglement of features in the latent space of VAEs allows us to discover correlations in datasets and semi-automatically evaluate them for ML shortcuts. We demonstrate the applicability of our method on several real-world datasets and identify shortcuts that have not been discovered before. Based on these findings, we also investigate the construction of shortcut adversarial examples.
翻訳日:2023-02-09 15:17:47 公開日:2023-02-08
# 一般化コヒーレント状態形式論における双対性の考察

Considerations of the duality in generalized coherent states formalism ( http://arxiv.org/abs/2302.04245v1 )

ライセンス: Link先を確認
Du\v{s}an Popov(参考訳) 本稿では,一般化された2対の変位演算子を構成する2対の双対演算子を提案する。 これらの実体により、バルト-ジラルデロとクラウダー-ペレロモフ一般化コヒーレント状態は双対状態であることが示されている。 これらのコヒーレント状態の特徴は別々に、相対的に構築される。

In the paper, a pair of dual operators is introduced with which a dual pair of generalized displacement operators is constructed. With these entities it is shown that the Barut - Girardello and Klauder - Perelomov generalized coherent states are dual states. The characteristics of these coherent states are constructed, separately and comparatively.
翻訳日:2023-02-09 15:17:25 公開日:2023-02-08
# ラーヴェンの進歩行列の解法に関する計算モデル : 包括的序説

Computational Models of Solving Raven's Progressive Matrices: A Comprehensive Introduction ( http://arxiv.org/abs/2302.04238v1 )

ライセンス: Link先を確認
Yuan Yang and Mathilee Kunda(参考訳) 人間の知能を測定するために広く使用されているため、Ravenのプログレッシブマトリクス(RPM)テストもAIシステムにとって大きな課題となっている。 1960年代からは、関連する認知プロセスを理解するために、あるいは問題解決のためにのみ、RPMを解くための長い計算モデルが存在する。 ai研究における劇的なパラダイムシフト、特に過去10年間のディープラーニングモデルの出現により、rpmに関する計算研究も大きく変化した。 だから今こそ、この長期にわたる研究を振り返る好機だ。 包括的導入」という題名で、rpmの解法として、rpmの歴史、rpmの背後にある知性テスト理論、rpmのようなタスクの項目設計と自動アイテム生成、rpmの解法のための計算モデルに関する概念年代記、これらのモデルの技術的進化の背景にある哲学を明らかにし、人間知能テストとaiテストの転送を提案する。

As being widely used to measure human intelligence, Raven's Progressive Matrices (RPM) tests also pose a great challenge for AI systems. There is a long line of computational models for solving RPM, starting from 1960s, either to understand the involved cognitive processes or solely for problem-solving purposes. Due to the dramatic paradigm shifts in AI researches, especially the advent of deep learning models in the last decade, the computational studies on RPM have also changed a lot. Therefore, now is a good time to look back at this long line of research. As the title -- ``a comprehensive introduction'' -- indicates, this paper provides an all-in-one presentation of computational models for solving RPM, including the history of RPM, intelligence testing theories behind RPM, item design and automatic item generation of RPM-like tasks, a conceptual chronicle of computational models for solving RPM, which reveals the philosophy behind the technology evolution of these models, and suggestions for transferring human intelligence testing and AI testing.
翻訳日:2023-02-09 15:17:17 公開日:2023-02-08
# ブラックボックス・ファンデーションモデルの敵対的プロンプト

Adversarial Prompting for Black Box Foundation Models ( http://arxiv.org/abs/2302.04237v1 )

ライセンス: Link先を確認
Natalie Maus, Patrick Chao, Eric Wong, Jacob Gardner(参考訳) プロンプティングインタフェースにより、ユーザーは視覚と言語の両方で生成モデルの出力を迅速に調整できる。 しかし、プロンプトの小さな変更や設計上の選択は、出力に大きな違いをもたらす可能性がある。 本研究では,非構造化画像とテキスト生成のための逆プロンプトを生成するブラックボックスフレームワークを開発する。 これらのプロンプトは、スタンドアローンまたは良心的なプロンプトに先立ち、特定のオブジェクトの画像の生成や生成されたテキスト中の特定の文字の頻度の偏りなど、特定の振る舞いを生成プロセスに誘導する。

Prompting interfaces allow users to quickly adjust the output of generative models in both vision and language. However, small changes and design choices in the prompt can lead to significant differences in the output. In this work, we develop a black-box framework for generating adversarial prompts for unstructured image and text generation. These prompts, which can be standalone or prepended to benign prompts, induce specific behaviors into the generative process, such as generating images of a particular object or biasing the frequency of specific letters in the generated text.
翻訳日:2023-02-09 15:16:55 公開日:2023-02-08
# ノイズ-ストレージモデルにおける誤差耐性オブリベート転送

Error-tolerant oblivious transfer in the noisy-storage model ( http://arxiv.org/abs/2302.04236v1 )

ライセンス: Link先を確認
Cosmo Lupo, James T. Peat, Erika Andersson, Pieter Kok(参考訳) 量子暗号のノイズ-ストレージモデルでは、不正なユーザが最も不完全でノイズの多い量子メモリにアクセスできるという仮定に基づいて、情報理論的に二要素計算が可能であるが、正直なユーザーは量子メモリを全く必要としない。 これはoblivious transfer(ot)のようなプリミティブによって実現できる。 一般に、不正なユーザの量子メモリがうるさくなればなるほど、OTの実装はよりセキュアになる。 実験的な実装では、正直なユーザによって保持されるデバイスもノイズが多く、これらの信頼されたエラーを修正するためにエラー訂正を適用する必要がある。 一般に、不正なユーザが信頼されたノイズに身を隠してしまうため、プロトコルのセキュリティが低下する。 ここでは、OTのセキュリティに関する既知の制約を活用して、信頼できないノイズと信頼できないノイズの間の緊密なトレードオフを導出します。

The noisy-storage model of quantum cryptography allows for information-theoretically secure two-party computation based on the assumption that a cheating user has at most access to an imperfect, noisy quantum memory, whereas the honest users do not need a quantum memory at all. This can be achieved through primitives such as Oblivious Transfer (OT). In general, the more noisy the quantum memory of the cheating user, the more secure the implementation of OT. For experimental implementations, one has to consider that also the devices held by the honest users are lossy and noisy, and error correction needs to be applied to correct these trusted errors. In general, this reduces the security of the protocol, since a cheating user may hide themselves in the trusted noise. Here we leverage known bounds on the security of OT to derive a tighter trade-off between trusted and untrusted noise.
翻訳日:2023-02-09 15:16:45 公開日:2023-02-08
# 非コヒーレント増幅はpt対称系における非古典性損失を補償できない

Incoherent amplification cannot compensate for nonclassicality loss in PT-symmetric systems ( http://arxiv.org/abs/2302.04235v1 )

ライセンス: Link先を確認
Jan Perina Jr., Adam Miranowicz, Joanna K. Kalaga, Wieslaw Leonski(参考訳) 非古典性の喪失(量子エンタングルメントを含む)はPT対称系の(一貫性のない)増幅によって補償できないことを示す。 ハイゼンベルク・ランゲヴィン法における量子ゆらぎ力を操作することでこの問題に対処する。 具体的には、pt対称系における2つの非線形結合振動モードのダイナミクスを解析する。 解析的な解法により, 貯留層変動の寄与を, モードの量子統計特性の進化から分離することができる。 一般に、貯水池の変動が常に進行するにつれて、非古典性や絡み合いの完全な損失は長い間観察される。 非古典性と絡み合いの長期進化における貯留層揺らぎの役割を明らかにするために,非古典性と絡み合いに対する致命的な長期的有害影響を観測しない2つの代替モデルから予測を考察し,比較する。 これは、最初の半古典的モデルでは、貯水池の変動は全く考慮されないためである。 しかし、これはゆらぎ散逸定理に違反する。 第2のモデルは、部分的には貯水池の変動を伴うため、ゆらぎと散逸の関係に従う。 しかし, 上述の長期的破壊効果を防止するためには, 貯水池の変動をシンクモデルの非物理的特性に付与する必要がある。 どちらのモデルでも、省略された貯水池のゆらぎの追加は、物理的に一貫した挙動をもたらす。 しかし、この振る舞いは非古典性や絡み合いの段階的な損失を予測する。 したがって、減衰に関連する貯留層揺らぎの影響は増幅に関連するものでは補償できない。

We show that the loss of nonclassicality (including quantum entanglement) cannot be compensated by the (incoherent) amplification of PT-symmetric systems. We address this problem by manipulating the quantum fluctuating forces in the Heisenberg-Langevin approach. Specifically, we analyze the dynamics of two nonlinearly coupled oscillator modes in a PT-symmetric system. An analytical solution allows us to separate the contribution of reservoir fluctuations from the evolution of quantum statistical properties of the modes. In general, as reservoir fluctuations act constantly, the complete loss of nonclassicality and entanglement is observed for long times. To elucidate the role of reservoir fluctuations in a long-time evolution of nonclassicality and entanglement, we consider and compare the predictions from two alternative models in which no fatal long-time detrimental effects on the nonclassicality and entanglement are observed. This is so as, in the first semiclassical model, no reservoir fluctuations are considered at all. This, however, violates the fluctuation-dissipation theorem. The second, more elaborated, model obeys the fluctuation-dissipation relations as it partly involves reservoir fluctuations. However, to prevent from the above long-time detrimental effects, the reservoir fluctuations have to be endowed with the nonphysical properties of a sink model. In both models, additional incorporation of the omitted reservoir fluctuations results in their physically consistent behavior. This behavior, however, predicts the gradual loss of the nonclassicality and entanglement. Thus the effects of reservoir fluctuations related to damping cannot be compensated by those related to amplification.
翻訳日:2023-02-09 15:16:29 公開日:2023-02-08
# SkyEye:単眼正面画像を用いた自己監督型鳥の目視意味マッピング

SkyEye: Self-Supervised Bird's-Eye-View Semantic Mapping Using Monocular Frontal View Images ( http://arxiv.org/abs/2302.04233v1 )

ライセンス: Link先を確認
Nikhil Gosala, K\"ursat Petek, Paulo L. J. Drews-Jr, Wolfram Burgard, Abhinav Valada(参考訳) Bird's-Eye-View (BEV)セマンティックマップは、意思決定タスクに豊富な表現を提供するため、自動走行パイプラインの重要なコンポーネントとなっている。 しかしながら、これらのマップを生成する既存のアプローチは、完全に教師付きトレーニングパラダイムに従っているため、大量の注釈付きBEVデータに依存している。 本研究では,この限界に対処するために,正面からの単一単眼画像(FV)を用いたBEVセマンティックマップを生成するための,最初の自己教師型アプローチを提案する。 トレーニング中、ビデオシーケンスのより容易に利用できるFVセマンティックアノテーションを活用することで、BEVの基底真理アノテーションの必要性を克服する。 そこで我々は,暗黙の監督と明示的な監督という2つのモードに基づいて学習するSkyEyeアーキテクチャを提案する。 暗黙の監督は、FVセマンティックシーケンスに基づいてシーンの空間的一貫性を時間とともに強制し、明示的な監督は、FVセマンティックアノテーションと自己監督深度推定から生成されたBEV疑似ラベルを活用する。 kitti-360データセットの広範な評価は、我々の自己監督アプローチが最先端の完全監督手法と同等の性能を発揮し、完全に監督されたアプローチと比較してbevの直接監督のわずか1%で競争結果を達成していることを示している。 最後に、KITTI-360およびWaymoデータセットから生成されたコードとBEVデータセットの両方を公開します。

Bird's-Eye-View (BEV) semantic maps have become an essential component of automated driving pipelines due to the rich representation they provide for decision-making tasks. However, existing approaches for generating these maps still follow a fully supervised training paradigm and hence rely on large amounts of annotated BEV data. In this work, we address this limitation by proposing the first self-supervised approach for generating a BEV semantic map using a single monocular image from the frontal view (FV). During training, we overcome the need for BEV ground truth annotations by leveraging the more easily available FV semantic annotations of video sequences. Thus, we propose the SkyEye architecture that learns based on two modes of self-supervision, namely, implicit supervision and explicit supervision. Implicit supervision trains the model by enforcing spatial consistency of the scene over time based on FV semantic sequences, while explicit supervision exploits BEV pseudolabels generated from FV semantic annotations and self-supervised depth estimates. Extensive evaluations on the KITTI-360 dataset demonstrate that our self-supervised approach performs on par with the state-of-the-art fully supervised methods and achieves competitive results using only 1% of direct supervision in the BEV compared to fully supervised approaches. Finally, we publicly release both our code and the BEV datasets generated from the KITTI-360 and Waymo datasets.
翻訳日:2023-02-09 15:16:07 公開日:2023-02-08
# 変分推論としてのフェデレーション学習:スケーラブルな期待伝播アプローチ

Federated Learning as Variational Inference: A Scalable Expectation Propagation Approach ( http://arxiv.org/abs/2302.04228v1 )

ライセンス: Link先を確認
Han Guo, Philip Greengard, Hongyi Wang, Andrew Gelman, Yoon Kim, Eric P. Xing(参考訳) 連合学習の標準的な定式化は、モデルパラメータをクライアントの損失関数を分解するグローバルな損失関数に対して最適化する分散最適化問題として扱う。 最近の代替案では、分散推論問題としてフェデレート学習を扱い、分割されたクライアントデータ(al-shedivat et al., 2021)からグローバル後方を推測することが目標となっている。 本稿では, 推論の観点を拡張し, 真の後部をよく近似する大域的変動後部を見つけることを目標とするフェデレーション学習の変分推論の定式化について述べる。 これは、中央サーバとクライアント間の確率的メッセージパッシングによって、グローバルな後部への近似を反復的に洗練するフェデレーション学習(FedEP)への期待伝播アプローチを自然に動機付けている。 我々は,様々なアルゴリズム的考察を通じて広範な実証研究を行い,期待伝播を現代的フェデレーション環境に拡大するための実践的戦略について述べる。 我々は、FedEPを標準フェデレーション学習ベンチマークに適用し、収束速度と精度の両方において、強いベースラインを上回ります。

The canonical formulation of federated learning treats it as a distributed optimization problem where the model parameters are optimized against a global loss function that decomposes across client loss functions. A recent alternative formulation instead treats federated learning as a distributed inference problem, where the goal is to infer a global posterior from partitioned client data (Al-Shedivat et al., 2021). This paper extends the inference view and describes a variational inference formulation of federated learning where the goal is to find a global variational posterior that well-approximates the true posterior. This naturally motivates an expectation propagation approach to federated learning (FedEP), where approximations to the global posterior are iteratively refined through probabilistic message-passing between the central server and the clients. We conduct an extensive empirical study across various algorithmic considerations and describe practical strategies for scaling up expectation propagation to the modern federated setting. We apply FedEP on standard federated learning benchmarks and find that it outperforms strong baselines in terms of both convergence speed and accuracy.
翻訳日:2023-02-09 15:15:41 公開日:2023-02-08
# 倫理の計算複雑性について:心と機械に対する道徳的トラクタビリティ

On the Computational Complexity of Ethics: Moral Tractability for Minds and Machines ( http://arxiv.org/abs/2302.04218v1 )

ライセンス: Link先を確認
Jakob Stenseke(参考訳) なぜ道徳哲学者、道徳心理学者、機械倫理学者は計算複雑性を気にすべきなのか? 倫理領域の問題を解決するために人工知能(AI)が使えるかどうかについての議論は、主に人間の能力の観点からAIができることとできないことによって進められてきた。 本稿では,計算システムでできることやできないことに基づいて,どのようなモラルマシンが可能かを検討することで,他方からこの問題に取り組む。 そのため、計算複雑性のレンズを通して規範的倫理を分析する。 まず,非開始読者に計算複雑性を導入し,marrの3つの分析レベルにおいて倫理的問題の複雑さがどのようにフレーム化されるかについて議論する。 次に,問題そのものに関連する複雑性(組合せ論,不確実性,戦略的ダイナミクスなど),採用される計算方法(確率,論理学,学習など),利用可能な資源(時間,知識,学習など)を明らかにすることを目的として,帰属主義,デオントロジー,美徳倫理に基づく倫理的問題の研究を行った。 その結果、規範的なフレームワークがもたらすほとんどの問題は、分析されたすべてのカテゴリにおけるトラクタビリティの問題に繋がることがわかった。 また,ルールと結果に基づくモラル戦略の相違や,モラル資源に関する実装のばらつきなど,規範的倫理の計算的性質に関するいくつかの知見を提供する。 次に、最適性と効率のトレードオフにより、複雑性の結果がモラルマシンの展望にもたらす結果について議論する。 最後に,Moral Tractability Thesis(MTT)を推し進めることで,人間の道徳に関する哲学的・認知心理学的な研究に計算複雑性がいかに役立つかを明らかにする。

Why should moral philosophers, moral psychologists, and machine ethicists care about computational complexity? Debates on whether artificial intelligence (AI) can or should be used to solve problems in ethical domains have mainly been driven by what AI can or cannot do in terms of human capacities. In this paper, we tackle the problem from the other end by exploring what kind of moral machines are possible based on what computational systems can or cannot do. To do so, we analyze normative ethics through the lens of computational complexity. First, we introduce computational complexity for the uninitiated reader and discuss how the complexity of ethical problems can be framed within Marr's three levels of analysis. We then study a range of ethical problems based on consequentialism, deontology, and virtue ethics, with the aim of elucidating the complexity associated with the problems themselves (e.g., due to combinatorics, uncertainty, strategic dynamics), the computational methods employed (e.g., probability, logic, learning), and the available resources (e.g., time, knowledge, learning). The results indicate that most problems the normative frameworks pose lead to tractability issues in every category analyzed. Our investigation also provides several insights about the computational nature of normative ethics, including the differences between rule- and outcome-based moral strategies, and the implementation-variance with regard to moral resources. We then discuss the consequences complexity results have for the prospect of moral machines in virtue of the trade-off between optimality and efficiency. Finally, we elucidate how computational complexity can be used to inform both philosophical and cognitive-psychological research on human morality by advancing the Moral Tractability Thesis (MTT).
翻訳日:2023-02-09 15:15:19 公開日:2023-02-08
# 3kiToffoliゲートを用いた周波数領域分子応答特性の量子計算

Quantum Computation of Frequency-Domain Molecular Response Properties Using a Three-Qubit iToffoli Gate ( http://arxiv.org/abs/2302.04271v1 )

ライセンス: Link先を確認
Shi-Ning Sun, Brian Marinelli, Jin Ming Koh, Yosep Kim, Long B. Nguyen, Larry Chen, John Mark Kreikebaum, David I. Santiago, Irfan Siddiqi, Austin J. Minnich(参考訳) 短期量子ハードウェアにおける分子応答特性の量子計算は重要な関心事である。 時間領域応答特性の計算は、量子コンピュータがユニタリ時間発展をシミュレートする自然な能力のため、原理的には単純であるが、回路深度の制限はシミュレーション可能な最大時間と周波数領域特性の抽出を制限する。 そのため、周波数領域で直接計算することが望ましいが、回路は1ビットと2ビットのゲートからなる典型的なハードウェアゲートセットを使用する場合、大きな深さを必要とする。 本稿では,3量子ビットイトフォリゲートを用いて,二原子分子の応答特性を周波数領域内で直接計算し,回路の深さを2倍に低減する実験を行った。 iToffoli ゲートで得られた分子特性は,CZ ゲートで得られた分子特性よりも理論と同等かそれ以上の一致を示した。 我々の研究は、量子シミュレーションにおけるネイティブなマルチキュービットゲートの実用的利用の初歩的な実証であり、近未来のデジタル量子コンピュータ上での量子多体システムのシミュレーションに様々な可能性を持つ。

The quantum computation of molecular response properties on near-term quantum hardware is a topic of significant interest. While computing time-domain response properties is in principle straightforward due to the natural ability of quantum computers to simulate unitary time evolution, circuit depth limitations restrict the maximum time that can be simulated and hence the extraction of frequency-domain properties. Computing properties directly in the frequency domain is therefore desirable, but the circuits require large depth when the typical hardware gate set consisting of single- and two-qubit gates is used. Here, we report the experimental quantum computation of the response properties of diatomic molecules directly in the frequency domain using a three-qubit iToffoli gate, enabling a reduction in circuit depth by a factor of two. We show that the molecular properties obtained with the iToffoli gate exhibit comparable or better agreement with theory than those obtained with the native CZ gates. Our work is among the first demonstrations of the practical usage of a native multi-qubit gate in quantum simulation, with diverse potential applications to the simulation of quantum many-body systems on near-term digital quantum computers.
翻訳日:2023-02-09 15:09:04 公開日:2023-02-08
# 言語を用いた視覚モデルの診断と修正

Diagnosing and Rectifying Vision Models using Language ( http://arxiv.org/abs/2302.04269v1 )

ライセンス: Link先を確認
Yuhui Zhang, Jeff Z. HaoChen, Shih-Cheng Huang, Kuan-Chieh Wang, James Zou, Serena Yeung(参考訳) 近年のマルチモーダルコントラスト学習モデルでは,大規模画像キャプチャデータセットのリッチ情報を活用することで,強力な視覚分類器の構築に適した埋め込み空間を学習できることが実証されている。 我々の研究は、このマルチモーダル埋め込み空間の明確な利点として、自然言語で視覚分類器を診断する能力を挙げている。 デプロイメント設定でモデル動作を診断する従来のプロセスには、労働集約的なデータ取得とアノテーションが含まれる。 提案手法では,高エラーデータスライスを検出し,影響のある属性を識別し,望ましくないモデルの動作をさらに修正することができる。 理論的説明と経験的検証の組み合わせにより、あるモダリティからの埋め込みを訓練した分類器が別のモダリティからの埋め込みに等価に適用できる条件を示す。 既知の誤りスライスを含む画像データセットにおいて,本手法は誤りスライスと影響属性を効果的に識別し,さらに言語を用いて分類器の故障モードを修正できることを実証する。

Recent multi-modal contrastive learning models have demonstrated the ability to learn an embedding space suitable for building strong vision classifiers, by leveraging the rich information in large-scale image-caption datasets. Our work highlights a distinct advantage of this multi-modal embedding space: the ability to diagnose vision classifiers through natural language. The traditional process of diagnosing model behaviors in deployment settings involves labor-intensive data acquisition and annotation. Our proposed method can discover high-error data slices, identify influential attributes and further rectify undesirable model behaviors, without requiring any visual data. Through a combination of theoretical explanation and empirical verification, we present conditions under which classifiers trained on embeddings from one modality can be equivalently applied to embeddings from another modality. On a range of image datasets with known error slices, we demonstrate that our method can effectively identify the error slices and influential attributes, and can further use language to rectify failure modes of the classifier.
翻訳日:2023-02-09 15:08:45 公開日:2023-02-08
# PFGM++:物理にインスパイアされた生成モデルの可能性を解き放つ

PFGM++: Unlocking the Potential of Physics-Inspired Generative Models ( http://arxiv.org/abs/2302.04265v1 )

ライセンス: Link先を確認
Yilun Xu, Ziming Liu, Yonglong Tian, Shangyuan Tong, Max Tegmark, Tommi Jaakkola(参考訳) 本稿では,拡散モデルとポアソンフロー生成モデル(pfgm)を統合した新しい物理モデルpfgm++を紹介する。 これらのモデルは、$n{+}d$ 次元空間に経路を埋め込みながら、$d$ 付加変数の単純なスカラーノルムで進行を制御することで、$n$ 次元データの生成軌道を実現する。 新しいモデルは、$d{=}1$のときはpfgmに、$d{\to}\infty$の時は拡散モデルに縮小される。 $D$を選択する柔軟性は、データと追加の変数ノルムとのより密結合をもたらすため、剛性に対して堅牢性をトレードオフすることができる。 我々は、PFGMで使用される大きなバッチフィールドターゲットのバイアスを省き、拡散モデルと同様のバイアスのない摂動に基づく目的を提供する。 D$の異なる選択を探索するために、よく調整されたハイパーパラメータを拡散モデル(D{\to} \infty$)から任意の有限$D$値に転送する直接アライメント法を提供する。 実験によれば、有限$d$を持つモデルは、cifar-10/ffhq 6.4{\times}64$データセット上の以前の最先端の拡散モデルよりも優れており、$d{=}2048/128$の場合、fidスコアは1.91/2.43$である。 さらに,$d$の小さいモデルでは,モデリングエラーに対するロバスト性が向上することを示す。 コードはhttps://github.com/Newbeeer/pfgmppで入手できる。

We introduce a new family of physics-inspired generative models termed PFGM++ that unifies diffusion models and Poisson Flow Generative Models (PFGM). These models realize generative trajectories for $N$ dimensional data by embedding paths in $N{+}D$ dimensional space while still controlling the progression with a simple scalar norm of the $D$ additional variables. The new models reduce to PFGM when $D{=}1$ and to diffusion models when $D{\to}\infty$. The flexibility of choosing $D$ allows us to trade off robustness against rigidity as increasing $D$ results in more concentrated coupling between the data and the additional variable norms. We dispense with the biased large batch field targets used in PFGM and instead provide an unbiased perturbation-based objective similar to diffusion models. To explore different choices of $D$, we provide a direct alignment method for transferring well-tuned hyperparameters from diffusion models ($D{\to} \infty$) to any finite $D$ values. Our experiments show that models with finite $D$ can be superior to previous state-of-the-art diffusion models on CIFAR-10/FFHQ $64{\times}64$ datasets, with FID scores of $1.91/2.43$ when $D{=}2048/128$. In addition, we demonstrate that models with smaller $D$ exhibit improved robustness against modeling errors. Code is available at https://github.com/Newbeeer/pfgmpp
翻訳日:2023-02-09 15:08:28 公開日:2023-02-08
# nerfstudio:neural radiance field developmentのためのモジュラーフレームワーク

Nerfstudio: A Modular Framework for Neural Radiance Field Development ( http://arxiv.org/abs/2302.04264v1 )

ライセンス: Link先を確認
Matthew Tancik, Ethan Weber, Evonne Ng, Ruilong Li, Brent Yi, Justin Kerr, Terrance Wang, Alexander Kristoffersen, Jake Austin, Kamyar Salahi, Abhik Ahuja, David McAllister, and Angjoo Kanazawa(参考訳) Neural Radiance Fields (NeRF) は、コンピュータビジョン、グラフィックス、ロボティクスなどの幅広い応用分野において急速に成長している研究分野である。 nerf研究の開発と展開を効率化するために,我々はモジュール型pytorchフレームワークであるnerfstudioを提案する。 我々のフレームワークにはNeRFベースの手法を実装するためのプラグイン・アンド・プレイコンポーネントが含まれており、研究者や実践者が彼らのプロジェクトにNeRFを簡単に組み込むことができる。 さらにモジュール設計では、広範なリアルタイム可視化ツールのサポート、取得したデータをインポートするためのパイプラインの合理化、ビデオやポイントクラウド、メッシュ表現へのエクスポートが可能になる。 nerfstudioのモジュール性により、最近の論文のコンポーネントを組み合わせることで、速度と品質のバランスを保ちつつ、将来の修正にも柔軟性を保ちながら、nerfactoの開発が可能になる。 コミュニティ主導の開発を促進するため、すべての関連コードとデータはhttps://nerf.studio.comでオープンソースライセンスで公開されている。

Neural Radiance Fields (NeRF) are a rapidly growing area of research with wide-ranging applications in computer vision, graphics, robotics, and more. In order to streamline the development and deployment of NeRF research, we propose a modular PyTorch framework, Nerfstudio. Our framework includes plug-and-play components for implementing NeRF-based methods, which make it easy for researchers and practitioners to incorporate NeRF into their projects. Additionally, the modular design enables support for extensive real-time visualization tools, streamlined pipelines for importing captured in-the-wild data, and tools for exporting to video, point cloud and mesh representations. The modularity of Nerfstudio enables the development of Nerfacto, our method that combines components from recent papers to achieve a balance between speed and quality, while also remaining flexible to future modifications. To promote community-driven development, all associated code and data are made publicly available with open-source licensing at https://nerf.studio.
翻訳日:2023-02-09 15:07:58 公開日:2023-02-08
# 機械学習におけるアルゴリズム的集団行動

Algorithmic Collective Action in Machine Learning ( http://arxiv.org/abs/2302.04262v1 )

ライセンス: Link先を確認
Moritz Hardt, Eric Mazumdar, Celestine Mendler-D\"unner, Tijana Zrnic(参考訳) 機械学習アルゴリズムをデプロイするデジタルプラットフォーム上でのアルゴリズム集合行動の原理的な研究を開始する。 本稿では,企業の学習アルゴリズムと相互作用する集合の理論モデルを提案する。 集団は参加者のデータをプールし、参加者に自身のデータを変更して集団目標を達成する方法を指示することにより、アルゴリズム戦略を実行する。 このモデルの結果を,非パラメトリック最適学習アルゴリズムの場合,パラメトリックリスク最小化器,勾配に基づく最適化という3つの基本的な学習理論的設定で検討した。 各設定において,協調的なアルゴリズム戦略を考案し,集合の大きさの関数として自然成功基準を特徴付ける。 本理論を補完し,フリーランサーのためのギグプラットフォームから数万の履歴書を含むスキル分類タスクを体系的に実験する。 BERTのような言語モデルによる2000以上のモデルトレーニングの実行を通じて、経験的観察と我々の理論による予測との間に顕著な対応が現れる。 我々の理論と実験は、極小のアルゴリズム集合がプラットフォームの学習アルゴリズムを著しく制御できるという結論を広く支持している。

We initiate a principled study of algorithmic collective action on digital platforms that deploy machine learning algorithms. We propose a simple theoretical model of a collective interacting with a firm's learning algorithm. The collective pools the data of participating individuals and executes an algorithmic strategy by instructing participants how to modify their own data to achieve a collective goal. We investigate the consequences of this model in three fundamental learning-theoretic settings: the case of a nonparametric optimal learning algorithm, a parametric risk minimizer, and gradient-based optimization. In each setting, we come up with coordinated algorithmic strategies and characterize natural success criteria as a function of the collective's size. Complementing our theory, we conduct systematic experiments on a skill classification task involving tens of thousands of resumes from a gig platform for freelancers. Through more than two thousand model training runs of a BERT-like language model, we see a striking correspondence emerge between our empirical observations and the predictions made by our theory. Taken together, our theory and experiments broadly support the conclusion that algorithmic collectives of exceedingly small fractional size can exert significant control over a platform's learning algorithm.
翻訳日:2023-02-09 15:07:39 公開日:2023-02-08
# テストのテスト: 異なるプライベートな仮説テストのためのフレームワーク

The Test of Tests: A Framework For Differentially Private Hypothesis Testing ( http://arxiv.org/abs/2302.04260v1 )

ライセンス: Link先を確認
Zeki Kazan, Kaiyan Shi, Adam Groce, Andrew Bray(参考訳) ブラックボックス方式で任意の仮説テストの差分プライベートバージョンを作成するための汎用フレームワークを提案する。 その結果を解析的および実験的に分析する。 最も重要なのは、小さなデータセットに対して優れた実用的なパフォーマンスを示し、epsilon = 1では、完全な公開設定の5~6倍のデータしか必要ありません。 私たちは、このタイプの既存のフレームワークと、個別に設計されたプライベート仮説テストを比較します。 私たちのフレームワークは他のジェネリックソリューションよりも強力で、少なくとも個別に設計されたテストと競合する(そしてしばしば優れている)。

We present a generic framework for creating differentially private versions of any hypothesis test in a black-box way. We analyze the resulting tests analytically and experimentally. Most crucially, we show good practical performance for small data sets, showing that at epsilon = 1 we only need 5-6 times as much data as in the fully public setting. We compare our work to the one existing framework of this type, as well as to several individually-designed private hypothesis tests. Our framework is higher power than other generic solutions and at least competitive with (and often better than) individually-designed tests.
翻訳日:2023-02-09 15:07:21 公開日:2023-02-08
# 位相空間における工学的アービタリーハミルトニアン

Engineering Arbitrary Hamiltonians in Phase Space ( http://arxiv.org/abs/2302.04257v1 )

ライセンス: Link先を確認
Lingzhen Guo and Vittorio Peano(参考訳) 非可換フーリエ変換(NcFT)に基づく周期駆動発振器のフロケ位相空間における任意のハミルトニアンを設計するための一般化手法を提案する。 位相空間における任意の対象フロケ・ハミルトニアンと実空間における周期的駆動ポテンシャルの関係を確立する。 実空間における駆動ポテンシャルの解析式は、位相空間、例えば回転格子やシャープ境界井戸において新しいハミルトニアンを生成することができる。 我々のプロトコルは、非古典的状態生成とボソニック量子計算のための様々な実験プラットフォームで実現できる。

We introduce a general method to engineer arbitrary Hamiltonians in the Floquet phase space of a periodically driven oscillator, based on the non-commutative Fourier transformation (NcFT) technique. We establish the relationship between an arbitrary target Floquet Hamiltonian in phase space and the periodic driving potential in real space. We obtain analytical expressions for the driving potentials in real space that can generate novel Hamiltonians in phase space, e.g., rotational lattices and sharp-boundary well. Our protocol can be realised in a range of experimental platforms for nonclassical states generation and bosonic quantum computation.
翻訳日:2023-02-09 15:07:10 公開日:2023-02-08
# 局所的非遺伝性からのスケールフリー局在とpt対称性の破れ

Scale-free localization and PT symmetry breaking from local non-Hermiticity ( http://arxiv.org/abs/2302.04256v1 )

ライセンス: Link先を確認
Bo Li, He-Ran Wang, Fei Song and Zhong Wang(参考訳) エルミート格子系における局所非エルミート摂動は、連続スペクトル固有状態のスケールフリーな局在をジェネリックに誘導する。 さらに、局所非エルミート摂動がパリティ時間(PT)対称性を楽しむとき、連続スペクトルのPT対称性の破れは常にスケールフリーな局在の出現を伴う。 このタイプのPT対称性の破れは境界条件に非常に敏感である: 周期系の連続スペクトルは非エルミート摂動が十分に強い限りPT対称性の破れを受けるが、開境界条件の下では、バンド構造がここで示される特定の条件を満たす場合にのみPT対称性の破れを許す。 また、PT対称性の破れが可能な正確なエネルギー窓を得る。 その結果,PT対称性と予期せぬ相互作用を持つ一般境界誘起非エルミート現象が明らかになった。

We show that a local non-Hermitian perturbation in a Hermitian lattice system generically induces scale-free localization for the continuous-spectrum eigenstates. Furthermore, when the local non-Hermitian perturbation enjoys parity-time (PT) symmetry, the PT symmetry breaking of continuous spectrum is always accompanied by the emergence of scale-free localization. This type of PT symmetry breaking is highly sensitive to boundary conditions: The continuous spectrum of a periodic system undergoes a PT symmetry breaking as long as the non-Hermitian perturbation is strong enough; however, the counterpart under open boundary condition allows PT symmetry breaking only when the band structure satisfies certain condition that we unveil here. We also obtain the precise energy window in which the PT symmetry breaking is possible. Our results uncover a generic boundary-induced non-Hermitian phenomenon, which has unexpected interplay with PT symmetry.
翻訳日:2023-02-09 15:06:59 公開日:2023-02-08
# 文脈適応と探索のための部分的MDPの推論法

Learning How to Infer Partial MDPs for In-Context Adaptation and Exploration ( http://arxiv.org/abs/2302.04250v1 )

ライセンス: Link先を確認
Chentian Jiang, Nan Rosemary Ke, Hado van Hasselt(参考訳) タスクを一般化するためには、エージェントは将来のタスクへの適応と探索を容易にする過去のタスクから知識を取得する必要がある。 我々は文脈内適応と探索の問題に焦点を当て、エージェントは状況、すなわち状態の歴史、行動、報酬にのみ依存する。 後続サンプリング(トンプソンサンプリングの拡張)は有望なアプローチであるが、ベイズ推論と動的プログラミングを必要とする。 これらの困難に対処するために、トランスフォーマは、トレーニングタスクから推論プロセスを学習し、動的プログラミングに安価である小さなマルコフ決定プロセスとして表される部分モデルの仮説空間を考える。 シンボリック・錬金術ベンチマーク(symbolal alchemy benchmark)の我々のバージョンでは、この手法の適応速度と探索・探索のバランスは、正確に後方サンプリングされたオラクルのそれに近い。 また、部分的なモデルが環境から関連する情報を除外したとしても、良い政策につながることも示している。

To generalize across tasks, an agent should acquire knowledge from past tasks that facilitate adaptation and exploration in future tasks. We focus on the problem of in-context adaptation and exploration, where an agent only relies on context, i.e., history of states, actions and/or rewards, rather than gradient-based updates. Posterior sampling (extension of Thompson sampling) is a promising approach, but it requires Bayesian inference and dynamic programming, which often involve unknowns (e.g., a prior) and costly computations. To address these difficulties, we use a transformer to learn an inference process from training tasks and consider a hypothesis space of partial models, represented as small Markov decision processes that are cheap for dynamic programming. In our version of the Symbolic Alchemy benchmark, our method's adaptation speed and exploration-exploitation balance approach those of an exact posterior sampling oracle. We also show that even though partial models exclude relevant information from the environment, they can nevertheless lead to good policies.
翻訳日:2023-02-09 15:06:42 公開日:2023-02-08
# クライアントの不均質性を考慮したフェデレーションミニマックス最適化

Federated Minimax Optimization with Client Heterogeneity ( http://arxiv.org/abs/2302.04249v1 )

ライセンス: Link先を確認
Pranay Sharma, Rohan Panda, Gauri Joshi(参考訳) ミニマックス最適化はgansのようなモダンなアプリケーションの出現によって関心が高まり、本質的には単純な最小化よりも困難である。 これらのクライアントがヘテロジニアスなデータセットとローカルな計算能力を持つことができる場合、複数のエッジデバイスに存在するトレーニングデータや \textit{clients} によって困難は悪化する。 そこで我々は,そのような設定とローカルSGDAなどの既存手法を仮定した,汎用的な最小限最適化フレームワークを提案する。 異種局所進行の自然な凝集は, 従来標準フェデレーションの最小化で見られた, 一致した目的関数を最適化する。 この問題を解決するため,連続する通信ラウンド間のローカルステップ数によるクライアント更新の正規化を提案する。 非凸凹関数と非凸凹関数のクラスに対する提案アルゴリズムの収束を解析し、不均一なクライアントデータ、部分的クライアント参加および不均一なローカル計算の影響を特徴づける。 本分析は,これまで文献で考えられてきたよりも,クライアント内ノイズとクライアント間不均一性について,より一般的な仮定のもとに行われる。 検討したすべての関数クラスに対して、既存の計算と通信の複雑さを著しく改善する。 実験結果は理論的な主張を支持する。

Minimax optimization has seen a surge in interest with the advent of modern applications such as GANs, and it is inherently more challenging than simple minimization. The difficulty is exacerbated by the training data residing at multiple edge devices or \textit{clients}, especially when these clients can have heterogeneous datasets and local computation capabilities. We propose a general federated minimax optimization framework that subsumes such settings and several existing methods like Local SGDA. We show that naive aggregation of heterogeneous local progress results in optimizing a mismatched objective function -- a phenomenon previously observed in standard federated minimization. To fix this problem, we propose normalizing the client updates by the number of local steps undertaken between successive communication rounds. We analyze the convergence of the proposed algorithm for classes of nonconvex-concave and nonconvex-nonconcave functions and characterize the impact of heterogeneous client data, partial client participation, and heterogeneous local computations. Our analysis works under more general assumptions on the intra-client noise and inter-client heterogeneity than so far considered in the literature. For all the function classes considered, we significantly improve the existing computation and communication complexity results. Experimental results support our theoretical claims.
翻訳日:2023-02-09 15:06:24 公開日:2023-02-08
# フェデレーション学習のためのワンショット経験的プライバシー推定

One-shot Empirical Privacy Estimation for Federated Learning ( http://arxiv.org/abs/2302.03098v2 )

ライセンス: Link先を確認
Galen Andrew, Peter Kairouz, Sewoong Oh, Alina Oprea, H. Brendan McMahan and Vinith Suriyakumar(参考訳) 差分プライベート(DP)アルゴリズムのプライバシー監査技術は、プライバシー損失を分析的境界と比較するために推定したり、DP損失に関する既知の分析的境界が厳密でない設定において、経験的にプライバシーを測定するのに有用である。 しかしながら、既存のプライバシ監査技術は、通常、敵に対して強い仮定(例えば、中間モデルイテレートの知識やトレーニングデータ分布)をし、特定のタスクやモデルアーキテクチャに合わせて調整され、モデルを何度も(通常は数千の順序で)再訓練する必要がある。 これらの欠点は,特にモデルトレーニングに数日ないし数週間を要する,フェデレートされた環境では,そのようなテクニックを実践的に大規模に展開することが難しくなる。 本研究では,これらの課題を体系的に解決し,モデルパラメータに適合する単一トレーニング実行において,モデルのプライバシ損失の効率的な監査や推定を可能にする,新しい"ワンショット"アプローチを提案する。 フェデレーション学習のためのプライバシ監査方法は,モデルアーキテクチャやタスクに関する事前知識を必要としない。 本手法は,gaussian機構下でのプライバシ損失の予測を確証できることを示すとともに,いくつかの敵モデルの下で確立されたflベンチマークデータセット上でその性能を実証する。

Privacy auditing techniques for differentially private (DP) algorithms are useful for estimating the privacy loss to compare against analytical bounds, or empirically measure privacy in settings where known analytical bounds on the DP loss are not tight. However, existing privacy auditing techniques usually make strong assumptions on the adversary (e.g., knowledge of intermediate model iterates or the training data distribution), are tailored to specific tasks and model architectures, and require retraining the model many times (typically on the order of thousands). These shortcomings make deploying such techniques at scale difficult in practice, especially in federated settings where model training can take days or weeks. In this work, we present a novel "one-shot" approach that can systematically address these challenges, allowing efficient auditing or estimation of the privacy loss of a model during the same, single training run used to fit model parameters. Our privacy auditing method for federated learning does not require a priori knowledge about the model architecture or task. We show that our method provides provably correct estimates for privacy loss under the Gaussian mechanism, and we demonstrate its performance on a well-established FL benchmark dataset under several adversarial models.
翻訳日:2023-02-09 12:22:09 公開日:2023-02-08
# TR3D:リアルタイム屋内3Dオブジェクト検出を目指して

TR3D: Towards Real-Time Indoor 3D Object Detection ( http://arxiv.org/abs/2302.02858v2 )

ライセンス: Link先を確認
Danila Rukhovich, Anna Vorontsova, Anton Konushin(参考訳) 近年,スパース3次元畳み込みは3次元物体検出に変化をもたらした。 投票ベースのアプローチと同等のパフォーマンスで、3D CNNはメモリ効率が高く、大きなシーンにスケールできる。 しかし、改善の余地はまだあります。 問題解決に対する意識的,実践指向的なアプローチにより,そのような手法の性能を分析し,弱点をローカライズする。 標準ベンチマークであるScanNet v2、SUN RGB-D、S3DISで最先端の結果を得る、高速で完全に畳み込まれた3Dオブジェクト検出モデルである。 さらに、ポイントクラウドとRGBの両方の入力を活用するために、2Dと3Dの早期融合を導入する。 我々は,従来の3次元物体検出手法をマルチモーダル化するためにfusionモジュールを用い,その性能向上を実証した。 TR3D+FFと呼ばれる初期の特徴融合モデルでは,SUN RGB-Dデータセット上で既存の3Dオブジェクト検出手法よりも優れている。 全体としては、正確性に加えて、tr3dモデルとtr3d+ffモデルの両方が軽量でメモリ効率が高く、高速であるため、リアルタイム3dオブジェクト検出に向けた新たなマイルストーンとなる。 コードはhttps://github.com/SamsungLabs/tr3dで入手できる。

Recently, sparse 3D convolutions have changed 3D object detection. Performing on par with the voting-based approaches, 3D CNNs are memory-efficient and scale to large scenes better. However, there is still room for improvement. With a conscious, practice-oriented approach to problem-solving, we analyze the performance of such methods and localize the weaknesses. Applying modifications that resolve the found issues one by one, we end up with TR3D: a fast fully-convolutional 3D object detection model trained end-to-end, that achieves state-of-the-art results on the standard benchmarks, ScanNet v2, SUN RGB-D, and S3DIS. Moreover, to take advantage of both point cloud and RGB inputs, we introduce an early fusion of 2D and 3D features. We employ our fusion module to make conventional 3D object detection methods multimodal and demonstrate an impressive boost in performance. Our model with early feature fusion, which we refer to as TR3D+FF, outperforms existing 3D object detection approaches on the SUN RGB-D dataset. Overall, besides being accurate, both TR3D and TR3D+FF models are lightweight, memory-efficient, and fast, thereby marking another milestone on the way toward real-time 3D object detection. Code is available at https://github.com/SamsungLabs/tr3d .
翻訳日:2023-02-09 12:21:47 公開日:2023-02-08
# FastPillars: デプロイフレンドリーなPillarベースの3D検出器

FastPillars: A Deployment-friendly Pillar-based 3D Detector ( http://arxiv.org/abs/2302.02367v3 )

ライセンス: Link先を確認
Sifan Zhou, Zhi Tian, Xiangxiang Chu, Xinyu Zhang, Bo Zhang, Xiaobo Lu, Chengjian Feng, Zequn Jie, Patrick Yin Chiang, Lin Ma(参考訳) 3D検出器の配備は、現実の自動運転シナリオにおける大きな課題の1つとなる。 既存のbevベースの検出器(バードアイビュー)は、トレーニングと推論をスピードアップするためにスパース畳み込み(spconvとして知られる)を好む。 本稿では,LiDAR点雲からの効率的な3次元物体検出の問題に,展開を念頭において取り組む。 計算負荷を低減するため,ファストパイラーと呼ばれる産業的観点から高い性能の柱型3D検出器を提案する。 従来の手法と比較して,より効果的なMAPE(Max-and-Attention column encoding)モジュールを導入し,CSP(Cross Stage partial network)を組み込んだ強力なバックボーンCRVNetを再設計し,コンパクトな特徴表現フレームワークを構築する。 私たちのFastPillarsは、デバイス上のスピードと性能の両方に関して、最先端の3D検出器を超えています。 具体的には、FastPillarsはTensorRTを通じて効果的にデプロイでき、nuScenesテストセット上で64.6 mAPの単一RTX3070TiGPU上でリアルタイムパフォーマンス(24FPS)を得ることができる。 私たちのコードは、https://github.com/StiphyJay/FastPillars.comで公開されています。

The deployment of 3D detectors strikes one of the major challenges in real-world self-driving scenarios. Existing BEV-based (i.e., Bird Eye View) detectors favor sparse convolution (known as SPConv) to speed up training and inference, which puts a hard barrier for deployment especially for on-device applications. In this paper, we tackle the problem of efficient 3D object detection from LiDAR point clouds with deployment in mind. To reduce computational burden, we propose a pillar-based 3D detector with high performance from an industry perspective, termed FastPillars. Compared with previous methods, we introduce a more effective Max-and-Attention pillar encoding (MAPE) module, and redesigning a powerful and lightweight backbone CRVNet imbued with Cross Stage Partial network (CSP) in a reparameterization style, forming a compact feature representation framework. Extensive experiments demonstrate that our FastPillars surpasses the state-of-the-art 3D detectors regarding both on-device speed and performance. Specifically, FastPillars can be effectively deployed through TensorRT, obtaining real-time performance (24FPS) on a single RTX3070Ti GPU with 64.6 mAP on the nuScenes test set. Our code is publicly available at: https://github.com/StiphyJay/FastPillars.
翻訳日:2023-02-09 12:21:22 公開日:2023-02-08
# 自然言語処理による否定検出と単語曖昧化に対する意味論的アプローチ

A Semantic Approach to Negation Detection and Word Disambiguation with Natural Language Processing ( http://arxiv.org/abs/2302.02291v2 )

ライセンス: Link先を確認
Izunna Okpala, Guillermo Romera Rodriguez, Andrea Tapia, Shane Halse, Jess Kropczynski(参考訳) 本研究では,文章の語彙構造を単語感覚の曖昧さによって一意に評価し,文中の否定を検出する方法を示す。 さらに,文の文脈的使用と否定が感情分析に与える影響を解明するため,テキスト内の関連表現の特徴をすべて検討した。 一般的な表現検出装置の適用は、この重要なステップを省略し、否定のWebで捕捉される根語を無視し、機械学習や感情分析においてテキスト分類を困難にする。 本研究は自然言語処理(NLP)アプローチを用いて,テキスト分類の精度向上のために否定された単語の発見とアントロマイズを行う。 この方法は、否定信号を検出するために、WordHoardと呼ばれるNLPライブラリが提供する知識ベースを用いて、与えられた単語列を読み取るレンズとして機能する。 初期の結果は,単語否定を無視したり,逆極性スコアを割り当てたりする従来の感情分析を改善したことを示している。 sentiwordnet analyzerは35%、vader analyzerは20%、textblob analyzerは6%改善した。

This study aims to demonstrate the methods for detecting negations in a sentence by uniquely evaluating the lexical structure of the text via word sense disambiguation. Additionally, the proposed method examined all the unique features of the related expressions within a text to resolve the contextual usage of the sentence and the effect of negation on sentiment analysis. The application of popular expression detectors skips this important step, thereby neglecting the root words caught in the web of negation, and making text classification difficult for machine learning and sentiment analysis. This study adopts the Natural Language Processing (NLP) approach to discover and antonimize words that were negated for better accuracy in text classification. This method acts as a lens that reads through a given word sequence using a knowledge base provided by an NLP library called WordHoard in order to detect negation signals. Early results show that our initial analysis improved traditional sentiment analysis that sometimes neglects word negations or assigns an inverse polarity score. The SentiWordNet analyzer was improved by 35%, the Vader analyzer by 20% and the TextBlob analyzer by 6%.
翻訳日:2023-02-09 12:20:58 公開日:2023-02-08
# テキスト・画像モデルにおけるジェンダー提示の違い

Auditing Gender Presentation Differences in Text-to-Image Models ( http://arxiv.org/abs/2302.03675v2 )

ライセンス: Link先を確認
Yanzhe Zhang, Lu Jiang, Greg Turk, Diyi Yang(参考訳) テキスト入力に基づいて高品質な画像を生成するtext-to-imageモデルが先日,さまざまなコンテンツ生成ツールの提供を開始した。 幅広いダウンストリームアプリケーションに大きな影響を与えるにもかかわらず、生成した画像の分布は、特に異なる性別の潜在的ステレオタイプ特性に関して、まだ完全には理解されていない。 本研究では,細粒度自己表現属性を用いて,テキスト対画像モデルにおける性別の表現方法を検討するパラダイム(生成表現の違い)を提案する。 入力テキスト(例:「女性」または「男性」)の性別指標を探索することにより、人間のアノテーションを通してプレゼンテーション中心属性(例:「シャツ」と「ドレス」)の頻度差を定量化し、新しい指標「GEP」を導入する。 さらに,このような差異を推定する自動手法を提案する。 提案手法に基づく自動gepメトリクスは,既存のクリップスコアよりも人間のアノテーションとの相関度が高く,3つの最先端テキスト対画像モデルに一貫性がある。 最後に,職業に関連するジェンダーステレオタイプの文脈において,指標の一般化能力を示す。

Text-to-image models, which can generate high-quality images based on textual input, have recently enabled various content-creation tools. Despite significantly affecting a wide range of downstream applications, the distributions of these generated images are still not fully understood, especially when it comes to the potential stereotypical attributes of different genders. In this work, we propose a paradigm (Gender Presentation Differences) that utilizes fine-grained self-presentation attributes to study how gender is presented differently in text-to-image models. By probing gender indicators in the input text (e.g., "a woman" or "a man"), we quantify the frequency differences of presentation-centric attributes (e.g., "a shirt" and "a dress") through human annotation and introduce a novel metric: GEP. Furthermore, we propose an automatic method to estimate such differences. The automatic GEP metric based on our approach yields a higher correlation with human annotations than that based on existing CLIP scores, consistently across three state-of-the-art text-to-image models. Finally, we demonstrate the generalization ability of our metrics in the context of gender stereotypes related to occupations.
翻訳日:2023-02-09 12:13:29 公開日:2023-02-08
# テキスト進化における活用と探索。 執筆時の計画と翻訳の流れの定量化

Exploitation and exploration in text evolution. Quantifying planning and translation flows during writing ( http://arxiv.org/abs/2302.03645v2 )

ライセンス: Link先を確認
Donald Ruggiero Lo Sardo, Pietro Gravino, Christine Cuskley and Vittorio Loreto(参考訳) 執筆は現代の人間の活動の中心にある複雑なプロセスである。 線形過程のように見えるが、書込みは多くの非線型過程を隠蔽している。 これまでの研究は、計画、翻訳、書き起こし、改訂という3つの段階に焦点を当ててきた。 研究はこれらが非線形であることを示したが、測定するとしばしば直線的に扱われる。 本稿では、執筆過程における計画(探索)と翻訳(探索)のサブサイクルの検出と定量化について紹介する。 これらを,テキスト作成のすべての段階を記録した新しいデータセットに適用し,初期試行から最終版への仕上げまでに適用する。 このデータセットは、革新的なバージョニングソフトウェアを通じて、テキスト構築のすべてのステップを記録することができる一連のライティングワークショップから来ています。 60人以上の若手研究者が一般読者のための科学的エッセイを書いた。 各エッセイを筆記クラウドとして記録し,エッセイの歴史を捉えた複雑な位相構造として定義した。 クラウドを書くというこのユニークなデータセットを通じて、その複雑さと、ドラフト全体および時間を通じて作者の努力を定量化する、書き込みプロセスの表現を公開します。 興味深いことに、この表現は、著者が既存のアイデアを改善する「翻訳フロー」のフェーズと、ライターが計画フェーズに戻ると創造的な偏差が現れる探索を強調する。 翻訳と探索の間の転換点は、執筆プロセスが進むにつれて稀になり、著者は最終版に近づいた。 本稿の結果と導入した新しい尺度は,執筆の非線形性に関する議論を促進させ,より創造的で影響力のある執筆プロセスを支援するツールの開発を支援する可能性を秘めている。

Writing is a complex process at the center of much of modern human activity. Despite it appears to be a linear process, writing conceals many highly non-linear processes. Previous research has focused on three phases of writing: planning, translation and transcription, and revision. While research has shown these are non-linear, they are often treated linearly when measured. Here, we introduce measures to detect and quantify subcycles of planning (exploration) and translation (exploitation) during the writing process. We apply these to a novel dataset that recorded the creation of a text in all its phases, from early attempts to the finishing touches on a final version. This dataset comes from a series of writing workshops in which, through innovative versioning software, we were able to record all the steps in the construction of a text. More than 60 junior researchers in science wrote a scientific essay intended for a general readership. We recorded each essay as a writing cloud, defined as a complex topological structure capturing the history of the essay itself. Through this unique dataset of writing clouds, we expose a representation of the writing process that quantifies its complexity and the writer's efforts throughout the draft and through time. Interestingly, this representation highlights the phases of "translation flow", where authors improve existing ideas, and exploration, where creative deviations appear as the writer returns to the planning phase. These turning points between translation and exploration become rarer as the writing process progresses and the author approaches the final version. Our results and the new measures introduced have the potential to foster the discussion about the non-linear nature of writing and support the development of tools that can support more creative and impactful writing processes.
翻訳日:2023-02-09 12:13:09 公開日:2023-02-08
# 生体信号と浅部機械学習によるハンチントン病予後自動診断

Automated Huntington's Disease Prognosis via Biomedical Signals and Shallow Machine Learning ( http://arxiv.org/abs/2302.03605v2 )

ライセンス: Link先を確認
Sucheer Maddury(参考訳) 背景:ハンティントン病(Huntington's disease, HD)は、患者の寿命を制限する希少で遺伝的に決定された脳疾患であるが、HDの早期予後は患者の生活の質を大幅に向上させる。 現在のHD予後法には、臨床および画像因子などの様々な複雑なバイオマーカーの使用が含まれるが、これらの手法には、そのリソース需要や、症状や非症状の患者を区別できないことなど、多くの欠点がある。 定量的なバイオメディカルシグナルは統合失調症などの他の神経疾患の診断に使われ、hd患者の異常を暴露する可能性がある。 方法: 本研究では, 心電図, 心電図, 機能的近赤外分光データを用いて, 27例のHD陽性患者, 36例, 不明6例の診療所で収集した既製の認定データセットを用いて検討した。 最初にデータを前処理し、変換信号と生信号の両方から様々な特徴を抽出し、その後、多くの浅い機械学習技術を適用した。 結果: 最大精度は, 0.963の受信子演算子の曲線下, 91.353%の精度で, スケールアウトした極ランダム化木アルゴリズムにより達成された。 その後の機能分析の結果、60.865%がp<0.05であり、生信号の特徴が最も重要であることがわかった。 結論: この結果から,hdの異常をマークする神経信号と心臓信号の有望性,および疾患の進行状況の評価が得られた。

Background: Huntington's disease (HD) is a rare, genetically determined brain disorder that limits the life of the patient, although early prognosis of HD can substantially improve the patient's quality of life. Current HD prognosis methods include using a variety of complex biomarkers such as clinical and imaging factors, however these methods have many shortfalls, such as their resource demand and failure to distinguish symptomatic and asymptomatic patients. Quantitative biomedical signaling has been used for diagnosis of other neurological disorders such as schizophrenia and has potential for exposing abnormalities in HD patients. Methodology: In this project, we used a premade, certified dataset collected at a clinic with 27 HD positive patients, 36 controls, and 6 unknowns with electroencephalography, electrocardiography, and functional near-infrared spectroscopy data. We first preprocessed the data and extracted a variety of features from both the transformed and raw signals, after which we applied a plethora of shallow machine learning techniques. Results: We found the highest accuracy was achieved by a scaled-out Extremely Randomized Trees algorithm, with area under the curve of the receiver operator characteristic of 0.963 and accuracy of 91.353%. The subsequent feature analysis showed that 60.865% of the features had p<0.05, with the features from the raw signal being most significant. Conclusion: The results indicate the promise of neural and cardiac signals for marking abnormalities in HD, as well as evaluating the progression of the disease in patients.
翻訳日:2023-02-09 12:12:45 公開日:2023-02-08
# アラビア語のエンティティ認識に関する調査:過去・最近の進歩・将来の動向

A Survey on Arabic Named Entity Recognition: Past, Recent Advances, and Future Trends ( http://arxiv.org/abs/2302.03512v2 )

ライセンス: Link先を確認
Xiaoye Qu, Yingjie Gu, Qingrong Xia, Zechang Li, Zhefeng Wang, Baoxing Huai(参考訳) アラビア語のテキストがインターネット上に出現するにつれ、これらのアラビア語のテキストから重要な情報を抽出することは特に有用である。 基本的な技術として、名前付きエンティティ認識(NER)は情報抽出技術のコアコンポーネントとして機能し、質問応答や知識グラフ構築など多くの自然言語処理(NLP)システムにおいて重要な役割を果たす。 本稿では,アラビア語nerの開発,特にディープラーニングと事前学習型言語モデルにおける最近の進歩について概観する。 具体的には、アラビア語 NER の背景として、アラビア語 NER の特徴や、アラビア語 NER の既存の資源について紹介する。 そこで我々はアラビアNER法の開発を体系的にレビューした。 伝統的なアラビア語のNERシステムは機能工学とドメイン固有のルールの設計に重点を置いている。 近年,テキストを連続ベクトル表現で表現することで,深層学習が大きな進歩を遂げている。 事前訓練された言語モデルの成長に伴い、アラビア語のNERはより良いパフォーマンスを得る。 最後に,他の言語からのアラビアNER法とNER法のギャップを解消し,アラビアNERの今後の方向性を概説する。

As more and more Arabic texts emerged on the Internet, extracting important information from these Arabic texts is especially useful. As a fundamental technology, Named entity recognition (NER) serves as the core component in information extraction technology, while also playing a critical role in many other Natural Language Processing (NLP) systems, such as question answering and knowledge graph building. In this paper, we provide a comprehensive review of the development of Arabic NER, especially the recent advances in deep learning and pre-trained language model. Specifically, we first introduce the background of Arabic NER, including the characteristics of Arabic and existing resources for Arabic NER. Then, we systematically review the development of Arabic NER methods. Traditional Arabic NER systems focus on feature engineering and designing domain-specific rules. In recent years, deep learning methods achieve significant progress by representing texts via continuous vector representations. With the growth of pre-trained language model, Arabic NER yields better performance. Finally, we conclude the method gap between Arabic NER and NER methods from other languages, which helps outline future directions for Arabic NER.
翻訳日:2023-02-09 12:12:15 公開日:2023-02-08
# PAMI: モデル解釈のための分割入力と集約出力

PAMI: partition input and aggregate outputs for model interpretation ( http://arxiv.org/abs/2302.03318v2 )

ライセンス: Link先を確認
Wei Shi, Wentao Zhang, Weishi Zheng, Ruixuan Wang(参考訳) 特にリスクの高いアプリケーションでは,モデル予測の解釈に対する需要が高まっている。 特定のモデル予測に関連する入力の一部を推定するために,様々な可視化手法が提案されている。 しかし、ほとんどのアプローチは視覚化結果を得るためにモデル構造とパラメータの詳細を必要とし、一般に、モデルバックボーンと入力形式がタスクによって変化する場合、各アプローチを複数のタスクに適応させるのに多くの努力が必要である。 本研究では、深層学習モデルが局所的な特徴を集約してモデル予測を行うという観察に基づいて、PAMIと呼ばれる単純な視覚化フレームワークを提案する。 基本的な考え方は、入力の大部分をマスキングし、元のモデル予測に対する保存された入力部の相対的貢献として対応するモデル出力を使用することである。 各入力に対して、モデル出力の集合のみが収集され集約されるため、PAMIはモデルの詳細を一切必要とせず、異なるモデルバックボーンと入力形式で様々な予測タスクに適用できる。 複数のタスクに対する大規模な実験により,提案手法はクラス固有の入力領域をより正確に見つけることができ,異なるモデルバックボーンや入力形式に適用できる。 ソースコードは公開される予定だ。

There is an increasing demand for interpretation of model predictions especially in high-risk applications. Various visualization approaches have been proposed to estimate the part of input which is relevant to a specific model prediction. However, most approaches require model structure and parameter details in order to obtain the visualization results, and in general much effort is required to adapt each approach to multiple types of tasks particularly when model backbone and input format change over tasks. In this study, a simple yet effective visualization framework called PAMI is proposed based on the observation that deep learning models often aggregate features from local regions for model predictions. The basic idea is to mask majority of the input and use the corresponding model output as the relative contribution of the preserved input part to the original model prediction. For each input, since only a set of model outputs are collected and aggregated, PAMI does not require any model detail and can be applied to various prediction tasks with different model backbones and input formats. Extensive experiments on multiple tasks confirm the proposed method performs better than existing visualization approaches in more precisely finding class-specific input regions, and when applied to different model backbones and input formats. The source code will be released publicly.
翻訳日:2023-02-09 12:11:58 公開日:2023-02-08
# 構造雑音による非対称ランク1行列のミスマッチ推定

Mismatched estimation of non-symmetric rank-one matrices corrupted by structured noise ( http://arxiv.org/abs/2302.03306v2 )

ライセンス: Link先を確認
Teng Fu, YuHao Liu, Jean Barbier, Marco Mondelli, ShanSuo Liang, TianQi Hou(参考訳) 特異値の一般分布を持つ非対称な回転不変雑音により破損したランク1信号を評価するベイズ統計学者の性能について検討した。 信号対雑音比とノイズ構造が未知であるため、ガウス系の設定を誤って仮定する。 我々は、ミスマッチしたベイズ推定器の誤差に対する正確な解析式を導出し、また、近似メッセージパッシング(AMP)アルゴリズムの解析を提供する。 第一の結果は長方形行列と低ランク行列摂動に対する球面積分の漸近挙動を利用し、第二の結果は補助的なAMPの設計と解析に依存する。 数値実験により、AMPとベイズ推定器の間には、信号ノルムの誤推定による性能ギャップがあることが示されている。

We study the performance of a Bayesian statistician who estimates a rank-one signal corrupted by non-symmetric rotationally invariant noise with a generic distribution of singular values. As the signal-to-noise ratio and the noise structure are unknown, a Gaussian setup is incorrectly assumed. We derive the exact analytic expression for the error of the mismatched Bayes estimator and also provide the analysis of an approximate message passing (AMP) algorithm. The first result exploits the asymptotic behavior of spherical integrals for rectangular matrices and of low-rank matrix perturbations; the second one relies on the design and analysis of an auxiliary AMP. The numerical experiments show that there is a performance gap between the AMP and Bayes estimators, which is due to the incorrect estimation of the signal norm.
翻訳日:2023-02-09 12:11:37 公開日:2023-02-08
# 安定拡散による合成データ多様性によるゼロショット分類の促進

Boosting Zero-shot Classification with Synthetic Data Diversity via Stable Diffusion ( http://arxiv.org/abs/2302.03298v2 )

ライセンス: Link先を確認
Jordan Shipard, Arnold Wiliem, Kien Nguyen Thanh, Wei Xiang, Clinton Fookes(参考訳) 近年の研究では、拡散モデルにより生成された合成データを用いて分類器を訓練することにより、ゼロショット分類タスクを実行できることが示されている。 しかし,この手法の性能は近年の視覚言語モデルよりも劣っている。 この理由は、合成データと実データの間にドメインギャップがあることが示唆されている。 我々の研究は、この領域ギャップが主な問題ではなく、合成データセットの多様性がより重要であることを示している。 我々は,多様性を向上させるために$\textit{bag of tricks}$を提案し,視覚言語モデルである clip と同等のパフォーマンスを実現する。 さらに重要なことは、この洞察により、任意の分類モデル上でゼロショット分類機能を実現することができます。

Recent research has shown it is possible to perform zero-shot classification tasks by training a classifier with synthetic data generated by a diffusion model. However, the performance of this approach is still inferior to that of recent vision-language models. It has been suggested that the reason for this is a domain gap between the synthetic and real data. In our work, we show that this domain gap is not the main issue, and that diversity in the synthetic dataset is more important. We propose a $\textit{bag of tricks}$ to improve diversity and are able to achieve performance on par with one of the vision-language models, CLIP. More importantly, this insight allows us to endow zero-shot classification capabilities on any classification model.
翻訳日:2023-02-09 12:11:24 公開日:2023-02-08
# 貯水池周辺で人工物を切り離すための2相深層学習ワークフロー

An End-to-End Two-Phase Deep Learning-Based workflow to Segment Man-made Objects Around Reservoirs ( http://arxiv.org/abs/2302.03282v2 )

ライセンス: Link先を確認
Nayereh Hamidishad and Roberto Marcondes Cesar Junior(参考訳) 貯水池は水資源管理の基盤となっている。 周囲の構造は品質に悪影響を及ぼす可能性がある。 このような無許可構造は、ランドカバーマッピング(LCM)リモートセンシング(RS)画像によって監視することができる。 本稿では,貯水池周辺の人工物セグメンテーションのためのDLと画像処理技術に基づく新しいアプローチを開発する。 エンド・ツー・エンドの手順で貯水池周辺の人工物を切り離すには,貯水池を分割し,その周辺領域(roi)を特定することが不可欠である。 提案した2相ワークフローでは,まず,DLモデルを用いて貯留層を分割する。 フローティング植生などのエラーを取り除くために, 後処理段階を提案する。 次に, 提案した画像処理技術を用いて, 貯水池周辺のRoI(RoIaR)を同定した。 最後に、RoIaRの人工オブジェクトはDLアーキテクチャを使ってセグメント化される。 ブラジルの8つの貯水池の収集したGoogle Earth(GE)画像を用いて、2年間にわたって提案されたワークフローを訓練した。 U-NetベースのアーキテクチャとSegNetベースのアーキテクチャは、貯水池を分割するように訓練されている。 RoIaRで人工オブジェクトをセグメント化するために、U-Net、FPN、LinkNet、PSPNetの4つの可能なアーキテクチャをトレーニングし、評価した。 収集したデータには高い多様性(例えば、異なる状態、季節、解像度など)がありますが、両方のフェーズで優れたパフォーマンスを達成しています。 さらに, 貯留層セグメンテーションの出力に後処理を適用することにより, 2例を除くすべての貯留層における精度が向上した。 トレーニング貯水池の外の貯水池データセットで準備されたワークフローを検証する。 その結果,ワークフローの一般化能力が向上した。

Reservoirs are fundamental infrastructures for the management of water resources. Constructions around them can negatively impact their quality. Such unauthorized constructions can be monitored by land cover mapping (LCM) remote sensing (RS) images. In this paper, we develop a new approach based on DL and image processing techniques for man-made object segmentation around the reservoirs. In order to segment man-made objects around the reservoirs in an end-to-end procedure, segmenting reservoirs and identifying the region of interest (RoI) around them are essential. In the proposed two-phase workflow, the reservoir is initially segmented using a DL model. A post-processing stage is proposed to remove errors such as floating vegetation. Next, the RoI around the reservoir (RoIaR) is identified using the proposed image processing techniques. Finally, the man-made objects in the RoIaR are segmented using a DL architecture. We trained the proposed workflow using collected Google Earth (GE) images of eight reservoirs in Brazil over two different years. The U-Net-based and SegNet-based architectures are trained to segment the reservoirs. To segment man-made objects in the RoIaR, we trained and evaluated four possible architectures, U-Net, FPN, LinkNet, and PSPNet. Although the collected data has a high diversity (for example, they belong to different states, seasons, resolutions, etc.), we achieved good performances in both phases. Furthermore, applying the proposed post-processing to the output of reservoir segmentation improves the precision in all studied reservoirs except two cases. We validated the prepared workflow with a reservoir dataset outside the training reservoirs. The results show high generalization ability of the prepared workflow.
翻訳日:2023-02-09 12:11:12 公開日:2023-02-08
# PLACES:社会会話合成のための言語モデルの提案

PLACES: Prompting Language Models for Social Conversation Synthesis ( http://arxiv.org/abs/2302.03269v2 )

ライセンス: Link先を確認
Maximillian Chen, Alexandros Papangelis, Chenyang Tao, Seokhwan Kim, Andy Rosenbaum, Yang Liu, Zhou Yu, Dilek Hakkani-Tur(参考訳) 高品質な会話データの収集は、ほとんどのアプリケーションにとって非常に高価であり、プライバシ、倫理的、または同様の懸念のために他のアプリケーションでは不可能である。 この問題に対処するための有望な方向は、大きな言語モデルによって合成対話を生成することである。 本研究では,専門家による会話をテキスト内例として用いて,プロンプトを用いて会話データセットを合成する。 人工会話の徹底的な評価を,人間による会話と比較して行った。 これには、合成された会話を直接評価する会話品質の様々な次元と、合成生成されたデータセットに基づいて微調整されたチャットボットの対話的人間評価が含まれる。 さらに、このプロンプトアプローチが多人数会話に一般化できることを実証し、多人数タスクのための新しい合成データを作成する可能性を示した。 人工多人数会話は、人間の収集した多人数データセットから抽出した会話の抜粋と比較して、すべての次元で好意的に評価された。

Collecting high quality conversational data can be very expensive for most applications and infeasible for others due to privacy, ethical, or similar concerns. A promising direction to tackle this problem is to generate synthetic dialogues by prompting large language models. In this work, we use a small set of expert-written conversations as in-context examples to synthesize a social conversation dataset using prompting. We perform several thorough evaluations of our synthetic conversations compared to human-collected conversations. This includes various dimensions of conversation quality with human evaluation directly on the synthesized conversations, and interactive human evaluation of chatbots fine-tuned on the synthetically generated dataset. We additionally demonstrate that this prompting approach is generalizable to multi-party conversations, providing potential to create new synthetic data for multi-party tasks. Our synthetic multi-party conversations were rated more favorably across all measured dimensions compared to conversation excerpts sampled from a human-collected multi-party dataset.
翻訳日:2023-02-09 12:10:48 公開日:2023-02-08
# 公正な最小表現クラスタリング

Fair Minimum Representation Clustering ( http://arxiv.org/abs/2302.03151v2 )

ライセンス: Link先を確認
Connor Lawless, Oktay Gunluk(参考訳) クラスタリングは、データをクラスタの集合に分割することを目的とした教師なしの学習タスクである。 多くの応用において、これらのクラスターは、最小の表現レベル(例えば、望ましい候補を選ぶために50\%)に達するとグループによってのみ得られる実世界の構成(例えば、選挙区)に対応している。 本稿では、グループ(例えば人口統計群)が指定されたクラスタ数の最小表現レベルを持つことを保証しながら、k平均クラスタリングを行うことの問題点を考察する。 人気の$k$-meansアルゴリズムであるロイドのアルゴリズムは、あるグループが比例数で最小のしきい値を超える十分な表現を欠くような不公平な結果をもたらす可能性がある。 混合整数最適化フレームワークを用いて問題を定式化し、フェアネス制約を直接組み込んだLloydのアルゴリズムであるMiniReLを提案する。 公平性基準を組み込むことで、LydのアルゴリズムにNP-Hardのサブプロブレムが生じることを示すが、大きなデータセットでも問題を引き出すことができる計算手法を提案する。 数値的な結果は、標準的なベンチマークデータセット間でk平均クラスタリングコストを実質的に増加させることなく、より公平なクラスタを作成することができることを示している。

Clustering is an unsupervised learning task that aims to partition data into a set of clusters. In many applications, these clusters correspond to real-world constructs (e.g. electoral districts) whose benefit can only be attained by groups when they reach a minimum level of representation (e.g. 50\% to elect their desired candidate). This paper considers the problem of performing k-means clustering while ensuring groups (e.g. demographic groups) have that minimum level of representation in a specified number of clusters. We show that the popular $k$-means algorithm, Lloyd's algorithm, can result in unfair outcomes where certain groups lack sufficient representation past the minimum threshold in a proportional number of clusters. We formulate the problem through a mixed-integer optimization framework and present a variant of Lloyd's algorithm, called MiniReL, that directly incorporates the fairness constraints. We show that incorporating the fairness criteria leads to a NP-Hard sub-problem within Lloyd's algorithm, but we provide computational approaches that make the problem tractable for even large datasets. Numerical results show that the approach is able to create fairer clusters with practically no increase in the k-means clustering cost across standard benchmark datasets.
翻訳日:2023-02-09 12:10:33 公開日:2023-02-08