このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220506となっている論文です。

PDF登録状況(公開日: 20220506)

TitleAuthorsAbstract論文公表日・翻訳日
# 未知のハッシュグラムを探索する量子アルゴリズム

A Quantum Algorithm To Locate Unknown Hashgrams ( http://arxiv.org/abs/2005.02911v3 )

ライセンス: Link先を確認
Nicholas R. Allgood and Charles K. Nicholas(参考訳) 量子コンピューティングは近年急速に進化し、特にサイバーセキュリティの分野では、様々な分野で大きな利益をもたらしている。 最も頻繁なハッシュを見つけるためのソフトウェアと、悪意のあるソフトウェアを識別する$n$-gramの組み合わせは、量子アルゴリズムの恩恵を受ける可能性がある。 ハッシュと$n$-gramのテーブルを量子コンピュータにロードすることで、$n$-gramをハッシュにマッピングするプロセスを高速化することができる。 最初のフェーズでは、KiloGramを使用して、大規模なマルウェアコーパスの上位$k$ハッシュと$n$-gramを見つける。 ここから得られたハッシュテーブルが量子シミュレータにロードされる。 次に、量子探索アルゴリズムを用いて、絡み合った鍵と値対のあらゆる順列を探索し、所望のハッシュ値を求める。 これにより、平均$O(MN)$時間を要する$n$-gramのハッシュを再計算する必要がなくなるが、量子アルゴリズムはテーブルのルックアップ数で$O(\sqrt{N})$を計算して所望のハッシュ値を見つけることができる。

Quantum computing has evolved quickly in recent years and is showing significant benefits in a variety of fields, especially in the realm of cybersecurity. The combination of software used to locate the most frequent hashes and $n$-grams that identify malicious software could greatly benefit from a quantum algorithm. By loading the table of hashes and $n$-grams into a quantum computer we can speed up the process of mapping $n$-grams to their hashes. The first phase will be to use KiloGram to find the top-$k$ hashes and $n$-grams for a large malware corpus. From here, the resulting hash table is then loaded into a quantum simulator. A quantum search algorithm is then used search among every permutation of the entangled key and value pairs to find the desired hash value. This prevents one from having to re-compute hashes for a set of $n$-grams, which can take on average $O(MN)$ time, whereas the quantum algorithm could take $O(\sqrt{N})$ in the number of table lookups to find the desired hash values.
翻訳日:2023-05-21 00:37:50 公開日:2022-05-06
# 量子古典ハイブリッドアプローチによるL0正規化に基づく圧縮センシング

L0 regularization-based compressed sensing with quantum-classical hybrid approach ( http://arxiv.org/abs/2102.11412v5 )

ライセンス: Link先を確認
Toru Aonishi, Kazushi Mimura, Masato Okada, Yoshihisa Yamamoto(参考訳) L0-regularization-based compressed sensor (L0-RBCS)はL1-regularization-based compressed sensor (L1-RBCS)より優れているが、L0-RBCSの最適化は組合せ最適化の問題であるため困難である。 L0-RBCSにおける最適化のために,量子マシンと古典デジタルプロセッサからなる量子古典ハイブリッドシステムを提案する。 コヒーレントイジングマシン(CIM)は、この最適化問題を高密度ネットワークでのみ解くことができるため、このシステムに適した量子マシンである。 理論上は、CIM-古典ハイブリッドシステムの性能を評価するために、縮退したウィグナー確率微分方程式(W-SDE)を縮退した光パラメトリック発振器のネットワークのモデルとして導入し、W-SDEに統計力学を適用してマクロ方程式を導出する。 本研究では, 圧縮センシングの理論的限界に原理的にアプローチするシステム性能を示し, このハイブリッドシステムは, 磁気共鳴イメージングデータ解析などの実環境におけるL1-RBCSの推定精度を超える可能性があることを示す。

L0-regularization-based compressed sensing (L0-RBCS) has the potential to outperform L1-regularization-based compressed sensing (L1-RBCS), but the optimization in L0-RBCS is difficult because it is a combinatorial optimization problem. To perform optimization in L0-RBCS, we propose a quantum-classical hybrid system consisting of a quantum machine and a classical digital processor. The coherent Ising machine (CIM) is a suitable quantum machine for this system because this optimization problem can only be solved with a densely connected network. To evaluate the performance of the CIM-classical hybrid system theoretically, a truncated Wigner stochastic differential equation (W-SDE) is introduced as a model for the network of degenerate optical parametric oscillators, and macroscopic equations are derived by applying statistical mechanics to the W-SDE. We show that the system performance in principle approaches the theoretical limit of compressed sensing and this hybrid system may exceed the estimation accuracy of L1-RBCS in actual situations, such as in magnetic resonance imaging data analysis.
翻訳日:2023-04-10 05:33:13 公開日:2022-05-06
# コヒーレント状態の混合による量子計測のエミュレーション

Emulation of quantum measurements with mixtures of coherent states ( http://arxiv.org/abs/2104.15014v2 )

ライセンス: Link先を確認
A. Mikhalychev, Y. S. Teo, H. Jeong, A. Stefanov, and D. Mogilevtsev(参考訳) 本研究では,コヒーレント状態の有限集合のみを用いて,非古典的量子状態から生じる量子現象をエミュレートする手法を提案する。 これにより、よく知られた量子効果を実験室でより容易に生成できる資源で再現することができる。 本稿では,コヒーレント状態を用いた量子状態エミュレーションを実験的に実施し,位相平均コヒーレント状態の少ない多光子NOON状態をエミュレートし,香港・ウー・マンデル効果,ベルの不等式違反,量子非古典性観察などの基本的な量子力学的効果を観察する能力を示す。

We propose a methodology to emulate quantum phenomena arising from any non-classical quantum state using only a finite set of mixtures of coherent states. This allows us to successfully reproduce well-known quantum effects using resources that can be much more feasibly generated in the laboratory. We present a simple procedure to experimentally carry out quantum-state emulation with coherent states, illustrate it emulating multi-photon NOON states with few phase-averaged coherent states, and demonstrate its capabilities in observing fundamental quantum-mechanical effects, such as the Hong-Ou-Mandel effect, violating Bell inequalities and witnessing quantum non-classicality.
翻訳日:2023-04-01 23:54:00 公開日:2022-05-06
# アジア系アメリカ人に対するヘイトクライムの特徴のスクリーニングとベイエリアのアフリカ系アメリカ人との比較

Screening of the Characteristics of Hate Crimes against Asian American and Comparison to African Americans in Bay Area ( http://arxiv.org/abs/2105.15124v2 )

ライセンス: Link先を確認
Redacted by arXiv(参考訳) 新型コロナウイルス(COVID-19)は、人種差別の拡散や、国家の不安、移民への不信、および一般的なキセノフォビアの拡散を支援している。 コロナウイルス病2019(COVID19)は、2019年12月下旬に中国の武漢で発生し、2020年春に世界中で急速に広まったと考えられている。 アジア系アメリカ人は、人種差別に基づくヘイトクライムが増加し、身体的虐待や脅迫が米国中に広がったことを記録している。 本研究は,アジア系アメリカ人に対する憎悪犯罪の意図と特徴をアフリカ系アメリカ人に対する憎悪犯罪と比較するために,ベイエリアの高校生によって行われた。 被害者関連変数と犯罪者関連変数の両方の研究によれば、アジア系アメリカ人に対する憎悪犯罪はアメリカ合衆国内で急速に増加しており、アフリカ系アメリカ人に対するものとは異なる。 これにより、アジア系アメリカ人の犯罪者と他の人種の人種格差が調査される。 アジア系アメリカ人に対するヘイト犯罪の性質と特徴は、我々の研究でアフリカ系アメリカ人に対するヘイト犯罪と比較される。 被害者に関連するすべての要因の研究によれば、アジア人に対する憎悪犯罪はアフリカ系アメリカ人に対するものに似ている。 一方、アジア系アメリカ人に対する憎悪犯罪は、アフリカ系アメリカ人に対する憎悪犯罪と、犯罪者の民族と事件に関連するすべての変数の点で大きく異なる。

COVID-19 has aided the spread of racism, as well as national insecurity, distrust of immigrants, and general xenophobia, both of which may be linked to the rise in anti-Asian hate crimes during the pandemic. Coronavirus Disease 2019(COVID19) is thought to have originated in late December 2019 in Wuhan, China, and quickly spread across the world during the spring months of 2020. Asian Americans recorded in increase in racially based hate crimes including physical abuse and intimidation as COVID-19 spread throughout the United States. This research study was conducted by high school students in the Bay Area to compare the intention and characteristics of hate crimes against Asian Americans to hate crimes against African Americans. According to studies of both victim-related and most offender-related variables, hate crimes against Asian Americans have been rapidly growing in the United States and vary from those against African Americans. This leads to an investigation into the racial disparity between Asian American offenders and those of other races. The nature and characteristics of hate crimes against Asian Americans are compared to those of hate crimes against African Americans in our research. According to studies of all victim-related factors, hate crimes against Asian Americans are similar to those against African Americans. Hate crimes against Asian Americans, on the other hand, vary greatly from hate crimes against African Americans in terms of the offender's ethnicity and all incident-related variables.
翻訳日:2023-03-29 23:05:11 公開日:2022-05-06
# Wigner-Poisson系に対する高次精度演算子分割スペクトル法

A higher-order accurate operator splitting spectral method for the Wigner-Poisson system ( http://arxiv.org/abs/2106.00416v2 )

ライセンス: Link先を確認
Zhenzhu Chen and Haiyan Jiang and Sihong Shao(参考訳) 二重ゲート型金属酸化物半導体印加効果トランジスタ(dgmosfet)における2次元量子輸送の正確な記述には、4次元ウィグナー方程式と2次元ポアソン方程式の結合系に対する高分解能解法が必要である。 本稿では,Wigner-Poisson系を4次元位相空間で高精度に進化させるためのスペクトル分割法を提案する。 ウィグナー方程式の作用素分割の後、得られた2つの部分方程式は位相空間のスペクトル近似で解析的に解くことができる。 一方、我々はポアソン方程式の解法にチェビシェフスペクトル法を適用した。 位相空間におけるスペクトル収束と時間における4次精度を数値的に検証する。 最後に,提案された解法をdgmosfetシミュレーションに適用し,長期シミュレーションから定常状態を開発し,数値収束電流電圧(i-v)曲線を得る。

An accurate description of 2-D quantum transport in a double-gate metal oxide semiconductor filed effect transistor (dgMOSFET) requires a high-resolution solver to a coupled system of the 4-D Wigner equation and 2-D Poisson equation. In this paper, we propose an operator splitting spectral method to evolve such Wigner-Poisson system in 4-D phase space with high accuracy. After an operator splitting of the Wigner equation, the resulting two sub-equations can be solved analytically with spectral approximation in phase space. Meanwhile, we adopt a Chebyshev spectral method to solve the Poisson equation. Spectral convergence in phase space and a fourth-order accuracy in time are both numerically verified. Finally, we apply the proposed solver into simulating dgMOSFET, develop the steady states from long-time simulations and obtain numerically converged current-voltage (I-V) curves.
翻訳日:2023-03-28 03:39:54 公開日:2022-05-06
# 大規模不確かさ労働者による予算制限群集のハーネス化状況

Harnessing Context for Budget-Limited Crowdsensing with Massive Uncertain Workers ( http://arxiv.org/abs/2107.01385v2 )

ライセンス: Link先を確認
Feng Li, Jichao Zhao, Dongxiao Yu, Xiuzhen Cheng, Weifeng Lv(参考訳) crowdsensingはユビキタスセンシングの新たなパラダイムであり、作業員の群衆が共同でセンシングタスクを実行するために採用される。 多くのアプリケーションに刺激を与えたが、オープンな根本的な問題は、限られた予算で与えられたセンシングタスクを実行するために、膨大な数の労働者の中からどのように選択するかである。 それでも、各種センサを備えたスマートデバイスの普及により、労働者を知覚能力でプロファイルすることは極めて困難である。 作業者の不確実性は,探索と搾取のトレードオフを通じて,標準的なコンビニアル・マルチアーマッド・バンディット(CMAB)の枠組みで対処できるが,限られた予算の下で直接作業員を探索・活用するための十分な余裕はない。 さらに、センサー装置にはリソースが限られているため、労働者はわずか数回しかセンサータスクを実行できない可能性があるため、不確実性を学ぶ機会が制限される。 上記の問題に対処するため,本稿ではコンテキスト対応作業者選択(CAWS)アルゴリズムを提案する。 CAWSは、労働者のコンテキスト情報と知覚能力の相関を利用して、不確実な労働者の数が大量である場合でも、予算制約とキャパシティ制約の両方を尊重して、予想される総センシング収益を効率的に最大化することを目指している。 CAWSの有効性は厳密な理論的分析と広範な実験によって検証できる。

Crowdsensing is an emerging paradigm of ubiquitous sensing, through which a crowd of workers are recruited to perform sensing tasks collaboratively. Although it has stimulated many applications, an open fundamental problem is how to select among a massive number of workers to perform a given sensing task under a limited budget. Nevertheless, due to the proliferation of smart devices equipped with various sensors, it is very difficult to profile the workers in terms of sensing ability. Although the uncertainties of the workers can be addressed by standard Combinatorial Multi-Armed Bandit (CMAB) framework through a trade-off between exploration and exploitation, we do not have sufficient allowance to directly explore and exploit the workers under the limited budget. Furthermore, since the sensor devices usually have quite limited resources, the workers may have bounded capabilities to perform the sensing task for only few times, which further restricts our opportunities to learn the uncertainty. To address the above issues, we propose a Context-Aware Worker Selection (CAWS) algorithm in this paper. By leveraging the correlation between the context information of the workers and their sensing abilities, CAWS aims at maximizing the expected total sensing revenue efficiently with both budget constraint and capacity constraints respected, even when the number of the uncertain workers is massive. The efficacy of CAWS can be verified by rigorous theoretical analysis and extensive experiments.
翻訳日:2023-03-23 16:42:04 公開日:2022-05-06
# 合成次元上の$\theta$-termと't Hooft異常による量子力学のシミュレーション

Simulating Quantum Mechanics with a $\theta$-term and an 't Hooft Anomaly on a Synthetic Dimension ( http://arxiv.org/abs/2107.08073v2 )

ライセンス: Link先を確認
Jiayu Shen, Di Luo, Chenxi Huang, Bryan K. Clark, Aida X. El-Khadra, Bryce Gadway, Patrick Draper(参考訳) 3+1次元の量子色力学を含むゲージ理論における位相的$\theta$項は、古典的なモンテカルロシミュレーションを非現実的にするような符号問題を引き起こす。 量子シミュレーションはこのようなサイン問題の対象ではなく、将来これらの理論を研究するための有望なアプローチである。 短期的には、興味のある物理現象のいくつかと量子ハードウェアへの実装を保持するより単純なモデルの研究が興味深い。 例えば、小さな空間トーラス上の次元還元ゲージ理論は、比較的簡単に解けるが、親ゲージ理論から興味深い真空構造と対称性を持つ量子力学モデルを生成する。 ここでは,1+1d シュウィンガー模型の次元還元による量子力学的粒子オン・ア・サークルモデルについて考察し,このモデルが$\theta$-term を持ち,$\theta = \pi$ で 't Hooft anomaly あるいは大域的不整合を実現する。 これらのモデルはまた、自発的対称性の破れとインスタント-反インスタント干渉の関連する現象をリアルタイムで示す。 Rydberg 原子に符号化された合成次元を用いて,$\theta$-term と $\mathbb{Z}_n$ potential の円上での粒子のリアルタイムシミュレーション実験手法を提案する。 ライドバーグ原子を現実的な実験パラメータでシミュレートし、実験によって本質的な物理学をよく把握でき、トンネル速度が$\theta$の関数として期待される挙動を持つことを実証する。 同様の現象や観測性は、次元還元により高次元非可換ゲージ理論と結びついたより複雑な量子力学モデルにも生じる。

A topological $\theta$-term in gauge theories, including quantum chromodynamics in 3+1 dimensions, gives rise to a sign problem that makes classical Monte Carlo simulations impractical. Quantum simulations are not subject to such sign problems and are a promising approach to studying these theories in the future. In the near term, it is interesting to study simpler models that retain some of the physical phenomena of interest and their implementation on quantum hardware. For example, dimensionally-reducing gauge theories on small spatial tori produces quantum mechanical models which, despite being relatively simple to solve, retain interesting vacuum and symmetry structures from the parent gauge theories. Here we consider quantum mechanical particle-on-a-circle models, related by dimensional reduction to the 1+1d Schwinger model, that possess a $\theta$-term and realize an 't Hooft anomaly or global inconsistency at $\theta = \pi$. These models also exhibit the related phenomena of spontaneous symmetry breaking and instanton-anti-instanton interference in real time. We propose an experimental scheme for the real-time simulation of a particle on a circle with a $\theta$-term and a $\mathbb{Z}_n$ potential using a synthetic dimension encoded in a Rydberg atom. Simulating the Rydberg atom with realistic experimental parameters, we demonstrate that the essential physics can be well-captured by the experiment, with expected behavior in the tunneling rate as a function of $\theta$. Similar phenomena and observables can also arise in more complex quantum mechanical models connected to higher-dimensional nonabelian gauge theories by dimensional reduction.
翻訳日:2023-03-22 02:54:39 公開日:2022-05-06
# 2つの共振器を結合したクーパーペアボックス:量子冷凍機のアーキテクチャ

A Cooper-Pair Box Coupled to Two Resonators: An Architecture for a Quantum Refrigerator ( http://arxiv.org/abs/2109.03023v2 )

ライセンス: Link先を確認
Andrew Guthrie, Christoforus Dimas Satrya, Yu-Cheng Chang, Paul Menczel, Franco Nori, Jukka P. Pekola(参考訳) 超伝導回路は、量子冷凍機を実現する有望なプラットフォームを提供する。 これにより、異なる周波数の2つの超伝導コプラナー導波路共振器に容量結合したゲート型クーパーペアボックスを作製・実行した。 2つの超伝導共振器に対する電荷量子ビットの強い結合を実験的に実証し、GHz周波数で量子ビットの電圧駆動を行う能力を示す。 熱浴として機能する常金属抵抗器で共振器を終了させることにより, 測定装置を循環型量子冷凍機として動作させる方法について検討した。

Superconducting circuits present a promising platform with which to realize a quantum refrigerator. Motivated by this, we fabricate and perform spectroscopy of a gated Cooper-pair box, capacitively coupled to two superconducting coplanar waveguide resonators with different frequencies. We experimentally demonstrate the strong coupling of a charge qubit to two superconducting resonators, with the ability to perform voltage driving of the qubit at GHz frequencies. We go on to discuss how the measured device could be modified to operate as a cyclic quantum refrigerator by terminating the resonators with normal-metal resistors acting as heat baths.
翻訳日:2023-03-15 22:53:15 公開日:2022-05-06
# ユニタリ選択結合クラスタ法

Unitary Selective Coupled-Cluster Method ( http://arxiv.org/abs/2109.12652v5 )

ライセンス: Link先を確認
Dmitry A. Fedorov, Yuri Alexeev, Stephen K. Gray, Matthew Otten(参考訳) 変分量子固有解法を用いた分子シミュレーションは、NISQ時代の量子コンピュータにとって有望な応用の1つである。 このようなシミュレーションでは、電子波動関数を表現するための効率的なアンサッツの設計が不可欠である。 シングルとダブル(uccsd)を持つ標準ユニタリ結合クラスタ ansatzは、システムのエネルギーを下げない多くの無意味な用語を持つ傾向がある。 本研究では,4階までの励磁を伴う選択手順を用いて,ユニタリ結合クラスタ ansatz を反復的に構築する方法であるunitary selective coupled-cluster methodを提案する。 このアプローチでは、電子ハミルトニアン行列要素と既にアンサッツに存在する励起の振幅を用いて、高次の重要な励起を見つけ、それらをアンサッツに追加する。 この方法の重要な特徴は、一連のテスト分子のアンサッツサイズを増加させることでエネルギーエラーを体系的に低減することである。 提案手法の主な利点は、アンサッツを増加させる努力が量子コンピュータ上で追加の測定を必要としないことである。

Simulating molecules using the Variational Quantum Eigensolver method is one of the promising applications for NISQ-era quantum computers. Designing an efficient ansatz to represent the electronic wave function is crucial in such simulations. Standard unitary coupled-cluster with singles and doubles (UCCSD) ansatz tends to have a large number of insignificant terms that do not lower the energy of the system. In this work, we present a unitary selective coupled-cluster method, a way to construct a unitary coupled-cluster ansatz iteratively using a selection procedure with excitations up to fourth order. This approach uses the electronic Hamiltonian matrix elements and the amplitudes for excitations already present in the ansatz to find the important excitations of higher order and to add them to the ansatz. The important feature of the method is that it systematically reduces the energy error with increasing ansatz size for a set of test molecules. The main advantage of the proposed method is that the effort to increase the ansatz does not require any additional measurements on a quantum computer.
翻訳日:2023-03-13 17:12:35 公開日:2022-05-06
# 非正規化可能な形式因子を持つ一般化スピンボーソン模型

Generalized spin-boson models with non-normalizable form factors ( http://arxiv.org/abs/2111.06121v2 )

ライセンス: Link先を確認
Davide Lonigro(参考訳) 一般化スピンボソンモデル(GSB)は、量子力学系と構造ボソン環境の間の相互作用を記述し、フォームファクタとして知られる結合関数の族を介する。 非正規化可能なフォームファクターに対応可能なgsbモデルのクラスの拡張を提案し,より弱い成長制約を満たし,より広い物理シナリオの厳密な記述を考慮し,そのような「特異」なgsbモデルは正規化可能なフォームファクターを持つgsbモデルによって厳密に近似できることを示した。 さらに、回転波近似(rwa)を用いてスピンボーソンモデルの構造を詳細に論じる: このモデルでは、許容可能なフォームファクタのクラスをさらに拡張し、その解法を計算し、自己随伴性ドメインを特徴付ける非摂動的アプローチにより、結果が改善される。

Generalized spin-boson (GSB) models describe the interaction between a quantum mechanical system and a structured boson environment, mediated by a family of coupling functions known as form factors. We propose an extension of the class of GSB models which can accommodate non-normalizable form factors, provided that they satisfy a weaker growth constraint, thus accounting for a rigorous description of a wider range of physical scenarios; we also show that such "singular" GSB models can be rigorously approximated by GSB models with normalizable form factors. Furthermore, we discuss in greater detail the structure of the spin-boson model with a rotating wave approximation (RWA): for this model, the result is improved via a nonperturbative approach which enables us to further extend the class of admissible form factors, as well as to compute its resolvent and characterize its self-adjointness domain.
翻訳日:2023-03-08 09:58:31 公開日:2022-05-06
# 量子テレポーテーションを用いたスイッチングフリー時間領域光量子計算

Switching-free time-domain optical quantum computation with quantum teleportation ( http://arxiv.org/abs/2202.00840v2 )

ライセンス: Link先を確認
Warit Asavanant, Kosuke Fukui, Atsushi Sakaguchi, Akira Furusawa(参考訳) 光スイッチとリルーティングネットワークは、光量子コンピュータを実現するための主要な障害である。 特に、両コンポーネントは測定に基づく時間領域光学量子計算の必須成分とみなされており、近年スケーラビリティに関する将来性が期待されている。 しかし、光学スイッチとリルーチンネットワークを十分な性能で実現することは、非常に低い損失、小さなスイッチング時間、高い繰り返し率、最小の光非線形性を持つ必要があるため、実験的に困難である。 本研究では,このような光スイッチを必要としない光量子計算プラットフォームを提案する。 提案手法は,典型的なクラスタ状態の代わりに量子エンタングルメントの構造を変更し,光スイッチングやリルーティングの代わりに量子テレポーテーションプロトコルを用いることが可能な,連続可変計測に基づく量子計算に基づいている。 また,gottesman-kitaev-preskillエンコーディングと組み合わせることで,スイッチの光学的損失が低ければ,アーキテクチャを光スイッチで上回ることを示した。

Optical switches and rerouting network are main obstacles to realize optical quantum computer. In particular, both components have been considered as essential components to the measurement-based time-domain optical quantum computation, which has seen promising developments regarding scalability in the recent years. Realizing optical switches and rerouting network with sufficient performance is, however, experimentally challenging as they must have extremely low loss, small switching time, high repetition rate, and minimum optical nonlinearity. In this work, we present an optical quantum computation platform that does not require such optical switches. Our method is based on continuous-variable measurement-based quantum computation, where instead of the typical cluster states, we modify the structure of the quantum entanglements, so that quantum teleportation protocol can be employed instead of the optical switching and rerouting. We also show that when combined with Gottesman-Kitaev-Preskill encoding, our architecture can outperform the architecture with optical switches when the optical losses of the switches are not low.
翻訳日:2023-02-27 01:13:07 公開日:2022-05-06
# 量子システム-バスダイナミクスシミュレーションにおけるバス計算の高速アルゴリズム

Fast Algorithms of Bath Calculations in Simulations of Quantum System-Bath Dynamics ( http://arxiv.org/abs/2202.06190v2 )

ライセンス: Link先を確認
Zhenning Cai, Jianfeng Lu, Siyao Yang(参考訳) 本稿では、ダイソン級数の和に対する高速アルゴリズムと、調和浴と結合した量子系に対するインチワームモンテカルロ法を提案する。 アルゴリズムは、最も高価な部分は浴の影響汎関数の計算から生じる積分微分方程式の進化に基づいている。 計算を高速化するため,前回計算した浴場影響関数の再利用に基づく高速アルゴリズムを設計し,計算回数を削減した。 提案した高速アルゴリズムは,時間ステップの総数である$N$を$O(N)$とすることで,そのような計算数を削減できることが証明されている。 提案手法の効率性を示し, 理論的結果を検証するため, 数値実験を行った。

We present fast algorithms for the summation of Dyson series and the inchworm Monte Carlo method for quantum systems that are coupled with harmonic baths. The algorithms are based on evolving the integro-differential equations where the most expensive part comes from the computation of bath influence functionals. To accelerate the computation, we design fast algorithms based on reusing the bath influence functionals computed in the previous time steps to reduce the number of calculations. It is proven that the proposed fast algorithms reduce the number of such calculations by a factor of $O(N)$, where $N$ is the total number of time steps. Numerical experiments are carried out to show the efficiency of the method and to verify the theoretical results.
翻訳日:2023-02-25 23:03:14 公開日:2022-05-06
# 量子近似最適化アルゴリズムにおける最適パラメータ同定のための教師なし戦略

Unsupervised strategies for identifying optimal parameters in Quantum Approximate Optimization Algorithm ( http://arxiv.org/abs/2202.09408v2 )

ライセンス: Link先を確認
Charles Moussa, Hao Wang, Thomas B\"ack, Vedran Dunjko(参考訳) 組合せ最適化が主要な量子コンピューティング応用の1つであるため、パラメータ化量子回路に基づく多くの手法が開発されている。 一般に、量子回路出力からコスト関数を最適化するためにパラメータのセットが微調整されている。 これらのアルゴリズムの1つであるQuantum Approximate Optimization Algorithmは、組合せ問題に対処するための有望なアプローチである。 しかし、適切なパラメータを見つけることは難しい作業である。 qaoaは濃度特性を示すが、識別が容易でないインスタンス特性に依存するが、優れたパラメータを見つけるための有用な情報を提供する可能性がある。 本研究では,これらのパラメータを最適化せずに設定するための教師なし機械学習手法について検討する。 我々は、アングル値だけでなく、インスタンスエンコーディング(インスタンス特徴や変分グラフオートエンコーダの出力)によるクラスタリングを実行し、異なるアプローチを比較します。 これらの角度決定戦略は、QAOAをサブルーチンとして利用する際に量子回路への呼び出しを減らすために使用できる。 繰り返しに使用するQAOAパラメータの値は3ドルに制限され、200ドルのErd\H{o}s-R\'{e}nyiグラフ上でMaxCutに対して0.94ドルの中央値近似比が得られる。 我々は、アングルを広範囲に最適化し、多数の回路呼び出しを省く場合と同様の性能を得る。

As combinatorial optimization is one of the main quantum computing applications, many methods based on parameterized quantum circuits are being developed. In general, a set of parameters are being tweaked to optimize a cost function out of the quantum circuit output. One of these algorithms, the Quantum Approximate Optimization Algorithm stands out as a promising approach to tackling combinatorial problems. However, finding the appropriate parameters is a difficult task. Although QAOA exhibits concentration properties, they can depend on instances characteristics that may not be easy to identify, but may nonetheless offer useful information to find good parameters. In this work, we study unsupervised Machine Learning approaches for setting these parameters without optimization. We perform clustering with the angle values but also instances encodings (using instance features or the output of a variational graph autoencoder), and compare different approaches. These angle-finding strategies can be used to reduce calls to quantum circuits when leveraging QAOA as a subroutine. We showcase them within Recursive-QAOA up to depth $3$ where the number of QAOA parameters used per iteration is limited to $3$, achieving a median approximation ratio of $0.94$ for MaxCut over $200$ Erd\H{o}s-R\'{e}nyi graphs. We obtain similar performances to the case where we extensively optimize the angles, hence saving numerous circuit calls.
翻訳日:2023-02-24 17:25:54 公開日:2022-05-06
# maser用炭化ケイ素中のスピン欠陥の超ラジアン

Superradiance of Spin Defects in Silicon Carbide for Maser Applications ( http://arxiv.org/abs/2203.00329v2 )

ライセンス: Link先を確認
Andreas Gottscholl, Maximilian Wagenh\"ofer, Manuel Klimmer, Selina Scherbel, Christian Kasper, Valentin Baianov, Georgy V. Astakhov, Vladimir Dyakonov, Andreas Sperlich(参考訳) 通信増幅器としてのmasersは数十年にわたって知られているが、真空技術と低温温度を必要とする極端な運転条件のため、その用途は強く制限されている。 近年,ペンタセンおよびダイヤモンドの光励起スピン状態に基づいて,新しい世代のメーザーが発明されている。 本研究では,炭化ケイ素(SiC)のスピンS=3/2シリコン空孔(V$_{Si}$)欠陥に基づくメーザーのマイクロ波発生閾値を克服し,この高度に発達したスピンホスティング材料の利点について議論する。 人口インバージョンを達成するため、V$_{Si}$を$m_S$ = $\pm$1/2スピンサブステートに光学的にポンプし、外部磁場を適用してゼーマンエネルギー分割を調整した。 このようにして10GHz帯の共振マイクロ波による励起放出の前提条件を満たす。 maserを実現する過程で、sicサンプルの基本的な物理パラメータを改善した一連のサブタスクを体系的に解決することができたのです。 本研究では,光励起波長と磁場と欠陥対称性軸の角度の関数としてポンプ効率を調査した。 さらに,高Qサファイアマイクロ波共振器 (Q ~ 10$^4$ - 10$^5$) を開発した。 要約すると、最適化されたスピン欠陥密度、したがってスピン緩和速度を持つSiCは、幅広い用途で適切なメーザーゲイン材料となることができる。

Masers as telecommunication amplifiers have been known for decades, yet their application is strongly limited due to extreme operating conditions requiring vacuum techniques and cryogenic temperatures. Recently, a new generation of masers has been invented based on optically pumped spin states in pentacene and diamond. In this study, we pave the way for masers based on spin S = 3/2 silicon vacancy (V$_{Si}$) defects in silicon carbide (SiC) to overcome the microwave generation threshold and discuss the advantages of this highly developed spin hosting material. To achieve population inversion, we optically pump the V$_{Si}$ into their $m_S$ = $\pm$1/2 spin sub-states and additionally tune the Zeeman energy splitting by applying an external magnetic field. In this way, the prerequisites for stimulated emission by means of resonant microwaves in the 10 GHz range are fulfilled. On the way to realising a maser, we were able to systematically solve a series of subtasks that improved the underlying relevant physical parameters of the SiC samples. Among others, we investigated the pump efficiency as a function of the optical excitation wavelength and the angle between the magnetic field and the defect symmetry axis in order to boost the population inversion factor, a key figure of merit for the targeted microwave oscillator. Furthermore, we developed a high-Q sapphire microwave resonator (Q ~ 10$^4$ - 10$^5$) with which we find superradiant stimulated microwave emission. In summary, SiC with optimized spin defect density and thus spin relaxation rates is well on its way of becoming a suitable maser gain material with wide-ranging applications.
翻訳日:2023-02-23 12:16:41 公開日:2022-05-06
# Rydberg電磁誘導による弱マイクロ波場におけるストロンチウム三重項状態の透過と吸収

Rydberg electromagnetically induced transparency and absorption of strontium triplet states in a weak microwave field ( http://arxiv.org/abs/2203.06885v2 )

ライセンス: Link先を確認
Yan-Li Zhou, Dong Yan, Weibin Li(参考訳) 弱マイクロ波(mw)場の存在下でのストロンチウム原子のリドバーグ三重項状態のレーザー励起を理論的に研究した。 基底状態の5s^2\,^1S_0$から、リドベルク励起は準安定な5s5p\,^3P_1$状態によって実現され、崩壊速度は$2\pi\times 7.5$ kHzであり、一重項状態やアルカリ原子よりもはるかに小さい。 電磁誘導透過(eit)および電磁誘導吸収(eia)における透明性と吸収スペクトルに及ぼす$\gamma_2$の影響について検討した。 狭い透明な窓 (EIT) や吸収ピーク (EIA) が見つかり、スペクトル中の距離は弱いMWフィールドのラビ周波数に依存する。 スペクトルは典型的な状況で一重項状態やアルカリ原子を用いるよりも高いコントラストを示すことが判明した。 準安定中間状態を用いて、Srガスの共鳴蛍光は非常に狭いピークを示し、MW磁場によって変調される。 MWフィールドがプローブや制御光よりも弱い場合、これらのピークのスペクトル距離は$\Omega_m$に線形に比例する。 これにより、共鳴蛍光により非常に弱いMW場を検知する新しい方法が提案できる。 以上の結果から,Sr三重項状態はRydberg MWエレクトロメトリーの開発に有効であることが示唆された。

We study theoretically laser excitation of Rydberg triplet states of strontium atoms in the presence of weak microwave (MW) fields. Starting from the ground state $5s^2\,^1S_0$, the Rydberg excitation is realized through the metastable, triplet $5s5p\,^3P_1$ state, whose decay rate $\gamma_2$ is $2\pi\times 7.5$ kHz, much smaller than the one in the singlet state or alkali atoms. The influences of $\gamma_2$ on the transparency and absorption spectrum in the electromagnetically induced transparency (EIT), and electromagnetically induced absorption (EIA) regime are examined. Narrow transparent windows (EIT) or absorption peaks (EIA) are found, whose distance in the spectrum depends on the Rabi frequency of the weak MW field. It is found that the spectrum exhibits higher contrast than using the singlet state or alkali atoms in typical situations. Using the metastable intermediate state, we find that resonance fluorescence of Sr gases exhibits very narrow peaks, which are modulated by the MW field. When the MW field is weaker than the probe and control light, the spectrum distance of these peaks are linearly proportional to $\Omega_m$. This allows us to propose a new way to sense very weak MW fields through resonance fluorescence. Our study shows that the Sr triplet state could be used to develop the Rydberg MW electrometry that gains unique advantages.
翻訳日:2023-02-22 03:46:40 公開日:2022-05-06
# ドメインレベル検出と偽情報の破壊

Domain-Level Detection and Disruption of Disinformation ( http://arxiv.org/abs/2205.03338v1 )

ライセンス: Link先を確認
Elliott Waissbluth, Hany Farid, Vibhor Sehgal, Ankit Peshin, Sadia Afroz(参考訳) 20年後、私たちはどのようにして、知識へのアクセスを民主化し、世界をより理解し、啓蒙する、というインターネットの約束から、今日のインターネットである日々の恐怖へと移行したのでしょうか? 我々は、嘘、陰謀、一般的なナンセンスからなる偽情報に洗われており、恐ろしい人権侵害から民主主義への脅威、世界的な公衆衛生まで、現実世界に影響を及ぼす。 インターネットは広いが、偽情報の売り手はより地域化されているようだ。 この目的のために、ドメインが情報の分散や増幅に複雑であるかどうかを予測するためのドメインレベルの分析について述べる。 このプロセスは、ドメインの内容とドメイン間のハイパーリンク接続を分析して、ドメインが偽情報をペドリングしているかどうかを予測する。 これらの基本的な洞察は、telegramとtwitterにおける偽情報の分析にまで及ぶ。 これらの知見から,検索エンジンとソーシャルメディアレコメンデーションアルゴリズムは,最悪の不正情報を体系的に発見し,取り下げることができ,オンラインコミュニティに信頼と健全性を取り戻すことができる。

How, in 20 short years, did we go from the promise of the internet to democratize access to knowledge and make the world more understanding and enlightened, to the litany of daily horrors that is today's internet? We are awash in disinformation consisting of lies, conspiracies, and general nonsense, all with real-world implications ranging from horrific humans rights violations to threats to our democracy and global public health. Although the internet is vast, the peddlers of disinformation appear to be more localized. To this end, we describe a domain-level analysis for predicting if a domain is complicit in distributing or amplifying disinformation. This process analyzes the underlying domain content and the hyperlinking connectivity between domains to predict if a domain is peddling in disinformation. These basic insights extend to an analysis of disinformation on Telegram and Twitter. From these insights, we propose that search engines and social-media recommendation algorithms can systematically discover and demote the worst disinformation offenders, returning some trust and sanity to our online communities.
翻訳日:2023-02-19 16:44:54 公開日:2022-05-06
# 位置情報対応カメラを用いた国家安全保障の保護

Safeguarding National Security Interests Utilizing Location-Aware Camera Devices ( http://arxiv.org/abs/2205.03330v1 )

ライセンス: Link先を確認
Sreejith Gopinath and Aspen Olmsted(参考訳) 技術の急速な進歩により、高度なカメラ能力は、エネルギー効率を向上するより小さなフォームファクターに到達した。 これらの改良により、携帯電話、タブレット、さらには眼鏡のようなモバイルデバイス上のより効率的で有能なカメラが実現された。 これらの邪魔にならないカメラを使って、ユーザーは物理的アクセスのある場所のほとんどあらゆる写真やビデオを撮影できる。 残念ながら、コンパクトなカメラの普及は、個人や国や政府全体のプライバシーの権利を脅かしている。 例えば、政府は軍事基地の航空基地や原子力発電所の内部地域など、機密性の高い施設の写真や動画を許可されていない使用のために捕獲することを望んでいない。 さらに、後処理でイメージを難読化するソリューションは、未処理データをシフォンする恐れがある。 本研究は,センシティブな領域の画像の撮影と保存をスマートカメラで制限する,グローバル測位システムに基づくアプローチを提案する。

The rapid advancement of technology has resulted in advanced camera capabilities coming to smaller form factors with improved energy efficiency. These improvements have led to more efficient and capable cameras on mobile devices like mobile phones, tablets, and even eyeglasses. Using these unobtrusive cameras, users can capture photographs and videos of almost any location where they have physical access. Unfortunately, the proliferation of highly compact cameras has threatened the privacy rights of individuals and even entire nations and governments. For example, governments may not want photographs or videos of sensitive installations or locations like airside operations of military bases or the inner areas of nuclear power plants to be captured for unapproved uses. In addition, solutions that obfuscate images in post-processing are subject to threats that could siphon unprocessed data. Our work proposes a Global Positioning System-based approach to restrict the ability of smart cameras to capture and store images of sensitive areas.
翻訳日:2023-02-19 16:44:37 公開日:2022-05-06
# マークルハッシュ木を用いた分散型デジタル通貨システム

Decentralized Digital Currency System using Merkle Hash Trees ( http://arxiv.org/abs/2205.03259v1 )

ライセンス: Link先を確認
Shreekanth M Prabhu, Natarajan Subramanyam, Ms. Shreya P Krishnan and Ms. Brindavana Sachidananda(参考訳) インドでは、2016年のデモネタイズ・エクササイズ(demonetization exercise)の後、デジタル決済がとても人気になった。 その中にはPaytmウォレットとUPI(Unified Payment Interface)を使ったトランザクションの量が増えている。 新型コロナウイルス(COVID-19)パンデミックによるロックダウンは、この傾向をさらに強めている。 一方、bitcoinのような暗号通貨も勢いを増している。 多くの国が中央銀行を通じてデジタル通貨の発行を検討している。 本稿では,Merkle Hash-Treesを認証データ構造として利用する分散デジタル通貨システム(DDCS)を提案する。 DDCS は Ledger-less, distributed, peer-to-peer アーキテクチャを使用している。 提案された通貨は$\delta$-moneyと名づける。 $\delta$-Moneyは物理通貨の代替として意図されており、暗号通貨と競合するセキュリティ機能を内蔵している。 $\delta$-Moneyを使ったトランザクションは、インターセプションではなく、ポストファクトの和解によって行われる。 中央銀行発行のデジタル通貨(CBDC)の代わりに、複数のペイメント銀行がボラティリティや年次切り下げを受けることなく安定した評価額を持つデジタル通貨を発行するシナリオを検討する。

In India, post the demonetization exercise in 2016, digital payments have become extremely popular. Among them, the volume of transactions using Paytm wallets and UPI (Unified Payment Interface) have grown manifold. The lockdowns due to COVID-19 Pandemic have furthered this trend. Side by side, crypto-currencies such as bitcoin are also gaining traction. Many countries are considering issuing a Digital Currency via their Central Banks. In this paper, we propose a novel Decentralized Digital Currency System (DDCS) that makes use of Merkle Hash-Trees as Authenticated Data Structures. DDCS uses a Ledger-less, distributed, peer-to-peer architecture. We name the proposed currency $\delta$-Money. $\delta$-Money is intended as a replacement for physical currency and has in-built security features that rival crypto-currencies. Transactions using $\delta$-Money happen in a disintermediated manner but with post-facto reconciliation. In place of Central Bank-issued Digital Currency (CBDC), we envisage a scenario where multiple Payment Banks issue digital currencies that have stable valuations without being subject to either volatility or perennial devaluation.
翻訳日:2023-02-19 16:44:05 公開日:2022-05-06
# Desaparecidxs:Twitterを使って行方不明の子どもの人口を特徴づける

Desaparecidxs: characterizing the population of missing children using Twitter ( http://arxiv.org/abs/2205.03096v1 )

ライセンス: Link先を確認
Carolina Coimbra Vieira, Diego Alburez-Gutierrez, Mar\'ilia R. Nepomuceno and Tom Theile(参考訳) 行方不明の子供たち、すなわち「失明した」と報告された子供たちは、重要ではあるが見落とされがちな人口である。 研究の観点からは、行方不明の子供は、ほとんど知られていない、手が届かない人口である。 これは、ロバストで中央集権的なデータ収集システムがない世界南部の地域では特に問題です。 本研究では,暴力のレベルが高いグアテマラにおける行方不明児の人口構成を分析した。 2018年から2020年にかけて、グアテマラ警察が収集した公式データと、行方不明の子どもに関する情報を広める政府の警告システムである alerta alba-keneth の公式twitterアカウントからの、行方不明の子どもに関するリアルタイムの個人レベルのデータを比較した。 Twitterのデータを用いて、グアテマラの行方不明児の人口を、一歳、性別、消失の場所によって特徴づける。 以上の結果から,13~17歳層では女性の方が欠落傾向がみられた。 我々は、行方不明者、暴力、および人身売買の間の既知の関係から、この発見について議論する。 最後に、この研究は、ウェブデータが社会に貢献する可能性を明らかにする。

Missing children, i.e., children reported to a relevant authority as having "disappeared," constitute an important but often overlooked population. From a research perspective, missing children constitute a hard-to-reach population about which little is known. This is a particular problem in regions of the Global South that lack robust or centralized data collection systems. In this study, we analyze the composition of the population of missing children in Guatemala, a country with high levels of violence. We contrast the official aggregated-level data from the Guatemalan National Police during the 2018-2020 period with real-time individual-level data on missing children from the official Twitter account of the Alerta Alba-Keneth, a governmental warning system tasked with disseminating information about missing children. Using the Twitter data, we characterize the population of missing children in Guatemala by single-year age, sex, and place of disappearance. Our results show that women are more likely to be reported as missing, particularly those aged 13-17. We discuss the findings in light of the known links between missing people, violence, and human trafficking. Finally, the study highlights the potential of web data to contribute to society by improving our understanding of this and similar hard-to-reach populations.
翻訳日:2023-02-19 16:43:27 公開日:2022-05-06
# watching the watchers: リモートプロトタイピングソフトウェアのバイアスと脆弱性

Watching the watchers: bias and vulnerability in remote proctoring software ( http://arxiv.org/abs/2205.03009v1 )

ライセンス: Link先を確認
Ben Burgess, Avi Ginsberg, Edward W. Felten, Shaanan Cohney(参考訳) 新型コロナウイルス(COVID-19)のパンデミックと教育分野の仮想化が拡大しているため、教育者はテストのニーズに応じて、リモートプロクターや検査ソフトウェアに急速に切り替えている。 州委員会はこれらのソフトウェアを、法律と医療のライセンス試験に利用している。 これら複雑なソフトウェアの使用には、試験の完全性、試験手続きの公正性、試験テッカーのセキュリティとプライバシの3つの重要な懸念がある。 本研究は、米国法学校と州検事免許試験で使用される4つの主要検事スイートのケーススタディを通じて、これらの懸念事項について、最初の技術的分析を行う。 私たちはこれらのプロクタリングスイートをリバースエンジニアリングし、高いセキュリティの約束にもかかわらず、その対策はすべて自明に回避され、ユーザセキュリティの重大なリスクをもたらす可能性があることに気付きました。 筆者らは,最大市場シェアの法定試験検定検定スイートであるExpamplifyで使用されている分類器とともに,現在の顔認識分類器を評価し,その精度を確認し,特定の肌色のある顔が不正行為に容易にフラグ付けされているかどうかを判定する。 最後に,遠隔検定経験の完全性と公平性を改善するための勧告を提案する。

Educators are rapidly switching to remote proctoring and examination software for their testing needs, both due to the COVID-19 pandemic and the expanding virtualization of the education sector. State boards are increasingly utilizing these software for high stakes legal and medical licensing exams. Three key concerns arise with the use of these complex software: exam integrity, exam procedural fairness, and exam-taker security and privacy. We conduct the first technical analysis of each of these concerns through a case study of four primary proctoring suites used in U.S. law school and state attorney licensing exams. We reverse engineer these proctoring suites and find that despite promises of high-security, all their anti-cheating measures can be trivially bypassed and can pose significant user security risks. We evaluate current facial recognition classifiers alongside the classifier used by Examplify, the legal exam proctoring suite with the largest market share, to ascertain their accuracy and determine whether faces with certain skin tones are more readily flagged for cheating. Finally, we offer recommendations to improve the integrity and fairness of the remotely proctored exam experience.
翻訳日:2023-02-19 16:42:36 公開日:2022-05-06
# 光ホモダイントモグラフィにおける歪み

Distortions produced in optical homodyne tomography ( http://arxiv.org/abs/2204.05063v2 )

ライセンス: Link先を確認
Filippus S. Roux(参考訳) 量子光学状態のウィグナー関数を決定するためによく用いられるホモダイントモグラフィー過程の解析は、時空間自由度の影響を検討するために行われる。 ホモダイントモグラフィープロセスは、これらの自由度を追跡することによって、局所振動子のモードと関係のない入力状態のこれらの部分を除去する。 すべての時空間的自由度を組み込む関数的アプローチを用いることで、この自由度の減少は観測されたウィグナー関数に歪みをもたらすことが分かる。 解析はまた、ホモダイントモグラフィ法が局所発振器の強度に依存する分解性を導入する方法も示している。 例として、コヒーレント状態、フォック状態および圧縮真空状態を考える。

An analysis of the homodyne tomography process that is often used to determine the Wigner functions of quantum optical states is performed to consider the effects of the spatiotemporal degrees of freedom. The homodyne tomography process removes those parts of the input state that are not associated with the mode of the local oscillator by tracing out those degrees of freedom. Using a functional approach to incorporate all the spatiotemporal degrees of freedom, we find that this reduction in the degrees of freedom introduces distortions in the observed Wigner function. The analysis also shows how the homodyne tomography process introduces a resolution that depends on the strength of the local oscillator. As examples, we consider coherent states, Fock states and squeezed vacuum states.
翻訳日:2023-02-17 08:20:46 公開日:2022-05-06
# 相関性障害を伴う多体局在遷移

Many body localization transition with correlated disorder ( http://arxiv.org/abs/2204.06017v2 )

ライセンス: Link先を確認
Zhengyan Darius Shi, Vedika Khemani, Romain Vasseur, Sarang Gopalakrishnan(参考訳) 空間的相関性障害の1次元系における多体局在(mbl)相転移の臨界特性について考察する。 乱れカップリングのゆらぎが、サイズ$\ell$ の領域の粗い粒度に対してどの程度強いかによってパラメータ化される、一般的な乱れモデルの一群を考える。 非相関ランダム性の場合、これらのゆらぎの特徴スケールは$\sqrt{\ell}$であり、より一般的には$\ell^\gamma$となる。 正の相関性障害 (1/2 < \gamma < 1$) と反相関性障害 (\gamma < 1/2$) について検討した。 この疾患における抗相関は、一般的にMBL遷移において無関係である。 さらに、mbl遷移を仮定すると、最近開発されたmorningstar \emph{et al の正規化群スキームによって記述される。 B 102, 125134, (2020)] では, 多体局在相の特定の性質は変化しているが, 正に相関する障害でも批判理論は変わらないと論じている。

We address the critical properties of the many-body localization (MBL) phase transition in one-dimensional systems subject to spatially correlated disorder. We consider a general family of disorder models, parameterized by how strong the fluctuations of the disordered couplings are when coarse-grained over a region of size $\ell$. For uncorrelated randomness, the characteristic scale for these fluctuations is $\sqrt{\ell}$; more generally they scale as $\ell^\gamma$. We discuss both positively correlated disorder ($1/2 < \gamma < 1$) and anticorrelated, or "hyperuniform," disorder ($\gamma < 1/2$). We argue that anticorrelations in the disorder are generally irrelevant at the MBL transition. Moreover, assuming the MBL transition is described by the recently developed renormalization-group scheme of Morningstar \emph{et al.} [Phys. Rev. B 102, 125134, (2020)], we argue that even positively correlated disorder leaves the critical theory unchanged, although it modifies certain properties of the many-body localized phase.
翻訳日:2023-02-17 05:14:52 公開日:2022-05-06
# Simon 問題に対する分散量子アルゴリズム

Distributed quantum algorithm for Simon's problem ( http://arxiv.org/abs/2204.11388v4 )

ライセンス: Link先を確認
Jiawei Tan, Ligang Xiao, Daowen Qiu, Le Luo, Paulo Mateus(参考訳) 今日の物理デバイスによって制限されている量子回路は通常ノイズが多く、深く設計することは困難である。 分散量子コンピューティングの新しい計算アーキテクチャは、量子回路のノイズと深さを減らすことが期待されている。 本稿では,分散シナリオにおけるSimonの問題を考察し,この問題を解決するために分散量子アルゴリズムを設計する。 私たちが提案するアルゴリズムは,従来の分散計算に比べて指数加速度の利点があり,従来の分散量子アルゴリズムと比較して2乗加速度の利点がある。 特に、シモンの問題に対する以前の分散量子アルゴリズムは、2つ以上の計算ノード(すなわち2つのサブプロブレム)に拡張することはできないが、我々の分散量子アルゴリズムは、複数の計算ノード(すなわち、複数のサブプロブレム)にも拡張できる。

Limited by today's physical devices, quantum circuits are usually noisy and difficult to be designed deeply. The novel computing architecture of distributed quantum computing is expected to reduce the noise and depth of quantum circuits. In this paper, we study the Simon's problem in distributed scenarios and design a distributed quantum algorithm to solve the problem. The algorithm proposed by us has the advantage of exponential acceleration compared with the classical distributed computing, and has the advantage of square acceleration compared with the best distributed quantum algorithm proposed before. In particular, the previous distributed quantum algorithm for Simon's problem can not be extended to the case of more than {\it two computing nodes} (i.e. two subproblems), but our distributed quantum algorithm can be extended to the case of {\it multiple computing nodes} (i.e. multiple subproblems) as well.
翻訳日:2023-02-15 18:02:58 公開日:2022-05-06
# 量子ゼノ効果による偏極絡みの発生

Generation of polarization entanglement via the quantum Zeno effect ( http://arxiv.org/abs/2205.02315v2 )

ライセンス: Link先を確認
Ian C. Nodurft, Harry C. Shaw, Ryan T. Glasser, Brian T. Kirby, and Thomas A. Searles(参考訳) 量子ゼノ効果は、量子系の連続的な観測がその進化に大きな変化をもたらすことを明らかにする。 本稿では、量子ゼノ効果を介して結合導波路中の2つの初期エンタングル光子間の偏光絡みを確立する方法を提案する。 我々は,システムを記述するシュロディンガー方程式の数値シミュレーションを用いて解析的考察を行う。 さらに本手法を平面構成の3つの結合導波路に拡張し、3量子w状態を生成するのに必要なパラメータレジームを決定する。 本研究は、フォトニック量子情報技術に対して強力な量子状態工学的アプローチを提供する。

The quantum Zeno effect reveals that the continuous observation of a quantum system can result in significant alterations to its evolution. Here, we present a method for establishing polarization entanglement between two initially unentangled photons in coupled waveguides via the quantum Zeno effect. We support our analytical investigation with numerical simulations of the underlying Schrodinger equation describing the system. Further, we extend our technique to three coupled waveguides in a planar configuration and determine the parameter regime required to generate three-qubit W-states. Our findings offer a powerful quantum state engineering approach for photonic quantum information technologies.
翻訳日:2023-02-14 08:48:01 公開日:2022-05-06
# 頑健なコヒーレンス保護のためのクビットアンサンブルによる温度とひずみの変動特性

Characterizing temperature and strain variations with qubit ensembles for their robust coherence protection ( http://arxiv.org/abs/2205.02790v2 )

ライセンス: Link先を確認
Guoqing Wang, Ariel Rebekah Barr, Hao Tang, Mo Chen, Changhao Li, Haowei Xu, Ju Li, and Paola Cappellaro(参考訳) 固体スピン欠陥、特に達成可能な長いコヒーレンス時間を持つ核スピンは、量子記憶とセンサーの有力な候補である。 しかしながら、それらの現在の性能は、固有の四重極と超微粒子相互作用のばらつきにより、デコヒーレンスによって制限されている。 自由進化に格納された量子情報を保存し、これらの相互作用の変動を再集中するために第二スピンを用いることにより、この課題を克服するための \textit{unbalanced echo} を提案する。 非平衡エコーは、材料の温度とひずみ分布を調査するために用いられる。 実験では,20倍のT_2^*$コヒーレンス時間をダイヤモンド中の$\sim10^{10}$核スピンのアンサンブルで示す。 理論的には,これらの相互作用の変動を予測する第一原理法を開発し,その相関関係を高温およびひずみ範囲で明らかにする。 提案手法は,従来の実験よりも強いノイズ変動を再現し,25〜K温度の不均一性に対して400倍のコヒーレンス向上を実現する。

Solid-state spin defects, especially nuclear spins with potentially achievable long coherence times, are compelling candidates for quantum memories and sensors. However, their current performances are still limited by the decoherence due to the variation of their intrinsic quadrupole and hyperfine interactions. We propose an \textit{unbalanced echo} to overcome this challenge by using a second spin to refocus the variation of these interactions, which preserves the quantum information stored in the free evolution. The unbalanced echo can be used to probe the temperature and strain distribution in materials. Experimentally, we demonstrate a 20-fold $T_2^*$ coherence time increase in an ensemble of $\sim10^{10}$ nuclear spins in diamond. Theoretically, we develop first-principles methods to predict these interaction variations and reveal their correlation in large temperature and strain ranges. We numerically show that our method can refocus stronger noise variations than our current experiments and achieves a 400-fold coherence improvement for a 25~K temperature inhomogeneity.
翻訳日:2023-02-14 06:11:50 公開日:2022-05-06
# ガラスパターン型切欠き型マイクロ波による生体試料のオンチップスピン検出

Glass-patternable notch-shaped microwave architecture for on-chip spin detection in biological samples ( http://arxiv.org/abs/2205.02970v1 )

ライセンス: Link先を確認
Keisuke Oshimi, Yushi Nishimura, Tsutomu Matsubara, Masuaki Tanaka, Eiji Shikoh, Li Zhao, Yajuan Zou, Naoki Komatsu, Yuta Ikado, Yuka Takezawa, Eriko Kage-Nakadai, Yumi Izutsu, Katsutoshi Yoshizato, Saho Morita, Masato Tokunaga, Hiroshi Yukawa, Yoshinobu Baba, Yoshio Teki, and Masazumi Fujiwara(参考訳) 蛍光ナノダイヤモンド(ND)の光磁気共鳴(ODMR)のオンチップ検出を目的としたガラス板上に,ノッチ形状のコプラナーマイクロ波導波路アンテナを報告した。 コプラナー導波路のノッチ領域の中央にあるリソグラフィーパターンの細線は、ミリスケールのODMR検出領域(1.5 x 2.0 mm^2)と反射率の低いギガヘルツブロードバンド特性(約8%)を実現する。 検出領域のodmr信号強度は数値シミュレーションにより定量的に予測可能である。 このチップ装置を用いて,細胞,組織,寄生虫の検出領域において均一なodmr信号強度を示す。 チップベースのマイクロ波アーキテクチャのデモでは、ODMRベースの量子センシング技術を様々なバイオアッセイプラットフォームにスケーラブルなチップ統合を可能にする。

We report a notch-shaped coplanar microwave waveguide antenna on a glass plate designed for on-chip detection of optically detected magnetic resonance (ODMR) of fluorescent nanodiamonds (NDs). A lithographically patterned thin wire at the center of the notch area in the coplanar waveguide realizes a millimeter-scale ODMR detection area (1.5 x 2.0 mm^2) and gigahertz-broadband characteristics with low reflection (about 8%). The ODMR signal intensity in the detection area is quantitatively predictable by numerical simulation. Using this chip device, we demonstrate a uniform ODMR signal intensity over the detection area for cells, tissue, and worms. The present demonstration of a chip-based microwave architecture will enable scalable chip integration of ODMR-based quantum sensing technology into various bioassay platforms.
翻訳日:2023-02-14 03:49:43 公開日:2022-05-06
# Epsilon-Near-Zero (ENZ) モードが超薄膜間のカシミール相互作用に及ぼす影響

The Effect of Epsilon-Near-Zero (ENZ) Modes on the Casimir Interaction between Ultrathin Films ( http://arxiv.org/abs/2205.02969v1 )

ライセンス: Link先を確認
Tao Gong, Inigo Liberal, Benjamin Spreng, Miguel Camacho, Nader Engheta and Jeremy N. Munday(参考訳) 真空揺らぎによる金属オブジェクト間の相互作用は、カシミール効果として知られる現象であるそれらの間に魅力的な力をもたらす。 この力はプラズモンモードとフォトニックモードの両方の結果である。 非常に薄膜の場合、フィルムを通した磁場透過は許容モードを変更する。 そこで本研究では,2つの超薄膜間のカシミール相互作用を実周波数での力分布の観点から検討し,超薄膜にのみ存在するエプシロン・ニアゼロ(ENZ)モードの高度に閉じ込められ,ほぼ分散しないため,力に対する顕著な反感的寄与を見出した。 これらの寄与はフィルムのENZ周波数付近で持続的に発生し、膜間分離によらない。 さらに, ENZモードは, カシミール効果による薄膜の加速を示す指標である導電性薄膜の平均力密度の顕著な厚さ依存性と相関する。 その結果,超薄型ENZ材料に存在する真空揺らぎモードの役割が明らかになり,ナノメカニカルシステムにおける物体の運動の工学的可能性を秘めている可能性が示唆された。

Vacuum fluctuation-induced interactions between macroscopic metallic objects result in an attractive force between them, a phenomenon known as the Casimir effect. This force is the result of both plasmonic and photonic modes. For very thin films, field penetration through the films will modify the allowed modes. Here, we investigate the Casimir interaction between two ultrathin films from the perspective of the force distribution over real frequencies for the first time and find pronounced repulsive contributions to the force due to the highly confined and nearly dispersion-free epsilon-near-zero (ENZ) modes that only exist in ultrathin films. These contributions are found to persistently occur around the ENZ frequency of the film and are irrespective of the inter-film separation. We further associate the ENZ modes with a striking thickness dependence in the averaged force density for conductive thin films, a metric signifying a thin-film's acceleration due to Casimir effect. Our results shed light on the role of the unique vacuum fluctuation modes existing in ultrathin ENZ materials, which may offer significant potential for engineering the motion of objects in nanomechanical systems.
翻訳日:2023-02-14 03:49:29 公開日:2022-05-06
# ヘリカルX線によるスピンのエネルギー時間景観のマッピング

Mapping the energy-time landscape of spins with helical X-rays ( http://arxiv.org/abs/2205.03172v1 )

ライセンス: Link先を確認
N. Pontius, J. K. Dewhurst, C. Schuessler-Langeheine, S. Jana, C. v. Korff Schmising, S. Eisebitt, S. Shallcross and S. Sharma(参考訳) 光駆動スピンダイナミクスを決定する重要なメカニズムを明らかにすることは、超高速光間相互作用の基本的な性質を調べるだけでなく、より小さく、高速、よりエネルギー効率の良いデバイスの将来の技術を推進するためにも不可欠である。 このタスクに不可欠なのは、非平衡電子占有のエネルギーおよびスピン分解ダイナミクスを実証するために実験的分光器を使用する能力である。 本研究は,超高速ヘリシティ依存性軟X線吸収分光法(HXAS)を用いて,光励起後のスピン,時間,エネルギー特有の状態の占有を可能にすることを示す。 本手法を遷移金属フェロマグネットコバルトに応用し,理論と実験の説得力のある一致を求める。 光励起とスピン軌道誘起スピン-フリップ遷移の微妙な相互作用と特性的時間スケールは、フェルミ準位以下のエネルギーウィンドウに集積されたスピンモーメントは、レーザーパルスによって少数担体が励起され、高度に局所化された低エネルギー状態のスピン-フリップ過程が支配的になる前に、超高速な増加を示す。 本研究は, 磁気材料における光駆動スピンダイナミクスにおける基本過程の同定と決定のための潜在的な新しいツールとして, 元素比過渡HXASのパワーを実証した。

Unveiling the key mechanisms that determine optically driven spin dynamics is essential both to probe the fundamental nature of ultrafast light-matter interactions, but also to drive future technologies of smaller, faster, and more energy efficient devices. Essential to this task is the ability to use experimental spectroscopic tools to evidence the underlying energy- and spin-resolved dynamics of non-equilibrium electron occupations. In this joint theory and experimental work, we demonstrate that ultrafast helicity-dependent soft X-ray absorption spectroscopy (HXAS) allows access to spin-, time- and energy specific state occupation after optical excitation. We apply this method to the prototype transition metal ferromagnet cobalt and find convincing agreement between theory and experiment. The richly structured energy-resolved spin dynamics unveil the subtle interplay and characteristic time scales of optical excitation and spin-orbit induced spin-flip transitions in this material: the spin moment integrated in an energy window below the Fermi level first exhibits an ultrafast increase as minority carriers are excited by the laser pulse, before it is reduced as spin-flip process in highly localized, low energy states start to dominate. The results of this study demonstrate the power of element specific transient HXAS, placing it as a potential new tool for identifying and determining the role of fundamental processes in optically driven spin dynamics in magnetic materials.
翻訳日:2023-02-14 03:46:50 公開日:2022-05-06
# 3+1 QEDの相対論的離散時空定式化

A relativistic discrete spacetime formulation of 3+1 QED ( http://arxiv.org/abs/2205.03148v1 )

ライセンス: Link先を確認
Nathana\"el Eon, Giuseppe Di Molfetta, Giuseppe Magnifico, Pablo Arrighi(参考訳) この研究は、理論の離散時空定式化に基づく3+1$量子電磁力学(QED)の相対論的デジタル量子シミュレーションスキームを提供する。 量子回路の形をとり、空間と時間にわたって無限に繰り返し、離散化ステップ $\Delta_t=\Delta_x$ によってパラメータ化される。 回路ワイヤはQEDのライトライクな世界線と一致するため、厳密な因果性が保証され、デコヒーレンスのシミュレーション時間は最適化される。 構成はQEDラグランジアンにつながる論理をリプレイする。 すなわち、ディラック量子ウォークから始まり、自由相対論的フェルミオンへ収束することがよく知られている。 その後、フェルミオン反交換関係と離散ゲージ不変対称性を尊重する形で、量子ウォークを多粒子セクターの量子セルオートマトンに拡張する。 どちらの要求もゲージ場を導入するコストでのみ達成できる。 最後に、ゲージ場には独自の電磁力学が与えられ、各プラーペットの量子ウォークとして定式化することができる。

This work provides a relativistic, digital quantum simulation scheme for $3+1$ quantum electrodynamics (QED), based on a discrete spacetime formulation of theory. It takes the form of a quantum circuit, infinitely repeating across space and time, parameterized by the discretization step $\Delta_t=\Delta_x$. Strict causality is ensured as circuit wires coincide with the lightlike worldlines of QED; simulation time under decoherence is optimized. The construction replays the logic that leads to the QED Lagrangian. Namely, it starts from the Dirac quantum walk, well-known to converge towards free relativistic fermions. It then extends the quantum walk into a multi-particle sector quantum cellular automata in a way which respects the fermionic anti-commutation relations and the discrete gauge invariance symmetry. Both requirements can only be achieved at cost of introducing the gauge field. Lastly the gauge field is given its own electromagnetic dynamics, which can be formulated as a quantum walk at each plaquette.
翻訳日:2023-02-14 03:46:24 公開日:2022-05-06
# 一般確率モデルにおける効果の不一致

Incompatibility of effects in general probabilistic models ( http://arxiv.org/abs/2205.03129v1 )

ライセンス: Link先を確認
Roberto Beneduci and Leon Loveridge(参考訳) 状態空間が全凸空間である一般確率モデルにおいて、実パラメータを最小化することで得られるような、一対の効果の不適合性に対する必要十分条件を与える。 これは与えられたペアに互換性を持たせるために、最小ノイズという観点で解釈される。

We give a necessary and sufficient condition for the incompatibility of a pair of effects in a general probabilistic model in which the state space is a total convex space, which can be obtained by minimising a real parameter. This has an interpretation in terms of the least noise that must be included to make the given pair compatible.
翻訳日:2023-02-14 03:46:06 公開日:2022-05-06
# ダイヤモンド中の窒素空洞中心のアンサンブルにおける光学誘起静磁場

Optically induced static magnetic field in ensemble of nitrogen-vacancy centers in diamond ( http://arxiv.org/abs/2205.03010v1 )

ライセンス: Link先を確認
Farid Kalhor, Noah F. Opondo, Shoaib Mahmud, Leif Bauer, Li-Ping Yang, Sunil A. Bhave, and Zubin Jacob(参考訳) ナノスケールでの局所磁場の生成はスピン量子ビットベースの量子記憶のような多くの応用に望ましい。 しかし、静磁場の減衰が遅いため、これは課題である。 ここでは,光子スピン密度(PSD)により誘導される有効静磁場を,バルクダイヤモンド中の窒素空孔(NV)中心のアンサンブルとして示す。 この局所誘起磁場は、光励起とnv中心との間のコヒーレントな相互作用の結果である。 スピン量子ビットのすべての光コヒーレント制御にポテンシャルを持つブロッホ球面上での光誘起スピン回転を10度以上で示す。

Generation of local magnetic field at the nanoscale is desired for many applications such as spin-qubit-based quantum memories. However, this is a challenge due to the slow decay of static magnetic fields. Here, we demonstrate photonic spin density (PSD) induced effective static magnetic field for an ensemble of nitrogen-vacancy (NV) centers in bulk diamond. This locally induced magnetic field is a result of coherent interaction between the optical excitation and the NV centers. We demonstrate an optically induced spin rotation on the Bloch sphere exceeding 10 degrees which has potential applications in all optical coherent control of spin qubits.
翻訳日:2023-02-14 03:44:50 公開日:2022-05-06
# 原子干渉計における長距離力のデコヒーレンス

Decoherence from Long-Range Forces in Atom Interferometry ( http://arxiv.org/abs/2205.03006v1 )

ライセンス: Link先を確認
Jonathan Kunjummen, Daniel Carney, and Jacob M. Taylor(参考訳) 原子干渉計は、より大局的な空間と時間の範囲で量子コヒーレント系を実現する強力な手段を提供する。 これらのシステムは、超薄暗いダークマターの探索や重力の修正の試験、長い落下時間、微小重力など、基礎物理学の様々な新しい実験の機会を提供する。 しかし、実験が長期間自由落下し、より小さな背景効果に敏感になるにつれて、将来の原子干渉計実験の基本的な限界について重要な疑問が浮かび上がる。 重力浴や荷電宇宙線などの長距離力を持つ環境粒子の浴槽による強画面背景からの原子コヒーレンスへの影響について検討した。 原子の動きのハイゼンベルク図における我々のアプローチは、実験装置を適切に包含することを可能にし、長距離力と好ましいフレームあいまいさをどう扱うかを明確に示します。 これらの潜在的な背景は次世代の干渉計では無視できない可能性があり、暗黒物質粒子の背景浴からの重力デコヒーレンスのアグレッシブな推定は、年の順にデコヒーレンスタイムスケールを与える。

Atom interferometers provide a powerful means of realizing quantum coherent systems with increasingly macroscopic extent in space and time. These systems provide an opportunity for a variety of novel tests of fundamental physics, including ultralight dark matter searches and tests of modifications of gravity, using long drop times, microgravity. However, as experiments operate with longer periods of free fall and become sensitive to smaller background effects, key questions start to emerge about the fundamental limits to future atom interferometery experiments. We study the effects on atomic coherence from hard-to-screen backgrounds due to baths of ambient particles with long-range forces, such as gravitating baths and charged cosmic rays. Our approach - working in the Heisenberg picture for the atomic motion - makes proper inclusion of the experimental apparatus feasible and clearly shows how to handle long-range forces and preferred frame ambiguities. We find that these potential backgrounds are likely negligible for the next generation of interferometers, as aggressive estimates for the gravitational decoherence from a background bath of dark matter particles gives a decoherence timescale on the order of years.
翻訳日:2023-02-14 03:44:23 公開日:2022-05-06
# リンドラー地平線を超えた単一粒子の観測

Observing single-particles beyond the Rindler horizon ( http://arxiv.org/abs/2205.03312v1 )

ライセンス: Link先を確認
Riccardo Falcone and Claudio Conti(参考訳) ミンコフスキー単粒子状態が地平線を越えて局在し,加速フレーム内のunruh熱分布を変化させることを示した。 これは、古典的予測とは対照的に、加速された観測者が地平線を越えて放出される粒子を発見できることを意味する。 私たちが採用する手法は、非慣性フレームにおける量子場の完全記述に対する明示的なウィグナー特性関数の導出に基づいており、一般の状態に一般化することができる。

We show that Minkowski single-particle states localized beyond the horizon modify the Unruh thermal distribution in an accelerated frame. This means that, contrary to classical predictions, accelerated observers can reveal particles emitted beyond the horizon. The method we adopt is based on deriving the explicit Wigner characteristic function for the complete description of the quantum field in the non-inertial frame and can be generalized to general states.
翻訳日:2023-02-14 03:37:46 公開日:2022-05-06
# 単一人工原子を用いた光子結合状態の直接観察

Direct observation of photon bound states using a single artificial atom ( http://arxiv.org/abs/2205.03309v1 )

ライセンス: Link先を確認
Natasha Tomm, Sahand Mahmoodian, Nadia O. Antoniadis, R\"udiger Schott, Sascha R. Valentin, Andreas D. Wieck, Arne Ludwig, Alisa Javadi, Richard J. Warburton(参考訳) 光子と1つの2レベル原子の相互作用は、量子物理学の基本的なパラダイムを構成する。 原子によって提供される非線形性は、光-物質相互作用が発光寿命内の2レベル系と相互作用する光子の数に強く依存することを意味する。 この非線形性は、光子バウンド状態と呼ばれる強く相関した準粒子を露呈し、励起放出やソリトン伝播のような重要な物理過程を引き起こす。 光子結合状態の存在と一致するシグネチャは、強く相互作用するリドバーグ気体で測定されているが、そのホールマーク励起数依存性の分散と伝播速度はまだ観測されていない。 本稿では,光共振器に結合した単一半導体量子ドットの散乱における光子数依存時間遅延を直接観察する。 キャビティ-QED系から弱いコヒーレントパルスを散乱させ, 時間依存性の出力パワーと相関関数を計測することにより, それぞれ144.02\,ps, 66.45\,ps, 45.51\,psの異なる時間遅延を示す。 2光子境界状態の時間の短縮は、励起放出の有名な例の指紋であり、エミッタの寿命内に2つの光子の到着によって1つの光子が原子から他の光子の放出を刺激する。

The interaction between photons and a single two-level atom constitutes a fundamental paradigm in quantum physics. The nonlinearity provided by the atom means that the light-matter interaction depends strongly on the number of photons interacting with the two-level system within its emission lifetime. This nonlinearity results in the unveiling of strongly correlated quasi-particles known as photon bound states, giving rise to key physical processes such as stimulated emission and soliton propagation. While signatures consistent with the existence of photon bound states have been measured in strongly interacting Rydberg gases, their hallmark excitation-number-dependent dispersion and propagation velocity have not yet been observed. Here, we report the direct observation of a photon-number-dependent time delay in the scattering off a single semiconductor quantum dot coupled to an optical cavity. By scattering a weak coherent pulse off the cavity-QED system and measuring the time-dependent output power and correlation functions, we show that single photons, and two- and three-photon bound states incur different time delays of 144.02\,ps, 66.45\,ps and 45.51\,ps respectively. The reduced time delay of the two-photon bound state is a fingerprint of the celebrated example of stimulated emission, where the arrival of two photons within the lifetime of an emitter causes one photon to stimulate the emission of the other from the atom.
翻訳日:2023-02-14 03:37:39 公開日:2022-05-06
# 量子コンテキスト性は通信複雑性の利点をもたらす

Quantum contextuality provides communication complexity advantage ( http://arxiv.org/abs/2205.03308v1 )

ライセンス: Link先を確認
Shashank Gupta, Debashis Saha, Zhen-Peng Xu, Ad\'an Cabello, and A. S. Majumdar(参考訳) 量子力学における文脈性の概念的な重要性にもかかわらず、コンテキスト性を必要とするが絡み合っていないアプリケーションには限界がある。 ここで、任意の量子状態と十分に小さな次元の可観測性が文脈性を生み出す場合、量子優位な通信タスクが存在することを示す。 逆に、このタスクにおける任意の量子優位性は、追加条件が成立するたびに文脈性を証明する。 さらに、量子状態非依存の文脈性を可能にする観測可能の集合が与えられた場合、古典的および量子的通信複雑性の違いが入力数の増加に伴って増加するような通信タスクのクラスが存在することを示す。 最後に、これらの通信タスクを量子鍵分散のための半デバイス独立プロトコルに変換する方法を示す。

Despite the conceptual importance of contextuality in quantum mechanics, there is a hitherto limited number of applications requiring contextuality but not entanglement. Here, we show that for any quantum state and observables of sufficiently small dimension producing contextuality, there exists a communication task with quantum advantage. Conversely, any quantum advantage in this task admits a proof of contextuality whenever an additional condition holds. We further show that given any set of observables allowing for quantum state-independent contextuality, there exists a class of communication tasks wherein the difference between classical and quantum communication complexities increases as the number of inputs grows. Finally, we show how to convert each of these communication tasks into a semi-device independent protocol for quantum key distribution.
翻訳日:2023-02-14 03:37:13 公開日:2022-05-06
# 一対の超伝導量子ビットからの可変方向光子散乱

Tunable directional photon scattering from a pair of superconducting qubits ( http://arxiv.org/abs/2205.03293v1 )

ライセンス: Link先を確認
Elena S. Redchenko, Alexander V. Poshakinskiy, Riya Sett, Martin Zemlicka, Alexander N. Poddubny, Johannes M. Fink(参考訳) 集積デバイスにおける散乱光の方向を制御する能力は、集積フォトニクス、量子情報処理、非線形光学などの幅広いオンチップアプリケーションに柔軟性とスケーラビリティを提供するために不可欠である。 光とマイクロ波の周波数範囲では、外部磁場を印加し、非線形効果や振動との相互作用によって光選択規則を変更することで、波長の方向性を達成することができる。 しかし、これらの手法は集積超伝導量子デバイス内のマイクロ波光子の伝搬を制御するには適していない。 本稿では、周期的に変調された遷移周波数に基づいて伝送線路に2つのトランスモン量子ビットを結合した波長可変方向散乱を示す。 局所変調音間の相対位相によって支配される変調の対称性を変化させることで、向きの前方または後方光子散乱を実現する。

The ability to control the direction of scattered light in integrated devices is crucial to provide the flexibility and scalability for a wide range of on-chip applications, such as integrated photonics, quantum information processing and nonlinear optics. In the optical and microwave frequency ranges tunable directionality can be achieved by applying external magnetic fields, that modify optical selection rules, by using nonlinear effects, or interactions with vibrations. However, these approaches are less suitable to control propagation of microwave photons inside integrated superconducting quantum devices, that is highly desirable. Here, we demonstrate tunable directional scattering with just two transmon qubits coupled to a transmission line based on periodically modulated transition frequency. By changing the symmetry of the modulation, governed by the relative phase between the local modulation tones, we achieve directional forward or backward photon scattering.
翻訳日:2023-02-14 03:37:00 公開日:2022-05-06
# 一次元格子中の強双極子気体:ブロッホ振動と物質波局在

Strongly dipolar gases in a one-dimensional lattice: Bloch oscillations and matter-wave localization ( http://arxiv.org/abs/2205.03280v1 )

ライセンス: Link先を確認
G. Natale, T. Bland, S. Gschwendtner, L. Lafforgue, D. S. Gr\"un, A. Patscheider, M. J. Mark, F. Ferlaino(参考訳) 強双極子原子の3次元量子ガスは、量子揺らぎによって安定化される希薄な気体から高密度のマクロドロップレットへのクロスオーバーを受けることができる。 1次元の光学格子を加えることで、量子ゆらぎがまだ探索されておらず、様々な新しい位相が観測可能なプラットフォームが生まれる。 ブロッホ振動を干渉計として、準2次元ボース・アインシュタイン凝縮体の配列における量子揺らぎの役割を評価する。 複数の格子上にマクロドロップレットが伸びている領域において、化学ポテンシャルが部位間で平衡しているときに長寿命の振動が観測される。 さらに、運動量分布における干渉パターンの消失によって印加された相互作用により、単一の格子面$-$drivenに局所化される状態への移行を純粋に観察する。 観測を説明するために、量子揺らぎやオンサイト波動関数の変分的アプローチを含む離散1次元拡張グロス・ピタエフスキー理論を開発した。 このモデルは実験と定量的に一致し、単一および多地点マクロドロップレットの存在と2次元の明るいソリトンのシグネチャを明らかにする。

Three-dimensional quantum gases of strongly dipolar atoms can undergo a crossover from a dilute gas to a dense macrodroplet, stabilized by quantum fluctuations. Adding a one-dimensional optical lattice creates a platform where quantum fluctuations are still unexplored, and a rich variety of new phases may be observable. We employ Bloch oscillations as an interferometric tool to assess the role quantum fluctuations play in an array of quasi-two-dimensional Bose-Einstein condensates. Long-lived oscillations are observed when the chemical potential is balanced between sites, in a region where a macrodroplet is extended over several lattice sites. Further, we observe a transition to a state that is localized to a single lattice plane$-$driven purely by interactions$-$marked by the disappearance of the interference pattern in the momentum distribution. To describe our observations, we develop a discrete one-dimensional extended Gross-Pitaevskii theory, including quantum fluctuations and a variational approach for the on-site wavefunction. This model is in quantitative agreement with the experiment, revealing the existence of single and multisite macrodroplets, and signatures of a two-dimensional bright soliton.
翻訳日:2023-02-14 03:36:48 公開日:2022-05-06
# 1秒間に3倍の遺伝的プログラミング命令

A Trillion Genetic Programming Instructions per Second ( http://arxiv.org/abs/2205.03251v1 )

ライセンス: Link先を確認
W. B. Langdon(参考訳) 私たちは、3.0 GHz 16コアのAVX512コンピュータが、平均1103370000000 GPop/sで同等と解釈できることを要約する。 既存の出版物への引用が与えられる。 実装ストレスは並列コンピューティング、帯域幅制限、繰り返し計算の回避の両方に置かれる。 情報理論は、デジタルコンピューティングにおける破壊伝播の失敗は、fdpとインクリメンタル評価によって、表現型的に収束した集団における適合性評価時間を短縮できるという大きなスピードアップをもたらすことを示唆している。 逆に、FDPは進化の停滞の原因となるかもしれない。 したがって、より広範な進化的コンピューティング、人工生命、非慣習的コンピューティング、ソフトウェアエンジニアリングコミュニティは、深いネストを避ける必要があるかもしれない。

We summarise how a 3.0 GHz 16 core AVX512 computer can interpret the equivalent of up to on average 1103370000000 GPop/s. Citations to existing publications are given. Implementation stress is placed on both parallel computing, bandwidth limits and avoiding repeated calculation. Information theory suggests in digital computing, failed disruption propagation gives huge speed ups as FDP and incremental evaluation can be used to reduce fitness evaluation time in phenotypically converged populations. Conversely FDP may be responsible for evolution stagnation. So the wider Evolutionary Computing, Artificial Life, Unconventional Computing and Software Engineering community may need to avoid deep nesting.
翻訳日:2023-02-14 03:36:28 公開日:2022-05-06
# 一般連結リー群対称性を持つ非対称性の資源理論における資源測度としての漁業情報行列

Fisher information matrix as a resource measure in resource theory of asymmetry with general connected Lie group symmetry ( http://arxiv.org/abs/2205.03245v1 )

ライセンス: Link先を確認
Daigo Kudo and Hiroyasu Tajima(参考訳) 近年、量子情報理論において、力学の対称性を研究するための一般理論の枠組みは顕著な発展を遂げている。 この発展は非対称性の資源理論と呼ばれ、正確な時間測定からブラックホール物理学まで幅広い応用が期待されている。 その重要性にもかかわらず、非対称性の資源理論の基礎はまだ拡大の余地がある。 重要な問題は資源量の定量化である。 対称性が与えられたU(1)、すなわち単一の保存量を持つ場合、量子フィッシャー情報は、適切な性質と保存量の量子ゆらぎに関連する明確な物理的意味を持つリソース測度として知られている。 しかし、一般対称性が複数の保存量を持つ場合、そのような適切な性質を持つ資源測度が何であるかは明らかではない。 本論文の目的は,このギャップを埋めることである。 具体的には、連結線型リー群が対称性を記述するとき、量子フィッシャー情報行列は資源測度であることを示す。 また、この行列の物理的意味を考察し、対称性が$U(1)$で記述されたとき、量子フィッシャー情報が持つ性質を量子フィッシャー情報行列によって継承できることを示す。

In recent years, in quantum information theory, there has been a remarkable development in the general theoretical framework for studying symmetry in dynamics. This development, called resource theory of asymmetry, is expected to have a wide range of applications, from accurate time measurements to black hole physics. Despite its importance, the foundation of resource theory of asymmetry still has room for expansion. An important problem is in quantifying the amount of resource. When the symmetry prescribed U(1), i.e., with a single conserved quantity, the quantum Fisher information is known as a resource measure that has suitable properties and a clear physical meaning related to quantum fluctuation of the conserved quantity. However, it is not clear what is the resource measure with such suitable properties when a general symmetry prevails for which there are multiple conserved quantities. The purpose of this paper is to fill this gap. Specifically, we show that the quantum Fisher information matrix is a resource measure whenever a connected linear Lie group describes the symmetry. We also consider the physical meaning of this matrix and see which properties that the quantum Fisher information has when the symmetry is described by $U(1)$ can be inherited by the quantum Fisher information matrix.
翻訳日:2023-02-14 03:36:17 公開日:2022-05-06
# 量子力学的可観測不確かさの確率密度関数

Probability density functions of quantum mechanical observable uncertainties ( http://arxiv.org/abs/2205.03193v1 )

ライセンス: Link先を確認
Lin Zhang and Jinping Huang and Jiamei Wang and Shao-Ming Fei(参考訳) 量子力学的可観測性の不確かさをハール分布のランダムな純状態における標準偏差(分散の平方根)によって定量化する。 任意の量子ビット観測可能な不確かさの確率密度関数(pdf)を解析的に導出する。 これらのPDFに基づいて、観測対象の不確かさ領域はPDFの支持によって特徴づけられる。 状態独立不確実性関係は、状態独立不確実性関係を研究する新しいvistaを開く不確実性領域上の最適化問題へと変換される。 この結果は高次元空間における複数の観測可能なケースに一般化することができる。

We study the uncertainties of quantum mechanical observables, quantified by the standard deviation (square root of variance) in Haar-distributed random pure states. We derive analytically the probability density functions (PDFs) of the uncertainties of arbitrary qubit observables. Based on these PDFs, the uncertainty regions of the observables are characterized by the supports of the PDFs. The state-independent uncertainty relations are then transformed into the optimization problems over uncertainty regions, which opens a new vista for studying state independent uncertainty relations. Our results may be generalized to multiple observable case in higher dimensional spaces.
翻訳日:2023-02-14 03:35:57 公開日:2022-05-06
# 強化強磁場電離における量子効果の機械学習による制御

Controlling quantum effects in enhanced strong-field ionisation with machine-learning techniques ( http://arxiv.org/abs/2205.03176v1 )

ライセンス: Link先を確認
Heloise Chomet, Samuel Plesnik, Constantin Nicolae, Jack Dunham, Lesley Gover, Timothy Weaving and Carla Figueira de Morisson Faria(参考訳) 強レーザー場における二原子分子のイオン化促進における非古典的経路と量子干渉を機械学習を用いて研究する。 量子干渉は分子内人口移動を促進する橋を提供する。 その周波数は、系に固有の磁場の周波数よりも高く、初期波束の状態や核間分離など、いくつかの要因に依存する。 本研究では,T分散確率的近接埋め込み (t-SNE) と主成分分析 (PCA) を用いて, 複数パラメータの効果を同時に検討し, 静電場におけるイオン化の最適条件と2色駆動場におけるイオン化の制御について検討する。 この制御された電離化は、時間依存自己相関関数におけるステップのような挙動を示す。 相空間の議論に遭遇する特徴を説明し,相空間ウィグナー準確率流を介してイオン化を制御するためのパラメータの階層を確立し,状態の特定のコヒーレント重ね合わせ,電子の局在化,核間距離範囲などについて述べる。

We study non-classical pathways and quantum interference in enhanced ionisation of diatomic molecules in strong laser fields using machine learning techniques. Quantum interference provides a bridge, which facilitates intramolecular population transfer. Its frequency is higher than that of the field, intrinsic to the system and depends on several factors, for instance the state of the initial wavepacket or the internuclear separation. Using dimensionality reduction techniques, namely t-distributed stochastic neighbour embedding (t-SNE) and principal component analysis (PCA), we investigate the effect of multiple parameters at once and find optimal conditions for enhanced ionisation in static fields, and controlled ionisation release for two-colour driving fields. This controlled ionisation manifests itself as a step-like behaviour in the time-dependent autocorrelation function. We explain the features encountered with phase-space arguments, and also establish a hierarchy of parameters for controlling ionisation via phase-space Wigner quasiprobability flows, such as specific coherent superpositions of states, electron localisation and internuclear-distance ranges.
翻訳日:2023-02-14 03:35:48 公開日:2022-05-06
# 大規模量子ネットワークにおけるセキュア鍵交換のための多重重畳経路アルゴリズムの解析

Analysis of Multiple Overlapping Paths algorithms for Secure Key Exchange in Large-Scale Quantum Networks ( http://arxiv.org/abs/2205.03174v1 )

ライセンス: Link先を確認
Mateusz St\k{e}pniak, Jakub Mielczarek(参考訳) 量子ネットワークは前例のないレベルの通信セキュリティへの道を開く。 しかし、量子リンクの距離が物理的に制限されているため、量子ネットワークの現在の実装には信頼できるノードが組み込まれている。 その結果、量子鍵分布はリンク上でのみ実行される。 このため、いくつかの新しい認証と鍵交換方式は、リンクの無条件セキュリティから完全に恩恵を受ける必要がある。 そのようなアプローチの1つは、鍵交換にMNOP(Multiple Non-Overlapping Path)を使用して、信頼できるノードに対する攻撃のリスクを軽減する。 この記事の範囲は、非相関攻撃と相関攻撃の両方を有限資源で行う場合に、この方式のセキュリティ解析を行うことである。 さらに,多重重複経路 (multiple overlapping paths, mops) の場合に解析を拡張した。 重なり合うパスを導入することで、同じ数の追加リンクが付加される重複しないケースと比較して、プロトコルのセキュリティが向上することを示す。 この結果は、大規模(ハイブリッド)量子ネットワークのアーキテクチャの最適化に応用できるかもしれない。

Quantum networks open the way to an unprecedented level of communication security. However, due to physical limitations on the distances of quantum links, current implementations of quantum networks are unavoidably equipped with trusted nodes. As a consequence, the quantum key distribution can be performed only on the links. Due to this, some new authentication and key exchange schemes must be considered to fully benefit from the unconditional security of links. One such approach uses Multiple Non-Overlapping Paths (MNOPs) for key exchange to mitigate the risk of an attack on a trusted node. The scope of the article is to perform a security analysis of this scheme for the case of both uncorrelated attacks and correlated attacks with finite resources. Furthermore, our analysis is extended to the case of Multiple Overlapping Paths (MOPs). We prove that introducing overlapping paths allows one to increase the security of the protocol, compared to the non-overlapping case with the same number of additional links added. This result may find application in optimising architectures of large-scale (hybrid) quantum networks.
翻訳日:2023-02-14 03:35:31 公開日:2022-05-06
# グラフェン一般化コヒーレント状態

Graphene generalized coherent states ( http://arxiv.org/abs/2205.03500v1 )

ライセンス: Link先を確認
David J. Fern\'andez C. and Daniel O-Campa(参考訳) 本稿では、外部磁場中に置かれた単層または二層グラフェン中の電子の一般化コヒーレント状態を構築する。 最初、各ハミルトニアンの固有函数に作用するはしご作用素の適切な集合を定義し、その後、いくつかの定義を通じて一般化されたコヒーレント状態を導出し、はしご作用素間の可換関係を分析する。 そして、コヒーレント状態間の相互同値性につながる条件を決定する。 最後に、いくつかの物理量を計算し、一般化されたグラフェンコヒーレント状態の時間発展を研究する。

In this paper we construct the generalized coherent states for an electron in monolayer or bilayer graphene placed in an external magnetic field. At first we define an appropriate set of ladder operators acting on the eigenfunctions for each Hamiltonian, afterwards we derive the generalized coherent states through several definitions and analyze the commutation relationship between the ladder operators. Then we determine the conditions leading to the mutual equivalence between coherent states. Finally, some physical quantities are calculated and we study the time evolution for the generalized graphene coherent states.
翻訳日:2023-02-14 03:27:46 公開日:2022-05-06
# 集合量子系における動的相転移の理論

Theory of dynamical phase transitions in collective quantum systems ( http://arxiv.org/abs/2205.03443v1 )

ライセンス: Link先を確認
\'Angel L. Corps, Armando Rela\~no(参考訳) 集合多体系における2種類の動的量子相転移(DPT-I と DPT-II と呼ばれることもある)の理論について述べる。 どちらも励起状態の量子相転移によって引き起こされる。 臨界エネルギー以下のクエンチの場合、追加の保存電荷の存在は、対応する位相を識別し、DPTs-Iを特徴づける動的順序パラメータのゼロではない値を許容し、DPTs-IIの商標である戻り確率の非解析性を引き起こすメカニズムを阻害する。 本稿では, DPTs-Iにおける秩序パラメータの長期平均を記述する統計アンサンブルを提案し, この保存電荷を相における熱力学的限界における真のDPT-II臨界時間の欠如を理論的に証明する。 本研究は,両種類の動的相転移を示す全連結横場イジングモデルにおいて数値的に示される。

We present a theory for the two kinds of dynamical quantum phase transitions, sometimes termed DPT-I and DPT-II, in collective many-body systems. Both are triggered by excited-state quantum phase transitions. For quenches below the critical energy, the existence of an additional conserved charge, identifying the corresponding phase, allows for a non-zero value of the dynamical order parameter characterizing DPTs-I, and precludes the mechanism giving rise to non-analyticities in the return probability, trademark of DPTs-II. We propose a statistical ensemble describing the long-time averages of order parameters in DPTs-I, and provide a theoretical proof for the absence of true DPT-II critical times in the thermodynamic limit in the phase with this additional conserved charge. Our results are numerically illustrated in the fully-connected transverse-field Ising model, which exhibits both kinds of dynamical phase transitions.
翻訳日:2023-02-14 03:27:19 公開日:2022-05-06
# Max-Cut と Ising Spin Model 問題における反復局所探索法とQAOA に適用した排他探索法の比較

Comparison between the Iterative Local Search and Exhaustive Search methods applied to QAOA in Max-Cut and Ising Spin Model problems ( http://arxiv.org/abs/2205.03441v1 )

ライセンス: Link先を確認
Brian Garc\'ia Sarmina(参考訳) Exhaustive Search (ES) と Iterative Local Search (ILS) を比較した。 この比較は量子近似最適化アルゴリズム(QAOA)を用いて行った。 QAOAは、実際の量子ハードウェアに実装される可能性や、最適化問題や量子機械学習における将来性から、広く研究されている。 ESおよびILSアプローチは、局所(古典的コンピュータ)および実シミュレーション(IBM量子コンピュータ)におけるQAOAにおけるこれらの手法の長所と短所をシミュレートした。 これらの古典的なアプローチは、Max-Cut と Ising Spin Model (ISM) 問題の最適値を近似するためにQAOAで用いられ、どちらも線形、巡回、完全(または完全)と呼ばれる3つのシミュレートされた構成を持つ。

A comparison is made between Exhaustive Search (ES) and Iterative Local Search (ILS). Such comparison was made using the Quantum Approximation Optimization Algorithm (QAOA). QAOA has been extensively researched due to its this potential to be implemented in actual quantum hardware, and its promising future in optimization problems and quantum machine learning. ES and ILS approaches were simulated to determine the pros and cons of these techniques for QAOA in local (classic computer) and real simulations (IBM quantum computer). These classic approaches were used in QAOA to approximate the optimal expected value in Max-Cut and Ising Spin Model (ISM) problems, both of these flavors have three simulated configurations called: linear, cyclic and complete (or full).
翻訳日:2023-02-14 03:27:01 公開日:2022-05-06
# 新しいランジュバンノイズモデルのための数値的枠組み:プラズモニックホン・ウー・マンデル効果への応用

Numerical Framework for New Langevin Noise Model: Applications to Plasmonic Hong-Ou-Mandel Effects ( http://arxiv.org/abs/2205.03388v1 )

ライセンス: Link先を確認
Dong-Yeop Na, Thomas E Roth, Jie Zhu, Weng C Chew(参考訳) 計算電磁法を応用した新しいLangevin noise (LN) フォーマリズム [1,2] の数値的枠組みを提案し, 媒体損失と放射損失の両方を含む量子電磁系を解析した。 次に, 表面プラズモン偏光子 (SPP) 場に占有される2つの不明瞭なボゾン粒子のプラズマ干渉により, 量子プラズモンHong-Ou-Mandel (HOM) 効果を得るための完全量子論的数値シミュレーションを行った。 量子量子光学技術の進歩に有用な量子プラズモニック現象やメタサーフェスに基づくデバイスといった、中程度の不均一性と幾何学的複雑性を伴う、開放的および散逸的量子光学問題の定量的評価への道を開いた。

We present a numerical framework of the new Langevin noise (LN) formalism [1,2] leveraging computational electromagnetics numerical methods to analyze quantum electromagnetic systems involving both medium and radiation losses. We then perform fully quantum-theoretic numerical simulations to retrieve quantum plasmonic Hong-Ou-Mandel (HOM) effects, demonstrated in recent experimental works [3-5], due to plasmonic interferences of two indistinguishable bosonic particles occupied in surface plasmon polariton (SPP) fields. The developed numerical framework would pave the path towards quantitative evaluations of open and dissipative quantum optics problems with the medium inhomogeneity and geometric complexity, e.g., quantum plasmonic phenomena and metasurface-based devices, useful for advancing the current quantum optics technology.
翻訳日:2023-02-14 03:26:13 公開日:2022-05-06
# 光双極子マイクロトラップにおけるスピン量子ビットの結合ダイナミクス

Coupled dynamics of spin qubits in optical dipole microtraps ( http://arxiv.org/abs/2205.03383v1 )

ライセンス: Link先を確認
L.V. Gerasimov, R.R. Yusupov, A.D. Moiseevsky, I. Vybornyi, K.S. Tikhonov, S.P. Kulik, S.S. Straupe, C.I. Sukenik, D.V. Kupriyanov(参考訳) 双極子マイクロトラップや光トワイザーの単一原子は、量子コンピューティングとシミュレーションの有望なプラットフォームとなっている。 本稿では,そのようなシステムにおけるrydberg 2量子ビットゲートの実装の基礎となる物理の詳細な理論的解析について報告する。 我々は,封鎖型絡み合いゲートに着目し,実システムの性能を制限する様々なデコヒーレンスプロセスを検討する。 本稿では,最大絡み合った状態の忠実度限界の数値計算を行い,ノイズの多い2量子ゲートに対応する全プロセス行列を予測する。 提案手法は,中性原子系量子プロセッサのシミュレーションと最適化のための数値モデルに実装されている。

Single atoms in dipole microtraps or optical tweezers have recently become a promising platform for quantum computing and simulation. Here we report a detailed theoretical analysis of the physics underlying an implementation of a Rydberg two-qubit gate in such a system -- a cornerstone protocol in quantum computing with single atoms. We focus on a blockade-type entangling gate and consider various decoherence processes limiting its performance in a real system. We provide numerical estimates for the limits on fidelity of the maximally entangled states and predict the full process matrix corresponding to the noisy two-qubit gate. Our methods and results may find implementation in numerical models for simulation and optimization of neutral atom based quantum processors.
翻訳日:2023-02-14 03:25:55 公開日:2022-05-06
# 量子非マルコフ環境からシステムへの情報バックフロー:非操作的対操作的アプローチ

Quantum non-Markovian environment-to-system backflows of information: non-operational vs. operational approaches ( http://arxiv.org/abs/2205.03333v1 )

ライセンス: Link先を確認
Adri\'an A. Budini(参考訳) 量子メモリ効果は、環境からシステムへの情報のバックフローの結果、質的に理解することができる。 ここでは、この概念がどのように解釈され、量子非マルコビアン性に対する異なるアプローチで実装されるかを分析し、比較する。 異なる初期条件を特徴とする2つのシステム状態間の断続性によって定義される非操作的アプローチと、システム上で実行される連続的な測定プロセスに関連する異なる結果の相関によって定義される操作的アプローチについて検討する。 各アプローチの違い、制限、および利点は、多様なシステム環境モデルとダイナミクスを考慮して詳細に特徴づけられる。 具体的な例として,非一貫性とコヒーレントな自己力学を特徴とする環境と関心系の相互作用によって引き起こされる非マルコフ非偏極写像を考察する。

Quantum memory effects can be qualitatively understood as a consequence of an environment-to-system backflow of information. Here, we analyze and compare how this concept is interpreted and implemented in different approaches to quantum non-Markovianity. We study a non-operational approach, defined by the istinguishability between two system states characterized by different initial conditions, and an operational approach, which is defined by the correlation between different outcomes associated to successive measurement processes performed over the system of interest. The differences, limitations, and vantages of each approach are characterized in detail by considering diverse system-environment models and dynamics. As a specific example, we study a non-Markovian depolarizing map induced by the interaction of the system of interest with an environment characterized by incoherent and coherent self-dynamics.
翻訳日:2023-02-14 03:25:45 公開日:2022-05-06
# ゼロショットスケッチに基づく画像検索のためのプログレッシブドメイン非依存特徴分解ネットワーク

Progressive Domain-Independent Feature Decomposition Network for Zero-Shot Sketch-Based Image Retrieval ( http://arxiv.org/abs/2003.09869v2 )

ライセンス: Link先を確認
Xinxun Xu, Muli Yang, Yanhua Yang and Hao Wang(参考訳) zero-shot sketch-based image retrieval (zs-sbir) は、ゼロショットシナリオで与えられたフリーハンドスケッチを検索するための、特定のクロスモーダル検索タスクである。 既存の手法の多くは、視覚的特徴と意味的監督を同時に低次元の共通空間に投影することでこの問題を解決し、効率的な検索を行う。 しかし、このような低次元投影は、本来の意味空間における意味知識の完全性を破壊するため、異なるモダリティから意味を学習する際に有用な知識を伝達できない。 さらに、ドメイン情報と意味情報は視覚的特徴に絡み合っており、スケッチと画像間のドメインギャップの減少を妨げるため、クロスモーダルマッチングには適さない。 本稿では,ZS-SBIRのためのプログレッシブドメイン非依存特徴分解(PDFD)ネットワークを提案する。 具体的には、元の意味知識を監督することで、PDFDは視覚的特徴をドメインの特徴と意味的特徴に分解し、その意味的特徴をZS-SBIRの検索機能として共通空間に投影する。 プログレッシブ・プロジェクション・ストラテジーは強い意味的監督を維持している。 さらに、クリーンで完全なセマンティック情報を取得するための検索機能を保証するために、検索機能とドメイン機能の組み合わせが視覚的特徴を再構築できるように、クロスコンストラクションロスを導入する。 広範な実験は、最先端の競争相手よりもpdfdの方が優れていることを示している。

Zero-shot sketch-based image retrieval (ZS-SBIR) is a specific cross-modal retrieval task for searching natural images given free-hand sketches under the zero-shot scenario. Most existing methods solve this problem by simultaneously projecting visual features and semantic supervision into a low-dimensional common space for efficient retrieval. However, such low-dimensional projection destroys the completeness of semantic knowledge in original semantic space, so that it is unable to transfer useful knowledge well when learning semantic from different modalities. Moreover, the domain information and semantic information are entangled in visual features, which is not conducive for cross-modal matching since it will hinder the reduction of domain gap between sketch and image. In this paper, we propose a Progressive Domain-independent Feature Decomposition (PDFD) network for ZS-SBIR. Specifically, with the supervision of original semantic knowledge, PDFD decomposes visual features into domain features and semantic ones, and then the semantic features are projected into common space as retrieval features for ZS-SBIR. The progressive projection strategy maintains strong semantic supervision. Besides, to guarantee the retrieval features to capture clean and complete semantic information, the cross-reconstruction loss is introduced to encourage that any combinations of retrieval features and domain features can reconstruct the visual features. Extensive experiments demonstrate the superiority of our PDFD over state-of-the-art competitors.
翻訳日:2022-12-21 05:43:10 公開日:2022-05-06
# 低ランク行列近似に基づくハイパースペクトル画像復調フレームワークの不確かさの定量化

Uncertainty Quantification for Hyperspectral Image Denoising Frameworks based on Low-rank Matrix Approximation ( http://arxiv.org/abs/2004.10959v4 )

ライセンス: Link先を確認
Jingwei Song, Shaobo Xia, Jun Wang, Mitesh Patel, and Dong Chen(参考訳) Sliding-window based Low-rank matrix approximation (LRMA) は、ハイパースペクトル画像(HSI)において広く用いられている手法である。 しかし、復元されたhsiの不確かさの定量化は、現在まで解決されていない。 正規化hsiの正確な不確かさの定量化は、入力データの統計分布を記述するための正確なアプローチを必要とするため、マルチソースやマルチスケールのデータ融合、データ同化、製品不確実性定量化といった応用に容易である。 そこで本研究では,LRMAを用いたHSI復元のための先行自由閉形式要素量不確実性定量化手法を提案する。 本アルゴリズムは,従来のLRMAプロセスで使用されるスライディングウインドウ戦略によるHSIパッチ混合問題の難しさを克服する。 提案手法は, 観測されたhsiの不確実性のみを求め, 比較的高速で計算量もlrma法と同様の不確実性を与える。 提案する閉形式不確実性アプローチの推定精度を検証するために,広範囲な実験を行った。 LRMAに比べて処理時間の10~20%のコストで、少なくとも10%のランダムインパルスノイズに対して堅牢である。 実験の結果,提案手法は計算コストが高いモンテカルロ試験よりも実世界に適用できる可能性が示唆された。 コードは添付ファイルで利用可能であり、本論文の承認後にリリースされる予定だ。

Sliding-window based low-rank matrix approximation (LRMA) is a technique widely used in hyperspectral images (HSIs) denoising or completion. However, the uncertainty quantification of the restored HSI has not been addressed to date. Accurate uncertainty quantification of the denoised HSI facilitates to applications such as multi-source or multi-scale data fusion, data assimilation, and product uncertainty quantification, since these applications require an accurate approach to describe the statistical distributions of the input data. Therefore, we propose a prior-free closed-form element-wise uncertainty quantification method for LRMA-based HSI restoration. Our closed-form algorithm overcomes the difficulty of the HSI patch mixing problem caused by the sliding-window strategy used in the conventional LRMA process. The proposed approach only requires the uncertainty of the observed HSI and provides the uncertainty result relatively rapidly and with similar computational complexity as the LRMA technique. We conduct extensive experiments to validate the estimation accuracy of the proposed closed-form uncertainty approach. The method is robust to at least 10% random impulse noise at the cost of 10-20% of additional processing time compared to the LRMA. The experiments indicate that the proposed closed-form uncertainty quantification method is more applicable to real-world applications than the baseline Monte Carlo test, which is computationally expensive. The code is available in the attachment and will be released after the acceptance of this paper.
翻訳日:2022-12-10 10:15:38 公開日:2022-05-06
# ベイズネットワーク学習のための一貫性のある二階円錐整数プログラミング

Consistent Second-Order Conic Integer Programming for Learning Bayesian Networks ( http://arxiv.org/abs/2005.14346v3 )

ライセンス: Link先を確認
Simge Kucukyavuz, Ali Shojaie, Hasan Manzour, Linchuan Wei, Hao-Hsiang Wu(参考訳) ベイズネットワーク(BN)は、有向非巡回グラフ(DAG)の形でランダム変数(ノード)の集合間の条件付き確率関係を表現し、知識発見における様々な応用を見出した。 連続観測データからBNのスパースDAG構造を学習する問題について検討する。 中央問題は、線型制約を受ける凸二次損失関数と正規化ペナルティからなる目的関数を持つ混合整数プログラムとしてモデル化することができる。 この数学プログラムの最適解は、ある条件下で望ましい統計的性質を持つことが知られている。 しかし、最先端の最適化解法は、合理的な計算時間内で中規模問題に対する既存の数学的定式化に対する証明可能な最適解を得ることができない。 この課題に対処するため、計算と統計の両方の観点からこの問題に取り組む。 一方,混合整数プログラムに最適に近い解を求めるため,分岐および分岐過程を終了させるための早期停止基準を提案し,その近似解の整合性を確立する。 一方,連続指標変数と二項指標変数の関係を表す線形 "big-$m$" 制約を二階円錐制約に置き換え,既存の定式化を改善する。 その結果,提案手法の有効性が示された。

Bayesian Networks (BNs) represent conditional probability relations among a set of random variables (nodes) in the form of a directed acyclic graph (DAG), and have found diverse applications in knowledge discovery. We study the problem of learning the sparse DAG structure of a BN from continuous observational data. The central problem can be modeled as a mixed-integer program with an objective function composed of a convex quadratic loss function and a regularization penalty subject to linear constraints. The optimal solution to this mathematical program is known to have desirable statistical properties under certain conditions. However, the state-of-the-art optimization solvers are not able to obtain provably optimal solutions to the existing mathematical formulations for medium-size problems within reasonable computational times. To address this difficulty, we tackle the problem from both computational and statistical perspectives. On the one hand, we propose a concrete early stopping criterion to terminate the branch-and-bound process in order to obtain a near-optimal solution to the mixed-integer program, and establish the consistency of this approximate solution. On the other hand, we improve the existing formulations by replacing the linear "big-$M$" constraints that represent the relationship between the continuous and binary indicator variables with second-order conic constraints. Our numerical results demonstrate the effectiveness of the proposed approaches.
翻訳日:2022-11-26 23:05:11 公開日:2022-05-06
# solar: 高次元データの高速かつ正確な変数選択のための平均値$l_0$ソリューションパス

Solar: $L_0$ solution path averaging for fast and accurate variable selection in high-dimensional data ( http://arxiv.org/abs/2007.15707v3 )

ライセンス: Link先を確認
Ning Xu, Timothy C.G. Fisher(参考訳) 我々は,新しい変分選択アルゴリズム,サブサンプル順序付き最小角度回帰(ソラー),および座標降下一般化,太陽-cdを提案する。 ソーラーは、$L_0$ノルムを使ってラッソパスを再構成し、サブサンプルをまたいだソリューションパスを平均化する。 経路平均化は、情報変数のランキング情報を保持しながら、高次元に対する感度を平均化し、変数選択安定性、効率、精度を向上させる。 私たちはそれを証明します (i)確率が高いパス平均化は、平均$L_0$パス上の冗長変数から情報変数を完全に分離する。 (二)太陽変分選択は一貫して正確であり、 (iii) 太陽光が弱い信号を省略する確率は有限サンプルサイズで制御可能である。 また、次のように示す。 (i)太陽収量は、ラッソ計算負荷の3分の3以下であり、余剰変数選択の64~84倍の減少)及び変数選択の正確性の観点から、ラッソよりも大幅に改善されている。 (ii)ラッソセーフ/ストロング・ルールと可変スクリーニングと比較して、太陽は複雑な依存構造の存在下で冗長変数の選択や情報変数の拒絶を大いに避ける。 (iii)太陽のスパース性と安定性は、データスプリッティング仮説試験における余剰自由度を保存し、n$制限された弱信号のポストセレクション推論の精度を向上させる。 (4)ラッソをブートストラップ選択(例えば、ボラッソや安定性の選択)で太陽に置き換えることにより、一つのラッソ実現のみの計算負荷で選択間隔とランキング精度を向上させる多層可変ランキングスキームが生成される。 (v) 計算資源を考えると、並列化ブートストラップラッソ(アムダールの法則により確認された)の理論的最大速度よりもソーラーブートストラップの選択は大幅に高速(98\%低い計算時間)である。

We propose a new variable selection algorithm, subsample-ordered least-angle regression (solar), and its coordinate descent generalization, solar-cd. Solar re-constructs lasso paths using the $L_0$ norm and averages the resulting solution paths across subsamples. Path averaging retains the ranking information of the informative variables while averaging out sensitivity to high dimensionality, improving variable selection stability, efficiency, and accuracy. We prove that: (i) with a high probability, path averaging perfectly separates informative variables from redundant variables on the average $L_0$ path; (ii) solar variable selection is consistent and accurate; and (iii) the probability that solar omits weak signals is controllable for finite sample size. We also demonstrate that: (i) solar yields, with less than $1/3$ of the lasso computation load, substantial improvements over lasso in terms of the sparsity (64-84\% reduction in redundant variable selection) and accuracy of variable selection; (ii) compared with the lasso safe/strong rule and variable screening, solar largely avoids selection of redundant variables and rejection of informative variables in the presence of complicated dependence structures; (iii) the sparsity and stability of solar conserves residual degrees of freedom for data-splitting hypothesis testing, improving the accuracy of post-selection inference on weak signals with limited $n$; (iv) replacing lasso with solar in bootstrap selection (e.g., bolasso or stability selection) produces a multi-layer variable ranking scheme that improves selection sparsity and ranking accuracy with the computation load of only one lasso realization; and (v) given the computation resources, solar bootstrap selection is substantially faster (98\% lower computation time) than the theoretical maximum speedup for parallelized bootstrap lasso (confirmed by Amdahl's law).
翻訳日:2022-11-05 13:31:33 公開日:2022-05-06
# テキストによる共同創設者の調整:課題と因果推論のための経験的評価フレームワーク

Adjusting for Confounders with Text: Challenges and an Empirical Evaluation Framework for Causal Inference ( http://arxiv.org/abs/2009.09961v4 )

ライセンス: Link先を確認
Galen Weld, Peter West, Maria Glenski, David Arbour, Ryan Rossi, Tim Althoff(参考訳) テキストソーシャルメディアデータを用いた因果推論研究は、人間の行動に関する実用的な洞察を与えることができる。 テキストで正確な因果推論を行うには、バイアスを生じさせる可能性のある結合を制御する必要がある。 近年, 共同設立者の調整方法が多数提案されており, 従来のソーシャルメディア研究に触発された2つのデータセットについて, 既存の手法が互いに一致しないことが示されている。 根本的真偽がほとんど利用できないため、因果的方法の評価は困難である。 現在,テキストを用いた因果的手法に対する経験的評価フレームワークは存在せず,実践者は指導なしに方法を選択する必要がある。 実世界研究から引き出された5つの課題からなる第1の枠組みをコントリビュートする。 本フレームワークはテキストを用いた任意のカジュアル推論手法の評価を可能にする。 648実験と2つのデータセットを用いて、一般的に使われている因果推論手法を評価し、その強度と弱点を特定し、ソーシャルメディア研究者にそのような手法を使おうとする旨を伝え、今後の改善を導く。 すべてのタスクやデータ、モデルを公開して、アプリケーションに通知し、さらなる研究を奨励します。

Causal inference studies using textual social media data can provide actionable insights on human behavior. Making accurate causal inferences with text requires controlling for confounding which could otherwise impart bias. Recently, many different methods for adjusting for confounders have been proposed, and we show that these existing methods disagree with one another on two datasets inspired by previous social media studies. Evaluating causal methods is challenging, as ground truth counterfactuals are almost never available. Presently, no empirical evaluation framework for causal methods using text exists, and as such, practitioners must select their methods without guidance. We contribute the first such framework, which consists of five tasks drawn from real world studies. Our framework enables the evaluation of any casual inference method using text. Across 648 experiments and two datasets, we evaluate every commonly used causal inference method and identify their strengths and weaknesses to inform social media researchers seeking to use such methods, and guide future improvements. We make all tasks, data, and models public to inform applications and encourage additional research.
翻訳日:2022-10-16 04:50:07 公開日:2022-05-06
# dagsim:dagベースのモデル構造と制約のないデータ型の組み合わせと柔軟で透明でモジュール化されたデータシミュレーションのための関係性

DagSim: Combining DAG-based model structure with unconstrained data types and relations for flexible, transparent, and modularized data simulation ( http://arxiv.org/abs/2205.11234v1 )

ライセンス: Link先を確認
Ghadi S. Al Hajj, Johan Pensar, Geir Kjetil Sandve(参考訳) データシミュレーションは、機械学習と因果推論の基礎であり、地上の真実を完全に制御した設定におけるシナリオの探索と手法の評価を可能にする。 直接非巡回グラフ(DAG)は、推論とシミュレーションの両方の設定において変数の集合上の依存構造を符号化するためによく確立されている。 しかし、最近の機械学習はますます複雑化するデータに適用される一方、DAGベースのシミュレーションフレームワークは、比較的単純な変数型と関数型を持つ設定に限定されている。 DAGベースのデータシミュレーションのためのPythonベースのフレームワークであるDagSimについて,変数型や関数関係に制約を加えることなく紹介する。 シミュレーションモデル構造を定義するための簡潔なYAMLフォーマットは透明性を促進し、一方、親に基づいて各変数を生成するユーザが提供する関数はシミュレーションコードのモジュール化を保証する。 メタデータ変数が画像の形状や生物配列のパターンを制御するユースケースを通して,DagSimの機能を説明する。

Data simulation is fundamental for machine learning and causal inference, as it allows exploration of scenarios and assessment of methods in settings with full control of ground truth. Directed acyclic graphs (DAGs) are well established for encoding the dependence structure over a collection of variables in both inference and simulation settings. However, while modern machine learning is applied to data of an increasingly complex nature, DAG-based simulation frameworks are still confined to settings with relatively simple variable types and functional forms. We here present DagSim, a Python-based framework for DAG-based data simulation without any constraints on variable types or functional relations. A succinct YAML format for defining the simulation model structure promotes transparency, while separate user-provided functions for generating each variable based on its parents ensure simulation code modularization. We illustrate the capabilities of DagSim through use cases where metadata variables control shapes in an image and patterns in bio-sequences.
翻訳日:2022-05-29 21:24:00 公開日:2022-05-06
# パラメータキャリブレーションによるニューラルネットワークのスパイクニューラルネットワークへの変換

Converting Artificial Neural Networks to Spiking Neural Networks via Parameter Calibration ( http://arxiv.org/abs/2205.10121v1 )

ライセンス: Link先を確認
Yuhang Li, Shikuang Deng, Xin Dong, Shi Gu(参考訳) 生物学における神経行動に由来するスパイキングニューラルネットワーク(SNN)は、次世代ニューラルネットワークの1つとして認識されている。 従来は、パラメータを変更することなく非線形活性化をスパイキングニューロンに置き換えることで、事前学習されたニューラルネットワーク(anns)からsnsを得ることができる。 本稿では,ANNの重みをSNNにコピー&ペーストするだけで必然的にアクティベーションミスマッチが発生し,特にバッチ正規化(BN)層でトレーニングされたANNに対して議論する。 アクティベーションミスマッチ問題に対処するため,まず局所変換誤差をクリッピング誤差とフロアリング誤差に分解して理論的解析を行い,第2次解析を用いて,この誤差がどのように層全体に伝播するかを定量的に測定する。 理論結果に動機づけられて,アクティベーションミスマッチを最小限に抑えるためにパラメータを調整できる階層型パラメータキャリブレーションアルゴリズムを提案する。 提案アルゴリズムの大規模な実験は,ImageNet分類やMS COCO検出など,現代的なアーキテクチャや大規模タスクで行われている。 提案手法は,SNN変換をバッチ正規化層で処理し,32時間ステップでも高い精度を効果的に維持できることを示す。 例えば、vgg-16をbn層に変換する場合、キャリブレーションアルゴリズムは最大65%の精度を上げることができる。

Spiking Neural Network (SNN), originating from the neural behavior in biology, has been recognized as one of the next-generation neural networks. Conventionally, SNNs can be obtained by converting from pre-trained Artificial Neural Networks (ANNs) by replacing the non-linear activation with spiking neurons without changing the parameters. In this work, we argue that simply copying and pasting the weights of ANN to SNN inevitably results in activation mismatch, especially for ANNs that are trained with batch normalization (BN) layers. To tackle the activation mismatch issue, we first provide a theoretical analysis by decomposing local conversion error to clipping error and flooring error, and then quantitatively measure how this error propagates throughout the layers using the second-order analysis. Motivated by the theoretical results, we propose a set of layer-wise parameter calibration algorithms, which adjusts the parameters to minimize the activation mismatch. Extensive experiments for the proposed algorithms are performed on modern architectures and large-scale tasks including ImageNet classification and MS COCO detection. We demonstrate that our method can handle the SNN conversion with batch normalization layers and effectively preserve the high accuracy even in 32 time steps. For example, our calibration algorithms can increase up to 65% accuracy when converting VGG-16 with BN layers.
翻訳日:2022-05-29 21:23:42 公開日:2022-05-06
# ニューラルネットワークにおける確率共鳴ニューロン

Stochastic resonance neurons in artificial neural networks ( http://arxiv.org/abs/2205.10122v1 )

ライセンス: Link先を確認
Egor Manuylovich, Diego Arg\"uello Ron, Morteza Kamalian-Kopae, Sergei Turitsyn(参考訳) ニューラルネットワークの現代の多くの応用は、多くの層を包含しており、従来のデジタル実装はますます複雑になっている。 光ニューラルネットワークは、高い帯域幅で並列処理を提供するが、ノイズ蓄積の課題がある。 本稿では,確率共鳴をアーキテクチャの固有部分として用いた新しいタイプのニューラルネットワークを提案し,所定の性能精度で必要なニューロン数が大幅に減少する可能性を示す。 また,このようなニューラルネットワークは雑音の影響に対してより強固であることを示す。

Many modern applications of the artificial neural networks ensue large number of layers making traditional digital implementations increasingly complex. Optical neural networks offer parallel processing at high bandwidth, but have the challenge of noise accumulation. We propose here a new type of neural networks using stochastic resonances as an inherent part of the architecture and demonstrate a possibility of significant reduction of the required number of neurons for a given performance accuracy. We also show that such a neural network is more robust against the impact of noise.
翻訳日:2022-05-29 21:23:19 公開日:2022-05-06
# (参考訳) Functional2Structural: Cross-Modality Brain Networks Representation Learning

Functional2Structural: Cross-Modality Brain Networks Representation Learning ( http://arxiv.org/abs/2205.07854v1 )

ライセンス: CC BY 4.0
Haoteng Tang, Xiyao Fu, Lei Guo, Yalin Wang, Scott Mackin, Olusola Ajilore, Alex Leow, Paul Thompson, Heng Huang, Liang Zhan(参考訳) MRIに基づく脳ネットワークのモデリングは、脳領域間の機能的および構造的相互作用や、脳の発達や疾患など、それらに影響を与える要因を理解するために広く用いられている。 脳ネットワーク上のグラフマイニングは、臨床表現型および神経変性疾患のための新しいバイオマーカーの発見を促進する可能性がある。 機能的および構造的MRIから派生した脳ネットワークは、異なる視点から脳のトポロジーを記述するため、これらのクロスモダリティな脳ネットワークを組み合わせた表現を探索するのは簡単ではない。 最近の研究は、構造的ネットワークを機能的ネットワークに投影することで、2種類の脳ネットワークの融合表現を抽出することを目的としている。 機能的ネットワークは動的で構造的ネットワークは静的であるため、静的オブジェクトを動的オブジェクトにマッピングするのは最適ではない。 しかし、現在のグラフ学習技術の非負性要件のため、反対方向のマッピングは実現不可能である。 本稿では,機能的ネットワークを構造的コーダに投影することで相互モダリティ表現を学習する,新しいグラフ学習フレームワークであるdeep signed brain networks (dsbn)を提案する。 2つの独立した公開データセット(HCPとOASIS)を用いて臨床表現型および神経変性疾患予測タスクの枠組みを検証する。 実験の結果,いくつかの最先端手法と比較して,モデルの有効性が明らかとなった。

MRI-based modeling of brain networks has been widely used to understand functional and structural interactions and connections among brain regions, and factors that affect them, such as brain development and disease. Graph mining on brain networks may facilitate the discovery of novel biomarkers for clinical phenotypes and neurodegenerative diseases. Since brain networks derived from functional and structural MRI describe the brain topology from different perspectives, exploring a representation that combines these cross-modality brain networks is non-trivial. Most current studies aim to extract a fused representation of the two types of brain network by projecting the structural network to the functional counterpart. Since the functional network is dynamic and the structural network is static, mapping a static object to a dynamic object is suboptimal. However, mapping in the opposite direction is not feasible due to the non-negativity requirement of current graph learning techniques. Here, we propose a novel graph learning framework, known as Deep Signed Brain Networks (DSBN), with a signed graph encoder that, from an opposite perspective, learns the cross-modality representations by projecting the functional network to the structural counterpart. We validate our framework on clinical phenotype and neurodegenerative disease prediction tasks using two independent, publicly available datasets (HCP and OASIS). The experimental results clearly demonstrate the advantages of our model compared to several state-of-the-art methods.
翻訳日:2022-05-22 16:56:58 公開日:2022-05-06
# (参考訳) クロスモーダル検索に基づくコンピュータ支援診断のための深層監視情報ボトルネックハッシュ

Deep Supervised Information Bottleneck Hashing for Cross-modal Retrieval based Computer-aided Diagnosis ( http://arxiv.org/abs/2205.08365v1 )

ライセンス: CC BY 4.0
Yufeng Shi, Shuhuang Chen, Xinge You, Qinmu Peng, Weihua Ou, Yue Zhao(参考訳) x線画像、放射線レポート、その他の医療データを共通空間内のバイナリコードとしてマッピングすることで、臨床医が異種モダリティ(ハッシュに基づくクロスモーダル医療データ検索)から病理関連データを取得するのに役立つ。 しかし、医療データの曖昧なセマンティクスを明らかにする方法として、過剰な情報の邪魔をすることなく、医学的検索精度を高めるための障壁が残っている。 この欠点を回避するため,我々は,ハッシュコードの識別性を効果的に強化する深層教師付き情報ボトルネックハッシュ(dsibh)を提案する。 具体的には、単一モダリティのためのDeep Deterministic Information Bottleneck(Yu, Yu, Principe 2021)をクロスモーダルシナリオに拡張する。 これにより、過剰な情報が低減され、ハッシュコードの識別が容易になる。 DSIBHの精度は, クロスモーダルな医療データ検索作業における最先端技術と比較して高い結果が得られた。

Mapping X-ray images, radiology reports, and other medical data as binary codes in the common space, which can assist clinicians to retrieve pathology-related data from heterogeneous modalities (i.e., hashing-based cross-modal medical data retrieval), provides a new view to promot computeraided diagnosis. Nevertheless, there remains a barrier to boost medical retrieval accuracy: how to reveal the ambiguous semantics of medical data without the distraction of superfluous information. To circumvent this drawback, we propose Deep Supervised Information Bottleneck Hashing (DSIBH), which effectively strengthens the discriminability of hash codes. Specifically, the Deep Deterministic Information Bottleneck (Yu, Yu, and Principe 2021) for single modality is extended to the cross-modal scenario. Benefiting from this, the superfluous information is reduced, which facilitates the discriminability of hash codes. Experimental results demonstrate the superior accuracy of the proposed DSIBH compared with state-of-the-arts in cross-modal medical data retrieval tasks.
翻訳日:2022-05-22 16:44:52 公開日:2022-05-06
# (参考訳) JUNO:UWB屋内ローカライゼーションのためのジャンプスタート強化学習に基づくノード選択

JUNO: Jump-Start Reinforcement Learning-based Node Selection for UWB Indoor Localization ( http://arxiv.org/abs/2205.08422v1 )

ライセンス: CC BY 4.0
Zohreh Hajiakhondi-Meybodi, Ming Hou, Arash Mohammadi(参考訳) UWB(Ultra-Wideband)は、IoT(Internet of Thing)の概念を利用して、屋内環境における信頼性、エネルギー効率、高精度なモニタリング、スクリーニング、ローカライゼーションを実現するための重要な技術のひとつである。 しかし、UWBベースのローカライズシステムの性能は、モバイルユーザとUWBビーコン間のNon Line of Sight (NLoS)接続によって著しく低下する可能性がある。 nlos接続の破壊的影響を軽減するために,室内環境の動的性質に効率的に対応可能な強化学習(rl)アンカー選択フレームワークの開発を目標とした。 しかし、この文脈で既存のRLモデルは、新しい設定で使われるように一般化する能力が欠けている。 さらに、従来のRLモデルが最適ポリシーに到達するには長い時間がかかる。 これらの課題に対処するために、複雑なNLoS識別・軽減手法に頼ることなく、リアルタイムな位置予測を行うJump-start RL-based Uwb NOde selection (JUNO) フレームワークを提案する。 提案するJUNOフレームワークの有効性は,モバイルユーザがNLoS接続を確立する可能性の高い超高密度屋内環境をランダムに移動する位置誤差の観点から評価する。 シミュレーションの結果,提案手法の有効性を最先端のフレームワークと比較した。

Ultra-Wideband (UWB) is one of the key technologies empowering the Internet of Thing (IoT) concept to perform reliable, energy-efficient, and highly accurate monitoring, screening, and localization in indoor environments. Performance of UWB-based localization systems, however, can significantly degrade because of Non Line of Sight (NLoS) connections between a mobile user and UWB beacons. To mitigate the destructive effects of NLoS connections, we target development of a Reinforcement Learning (RL) anchor selection framework that can efficiently cope with the dynamic nature of indoor environments. Existing RL models in this context, however, lack the ability to generalize well to be used in a new setting. Moreover, it takes a long time for the conventional RL models to reach the optimal policy. To tackle these challenges, we propose the Jump-start RL-based Uwb NOde selection (JUNO) framework, which performs real-time location predictions without relying on complex NLoS identification/mitigation methods. The effectiveness of the proposed JUNO framework is evaluated in term of the location error, where the mobile user moves randomly through an ultra-dense indoor environment with a high chance of establishing NLoS connections. Simulation results corroborate the effectiveness of the proposed framework in comparison to its state-of-the-art counterparts.
翻訳日:2022-05-22 16:31:30 公開日:2022-05-06
# OMA と NOMA の2元状態更新システムにおける重み付きSum AoI の最小化

How to Minimize the Weighted Sum AoI in Two-Source Status Update Systems: OMA or NOMA? ( http://arxiv.org/abs/2205.03143v1 )

ライセンス: Link先を確認
Jixuan Wang and Deli Qiao(参考訳) 本稿では,2ソース状態更新通信システムにおける重み付き和平均情報年齢(AoI)の最小化について検討する。 2つの独立したソースは、更新パケットを最大再送ラウンドの制限の下で、タイムスロット方式で共通の宛先ノードに送信する。 ブロックフェード多重アクセスチャネル(MAC)上には、直交多重アクセス(OMA)と非直交多重アクセス(NOMA)という異なる多重アクセススキームが利用される。 両送信方式を考慮したAoI最小化問題を記述するために,制約マルコフ決定過程(CMDP)問題を定式化する。 ラグランジアン法はCMDP問題を非拘束マルコフ決定過程(MDP)問題に変換するために利用され、それに対応するアルゴリズムを用いて配電ポリシーを導出する。 一方、未知環境の場合、複数アクセス方式を考慮した2つのオンライン強化学習手法が提案され、ほぼ最適年齢を達成できる。 数値シミュレーションにより,固定電力伝送方式と比較して重み付けサム・アオイの観点から提案手法の改善が検証され,パケットサイズが大きい場合にはnomaの方が有利であることが示されている。

In this paper, the minimization of the weighted sum average age of information (AoI) in a two-source status update communication system is studied. Two independent sources send update packets to a common destination node in a time-slotted manner under the limit of maximum retransmission rounds. Different multiple access schemes, i.e., orthogonal multiple access (OMA) and non-orthogonal multiple access (NOMA) are exploited here over a block-fading multiple access channel (MAC). Constrained Markov decision process (CMDP) problems are formulated to describe the AoI minimization problems considering both transmission schemes. The Lagrangian method is utilised to convert CMDP problems to unconstraint Markov decision process (MDP) problems and corresponding algorithms to derive the power allocation policies are obtained. On the other hand, for the case of unknown environments, two online reinforcement learning approaches considering both multiple access schemes are proposed to achieve near-optimal age performance. Numerical simulations validate the improvement of the proposed policy in terms of weighted sum AoI compared to the fixed power transmission policy, and illustrate that NOMA is more favorable in case of larger packet size.
翻訳日:2022-05-22 12:18:18 公開日:2022-05-06
# 分散フェデレーション学習のためのネットワーク勾配Descentアルゴリズム

Network Gradient Descent Algorithm for Decentralized Federated Learning ( http://arxiv.org/abs/2205.08364v1 )

ライセンス: Link先を確認
Shuyuan Wu, Danyang Huang, and Hansheng Wang(参考訳) 通信ネットワーク上で実行される新しい勾配降下アルゴリズムである,完全に分散化されたフェデレーション学習アルゴリズムについて検討する。 便宜上、これをネットワーク勾配降下法(ネットワーク勾配降下法)と呼ぶ。 NGD法では、統計(パラメータ推定など)のみを通信し、プライバシーのリスクを最小限に抑える必要がある。 一方、異なるクライアントは、中央マスターなしで慎重に設計されたネットワーク構造に従って直接通信する。 これによりアルゴリズム全体の信頼性が大幅に向上する。 これらの優れた性質は、NGD法を理論的にも数値的にも慎重に研究するきっかけとなった。 理論的には、古典線形回帰モデルから始める。 学習速度とネットワーク構造の両方が,NGD推定器の統計的効率を決定する上で重要な役割を果たすことがわかった。 結果のNGD推定器は、学習率が十分に小さく、ネットワーク構造が不均一に分散していても、グローバル推定器と同じくらい統計的に効率的である。 これらの興味深い発見は一般モデルや損失関数にまで拡張される。 理論的な知見を補うために広範な数値的研究がなされた。 古典的なディープラーニングモデルもイラスト用に提示されている。

We study a fully decentralized federated learning algorithm, which is a novel gradient descent algorithm executed on a communication-based network. For convenience, we refer to it as a network gradient descent (NGD) method. In the NGD method, only statistics (e.g., parameter estimates) need to be communicated, minimizing the risk of privacy. Meanwhile, different clients communicate with each other directly according to a carefully designed network structure without a central master. This greatly enhances the reliability of the entire algorithm. Those nice properties inspire us to carefully study the NGD method both theoretically and numerically. Theoretically, we start with a classical linear regression model. We find that both the learning rate and the network structure play significant roles in determining the NGD estimator's statistical efficiency. The resulting NGD estimator can be statistically as efficient as the global estimator, if the learning rate is sufficiently small and the network structure is well balanced, even if the data are distributed heterogeneously. Those interesting findings are then extended to general models and loss functions. Extensive numerical studies are presented to corroborate our theoretical findings. Classical deep learning models are also presented for illustration purpose.
翻訳日:2022-05-22 11:39:39 公開日:2022-05-06
# フェアネスの再考:ヘゲモニックMLフェアネスアプローチに対する批判の学際的調査

Rethinking Fairness: An Interdisciplinary Survey of Critiques of Hegemonic ML Fairness Approaches ( http://arxiv.org/abs/2205.04460v1 )

ライセンス: Link先を確認
Lindsay Weinberg(参考訳) 本稿では、哲学、フェミニスト研究、批判的人種・民族研究、法学、人類学、科学技術研究など、さまざまな非計算分野から導かれる機械学習(ML)に対する、現在の公正化の技術的介入の既存の批判を評価し、比較する。 mlフェアネスに対するヘゲモニックな計算アプローチの可能性と限界を学際的に理解するために、認識論的分割を橋渡しし、社会の最も限界的な結果を生み出す。 この記事は、これらの異なる分野が交わる批評の9つの主要なテーマに従って構成されている。 1)AIフェアネス研究における「公正」の定義 2)AIシステムに対処する問題はどのように定式化されるか。 3) 抽象化がaiツールの機能やその普及に与える影響は,技術解決主義につながる。 4)AIフェアネス研究における人種分類の運用方法 5) 規制を回避し,倫理洗浄に従事するためのAI公正対策の使用 6) aiフェアネスを考慮した参加型設計及び民主的審議の欠如 7)「バイアス」を巻き込むデータ収集の実践は、非合意であり、透明性がない。 8)AIシステムに疎外されたグループを捕食すること 9)AIの長期的な社会的・倫理的成果への関与の欠如。 この論文はこれらの批判から引き合いに出し、将来のmlフェアネス研究の方向性を想像し、社会における権力力学と構造的不正を積極的に破壊する。

This survey article assesses and compares existing critiques of current fairness-enhancing technical interventions into machine learning (ML) that draw from a range of non-computing disciplines, including philosophy, feminist studies, critical race and ethnic studies, legal studies, anthropology, and science and technology studies. It bridges epistemic divides in order to offer an interdisciplinary understanding of the possibilities and limits of hegemonic computational approaches to ML fairness for producing just outcomes for society's most marginalized. The article is organized according to nine major themes of critique wherein these different fields intersect: 1) how "fairness" in AI fairness research gets defined; 2) how problems for AI systems to address get formulated; 3) the impacts of abstraction on how AI tools function and its propensity to lead to technological solutionism; 4) how racial classification operates within AI fairness research; 5) the use of AI fairness measures to avoid regulation and engage in ethics washing; 6) an absence of participatory design and democratic deliberation in AI fairness considerations; 7) data collection practices that entrench "bias," are non-consensual, and lack transparency; 8) the predatory inclusion of marginalized groups into AI systems; and 9) a lack of engagement with AI's long-term social and ethical outcomes. Drawing from these critiques, the article concludes by imagining future ML fairness research directions that actively disrupt entrenched power dynamics and structural injustices in society.
翻訳日:2022-05-16 00:52:48 公開日:2022-05-06
# (参考訳) Mixed-UNet:マルチスケール推論を用いた弱改良セマンティックセマンティックセグメンテーションのためのクラス活性化マッピング

Mixed-UNet: Refined Class Activation Mapping for Weakly-Supervised Semantic Segmentation with Multi-scale Inference ( http://arxiv.org/abs/2205.04227v1 )

ライセンス: CC BY 4.0
Yang Liu, Ersi Zhang, Lulu Xu, Chufan Xiao, Xiaoyun Zhong, Lijin Lian, Fang Li, Bin Jiang, Yuhan Dong, Lan Ma, Qiming Huang, Ming Xu, Yongbing Zhang, Dongmei Yu, Chenggang Yan, and Peiwu Qin(参考訳) 深層学習技術は、特にmri(mri)スキャンやctスキャンで高精度で信頼性の高い画像分割を行い、病変の局在と診断を可能にすることで、医療画像処理において大きな可能性を秘めている。 しかし、これらのセグメンテーションモデルのトレーニングには、画像レベルのラベルの入手が容易とは対照的に、時間と労力がかかる多数の手作業によるピクセルレベルのラベルが必要である。 画像レベルのラベルを監督として用い,弱い教師付きセマンティックセマンティックセマンティクスモデルを用いてこの問題を解決することが不可欠である。 高度なソリューションのほとんどは、クラスアクティベーションマッピング(CAM)を利用している。 しかし、オリジナルのCAMは、病変の正確な境界を捉えることは滅多にない。 本研究では,シングルスケール推論における詳細損失を低減し,CAMを洗練するためのマルチスケール推論手法を提案する。 セグメンテーションのために、デコードフェーズに2つの並列分岐を持つMixed-UNetという新しいモデルを開発する。 その結果、2つの枝から抽出した特徴を融合させて得られる。 地域病院や公開データセットから収集したデータセットに対して,いくつかの一般的なディープラーニングに基づくセグメンテーションアプローチに対して,設計したMixed-UNetを評価した。 検証の結果,本モデルは脳画像から得られた各種病変の分節において,同一の監督レベルで利用可能な方法を超えることが判明した。

Deep learning techniques have shown great potential in medical image processing, particularly through accurate and reliable image segmentation on magnetic resonance imaging (MRI) scans or computed tomography (CT) scans, which allow the localization and diagnosis of lesions. However, training these segmentation models requires a large number of manually annotated pixel-level labels, which are time-consuming and labor-intensive, in contrast to image-level labels that are easier to obtain. It is imperative to resolve this problem through weakly-supervised semantic segmentation models using image-level labels as supervision since it can significantly reduce human annotation efforts. Most of the advanced solutions exploit class activation mapping (CAM). However, the original CAMs rarely capture the precise boundaries of lesions. In this study, we propose the strategy of multi-scale inference to refine CAMs by reducing the detail loss in single-scale reasoning. For segmentation, we develop a novel model named Mixed-UNet, which has two parallel branches in the decoding phase. The results can be obtained after fusing the extracted features from two branches. We evaluate the designed Mixed-UNet against several prevalent deep learning-based segmentation approaches on our dataset collected from the local hospital and public datasets. The validation results demonstrate that our model surpasses available methods under the same supervision level in the segmentation of various lesions from brain imaging.
翻訳日:2022-05-15 15:21:55 公開日:2022-05-06
# (参考訳) 新型コロナウイルスの診断・鑑別のための高分解能胸部CTスキャン画像データセット

A High-Resolution Chest CT-Scan Image Dataset for COVID-19 Diagnosis and Differentiation ( http://arxiv.org/abs/2205.03408v1 )

ライセンス: CC BY 4.0
Iraj Abedi, Mahsa Vali, Bentolhoda Otroshi Shahreza, Hamidreza Bolhasani(参考訳) 新型コロナウイルスのパンデミックの間、CT(Computerd tomography)は新型コロナウイルスの患者を診断するのに良い方法だ。 HRCT(High-Resolution Computed Tomography)は、画像分解能を改善するために高度な手法を用いるCTの一種である。 一般にアクセス可能な新型コロナウイルスのCT画像データセットは、プライバシー上の懸念のため、非常に難しいため、CT画像に基づいたAIによる新型コロナウイルスの診断アルゴリズムの研究と開発を妨げている。 この問題に対処するため、新たにHRCTv1-COVID-19という高解像度胸部CTスキャン画像データセットを導入しました。 HRCTv1-COVID-19データセットには、スライスレベルや患者レベルのラベルが含まれており、特に人工知能アルゴリズム、機械学習、ディープラーニング手法を用いた診断と識別のために、新型コロナウイルスの研究を支援する可能性がある。 このデータセットは、web at: http://databiox.comでアクセスでき、4つのラベルを持つ395人の患者の胸部hrct画像181,106枚を含む。 キーワード-データセット、COVID-19、CTスキャン、CT、医療画像、胸部画像。

During the COVID-19 pandemic, computed tomography (CT) is a good way to diagnose COVID-19 patients. HRCT (High-Resolution Computed Tomography) is a form of computed tomography that uses advanced methods to improve image resolution. Publicly accessible COVID-19 CT image datasets are very difficult to come by due to privacy concerns, which impedes the study and development of AI-powered COVID-19 diagnostic algorithms based on CT images. To address this problem, we have introduced HRCTv1-COVID-19, a new COVID-19 high resolution chest CT Scan image dataset that includes not only COVID-19 cases of Ground Glass Opacity (GGO), Crazy Paving, and Air Space Consolidation, but also CT images of cases with negative COVID-19. The HRCTv1-COVID-19 dataset, which includes slice-level, and patient-level labels, has the potential to aid COVID-19 research, especially for diagnosis and differentiation using artificial intelligence algorithms, machine learning and deep learning methods. This dataset is accessible through web at: http://databiox.com and includes 181,106 chest HRCT images from 395 patients with four labels: GGO, Crazy Paving, Air Space Consolidation and Negative. Keywords- Dataset, COVID-19, CT-Scan, Computed Tomography, Medical Imaging, Chest Image.
翻訳日:2022-05-15 15:01:29 公開日:2022-05-06
# (参考訳) AODisaggregation:グローバルエアロゾル垂直プロファイルに向けて

AODisaggregation: toward global aerosol vertical profiles ( http://arxiv.org/abs/2205.04296v1 )

ライセンス: CC BY 4.0
Shahine Bouabid, Duncan Watson-Parris, Sofija Stefanovi\'c, Athanasios Nenes, Dino Sejdinovic(参考訳) エアロゾルとクラウドの相互作用は、人為的気候変動の評価において最大の不確実性の源となっている。 この不確実性は、エアロゾルの垂直分布の測定が困難であることから生じ、散発的な垂直分解観測のみが可能である。 エアロゾル光深度 (AOD) のような, 情報の少ない垂直集約型プロキシを念頭に置く必要があることが多い。 本研究では,気温,気圧,相対湿度などの鉛直分解型気象予報器を用いて,aodの鉛直分解を,大気列全体における光消滅の指標として,絶滅プロファイルに分類する枠組みを開発した。 ベイズ非パラメトリックモデリングを用いて, エアロゾルの鉛直分布に先立って, 単純なガウス過程を考案し, aod観測で更新し, 鉛直絶滅プロファイル上の分布を推定する。 提案手法の検証には,気象共変量,AOD,絶滅プロファイルの自己整合性シミュレーションを行うECHAM-HAMエアロゾル気候モデルを用いている。 我々のモデルは,非常に単純ながら,衛星AOD検索アルゴリズムで典型的に使用される理想化されたベースラインの桁違いに優れた精度で,精度の高い不確かさで現実的な絶滅プロファイルを再構築することができることを示す。 特に, このモデルでは, 境界層におけるエアロゾル吸水による絶滅パターンの忠実な再構築が示されている。 しかし, エアロゾルの質量濃度, 粒子径, 放射特性などによる他の絶滅パターンは, 捕獲が難しく, さらに垂直分解された予測因子が必要であることが示唆された。

Aerosol-cloud interactions constitute the largest source of uncertainty in assessments of the anthropogenic climate change. This uncertainty arises in part from the difficulty in measuring the vertical distributions of aerosols, and only sporadic vertically resolved observations are available. We often have to settle for less informative vertically aggregated proxies such as aerosol optical depth (AOD). In this work, we develop a framework for the vertical disaggregation of AOD into extinction profiles, i.e. the measure of light extinction throughout an atmospheric column, using readily available vertically resolved meteorological predictors such as temperature, pressure or relative humidity. Using Bayesian nonparametric modelling, we devise a simple Gaussian process prior over aerosol vertical profiles and update it with AOD observations to infer a distribution over vertical extinction profiles. To validate our approach, we use ECHAM-HAM aerosol-climate model data which offers self-consistent simulations of meteorological covariates, AOD and extinction profiles. Our results show that, while very simple, our model is able to reconstruct realistic extinction profiles with well-calibrated uncertainty, outperforming by an order of magnitude the idealized baseline which is typically used in satellite AOD retrieval algorithms. In particular, the model demonstrates a faithful reconstruction of extinction patterns arising from aerosol water uptake in the boundary layer. Observations however suggest that other extinction patterns, due to aerosol mass concentration, particle size and radiative properties, might be more challenging to capture and require additional vertically resolved predictors.
翻訳日:2022-05-15 14:56:21 公開日:2022-05-06
# (参考訳) トランスベースマルチスペクトルマルチグラニュラ性非母語英語話者発音評価

Transformer-Based Multi-Aspect Multi-Granularity Non-Native English Speaker Pronunciation Assessment ( http://arxiv.org/abs/2205.03432v1 )

ライセンス: CC BY 4.0
Yuan Gong, Ziyi Chen, Iek-Heng Chu, Peng Chang, James Glass(参考訳) 自動発音評価は,自己指導型言語学習者を支援する重要な技術である。 発音品質には精度、流派、完全性、韻律を含む複数の側面があるが、従来の試みは1つの粒度(例えば音素レベル)でのみ1つの側面(例えば精度)をモデル化する。 本研究では,複数粒度のマルチアスペクト発音評価のモデル化について検討する。 具体的には、マルチタスク学習によるGoodness Of Pronunciation機能ベースのトランスフォーマー(GOPT)を訓練する。 実験により、goptは、librispeechで訓練された公用自動音声認識(asr)音響モデルを用いて、 speechocean762で最高の結果を得た。

Automatic pronunciation assessment is an important technology to help self-directed language learners. While pronunciation quality has multiple aspects including accuracy, fluency, completeness, and prosody, previous efforts typically only model one aspect (e.g., accuracy) at one granularity (e.g., at the phoneme-level). In this work, we explore modeling multi-aspect pronunciation assessment at multiple granularities. Specifically, we train a Goodness Of Pronunciation feature-based Transformer (GOPT) with multi-task learning. Experiments show that GOPT achieves the best results on speechocean762 with a public automatic speech recognition (ASR) acoustic model trained on Librispeech.
翻訳日:2022-05-15 14:32:03 公開日:2022-05-06
# (参考訳) Vocalsound:人間の声道音声認識を改善するデータセット

Vocalsound: A Dataset for Improving Human Vocal Sounds Recognition ( http://arxiv.org/abs/2205.03433v1 )

ライセンス: CC BY 4.0
Yuan Gong, Jin Yu, James Glass(参考訳) 人間の非音声音声認識は重要な課題であり、音声の自動書き起こしや健康状態のモニタリングといった幅広い応用がある。 しかし、既存のデータセットは比較的少数の音声サンプルやうるさいラベルを持っている。 その結果、最先端の音声イベント分類モデルは、人間の発声音を検出するのにうまく機能しない可能性がある。 そこで我々は,3,365名の独特な被験者の笑い,おびただしい声,喉の清浄,くしゃみ,嗅覚をクラウドソースで記録した21,000以上の音声データセットを作成した。 実験の結果,既存のデータセットにVocalSoundデータセットを追加することで,モデルの音声認識性能を41.9%向上させることができることがわかった。 さらに、これまでのデータセットとは異なり、 vocalsoundデータセットには、話者年齢、性別、母国語、国、健康状態などのメタ情報が含まれている。

Recognizing human non-speech vocalizations is an important task and has broad applications such as automatic sound transcription and health condition monitoring. However, existing datasets have a relatively small number of vocal sound samples or noisy labels. As a consequence, state-of-the-art audio event classification models may not perform well in detecting human vocal sounds. To support research on building robust and accurate vocal sound recognition, we have created a VocalSound dataset consisting of over 21,000 crowdsourced recordings of laughter, sighs, coughs, throat clearing, sneezes, and sniffs from 3,365 unique subjects. Experiments show that the vocal sound recognition performance of a model can be significantly improved by 41.9% by adding VocalSound dataset to an existing dataset as training material. In addition, different from previous datasets, the VocalSound dataset contains meta information such as speaker age, gender, native language, country, and health condition.
翻訳日:2022-05-15 14:31:09 公開日:2022-05-06
# (参考訳) EdgeViTs: ビジョントランスフォーマーを備えたモバイルデバイス上での軽量CNNの競合

EdgeViTs: Competing Light-weight CNNs on Mobile Devices with Vision Transformers ( http://arxiv.org/abs/2205.03436v1 )

ライセンス: CC BY 4.0
Junting Pan, Adrian Bulat, Fuwen Tan, Xiatian Zhu, Lukasz Dudziak, Hongsheng Li, Georgios Tzimiropoulos and Brais Martinez(参考訳) 視覚変換器(ViT)のような自己注意に基づくモデルは、コンピュータビジョンにおける畳み込みニューラルネットワーク(CNN)に代わる非常に競争力のあるアーキテクチャとして登場した。 認識精度が向上するほど、自己注意の二次的な複雑さのため、既存のViTは計算とモデルサイズが要求される。 以前のCNNの設計選択(例えば、畳み込みと階層的な多段階構造)は、近年のViTに再導入されているが、モバイルデバイスの限られたリソース要件を満たすには不十分である。 これは、最先端のMobileNet-v2をベースにした軽量ViTの開発を、ごく最近の試みの動機としている。 この研究では、この未研究の方向をさらに推し進め、EdgeViTsを紹介します。これは、新しい軽量ViTのファミリーで、初めて注目ベースのビジョンモデルが、正確性とデバイス上の効率のトレードオフにおいて、最高の軽量CNNと競合できるようにします。 自己着脱と畳み込みの最適統合に基づく高コスト効率なlgl(local-global-local)情報交換ボトルネックを導入することで実現される。 デバイス専用評価では、FLOPやパラメータの数などの不正確なプロキシに頼るのではなく、デバイス上でのレイテンシに直接フォーカスする実践的なアプローチを採用し、初めてエネルギー効率を向上する。 具体的には、精度レイテンシと精度エネルギーのトレードオフを考慮した場合、我々のモデルはパレート最適であることが示され、ほとんどの場合、他のViTよりも厳格に支配され、最も効率的なCNNと競合する。

Self-attention based models such as vision transformers (ViTs) have emerged as a very competitive architecture alternative to convolutional neural networks (CNNs) in computer vision. Despite increasingly stronger variants with ever-higher recognition accuracies, due to the quadratic complexity of self-attention, existing ViTs are typically demanding in computation and model size. Although several successful design choices (e.g., the convolutions and hierarchical multi-stage structure) of prior CNNs have been reintroduced into recent ViTs, they are still not sufficient to meet the limited resource requirements of mobile devices. This motivates a very recent attempt to develop light ViTs based on the state-of-the-art MobileNet-v2, but still leaves a performance gap behind. In this work, pushing further along this under-studied direction we introduce EdgeViTs, a new family of light-weight ViTs that, for the first time, enable attention-based vision models to compete with the best light-weight CNNs in the tradeoff between accuracy and on-device efficiency. This is realized by introducing a highly cost-effective local-global-local (LGL) information exchange bottleneck based on optimal integration of self-attention and convolutions. For device-dedicated evaluation, rather than relying on inaccurate proxies like the number of FLOPs or parameters, we adopt a practical approach of focusing directly on on-device latency and, for the first time, energy efficiency. Specifically, we show that our models are Pareto-optimal when both accuracy-latency and accuracy-energy trade-offs are considered, achieving strict dominance over other ViTs in almost all cases and competing with the most efficient CNNs.
翻訳日:2022-05-15 14:20:47 公開日:2022-05-06
# (参考訳) 局所記述子学習によるグローバルマルチモーダル2D/3D登録

Global Multi-modal 2D/3D Registration via Local Descriptors Learning ( http://arxiv.org/abs/2205.03439v1 )

ライセンス: CC BY 4.0
Viktoria Markova, Matteo Ronchetti, Wolfgang Wein, Oliver Zettinig and Raphael Prevost(参考訳) マルチモーダル登録は、多くの画像誘導手順、特に解剖学的コンテキストを必要とする超音波誘導介入において必要となるステップである。 このような登録アルゴリズムはいくつか既に利用可能だが、超音波画像の出現と取得した任意の座標系が困難であるため、すべて成功するためには適切な初期化が必要である。 本稿では,術前画像への超音波スイープの登録問題を解決するための新しい手法を提案する。 我々は、登録を推定する密集したキーポイント記述子を学習する。 また,本手法では,データのマルチモダリティと多次元性という自由ハンド超音波スイープによる登録課題を克服すると同時に,正確な基礎的真理の欠如や少ない訓練例の欠如も示している。 我々は,高速で汎用的で完全自動であり,初期化を必要とせず,解釈可能性や説明可能性を支援する視覚化を自然に生成できる登録手法を考案した。 本手法は, MRボリュームと超音波シーケンスを併用した臨床データセットを用いて評価した。

Multi-modal registration is a required step for many image-guided procedures, especially ultrasound-guided interventions that require anatomical context. While a number of such registration algorithms are already available, they all require a good initialization to succeed due to the challenging appearance of ultrasound images and the arbitrary coordinate system they are acquired in. In this paper, we present a novel approach to solve the problem of registration of an ultrasound sweep to a pre-operative image. We learn dense keypoint descriptors from which we then estimate the registration. We show that our method overcomes the challenges inherent to registration tasks with freehand ultrasound sweeps, namely, the multi-modality and multidimensionality of the data in addition to lack of precise ground truth and low amounts of training examples. We derive a registration method that is fast, generic, fully automatic, does not require any initialization and can naturally generate visualizations aiding interpretability and explainability. Our approach is evaluated on a clinical dataset of paired MR volumes and ultrasound sequences.
翻訳日:2022-05-15 14:18:58 公開日:2022-05-06
# (参考訳) latentkeypointgan: 潜在キーポイントによるイメージ制御 -- 拡張抽象

LatentKeypointGAN: Controlling Images via Latent Keypoints -- Extended Abstract ( http://arxiv.org/abs/2205.03448v1 )

ライセンス: CC BY 4.0
Xingzhe He, Bastian Wandt, Helge Rhodin(参考訳) GAN(Generative Adversarial Network)は、フォトリアリスティックな画像を生成することができる。 しかし、画像コンテンツをどう制御するかは、依然としてオープンな課題である。 生成したオブジェクトの位置とスタイルを制御可能なキーポイントと関連する外観埋め込みを内部的に条件付けした2段階のGANであるLatntKeypointGANを紹介する。 主な課題は、画像の空間的・外見的要素をドメイン知識や監視信号の少ない領域に切り離すことである。 本研究では,LatentKeypointGANが生成した画像を再配置し,異なる画像から顔と口を合成して画像を生成するようなキーポイント埋め込みを交換することで,解釈可能な潜在空間を提供することを示す。 特に,本手法は自己監督されているためラベルを必要としないため,ポートレートの編集や室内室,全身の人間のポーズなど,多様な応用領域に適用できる。

Generative adversarial networks (GANs) can now generate photo-realistic images. However, how to best control the image content remains an open challenge. We introduce LatentKeypointGAN, a two-stage GAN internally conditioned on a set of keypoints and associated appearance embeddings providing control of the position and style of the generated objects and their respective parts. A major difficulty that we address is disentangling the image into spatial and appearance factors with little domain knowledge and supervision signals. We demonstrate in a user study and quantitative experiments that LatentKeypointGAN provides an interpretable latent space that can be used to re-arrange the generated images by re-positioning and exchanging keypoint embeddings, such as generating portraits by combining the eyes, and mouth from different images. Notably, our method does not require labels as it is self-supervised and thereby applies to diverse application domains, such as editing portraits, indoor rooms, and full-body human poses.
翻訳日:2022-05-15 14:09:20 公開日:2022-05-06
# (参考訳) 心理的インスパイアされた音楽レコメンデーションシステム

Psychologically-Inspired Music Recommendation System ( http://arxiv.org/abs/2205.03459v1 )

ライセンス: CC BY 4.0
Danila Rozhevskii, Jie Zhu, Boyuan Zhao(参考訳) ここ数年、Spotify、Amazon、Appleといった企業が、ユーザーのために最もパーソナライズされた音楽提案を生成する能力に競い合っている音楽分野において、自動レコメンデーションシステムが主要な焦点となっている。 開発者がまだ取り組んでいない課題の1つは、音楽の心理的側面と感情的側面を考慮することだ。 我々のゴールは、ユーザの個人特性と現在の感情状態を、協調的かつコンテンツベースのフィルタリングによって単一の音楽レコメンデーションシステムに統合する方法を見つけることである。 本研究では,リスナーの個性と現在の感情状態とを関連付けて感情認識型MSSを構築することを目的とする。その結果をSpotify APIデータに基づく従来のMSSの出力と定量的・質的に比較し,私たちの進歩が音楽レコメンデーションの品質に重大な影響を与えるかどうかを明らかにする。

In the last few years, automated recommendation systems have been a major focus in the music field, where companies such as Spotify, Amazon, and Apple are competing in the ability to generate the most personalized music suggestions for their users. One of the challenges developers still fail to tackle is taking into account the psychological and emotional aspects of the music. Our goal is to find a way to integrate users' personal traits and their current emotional state into a single music recommendation system with both collaborative and content-based filtering. We seek to relate the personality and the current emotional state of the listener to the audio features in order to build an emotion-aware MRS. We compare the results both quantitatively and qualitatively to the output of the traditional MRS based on the Spotify API data to understand if our advancements make a significant impact on the quality of music recommendations.
翻訳日:2022-05-15 14:01:45 公開日:2022-05-06
# (参考訳) EVIMO2:モノクロ・ステレオ・アルゴリズムを用いた屋内シーンにおけるモーションセグメンテーション,光フロー,運動構造,視覚慣性オドメトリーのためのイベントカメラデータセット

EVIMO2: An Event Camera Dataset for Motion Segmentation, Optical Flow, Structure from Motion, and Visual Inertial Odometry in Indoor Scenes with Monocular or Stereo Algorithms ( http://arxiv.org/abs/2205.03467v1 )

ライセンス: CC BY 4.0
Levi Burner, Anton Mitrokhin, Cornelia Ferm\"uller, Yiannis Aloimonos(参考訳) 新しいイベントカメラデータセットであるEVIMO2が導入され、より複雑なシナリオにおいて、より良いカメラからより多くのデータを提供することで、人気のあるEVIMOデータセットを改善する。 前者と同様に、EVIMO2は、カメラやオブジェクトのポーズと同様に、ピクセルごとの真実の深さとセグメンテーションのラベルを提供する。 すべてのシーケンスは物理カメラのデータを使用し、多くのシーケンスは独立して動く複数のオブジェクトを特徴とする。 通常、このようなラベル付きデータは物理イベントカメラデータセットでは利用できない。 したがって、evimo2は既存のアルゴリズムと新しいアルゴリズムの開発のための豊富なトレーニングセットに対する挑戦的なベンチマークとして機能する。 特に、evimo2は、運動と物体のセグメンテーション、光学フロー、運動からの構造、および単眼またはステレオ構成の視覚(慣性)オドメトリの研究を支援するのに適している。 evimo2は、3つの640$\times$480のイベントカメラから41分間のデータ、1つの2080$\times $1552のクラシックカラーカメラ、2つの6軸慣性測定ユニットからの慣性測定、そしてバイコンモーションキャプチャシステムからの精密な正確な物体のポーズからなる。 データセットの173のシーケンスは3つのカテゴリに分けられる。 3.75分間の単独移動、22.55分間の静的なシーン、14.85分間の基本的な動きの浅いシーン。 いくつかのシーケンスは、従来のカメラが故障した低照度環境で記録された。 深さとセグメンテーションは、イベントカメラは60Hz、クラシックカメラは30Hzで提供される。 マスクは200Hzまでの速度でオープンソースコードを使って再生することができる。 本技術報告ではEVIMO2について概説する。 完全なドキュメントはオンラインで入手できる。 個々のシーケンスのビデオはダウンロードページでサンプルすることができる。

A new event camera dataset, EVIMO2, is introduced that improves on the popular EVIMO dataset by providing more data, from better cameras, in more complex scenarios. As with its predecessor, EVIMO2 provides labels in the form of per-pixel ground truth depth and segmentation as well as camera and object poses. All sequences use data from physical cameras and many sequences feature multiple independently moving objects. Typically, such labeled data is unavailable in physical event camera datasets. Thus, EVIMO2 will serve as a challenging benchmark for existing algorithms and rich training set for the development of new algorithms. In particular, EVIMO2 is suited for supporting research in motion and object segmentation, optical flow, structure from motion, and visual (inertial) odometry in both monocular or stereo configurations. EVIMO2 consists of 41 minutes of data from three 640$\times$480 event cameras, one 2080$\times$1552 classical color camera, inertial measurements from two six axis inertial measurement units, and millimeter accurate object poses from a Vicon motion capture system. The dataset's 173 sequences are arranged into three categories. 3.75 minutes of independently moving household objects, 22.55 minutes of static scenes, and 14.85 minutes of basic motions in shallow scenes. Some sequences were recorded in low-light conditions where conventional cameras fail. Depth and segmentation are provided at 60 Hz for the event cameras and 30 Hz for the classical camera. The masks can be regenerated using open-source code up to rates as high as 200 Hz. This technical report briefly describes EVIMO2. The full documentation is available online. Videos of individual sequences can be sampled on the download page.
翻訳日:2022-05-15 13:53:59 公開日:2022-05-06
# (参考訳) 強化学習エージェントを用いた動的結合記憶の書込み

Dynamically writing coupled memories using a reinforcement learning agent, meeting physical bounds ( http://arxiv.org/abs/2205.03471v1 )

ライセンス: CC BY 4.0
Th\'eo Jules, Laura Michel, Ad\`ele Douin and Fr\'ed\'eric Lechenault(参考訳) 従来のメモリ書き込み操作は一度に1ビット進み、例えば個々の磁気領域が局所化された外部磁場によって力ずくめられる。 材料の貯蔵容量を増やす方法の1つは、材料の大部分に一度に数ビットを書き込むことである。 しかし、ビットの操作は通常準静的演算によって行われる。 モデル化は簡単だが、メモリ容量を減らすことが知られている。 本稿では, 強化学習エージェントが, 単純なマルチビット機械系の動的応答を利用して, メモリをフル容量に復元する方法を実証する。 そこで本研究では,エージェントの外部動作によって一方の端で操作される二安定ばねの連鎖からなるモデルフレームワークを提案する。 エージェントは,断熱的な操作では到達できない状態であっても,3つのバネに対して利用可能なすべての状態への到達方法を学習でき,物理パラメータ空間内のトレーニング速度と収束性はトランスファー学習技術によって改善されていることを示す。 興味深いことに、エージェントは書き込み時間の観点からシステムの最適な設計も指している。 制御時間は、内部散逸に対する非単調な依存を示し、機械的に動機づけられたスケーリング関係を検証するために示されるクロスオーバーで最小に達する。

Traditional memory writing operations proceed one bit at a time, where e.g. an individual magnetic domain is force-flipped by a localized external field. One way to increase material storage capacity would be to write several bits at a time in the bulk of the material. However, the manipulation of bits is commonly done through quasi-static operations. While simple to model, this method is known to reduce memory capacity. In this paper, we demonstrate how a reinforcement learning agent can exploit the dynamical response of a simple multi-bit mechanical system to restore its memory to full capacity. To do so, we introduce a model framework consisting of a chain of bi-stable springs, which is manipulated on one end by the external action of the agent. We show that the agent manages to learn how to reach all available states for three springs, even though some states are not reachable through adiabatic manipulation, and that both the training speed and convergence within physical parameter space are improved using transfer learning techniques. Interestingly, the agent also points to an optimal design of the system in terms of writing time. In fact, it appears to learn how to take advantage of the underlying physics: the control time exhibits a non-monotonic dependence on the internal dissipation, reaching a minimum at a cross-over shown to verify a mechanically motivated scaling relation.
翻訳日:2022-05-15 13:45:18 公開日:2022-05-06
# (参考訳) 文が談話の実体を含まない場合、トランスフォーマーベースのモデルはまだそれを参照することがある。

When a sentence does not introduce a discourse entity, Transformer-based models still sometimes refer to it ( http://arxiv.org/abs/2205.03472v1 )

ライセンス: CC BY 4.0
Sebastian Schuster, Tal Linzen(参考訳) 長い物語を理解するか、会話に参加するには、言及された談話の実体を追跡する必要がある。 犬」のような不定名詞句(NP)は、しばしば談話の実体を導入するが、この振る舞いは否定のような感性演算子によって変調される。 例えば「アーサーは犬を飼っていません」の「犬」は否定の存在から談話の実体を導入しない。 本研究では,言語モデルパラダイムの心理言語学的評価を高次言語現象に適用し,感性演算子と不確定NP間の相互作用の知識をターゲットとした英語評価スイートを導入する。 本稿では,Transformer ベースモデル GPT-2 と GPT-3 のエンティティ追跡能力を詳細に検討する。 我々は,モデルが相互作用にある程度敏感であるのに対して,複数のNPが存在することは問題であり,その挙動は体系的ではないこと,GPT-3スケールのモデルでさえ,基本的な実体追跡能力を完全には獲得していないことを示唆している。

Understanding longer narratives or participating in conversations requires tracking of discourse entities that have been mentioned. Indefinite noun phrases (NPs), such as 'a dog', frequently introduce discourse entities but this behavior is modulated by sentential operators such as negation. For example, 'a dog' in 'Arthur doesn't own a dog' does not introduce a discourse entity due to the presence of negation. In this work, we adapt the psycholinguistic assessment of language models paradigm to higher-level linguistic phenomena and introduce an English evaluation suite that targets the knowledge of the interactions between sentential operators and indefinite NPs. We use this evaluation suite for a fine-grained investigation of the entity tracking abilities of the Transformer-based models GPT-2 and GPT-3. We find that while the models are to a certain extent sensitive to the interactions we investigate, they are all challenged by the presence of multiple NPs and their behavior is not systematic, which suggests that even models at the scale of GPT-3 do not fully acquire basic entity tracking abilities.
翻訳日:2022-05-15 13:30:25 公開日:2022-05-06
# (参考訳) 最適輸送によるクロスドメイン模倣学習の課題と課題

Issues in "Cross-Domain Imitation Learning via Optimal Transport" and a possible fix ( http://arxiv.org/abs/2205.03476v1 )

ライセンス: CC BY 4.0
Ruichao Jiang, Javad Tavakoli, and Yiqinag Zhao(参考訳) 4]gromov-wasserstein (gw) [6]距離を模倣学習の代理報酬として用いることを提案する。 これらの手法は数学的問題とアルゴリズム的問題の両方に悩まされている。 我々は、マルコフ決定過程(MDP)の打上げ時を用いて、それらの数学的問題を修正し、アルゴリズム問題の背後にある困難を議論する。 私たちの知る限りでは、MDPの文脈で最初のヒットタイムを定義するのは初めてです。

[4] proposes to use the Gromov-Wasserstein ( GW) [6] distance as a proxy reward for imitation learning. We show that their approach suffers both mathematical and algorithmic issues. We use hitting-time of a Markov decision process (MDP) to fix their mathematical issues and discuss the difficulty behind the algorithmic issue. To our best knowledge, we are the first to define the first-hitting time in the context of MDP.
翻訳日:2022-05-15 13:10:40 公開日:2022-05-06
# (参考訳) 自己組織的生成モデルによる多様な模倣学習

Diverse Imitation Learning via Self-Organizing Generative Models ( http://arxiv.org/abs/2205.03484v1 )

ライセンス: CC BY 4.0
Arash Vahabpour, Tianyi Wang, Qiujing Lu, Omead Pooladzandi, Vwani Roychowdhury(参考訳) 模倣学習は、報酬機能にアクセスせずに、デモンストレーションから専門家ポリシーを複製するタスクである。 このタスクは、専門家が行動の混合を示すと特に困難になる。 これまでの研究では、エキスパートポリシーのバリエーションをモデル化するために潜伏変数を導入してきた。 しかし,本実験では,既存の作品が個別モードの適切な模倣を示さないことを示す。 この問題に対処するために,行動クローニングのためのエンコーダフリー生成モデル(bc)を採用し,異なるモードを正確に識別・模倣する。 そして、GAILと統合して、未知の状態のエラーを複雑化する学習を堅牢にする。 提案手法は,複数の実験において技量を著しく上回ることを示す。

Imitation learning is the task of replicating expert policy from demonstrations, without access to a reward function. This task becomes particularly challenging when the expert exhibits a mixture of behaviors. Prior work has introduced latent variables to model variations of the expert policy. However, our experiments show that the existing works do not exhibit appropriate imitation of individual modes. To tackle this problem, we adopt an encoder-free generative model for behavior cloning (BC) to accurately distinguish and imitate different modes. Then, we integrate it with GAIL to make the learning robust towards compounding errors at unseen states. We show that our method significantly outperforms the state of the art across multiple experiments.
翻訳日:2022-05-15 13:01:12 公開日:2022-05-06
# (参考訳) 法律領域における微細なインテント分類

Fine-grained Intent Classification in the Legal Domain ( http://arxiv.org/abs/2205.03509v1 )

ライセンス: CC BY 4.0
Ankan Mullick, Abhilash Nandy, Manav Nitin Kapadnis, Sohan Patnaik, R Raghav(参考訳) 法律実務者は、多くの長い訴訟手続を経なければならない。 訴訟における当事者・個人間の行為の背後にある動機を理解するためには、事件に対応する意図を表す文書の一部を明確に理解することが不可欠である。 本稿では, 殺人, 土地紛争, 強盗, 破産のいずれかの事例分類に属する93件の法的文書のデータセットを紹介し, 文書のカテゴリと同一の意図を表すフレーズを注釈付けする。 また,各フレーズに対して詳細なインテントをアノテートすることで,読者がより深く理解できるようにする。 最後に,目的語句を抽出するプロセス(粗い部分ときめ細かな部分の両方)を自動化し,文書を可能な4つのカテゴリの1つに分類する際の変換器モデルの性能を分析し,特に微粒な意図分類の場合,そのデータセットは困難であることを示す。

A law practitioner has to go through a lot of long legal case proceedings. To understand the motivation behind the actions of different parties/individuals in a legal case, it is essential that the parts of the document that express an intent corresponding to the case be clearly understood. In this paper, we introduce a dataset of 93 legal documents, belonging to the case categories of either Murder, Land Dispute, Robbery, or Corruption, where phrases expressing intent same as the category of the document are annotated. Also, we annotate fine-grained intents for each such phrase to enable a deeper understanding of the case for a reader. Finally, we analyze the performance of several transformer-based models in automating the process of extracting intent phrases (both at a coarse and a fine-grained level), and classifying a document into one of the possible 4 categories, and observe that, our dataset is challenging, especially in the case of fine-grained intent classification.
翻訳日:2022-05-15 12:40:52 公開日:2022-05-06
# Asymptopia (複数形 Asymptopias)

Far from Asymptopia ( http://arxiv.org/abs/2205.03343v1 )

ライセンス: Link先を確認
Michael C. Abbott and Benjamin B. Machta(参考訳) 限定データからの推論はパラメータ空間上の測度の概念を必要とするが、これは事前分布としてベイズフレームワークで最も明示的なものである。 ジェフリーズ事前は情報幾何学の不変体積要素として最もよく知られた非形式的選択であるが、ここではこれが典型的な高次元モデルにおいて大きなバイアスをもたらすことを示す。 これは、科学で見られるモデルは、通常、顕微鏡パラメータの数よりもはるかに小さいアクセス可能な振る舞いの有効次元を持っているためである。 これらのパラメータを等しく扱う任意の測度は、無関係な方向の局所共体積の変化のため、関連するパラメータの部分空間に射影されるとき、一様ではない。 本稿では,この問題を回避し,関連するパラメータに焦点をあてて非バイアス後部を導出する尺度の原則的選択について述べる。 この最適な事前は収集されるデータの量に依存し、漸近的限界に先立ってジェフリーズにアプローチする。 しかし、典型的なモデルでは、この制限は、顕微鏡パラメータの数で指数関数的に、データ量を大きく増やさなければ正当化できない。

Inference from limited data requires a notion of measure on parameter space, which is most explicit in the Bayesian framework as a prior distribution. Jeffreys prior is the best-known uninformative choice, the invariant volume element from information geometry, but we demonstrate here that this leads to enormous bias in typical high-dimensional models. This is because models found in science typically have an effective dimensionality of accessible behaviours much smaller than the number of microscopic parameters. Any measure which treats all of these parameters equally is far from uniform when projected onto the sub-space of relevant parameters, due to variations in the local co-volume of irrelevant directions. We present results on a principled choice of measure which avoids this issue, and leads to unbiased posteriors, by focusing on relevant parameters. This optimal prior depends on the quantity of data to be gathered, and approaches Jeffreys prior in the asymptotic limit. But for typical models this limit cannot be justified without an impossibly large increase in the quantity of data, exponential in the number of microscopic parameters.
翻訳日:2022-05-10 17:54:18 公開日:2022-05-06
# ptychographyアルゴリズムの設計と実装のためのモジュール型ソフトウェアフレームワーク

A modular software framework for the design and implementation of ptychography algorithms ( http://arxiv.org/abs/2205.04295v1 )

ライセンス: Link先を確認
Francesco Guzzi, George Kourousias, Fulvio Bill\`e, Roberto Pugliese, Alessandra Gianoncelli, Sergio Carrato(参考訳) 計算手法がptychographyのような高衝撃顕微鏡技術を動かしている。 しかし、新しいアルゴリズムの設計と実装は、コードの多くの部分が、再構築をスピードアップするために、ハードウエアなプログラミング構造で書かれているため、しばしば面倒なプロセスである。 本稿では,Pychographyデータセットのシミュレートと,最先端および新しい再構築アルゴリズムのテストを目的とした,新しいptychographyソフトウェアフレームワークであるSciComPtyを提案する。 その単純さにもかかわらず、このソフトウェアはPyTorch CUDAインターフェースを通じてGPUアクセラレーション処理を利用する。 これは、容易に使える新しいメソッドを設計するのに不可欠です。 例として、Adamに基づく位置改善手法と、部分的コヒーレンス設定に適応したrPIEアルゴリズムの新バージョンを提案する。 結果は合成データと実データの両方で示される。 ソフトウェアはオープンソースとしてリリースされている。

Computational methods are driving high impact microscopy techniques such as ptychography. However, the design and implementation of new algorithms is often a laborious process, as many parts of the code are written in close-to-the-hardware programming constructs to speed up the reconstruction. In this paper, we present SciComPty, a new ptychography software framework aiming at simulating ptychography datasets and testing state-of-the-art and new reconstruction algorithms. Despite its simplicity, the software leverages GPU accelerated processing through the PyTorch CUDA interface. This is essential to design new methods that can readily be employed. As an example, we present an improved position refinement method based on Adam and a new version of the rPIE algorithm, adapted for partial coherence setups. Results are shown on both synthetic and real datasets. The software is released as open-source.
翻訳日:2022-05-10 17:52:48 公開日:2022-05-06
# PARAFAC2$\times$N:Nモードにおけるドリフトを伴う多重モードデータの結合分解

PARAFAC2$\times$N: Coupled Decomposition of Multi-modal Data with Drift in N Modes ( http://arxiv.org/abs/2205.03501v1 )

ライセンス: Link先を確認
Michael D. Sorochan Armstrong, Jesper L{\o}ve Hinrich, A. Paulina de la Mata, James J. Harynuk(参考訳) 包括的2次元ガスクロマトグラフィー-飛行時質量分析法(GC$\times$GC-TOFMS)の信頼性解析は、その広範な応用において大きなボトルネックであると考えられている。 複数のサンプルに対して、GC$\times$GC-TOFMSデータは、I質量スペクトル取得の4次テンソル、J質量チャネル、K変調、Lサンプルとして表される。 クロマトグラフィードリフトは、第1次元(変調)と第2次元(質量スペクトル取得)の両方に共通であるが、質量チャネルとサンプル次元に沿ってドリフトは、あらゆる実用的目的のために存在しない。 GC$\times$GC-TOFMSデータを扱うための多くのソリューションが提案されている。これは、多変量曲線分解法(MCR)に基づく2次分解技術とパラレル因子解析法(PARAFAC2)のような3次分解技術のいずれかにデータを変換することである。 PARAFAC2は1つのモードに沿ってクロマトグラフィードリフトをモデル化するために利用され、複数のGC-MS実験の堅牢な分解に利用できるようになった。 拡張性はあるものの、複数のモードに沿ってドリフトするPARAFAC2モデルを実装するのは簡単ではない。 本稿では,多変量検出を用いた多次元クロマトグラフィーにおいて,複数のモードに沿ってドリフトするデータをモデル化するための新しいアプローチと一般理論を示す。

Reliable analysis of comprehensive two-dimensional gas chromatography - time-of-flight mass spectrometry (GC$\times$GC-TOFMS) data is considered to be a major bottleneck for its widespread application. For multiple samples, GC$\times$GC-TOFMS data for specific chromatographic regions manifests as a 4th order tensor of I mass spectral acquisitions, J mass channels, K modulations, and L samples. Chromatographic drift is common along both the first-dimension (modulations), and along the second-dimension (mass spectral acquisitions), while drift along the mass channel and sample dimensions is for all practical purposes nonexistent. A number of solutions to handling GC$\times$GC-TOFMS data have been proposed: these involve reshaping the data to make it amenable to either 2nd order decomposition techniques based on Multivariate Curve Resolution (MCR), or 3rd order decomposition techniques such as Parallel Factor Analysis 2 (PARAFAC2). PARAFAC2 has been utilised to model chromatographic drift along one mode, which has enabled its use for robust decomposition of multiple GC-MS experiments. Although extensible, it is not straightforward to implement a PARAFAC2 model that accounts for drift along multiple modes. In this submission, we demonstrate a new approach and a general theory for modelling data with drift along multiple modes, for applications in multidimensional chromatography with multivariate detection.
翻訳日:2022-05-10 17:33:43 公開日:2022-05-06
# ぼやけた画像に対する非ブリンドデブラリング法の比較解析

Comparative Analysis of Non-Blind Deblurring Methods for Noisy Blurred Images ( http://arxiv.org/abs/2205.03464v1 )

ライセンス: Link先を確認
Poorna Banerjee Dasgupta(参考訳) 画像のぼやけとは、画像全体のシャープさが低下する画像の劣化を指す。 画像のぼかしはいくつかの要因によって引き起こされる。 さらに、画像取得プロセス中に、画像にノイズが追加されることがある。 このようなノイズやぼやけた画像は、元の画像と関連する点拡散関数との畳み込みによる画像と付加ノイズとして表現することができる。 しかし、ぼやけた画像は、しばしば、可視な原画像を一意に決定する不適切な情報を含む。 ぼやけた情報の利用可能性に基づいて、画像劣化法は盲目と非盲目に分類される。 非盲検画像では、対応する点拡散関数と付加雑音に関する先行情報が知られている。 本研究の目的は、ぼやけた画像に存在するノイズの識別と除去に関して、非盲検画像除去法の有効性を判定することである。 本研究では, 塩・ペッパーノイズを含む雑音画像に対して, ウィナーデコンボリューション, ルーシー・リチャードソンデコンボリューション, 正規化デコンボリューションの3つの非ブラインド像デブロルリング法を比較検討した。 2種類のぼかし効果、すなわち運動ぼかしとガウス的ぼかしがシミュレーションされた。 これら3つの非盲点除去法は, 適応型中央フィルタの適用により, ノイズのあるぼやけた画像の直接消臭と画像の消臭の2つのシナリオで適用された。 得られた結果は各シナリオで比較され,ノイズ画像の除去に最適なアプローチが決定された。

Image blurring refers to the degradation of an image wherein the image's overall sharpness decreases. Image blurring is caused by several factors. Additionally, during the image acquisition process, noise may get added to the image. Such a noisy and blurred image can be represented as the image resulting from the convolution of the original image with the associated point spread function, along with additive noise. However, the blurred image often contains inadequate information to uniquely determine the plausible original image. Based on the availability of blurring information, image deblurring methods can be classified as blind and non-blind. In non-blind image deblurring, some prior information is known regarding the corresponding point spread function and the added noise. The objective of this study is to determine the effectiveness of non-blind image deblurring methods with respect to the identification and elimination of noise present in blurred images. In this study, three non-blind image deblurring methods, namely Wiener deconvolution, Lucy-Richardson deconvolution, and regularized deconvolution were comparatively analyzed for noisy images featuring salt-and-pepper noise. Two types of blurring effects were simulated, namely motion blurring and Gaussian blurring. The said three non-blind deblurring methods were applied under two scenarios: direct deblurring of noisy blurred images and deblurring of images after denoising through the application of the adaptive median filter. The obtained results were then compared for each scenario to determine the best approach for deblurring noisy images.
翻訳日:2022-05-10 16:48:30 公開日:2022-05-06
# 大規模モデルを用いた連合学習のためのオンラインモデル圧縮

Online Model Compression for Federated Learning with Large Models ( http://arxiv.org/abs/2205.03494v1 )

ライセンス: Link先を確認
Tien-Ju Yang, Yonghui Xiao, Giovanni Motta, Fran\c{c}oise Beaufays, Rajiv Mathews, Mingqing Chen(参考訳) 本稿では、デバイス上でのメモリ使用量と通信コストの増大という、フェデレートされた学習環境下での大規模ニューラルネットワークモデルのトレーニングの課題に対処する。 提案されたオンラインモデル圧縮(OMC)は、モデルパラメータを圧縮形式で保存し、必要に応じて圧縮するフレームワークを提供する。 本論文では量子化を圧縮法として用いて,(1)変量変換,(2)量行列のみの量子化,(3)部分パラメータの量子化の3つの手法を提案し,モデル精度への影響を最小化する。 最近の2つの音声認識用ニューラルネットワークと2つの異なるデータセットに関する実験によれば、omcはモデルパラメータのメモリ使用量と通信コストを最大59%削減でき、完全な精度とトレーニング速度を、全精度トレーニングと比較して達成できる。

This paper addresses the challenges of training large neural network models under federated learning settings: high on-device memory usage and communication cost. The proposed Online Model Compression (OMC) provides a framework that stores model parameters in a compressed format and decompresses them only when needed. We use quantization as the compression method in this paper and propose three methods, (1) using per-variable transformation, (2) weight matrices only quantization, and (3) partial parameter quantization, to minimize the impact on model accuracy. According to our experiments on two recent neural networks for speech recognition and two different datasets, OMC can reduce memory usage and communication cost of model parameters by up to 59% while attaining comparable accuracy and training speed when compared with full-precision training.
翻訳日:2022-05-10 16:19:37 公開日:2022-05-06
# RCMNet:白血病に対するCAR-T治療を支援するディープラーニングモデル

RCMNet: A deep learning model assists CAR-T therapy for leukemia ( http://arxiv.org/abs/2205.04230v1 )

ライセンス: Link先を確認
Ruitao Zhang, Xueying Han, Ijaz Gul, Shiyao Zhai, Ying Liu, Yongbing Zhang, Yuhan Dong, Lan Ma, Dongmei Yu, Jin Zhou, Peiwu Qin(参考訳) 急性白血病は、死亡率の高い血液がんの一種である。 現在の治療法は骨髄移植、補助療法、化学療法である。 疾患の寛解は達成できるが、再発のリスクは高い。 そのため、新しい治療法が求められている。 急性白血病の治療法として, キメラ抗原受容体T(CAR-T)療法が望まれている。 血液疾患に対するCAR-T細胞療法の治療法の可能性を活用するためには、信頼できる細胞形態学的同定が重要である。 しかし、CAR-T細胞の同定は他の血液細胞との表現型類似性により大きな課題となる。 この重要な臨床的課題に対処するために、染色後の500個のオリジナル顕微鏡画像を用いたCAR-Tデータセットを最初に構築する。 次に、畳み込みニューラルネットワーク(CNN)とTransformerを組み合わせたRCMNet(ResNet18とCBAMとMHSA)と呼ばれる新しい統合モデルを作成する。 このモデルは、パブリックデータセットで99.63%のトップ1の精度を示している。 過去の報告と比較すると,画像分類に満足な結果が得られる。 CAR-Tセルデータセットでテストするが、データセットのサイズが限られているため、十分なパフォーマンスが観察される。 転送学習はRCMNetに適応しており、最大83.36%の精度が達成されており、他のSOTAモデルよりも高い。 本研究は,RCMNetの大規模公開データセットに対する有効性を評価し,臨床データセットに翻訳して診断を行う。

Acute leukemia is a type of blood cancer with a high mortality rate. Current therapeutic methods include bone marrow transplantation, supportive therapy, and chemotherapy. Although a satisfactory remission of the disease can be achieved, the risk of recurrence is still high. Therefore, novel treatments are demanding. Chimeric antigen receptor-T (CAR-T) therapy has emerged as a promising approach to treat and cure acute leukemia. To harness the therapeutic potential of CAR-T cell therapy for blood diseases, reliable cell morphological identification is crucial. Nevertheless, the identification of CAR-T cells is a big challenge posed by their phenotypic similarity with other blood cells. To address this substantial clinical challenge, herein we first construct a CAR-T dataset with 500 original microscopy images after staining. Following that, we create a novel integrated model called RCMNet (ResNet18 with CBAM and MHSA) that combines the convolutional neural network (CNN) and Transformer. The model shows 99.63% top-1 accuracy on the public dataset. Compared with previous reports, our model obtains satisfactory results for image classification. Although testing on the CAR-T cells dataset, a decent performance is observed, which is attributed to the limited size of the dataset. Transfer learning is adapted for RCMNet and a maximum of 83.36% accuracy has been achieved, which is higher than other SOTA models. The study evaluates the effectiveness of RCMNet on a big public dataset and translates it to a clinical dataset for diagnostic applications.
翻訳日:2022-05-10 15:08:24 公開日:2022-05-06
# out-of-distribution detectionのためのノルムスケーリング

Norm-Scaling for Out-of-Distribution Detection ( http://arxiv.org/abs/2205.03493v1 )

ライセンス: Link先を確認
Deepak Ravikumar and Kaushik Roy(参考訳) Out-of-Distribution (OoD)入力は、データセットの真の基盤分布に属さない例である。 研究によると、深層ニューラルネットワークはOoD入力に対して確実な誤った予測を行う。 したがって、ディープニューラルネットの安全かつ信頼性の高い展開のために、ood入力を特定することが重要である。 しばしば、OoD入力を検出するために類似度スコアに閾値が適用される。 そのような類似性の1つは、平均クラス表現を持つ潜在表現のドット積である角類似性である。 Angularの類似性は不確実性を符号化する、例えば、角の類似性が小さい場合には、入力がそのクラスに属しているかどうかが低い。 しかし、異なるクラスは角相似性の異なる分布を持つことを観察する。 したがって、すべてのクラスに単一のしきい値を適用することは、同じ類似度スコアが異なるクラスに対して異なる不確実性を示すため、理想的ではない。 本稿では,各クラスごとにロジットを別々に正規化するノルムスケーリングを提案する。 これにより、単一の値が様々なクラスの同様の不確実性を表すことが保証される。 最大ソフトマックス確率検出器と併用すると、aurocの9.78%改善、auprの5.99%改善、以前の最先端手法に対するfpr95測定値の33.19%削減が達成される。

Out-of-Distribution (OoD) inputs are examples that do not belong to the true underlying distribution of the dataset. Research has shown that deep neural nets make confident mispredictions on OoD inputs. Therefore, it is critical to identify OoD inputs for safe and reliable deployment of deep neural nets. Often a threshold is applied on a similarity score to detect OoD inputs. One such similarity is angular similarity which is the dot product of latent representation with the mean class representation. Angular similarity encodes uncertainty, for example, if the angular similarity is less, it is less certain that the input belongs to that class. However, we observe that, different classes have different distributions of angular similarity. Therefore, applying a single threshold for all classes is not ideal since the same similarity score represents different uncertainties for different classes. In this paper, we propose norm-scaling which normalizes the logits separately for each class. This ensures that a single value consistently represents similar uncertainty for various classes. We show that norm-scaling, when used with maximum softmax probability detector, achieves 9.78% improvement in AUROC, 5.99% improvement in AUPR and 33.19% reduction in FPR95 metrics over previous state-of-the-art methods.
翻訳日:2022-05-10 14:44:23 公開日:2022-05-06
# VFHQ:ビデオの超解像のための高品質データセットとベンチマーク

VFHQ: A High-Quality Dataset and Benchmark for Video Face Super-Resolution ( http://arxiv.org/abs/2205.03409v1 )

ライセンス: Link先を確認
Liangbin Xie. Xintao Wang, Honglun Zhang, Chao Dong, Ying Shan(参考訳) 既存のビデオフェース・スーパーレゾリューション(VFSR)法のほとんどは、話者識別に特化して設計されたVoxCeleb1で訓練・評価されており、このデータセットのフレームは低品質である。 結果として、このデータセットでトレーニングされたVFSRモデルは、視覚的な供給結果を出力できない。 本稿では,高品質な映像顔データセット(VFHQ)を自動かつスケーラブルに収集するパイプラインを開発し,多様なインタビューシナリオの高忠実度クリップを16,000ドル以上で提供する。 VFHQの必要性を検証するために、さらに実験を行い、VFHQデータセットでトレーニングされたVFSRモデルが、VoxCeleb1でトレーニングされたモデルよりもシャープなエッジときめの細かいテクスチャで結果を生成することを実証する。 さらに,映像の整合性問題を排除し,視覚的パフォーマンスを向上させる上で,時間的情報が重要な役割を担っていることを示す。 VFHQに基づいて、バイコビックおよびブラインド設定下でのいくつかの最先端アルゴリズムのベンチマーク研究を分析する。 プロジェクトページ: https://liangbinxie.github.io/projects/vfhq

Most of the existing video face super-resolution (VFSR) methods are trained and evaluated on VoxCeleb1, which is designed specifically for speaker identification and the frames in this dataset are of low quality. As a consequence, the VFSR models trained on this dataset can not output visual-pleasing results. In this paper, we develop an automatic and scalable pipeline to collect a high-quality video face dataset (VFHQ), which contains over $16,000$ high-fidelity clips of diverse interview scenarios. To verify the necessity of VFHQ, we further conduct experiments and demonstrate that VFSR models trained on our VFHQ dataset can generate results with sharper edges and finer textures than those trained on VoxCeleb1. In addition, we show that the temporal information plays a pivotal role in eliminating video consistency issues as well as further improving visual performance. Based on VFHQ, by analyzing the benchmarking study of several state-of-the-art algorithms under bicubic and blind settings. See our project page: https://liangbinxie.github.io/projects/vfhq
翻訳日:2022-05-10 14:41:12 公開日:2022-05-06
# 等価性と推定オントロジーマッチングのための機械学習フレンドリーなバイオメディカルデータセット

Machine Learning-Friendly Biomedical Datasets for Equivalence and Subsumption Ontology Matching ( http://arxiv.org/abs/2205.03447v1 )

ライセンス: Link先を確認
Yuan He, Jiaoyan Chen, Hang Dong, Ernesto Jim\'enez-Ruiz, Ali Hadian, Ian Horrocks(参考訳) オントロジーマッチング(OM)はバイオインフォマティクスやセマンティックウェブなど多くの分野において重要な役割を担い、特に機械学習(ML)技術の適用によってその研究はますます人気が高まっている。 オントロジーアライメント評価イニシアチブ(OAEI)は,OMシステムの体系的評価に多大な努力を払っているものの,サブエミッションマッピングの限定的な評価,最適でない参照マッピング,MLベースのシステム評価の限定的なサポートなど,いくつかの制限に悩まされている。 これらの制約に対処するために,Mondo と UMLS から抽出したオントロジーを含む5つの新しいバイオメディカル OM タスクを導入する。 各タスクは等価性と仮定マッチングの両方を含み、参照マッピングの品質は人間のキュレーションやオントロジープルーニングなどで保証される。 MLベースのOMシステムと非MLベースのOMシステムの両方において,様々な観点からOM性能を測定するための総合評価フレームワークを提案する。 我々は,様々なタイプのomシステムに対する評価結果を報告し,これらのリソースの利用を実証する。

Ontology Matching (OM) plays an important role in many domains such as bioinformatics and the Semantic Web, and its research is becoming increasingly popular, especially with the application of machine learning (ML) techniques. Although the Ontology Alignment Evaluation Initiative (OAEI) represents an impressive effort for the systematic evaluation of OM systems, it still suffers from several limitations including limited evaluation of subsumption mappings, suboptimal reference mappings, and limited support for the evaluation of ML-based systems. To tackle these limitations, we introduce five new biomedical OM tasks involving ontologies extracted from Mondo and UMLS. Each task includes both equivalence and subsumption matching; the quality of reference mappings is ensured by human curation, ontology pruning, etc.; and a comprehensive evaluation framework is proposed to measure OM performance from various perspectives for both ML-based and non-ML-based OM systems. We report evaluation results for OM systems of different types to demonstrate the usage of these resources, all of which are publicly available
翻訳日:2022-05-10 14:40:51 公開日:2022-05-06
# DULAとDEBA:ergonomicly Intelligent pHRIにおける姿勢評価と最適化のための微分エルゴノミクスリスクモデル

DULA and DEBA: Differentiable Ergonomic Risk Models for Postural Assessment and Optimization in Ergonomically Intelligent pHRI ( http://arxiv.org/abs/2205.03491v1 )

ライセンス: Link先を確認
Amir Yazdani, Roya Sabbagh Novin, Andrew Merryweather, Tucker Hermans(参考訳) エルゴノミクスと人間の快適性は、人間とロボットの相互作用アプリケーションにおいて必須の関心事である。 正確で使いやすい人間工学的評価モデルを定義することは、オペレーターの健康と快適性を改善するために、姿勢修正のフィードバックを提供する上で重要なステップである。 この地域の一般的な実践方法は、姿勢最適化を行う際に不正確なエルゴノミクスモデルに苦しむ。 評価品質を維持するため,計算的考察を改善しつつ,人間工学的知的身体ロボットインタラクションのための姿勢評価と最適化のための新しい枠組みを提案する。 RULAおよびREBAの評価を99%以上の精度で再現するために学習した,識別可能かつ連続的エルゴノミクスモデルであるDULAとDEBAを導入した。 DULA と DEBA は RULA と REBA に匹敵する評価を提供するとともに,姿勢最適化における計算的利点を提供する。 我々は、人間とシミュレーション実験を通して、その枠組みを評価する。 我々は,擬似pHRIタスクにおける姿勢最適化の実証において,DULAとDEBAの強みを強調した。

Ergonomics and human comfort are essential concerns in physical human-robot interaction applications. Defining an accurate and easy-to-use ergonomic assessment model stands as an important step in providing feedback for postural correction to improve operator health and comfort. Common practical methods in the area suffer from inaccurate ergonomics models in performing postural optimization. In order to retain assessment quality, while improving computational considerations, we propose a novel framework for postural assessment and optimization for ergonomically intelligent physical human-robot interaction. We introduce DULA and DEBA, differentiable and continuous ergonomics models learned to replicate the popular and scientifically validated RULA and REBA assessments with more than 99% accuracy. We show that DULA and DEBA provide assessment comparable to RULA and REBA while providing computational benefits when being used in postural optimization. We evaluate our framework through human and simulation experiments. We highlight DULA and DEBA's strength in a demonstration of postural optimization for a simulated pHRI task.
翻訳日:2022-05-10 14:40:29 公開日:2022-05-06
# ディープオペレータネットワークに基づくliイオン電池の電気化学的性能とパラメータの推定

Inferring electrochemical performance and parameters of Li-ion batteries based on deep operator networks ( http://arxiv.org/abs/2205.03508v1 )

ライセンス: Link先を確認
Qiang Zheng, Xiaoguang Yin, Dongxiao Zhang(参考訳) Liイオン電池は複雑な物理化学システムであり、一般に入力電圧として印加電流、出力電圧として端子電圧を用いる。 電流から電圧へのマッピングは、正確だが非効率な物理モデルや、効率的だが時には等価回路やブラックボックスモデルなど、いくつかのモデルによって記述できる。 本研究では,バッテリモデリングの精度と効率を同時に実現するために,基礎となる物理を制約として取り入れつつ,バッテリシステムのためのデータ駆動サーロゲートを構築することを提案する。 本研究では, 強力な深層演算子ネットワーク(deeponet)によって近似される, 電流曲線から終端電圧への関数マッピングを, 演算子の合成として革新的に扱う。 その学習能力は、まず2つの電極におけるLiイオン濃度の予測試験によって検証される。 この実験では、物理インフォームされたDeepONetは、特に時間外挿シナリオにおいて、純粋にデータ駆動のDeepONetよりも堅牢であることが判明した。 次に、2つの平行物理インフォームドDeepONetsを用いて2つの電極におけるLiイオン濃度を予測し、その表面値に基づいて、DeepONetを用いて端子電圧予測を行う3つの演算子ネットワークを用いて、電流曲線と固体拡散率を端子電圧にマッピングする。 サロゲートはどこでも微分可能であるため、データから直接学習する能力が付与され、入力パラメータを推定するために端末電圧測定を用いて検証された。 オペレータネットワーク上に構築されたサーロゲートは、基礎となる物理を取り入れることで効率と精度を統合し、完全に微分可能なモデル構造によるモデル洗練のためのインターフェースも残しているため、バッテリ管理システムなどのオンボードシナリオに適用する大きな可能性を秘めている。

The Li-ion battery is a complex physicochemical system that generally takes applied current as input and terminal voltage as output. The mappings from current to voltage can be described by several kinds of models, such as accurate but inefficient physics-based models, and efficient but sometimes inaccurate equivalent circuit and black-box models. To realize accuracy and efficiency simultaneously in battery modeling, we propose to build a data-driven surrogate for a battery system while incorporating the underlying physics as constraints. In this work, we innovatively treat the functional mapping from current curve to terminal voltage as a composite of operators, which is approximated by the powerful deep operator network (DeepONet). Its learning capability is firstly verified through a predictive test for Li-ion concentration at two electrodes. In this experiment, the physics-informed DeepONet is found to be more robust than the purely data-driven DeepONet, especially in temporal extrapolation scenarios. A composite surrogate is then constructed for mapping current curve and solid diffusivity to terminal voltage with three operator networks, in which two parallel physics-informed DeepONets are firstly used to predict Li-ion concentration at two electrodes, and then based on their surface values, a DeepONet is built to give terminal voltage predictions. Since the surrogate is differentiable anywhere, it is endowed with the ability to learn from data directly, which was validated by using terminal voltage measurements to estimate input parameters. The proposed surrogate built upon operator networks possesses great potential to be applied in on-board scenarios, such as battery management system, since it integrates efficiency and accuracy by incorporating underlying physics, and also leaves an interface for model refinement through a totally differentiable model structure.
翻訳日:2022-05-10 14:38:45 公開日:2022-05-06
# 間接観測による図形モデルの構造学習

Structure Learning in Graphical Models from Indirect Observations ( http://arxiv.org/abs/2205.03454v1 )

ライセンス: Link先を確認
Hang Zhang, Afshin Abdi, Faramarz Fekri(参考訳) 本稿ではパラメトリック法と非パラメトリック法の両方を用いて,$p$次元ランダムベクトル$X \in R^p$のグラフィカル構造を学習する。 x$を直接観察する以前の作品とは異なり、y$ のサンプルはセンシングマトリクス $a \in r^{d\times p}$ で収集され、いくつかの付加的なノイズ $w$、すなわち $y = ax + w$ で崩壊する間接観測シナリオを考える。 パラメトリック法では、$X$ をガウス的、すなわち $x\in R^p\sim N(\mu, \Sigma)$ と $\Sigma \in R^{p\times p}$ と仮定する。 まず,不確定なセンサシステム($d < p$)の下で,不十分なサンプル($n < p$)を用いて,正しいグラフィカルな構造を正確に復元できることを示す。 特に、正確な回復には次元 $d = \Omega(p^{0.8})$ と標本数 $n = \Omega(p^{0.8}\log^3 p)$ が必要である。 非パラメトリックな方法では、ガウス型ではなく x$ の非常正規分布を仮定する。 穏やかな条件下では、グラフ構造推定器が正しい構造を得ることができることを示す。 最小サンプル数 $n$ と次元 $d$ を $n\gtrsim (deg)^4 \log^4 n$ と $d \gtrsim p + (deg\cdot\log(d-p))^{\beta/4}$ として導出する。 さらに、ノイズ分布の非正確な知識を持つ間接観測から、CDFの$X$の推定誤差に縛られる非漸近的均一性を得る。 私たちの知る限りでは、この境界は初めて導出され、独立した利益となるかもしれない。 実世界データと合成データの両方に関する数値実験により, 理論的結果が確認された。

This paper considers learning of the graphical structure of a $p$-dimensional random vector $X \in R^p$ using both parametric and non-parametric methods. Unlike the previous works which observe $x$ directly, we consider the indirect observation scenario in which samples $y$ are collected via a sensing matrix $A \in R^{d\times p}$, and corrupted with some additive noise $w$, i.e, $Y = AX + W$. For the parametric method, we assume $X$ to be Gaussian, i.e., $x\in R^p\sim N(\mu, \Sigma)$ and $\Sigma \in R^{p\times p}$. For the first time, we show that the correct graphical structure can be correctly recovered under the indefinite sensing system ($d < p$) using insufficient samples ($n < p$). In particular, we show that for the exact recovery, we require dimension $d = \Omega(p^{0.8})$ and sample number $n = \Omega(p^{0.8}\log^3 p)$. For the nonparametric method, we assume a nonparanormal distribution for $X$ rather than Gaussian. Under mild conditions, we show that our graph-structure estimator can obtain the correct structure. We derive the minimum sample number $n$ and dimension $d$ as $n\gtrsim (deg)^4 \log^4 n$ and $d \gtrsim p + (deg\cdot\log(d-p))^{\beta/4}$, respectively, where deg is the maximum Markov blanket in the graphical model and $\beta > 0$ is some fixed positive constant. Additionally, we obtain a non-asymptotic uniform bound on the estimation error of the CDF of $X$ from indirect observations with inexact knowledge of the noise distribution. To the best of our knowledge, this bound is derived for the first time and may serve as an independent interest. Numerical experiments on both real-world and synthetic data are provided confirm the theoretical results.
翻訳日:2022-05-10 14:37:51 公開日:2022-05-06
# ラベル復元とグラフ分類のためのクラスタグラフマッチング

Clustered Graph Matching for Label Recovery and Graph Classification ( http://arxiv.org/abs/2205.03486v1 )

ライセンス: Link先を確認
Zhirui Li, Jesus Arroyo, Konstantinos Pantazis, Vince Lyzinski(参考訳) 頂点整列ネットワークと追加のラベルシャッフルネットワークが与えられた場合、頂点整列コレクションの信号を利用してシャッフルネットワークのラベルを復元する手法を提案する。 我々は,頂点整列したネットワークの平均値とシャッフルネットワークを異なるレベルの粒度でマッチングすることを検討する。 理論と実践の両方において、グラフが異なるネットワーククラスから来ている場合、ネットワークをクラスにクラスタリングし、新しいグラフをクラスタ平均にマッチさせることで、グローバル平均グラフとのマッチングよりも高い忠実度のパフォーマンスが得られることを実証する。 さらに、各クラスタ平均に対するグラフマッチング対象関数の最小化により、シャッフルされたグラフの頂点ラベルの分類と回復を同時に行う。

Given a collection of vertex-aligned networks and an additional label-shuffled network, we propose procedures for leveraging the signal in the vertex-aligned collection to recover the labels of the shuffled network. We consider matching the shuffled network to averages of the networks in the vertex-aligned collection at different levels of granularity. We demonstrate both in theory and practice that if the graphs come from different network classes, then clustering the networks into classes followed by matching the new graph to cluster-averages can yield higher fidelity matching performance than matching to the global average graph. Moreover, by minimizing the graph matching objective function with respect to each cluster average, this approach simultaneously classifies and recovers the vertex labels for the shuffled graph.
翻訳日:2022-05-10 14:37:12 公開日:2022-05-06
# (参考訳) 対向摂動による公平な画像検索の変換

Subverting Fair Image Search with Generative Adversarial Perturbations ( http://arxiv.org/abs/2205.02414v2 )

ライセンス: CC BY 4.0
Avijit Ghosh, Matthew Jagielski, Christo Wilson(参考訳) この研究では、ランク付けの文脈において、交点の公平性と堅牢性について検討する。 ランク付けモデルがある種のフェアネスの定義を達成するために校正されたとき、外部の敵が、モデルやトレーニングデータにアクセスせずに、ランキングモデルを不公平に振る舞わせることは可能か? 本稿では,GAP(Generative Adversarial Perturbation)モデルを用いて悪質に修正された画像を用いて,最先端の公正な画像検索エンジンを開発し,攻撃するケーススタディを提案する。 これらの混乱は、公正に再ランク付けされたアルゴリズムが、敵対するサブ人口からの人々を含む画像のランクを不当に向上させようとする。 本研究は,本攻撃が多数階級の人に対して,比較的ランクの高いベースライン検索結果に対して大きな不公平な優位性をもたらすことを実証する広範な実験の結果を示す。 我々は,攻撃が多数の変数に対して堅牢であること,検索結果の関連性にほとんど影響を与えないこと,厳密な脅威モデルの下で成功することを実証した。 本研究は,(1)公正性を達成するために必要なデータが逆向きに操作される場合,(2)モデル自体が攻撃に対して堅牢ではない場合に,公平な機械学習アルゴリズムを現場に展開する危険性を強調した。

In this work we explore the intersection fairness and robustness in the context of ranking: when a ranking model has been calibrated to achieve some definition of fairness, is it possible for an external adversary to make the ranking model behave unfairly without having access to the model or training data? To investigate this question, we present a case study in which we develop and then attack a state-of-the-art, fairness-aware image search engine using images that have been maliciously modified using a Generative Adversarial Perturbation (GAP) model. These perturbations attempt to cause the fair re-ranking algorithm to unfairly boost the rank of images containing people from an adversary-selected subpopulation. We present results from extensive experiments demonstrating that our attacks can successfully confer significant unfair advantage to people from the majority class relative to fairly-ranked baseline search results. We demonstrate that our attacks are robust across a number of variables, that they have close to zero impact on the relevance of search results, and that they succeed under a strict threat model. Our findings highlight the danger of deploying fair machine learning algorithms in-the-wild when (1) the data necessary to achieve fairness may be adversarially manipulated, and (2) the models themselves are not robust against attacks.
翻訳日:2022-05-10 12:51:10 公開日:2022-05-06
# (参考訳) 自分のキャラクタをカノニカルなビューで生成し編集する

Generate and Edit Your Own Character in a Canonical View ( http://arxiv.org/abs/2205.02974v1 )

ライセンス: CC BY 4.0
Jeong-gi Kwak, Yuanming Li, Dongsik Yoon, David Han, Hanseok Ko(参考訳) 近年,ソーシャルメディアとメタバースの急激な普及として,個人化文字の合成が注目されている。 入力画像は必ずしも正面視であるとは限らないため、3Dモデリングや他のアプリケーションに対して標準視を取得または予測することが重要である。 生成モデルの進歩によりポートレートのスタイライゼーションが可能となるが、標準的な視点でスタイライゼーション画像を得ることは依然として困難な課題である。 顔の正面化に関する研究はいくつかあるが、実際の画像領域(漫画や絵画など)に入力されていない場合、その性能は著しく低下する。 フロントアライズ後のスタイリゼーションも、出力を低下させる。 本稿では,正統的な視点でスタイライズされた肖像画を生成する新しい統一された枠組みを提案する。 提案する潜在マッパーを用いて,スタイルガンの潜在空間におけるフロントカライズマッピングを解析・発見し,同時にスタイライゼーションとフロントカライズを行う。 さらに、我々のモデルは、3Dの監督なしに、未実装の2Dイメージセットで訓練することができる。 実験により本手法の有効性を実証した。

Recently, synthesizing personalized characters from a single user-given portrait has received remarkable attention as a drastic popularization of social media and the metaverse. The input image is not always in frontal view, thus it is important to acquire or predict canonical view for 3D modeling or other applications. Although the progress of generative models enables the stylization of a portrait, obtaining the stylized image in canonical view is still a challenging task. There have been several studies on face frontalization but their performance significantly decreases when input is not in the real image domain, e.g., cartoon or painting. Stylizing after frontalization also results in degenerated output. In this paper, we propose a novel and unified framework which generates stylized portraits in canonical view. With a proposed latent mapper, we analyze and discover frontalization mapping in a latent space of StyleGAN to stylize and frontalize at once. In addition, our model can be trained with unlabelled 2D image sets, without any 3D supervision. The effectiveness of our method is demonstrated by experimental results.
翻訳日:2022-05-09 22:19:14 公開日:2022-05-06
# (参考訳) 変動低減に基づく部分軌道再利用による政策勾配最適化の高速化

Variance Reduction based Partial Trajectory Reuse to Accelerate Policy Gradient Optimization ( http://arxiv.org/abs/2205.02976v1 )

ライセンス: CC BY 4.0
Hua Zheng, Wei Xie(参考訳) 我々は,グリーンシミュレーション支援政策勾配 (gs-pg) の成功を,無限水平マルコフ決定過程 (mdp) の部分的履歴軌道再利用にまで拡張した。 既存のGS-PG法は、完全なエピソードやプロセス軌跡から学習するために設計され、低データ環境とオンラインプロセス制御に適用性を制限する。 本稿では, 異なる行動政策下で発生した歴史的状態決定遷移からの情報を活用するために, 混合度比 (mlr) に基づく政策勾配推定を用いた。 本稿では,最も関連する遷移観測をインテリジェントに選択・再利用し,政策勾配推定精度を向上し,最適政策の学習を加速できる分散還元経験リプレイ(vrer)手法を提案する。 次に,VRERをアクタクリティカル法や近親ポリシー最適化といった最先端のステップベースポリシー最適化アプローチに組み込むことで,プロセス制御戦略を構築する。 実証実験により,提案手法が既存の政策最適化手法を大幅に上回ることを示す。

We extend the idea underlying the success of green simulation assisted policy gradient (GS-PG) to partial historical trajectory reuse for infinite-horizon Markov Decision Processes (MDP). The existing GS-PG method was designed to learn from complete episodes or process trajectories, which limits its applicability to low-data environment and online process control. In this paper, the mixture likelihood ratio (MLR) based policy gradient estimation is used to leverage the information from historical state decision transitions generated under different behavioral policies. We propose a variance reduction experience replay (VRER) approach that can intelligently select and reuse most relevant transition observations, improve the policy gradient estimation accuracy, and accelerate the learning of optimal policy. Then we create a process control strategy by incorporating VRER with the state-of-the-art step-based policy optimization approaches such as actor-critic method and proximal policy optimizations. The empirical study demonstrates that the proposed policy gradient methodology can significantly outperform the existing policy optimization approaches.
翻訳日:2022-05-09 22:11:37 公開日:2022-05-06
# (参考訳) IMUを用いた自己教師付き学習による深部ストライド長推定

IMU Based Deep Stride Length Estimation With Self-Supervised Learning ( http://arxiv.org/abs/2205.02977v1 )

ライセンス: CC BY-SA 4.0
Jien-De Sui and Tian-Sheuan Chang(参考訳) 医療・スポーツトレーニングの代表的な歩行パラメータとして,慣性測定装置(IMU)センサを用いたストライド長推定が近年普及している。 従来の推定方法は、明示的なキャリブレーションと設計仮定を必要とする。 現在のディープラーニング手法はラベル付きデータの少ない問題に悩まされている。 以上の課題を解決するために, 単体の畳み込みニューラルネットワーク(CNN)モデルを提案し, 走行・歩行のストライド長を予測し, ストライド毎のランニングタイプや歩行タイプを分類する。 このモデルは、特徴学習のための大きなラベル付きデータセット上の自己教師付き学習と、小さなラベル付きデータセットによる教師付き学習によるストライド長推定と分類タスクの下流タスクを訓練する。 提案モデルでは, 走行および歩行における平均誤差が4.78 %, 走行および歩行距離の回帰が99.83 %, 走行と歩行の分類が99.83 %, 従来の手法と比較して7.44 %であった。

Stride length estimation using inertial measurement unit (IMU) sensors is getting popular recently as one representative gait parameter for health care and sports training. The traditional estimation method requires some explicit calibrations and design assumptions. Current deep learning methods suffer from few labeled data problem. To solve above problems, this paper proposes a single convolutional neural network (CNN) model to predict stride length of running and walking and classify the running or walking type per stride. The model trains its pretext task with self-supervised learning on a large unlabeled dataset for feature learning, and its downstream task on the stride length estimation and classification tasks with supervised learning with a small labeled dataset. The proposed model can achieve better average percent error, 4.78\%, on running and walking stride length regression and 99.83\% accuracy on running and walking classification, when compared to the previous approach, 7.44\% on the stride length estimation.
翻訳日:2022-05-09 21:49:05 公開日:2022-05-06
# (参考訳) RKHSに基づく非パラメトリック回帰における共変量シフトの最適対応

Optimally tackling covariate shift in RKHS-based nonparametric regression ( http://arxiv.org/abs/2205.02986v1 )

ライセンス: CC BY 4.0
Cong Ma, Reese Pathak, Martin J. Wainwright(参考訳) 我々は、再生核ヒルベルト空間(rkhs)上の非パラメトリック回帰の文脈における共変量シフト問題を研究する。 原点分布と対象分布の確率比を用いて定義される共変量シフト問題の2つの自然族に注目した。 確率比が一様有界であれば、慎重に選択された正則化パラメータを持つカーネルリッジ回帰(krr)推定器は、正則カーネル固有値を持つ大きなrkhss族に対して最小のレートオプティマイザ(対数係数まで)であることが証明される。 興味深いことに、krr は、その上界から外れる確率比の完全な知識を必要としない。 共変量シフトのない標準的な統計設定とは対照的に、関数クラスに対する経験的リスクを最小限に抑える「na\"\i ve estimator」が、KRRと比較して共変量シフトの下で厳密に最適であることを示す。 次に、可能性比が非有界でありながら有限第二モーメントを持つようなより大きな共変量シフト問題に対処する。 ここでは,krrが最適速度に達しないことを注意深くシミュレーションして示す。 代わりに,確率比の注意深い切り換えに基づいて試料を重み付けする再重み付けkrr推定器を提案する。 繰り返すが、この推定器は対数係数まで、ミニマックス最適であることを示すことができる。

We study the covariate shift problem in the context of nonparametric regression over a reproducing kernel Hilbert space (RKHS). We focus on two natural families of covariate shift problems defined using the likelihood ratios between the source and target distributions. When the likelihood ratios are uniformly bounded, we prove that the kernel ridge regression (KRR) estimator with a carefully chosen regularization parameter is minimax rate-optimal (up to a log factor) for a large family of RKHSs with regular kernel eigenvalues. Interestingly, KRR does not require full knowledge of the likelihood ratio apart from an upper bound on it. In striking contrast to the standard statistical setting without covariate shift, we also demonstrate that a na\"\i ve estimator, which minimizes the empirical risk over the function class, is strictly suboptimal under covariate shift as compared to KRR. We then address the larger class of covariate shift problems where likelihood ratio is possibly unbounded yet has a finite second moment. Here, we show via careful simulations that KRR fails to attain the optimal rate. Instead, we propose a reweighted KRR estimator that weights samples based on a careful truncation of the likelihood ratios. Again, we are able to show that this estimator is minimax optimal, up to logarithmic factors.
翻訳日:2022-05-09 21:36:55 公開日:2022-05-06
# (参考訳) 信頼する何かを伝える:人間とエージェントのインタラクションにおける信頼の校正に関する調査

Tell Me Something That Will Help Me Trust You: A Survey of Trust Calibration in Human-Agent Interaction ( http://arxiv.org/abs/2205.02987v1 )

ライセンス: CC BY 4.0
George J. Cancro, Shimei Pan and James Foulds(参考訳) 人間が知的なエージェントから予測または推奨行動のコースを受け取ったとき、予測または推奨そのもの以外の追加情報は、人間はエージェントに、予測を信頼するか拒否するかを決定するために要求されるのか? 本稿では,この追加情報の性質と範囲を判断し,将来の研究者や知的エージェント実践者によって活用可能な分類法に特徴付けるために,人間ひとりの管理者と一人のエージェントの従属者との信頼関係領域の文献を調査した。 この質問を人間中心の情報に焦点を当てた視点から調べることで、異なる実装の比較と対比を始め、将来の作業の洞察と方向性を提供することができる。

When a human receives a prediction or recommended course of action from an intelligent agent, what additional information, beyond the prediction or recommendation itself, does the human require from the agent to decide whether to trust or reject the prediction or recommendation? In this paper we survey literature in the area of trust between a single human supervisor and a single agent subordinate to determine the nature and extent of this additional information and to characterize it into a taxonomy that can be leveraged by future researchers and intelligent agent practitioners. By examining this question from a human-centered, information-focused point of view, we can begin to compare and contrast different implementations and also provide insight and directions for future work.
翻訳日:2022-05-09 21:35:42 公開日:2022-05-06
# (参考訳) 双方向知識共有機構を用いた進化的マルチタスキングに基づくマルチビューポイントクラウド登録

Multi-view Point Cloud Registration based on Evolutionary Multitasking with Bi-Channel Knowledge Sharing Mechanism ( http://arxiv.org/abs/2205.02996v1 )

ライセンス: CC BY 4.0
Yue Wu, Yibo Liu, Maoguo Gong, Hao Li, Zedong Tang, Qiguang Miao, Wenping Ma(参考訳) マルチビューポイント雲の登録は3次元再構成において基本的なものである。 異なる視点から捉えた点群間には密接な接続があるため、これらの接続を適切に利用すれば登録性能を向上させることができる。 そこで本稿では,登録問題をマルチタスク最適化としてモデル化し,効果的な問題解決のための新しい双方向知識共有機構を提案する。 マルチタスク最適化としてのマルチビューポイントクラウド登録のモデリングは2つある。 2つの点雲の局所的精度と、すべての点雲が持つ大域的一貫性を同時に考慮することにより、適応しきい値を持つフィットネス関数を導出する。 また、関連するタスクに属する複数のフィットネス関数の同時最適化のために、共進化探索プロセスのフレームワークを定義する。 解の質と収束速度を高めるため,提案する2チャンネル知識共有機構がその役割を担う。 タスク内知識の共有は、解決がずっと簡単で、有用な情報がタスク内で共有され、検索プロセスが高速化される。 タスク間の知識共有は、タスク間の共通点を探究し、タスクがローカルな最適点に収まらないようにする。 モデルオブジェクトとシーンポイント雲の総合実験により,提案手法の有効性が示された。

Registration of multi-view point clouds is fundamental in 3D reconstruction. Since there are close connections between point clouds captured from different viewpoints, registration performance can be enhanced if these connections be harnessed properly. Therefore, this paper models the registration problem as multi-task optimization, and proposes a novel bi-channel knowledge sharing mechanism for effective and efficient problem solving. The modeling of multi-view point cloud registration as multi-task optimization are twofold. By simultaneously considering the local accuracy of two point clouds as well as the global consistency posed by all the point clouds involved, a fitness function with an adaptive threshold is derived. Also a framework of the co-evolutionary search process is defined for the concurrent optimization of multiple fitness functions belonging to related tasks. To enhance solution quality and convergence speed, the proposed bi-channel knowledge sharing mechanism plays its role. The intra-task knowledge sharing introduces aiding tasks that are much simpler to solve, and useful information is shared within tasks, accelerating the search process. The inter-task knowledge sharing explores commonalities buried among tasks, aiming to prevent tasks from getting stuck to local optima. Comprehensive experiments conducted on model object as well as scene point clouds show the efficacy of the proposed method.
翻訳日:2022-05-09 21:20:21 公開日:2022-05-06
# (参考訳) 低音域における半教師付き学習のための再学習事前学習

Revisiting Pretraining for Semi-Supervised Learning in the Low-Label Regime ( http://arxiv.org/abs/2205.03001v1 )

ライセンス: CC BY 4.0
Xun Xu, Jingyi Liao, Lile Cai, Manh Cuong Nguyen, Kangkang Lu, Wanyue Zhang, Yasin Yazici, Chuan Sheng Foo(参考訳) semi-supervised learning (ssl) は、擬似ラベルによる大きなラベルなしデータの活用によってラベル付きデータの欠如に対処する。 しかし、極端に低ラベルの状態では、疑似ラベルは誤り、すなわち確認バイアスがあり、擬似ラベルはネットワークトレーニングに悪影響を及ぼす可能性がある。 近年の研究では、訓練済み重量の微調整(FT)をSSLと組み合わせて課題を緩和し、低ラベル体制において優れた結果を主張している。 そこで本研究では,FTが導入した事前学習の重み付けにより,最先端の性能が向上し,半教師付き半教師型学習者にとって有益であることを示す。 さらに,事前学習した重みからの直接微調整は共変量シフトによる最適値であり,モデル重みを目標データセットに適応させるための対照的な目標事前訓練ステップを提案する。 目標事前学習を行い, 準教師付き微調整を行い, 分類と分割の双方について広範囲な実験を行った。 有望な結果は、特に低ラベル状態において、SSLに対するターゲット事前トレーニングの有効性を検証した。

Semi-supervised learning (SSL) addresses the lack of labeled data by exploiting large unlabeled data through pseudolabeling. However, in the extremely low-label regime, pseudo labels could be incorrect, a.k.a. the confirmation bias, and the pseudo labels will in turn harm the network training. Recent studies combined finetuning (FT) from pretrained weights with SSL to mitigate the challenges and claimed superior results in the low-label regime. In this work, we first show that the better pretrained weights brought in by FT account for the state-of-the-art performance, and importantly that they are universally helpful to off-the-shelf semi-supervised learners. We further argue that direct finetuning from pretrained weights is suboptimal due to covariate shift and propose a contrastive target pretraining step to adapt model weights towards target dataset. We carried out extensive experiments on both classification and segmentation tasks by doing target pretraining then followed by semi-supervised finetuning. The promising results validate the efficacy of target pretraining for SSL, in particular in the low-label regime.
翻訳日:2022-05-09 20:37:57 公開日:2022-05-06
# (参考訳) 設計目標達成指標:多目的逆設計における深部生成モデル構築のための微分可能な指標

Design Target Achievement Index: A Differentiable Metric to Enhance Deep Generative Models in Multi-Objective Inverse Design ( http://arxiv.org/abs/2205.03005v1 )

ライセンス: CC BY 4.0
Lyle Regenwetter, Faez Ahmed(参考訳) 複雑なデータ分散を学習し模倣する能力のおかげで、Deep Generative Machine Learning Modelsはデザインコミュニティ全体で人気が高まっている。 初期の作品は有望であるが、さらなる発展は設計品質、実現可能性、ノベルティ、ターゲットとなる逆設計といったいくつかの重要な問題に対処することに依存している。 設計目標達成指標(dtai, design target achievement index)を提案する。 ディープジェネレーティブモデルにおけるトレーニングロスとして直接使用される場合,dtaiは生成した設計の性能を劇的に向上できることを実証する。 DTAIの損失をPaDGAN(Performance-Augmented Diverse GAN)に適用し、多目的PaDGANを含むベースラインの深部生成モデルと条件付きタブラルガン(CTGAN)のような特殊な表層生成アルゴリズムと比較して優れた生成性能を示す。 ファシビリティの補助的分類器でPaDGANをさらに強化し、実現可能な設計を奨励する。 提案手法を評価するために, 設計性能目標の実現可能性, 多様性, 満足度に着目した総合的な評価指標を提案する。 フレーム化された自転車フレーム設計データセットには、混合データ型パラメトリックデータ、重く歪んだマルチモーダル分布、競合する10のパフォーマンス目標が含まれている。

Deep Generative Machine Learning Models have been growing in popularity across the design community thanks to their ability to learn and mimic complex data distributions. While early works are promising, further advancement will depend on addressing several critical considerations such as design quality, feasibility, novelty, and targeted inverse design. We propose the Design Target Achievement Index (DTAI), a differentiable, tunable metric that scores a design's ability to achieve designer-specified minimum performance targets. We demonstrate that DTAI can drastically improve the performance of generated designs when directly used as a training loss in Deep Generative Models. We apply the DTAI loss to a Performance-Augmented Diverse GAN (PaDGAN) and demonstrate superior generative performance compared to a set of baseline Deep Generative Models including a Multi-Objective PaDGAN and specialized tabular generation algorithms like the Conditional Tabular GAN (CTGAN). We further enhance PaDGAN with an auxiliary feasibility classifier to encourage feasible designs. To evaluate methods, we propose a comprehensive set of evaluation metrics for generative methods that focus on feasibility, diversity, and satisfaction of design performance targets. Methods are tested on a challenging benchmarking problem: the FRAMED bicycle frame design dataset featuring mixed-datatype parametric data, heavily skewed and multimodal distributions, and ten competing performance objectives.
翻訳日:2022-05-09 20:18:00 公開日:2022-05-06
# (参考訳) 微分一般線形モデルの再検討

Differentially Private Generalized Linear Models Revisited ( http://arxiv.org/abs/2205.03014v1 )

ライセンス: CC BY 4.0
Raman Arora, Raef Bassily, Crist\'obal Guzm\'an, Michael Menart, Enayat Ullah(参考訳) 本研究では,凸損失を持つ線形予測器における$(\epsilon,\delta)$-differentially private learningの問題について検討する。 損失関数の2つのサブクラスに対して結果を提供する。 第一のケースは、損失が滑らかで非負であるが必ずしもリプシッツ(正方形損失など)ではないときである。 この場合、過剰な集団リスクの上限は$\tilde{O}\left(\frac{\Vert w^*\Vert}{\sqrt{n}} + \min\left\{\frac{\Vert w^* \Vert^2}{(n\epsilon)^{2/3}},\frac{\sqrt{d}\Vert w^*\Vert^2}{n\epsilon}\right\right)$である。 $\Vert w^\ast\Vert$への依存とは別に、我々の境界は本質的にすべてのパラメータできつい。 特に、$\tilde{\Omega}\left(\frac{1}{\sqrt{n}} + {\min\left\{\frac{\Vert w^*\Vert^{4/3}}{(n\epsilon)^{2/3}}, \frac{\sqrt{d}\Vert w^*\Vert}{n\epsilon}\right\right)$ の下界を示す。 また,以前検討したリプシッツ損失例(SSTT20)を再検討した。 この場合、既存の作業のギャップを埋めて、最適なレートが(ログファクタまで)$\Theta\left(\frac{\Vert w^*\Vert}{\sqrt{n}} + \min\left\{\frac{\Vert w^*\Vert}{\sqrt{n\epsilon}},\frac{\sqrt{\text{rank}}\Vert w^*\Vert}{n\epsilon}\right\right)$であることを示す。 これは、高いプライバシー体制における既存の作業よりも改善される。 最後に、我々のアルゴリズムは、$\Vert w^*\Vert$の知識を必要とせずに、記述されたレートを達成するためのプライベートモデル選択アプローチを含む。

We study the problem of $(\epsilon,\delta)$-differentially private learning of linear predictors with convex losses. We provide results for two subclasses of loss functions. The first case is when the loss is smooth and non-negative but not necessarily Lipschitz (such as the squared loss). For this case, we establish an upper bound on the excess population risk of $\tilde{O}\left(\frac{\Vert w^*\Vert}{\sqrt{n}} + \min\left\{\frac{\Vert w^* \Vert^2}{(n\epsilon)^{2/3}},\frac{\sqrt{d}\Vert w^*\Vert^2}{n\epsilon}\right\}\right)$, where $n$ is the number of samples, $d$ is the dimension of the problem, and $w^*$ is the minimizer of the population risk. Apart from the dependence on $\Vert w^\ast\Vert$, our bound is essentially tight in all parameters. In particular, we show a lower bound of $\tilde{\Omega}\left(\frac{1}{\sqrt{n}} + {\min\left\{\frac{\Vert w^*\Vert^{4/3}}{(n\epsilon)^{2/3}}, \frac{\sqrt{d}\Vert w^*\Vert}{n\epsilon}\right\}}\right)$. We also revisit the previously studied case of Lipschitz losses [SSTT20]. For this case, we close the gap in the existing work and show that the optimal rate is (up to log factors) $\Theta\left(\frac{\Vert w^*\Vert}{\sqrt{n}} + \min\left\{\frac{\Vert w^*\Vert}{\sqrt{n\epsilon}},\frac{\sqrt{\text{rank}}\Vert w^*\Vert}{n\epsilon}\right\}\right)$, where $\text{rank}$ is the rank of the design matrix. This improves over existing work in the high privacy regime. Finally, our algorithms involve a private model selection approach that we develop to enable attaining the stated rates without a-priori knowledge of $\Vert w^*\Vert$.
翻訳日:2022-05-09 20:01:22 公開日:2022-05-06
# (参考訳) フィンガープリントリッジ配向チェックによる指紋検出法

A Fingerprint Detection Method by Fingerprint Ridge Orientation Check ( http://arxiv.org/abs/2205.03019v1 )

ライセンス: CC BY 4.0
Kim JuSong, Ri IlYong(参考訳) 指紋は、取得の容易さ、ユニーク性、可用性のため、生体認証ベースのシステムで人気がある。 現在、携帯電話のセキュリティ、デジタル決済、デジタルロッカーで使われている。 指紋認識技術は長い間研究されてきたが、その認識率は近年高い水準まで上昇している。 特に、ディープニューラルネットワーク技術の導入により、それまで到達できなかった認識率に到達した。 本稿では,指紋認識システムにおける指紋検出アルゴリズムを提案する。

Fingerprints are popular among the biometric based systems due to ease of acquisition, uniqueness and availability. Nowadays it is used in smart phone security, digital payment and digital locker. Fingerprint recognition technology has been studied for a long time, and its recognition rate has recently risen to a high level. In particular, with the introduction of Deep Neural Network technologies, the recognition rate that could not be reached before was reached. In this paper, we propose a fingerprint detection algorithm used in a fingerprint recognition system.
翻訳日:2022-05-09 19:59:40 公開日:2022-05-06
# (参考訳) スウェーデン国立図書館における音声の聴取 -スウェーデン語の音声コーパスと音響モデル-

Hearing voices at the National Library -- a speech corpus and acoustic model for the Swedish language ( http://arxiv.org/abs/2205.03026v1 )

ライセンス: CC BY 4.0
Martin Malmsten, Chris Haffenden, Love B\"orjeson(参考訳) 本稿では,スウェーデン国立図書館(kb)のデータ駆動研究の基盤であるkblabにおける音声認識(asr)のための新しい音響モデルの開発について述べる。 本稿では,スウェーデンにおける音声視覚資源のための実行可能な音声合成パイプラインについて,kbのコレクションから作成した音声コーパスと組み合わせたwav2vec 2.0アーキテクチャを用いて,異なるアプローチを評価した。 これらのアプローチには、スウェーデン語のための音響モデルを基礎から事前学習することや、既存の単言語および多言語モデルの微調整が含まれる。 私たちが使用するコレクションベースのコーパスは、数百万時間に及ぶ会話からサンプリングされ、より代表的で、より民主的なモデルを生み出すために、地域方言のバランスをとろうと意識的に試みています。 これを可能にするアコースティックモデル "VoxRex" はスウェーデンのASRで既存のモデルより優れている。 また,このモデルと各種事前学習言語モデルを組み合わせることで,さらなる性能向上を図る。 文化遺産機関におけるこのような技術の可能性を強調し, これまでにないオーディオヴィジュアルデータの収集を行った。 私たちのモデルは、さらなる調査と研究のために、ここでリリースされます。

This paper explains our work in developing new acoustic models for automated speech recognition (ASR) at KBLab, the infrastructure for data-driven research at the National Library of Sweden (KB). We evaluate different approaches for a viable speech-to-text pipeline for audiovisual resources in Swedish, using the wav2vec 2.0 architecture in combination with speech corpuses created from KB's collections. These approaches include pretraining an acoustic model for Swedish from the ground up, and fine-tuning existing monolingual and multilingual models. The collections-based corpuses we use have been sampled from millions of hours of speech, with a conscious attempt to balance regional dialects to produce a more representative, and thus more democratic, model. The acoustic model this enabled, "VoxRex", outperforms existing models for Swedish ASR. We also evaluate combining this model with various pretrained language models, which further enhanced performance. We conclude by highlighting the potential of such technology for cultural heritage institutions with vast collections of previously unlabelled audiovisual data. Our models are released for further exploration and research here: https://huggingface.co/KBLab.
翻訳日:2022-05-09 19:57:06 公開日:2022-05-06
# (参考訳) 視覚に基づく深層学習によるロボット手術の定量化

Quantification of Robotic Surgeries with Vision-Based Deep Learning ( http://arxiv.org/abs/2205.03028v1 )

ライセンス: CC BY 4.0
Dani Kiyasseh, Runzhuo Ma, Taseen F. Haque, Jessica Nguyen, Christian Wagner, Animashree Anandkumar, Andrew J. Hung(参考訳) 手術は、外科医が重要な解剖学的構造をナビゲートし、手作業のメインタスクを完了しながら、潜在的な合併症を積極的に回避しなければならない、高度な領域である。 このような外科的活動は長期の患者に影響を及ぼすことが示されている。 この関係をよりよく理解するために, 外科手術のほとんどにおいてメカニックが未知のままであり, 手術の核となる要素はまず, 信頼性, 客観的, スケーラブルな方法で定量化する必要があると仮定した。 これは外科的フィードバックと手術成績の調整が患者の予後を改善するための前提条件であると信じている。 外科的位相認識(手術の意味)、ジェスチャー分類(手術の仕方)、スキルアセスメント(手術の仕方)を独立に行うために,手術中に記録されたビデオのみを対象とする統合型深層学習フレームワークRoboformerを提案する。 ミニマル侵襲型ロボット手術における2種類のステップ(分割と縫合)の4つのビデオベースデータセットの枠組みを検証した。 当フレームワークは, ビデオ, 外科医, 医療センター, 外科手術などに応用できることを実証した。 また,本フレームワークは自然に説明可能な発見に役立ち,特定のタスクを遂行する際の関連情報を同定した。 これらの発見は、我々の枠組みの行動に自信を持ち、臨床採用の可能性を高め、より標的となる外科的フィードバックへの道を開く可能性がある。

Surgery is a high-stakes domain where surgeons must navigate critical anatomical structures and actively avoid potential complications while achieving the main task at hand. Such surgical activity has been shown to affect long-term patient outcomes. To better understand this relationship, whose mechanics remain unknown for the majority of surgical procedures, we hypothesize that the core elements of surgery must first be quantified in a reliable, objective, and scalable manner. We believe this is a prerequisite for the provision of surgical feedback and modulation of surgeon performance in pursuit of improved patient outcomes. To holistically quantify surgeries, we propose a unified deep learning framework, entitled Roboformer, which operates exclusively on videos recorded during surgery to independently achieve multiple tasks: surgical phase recognition (the what of surgery), gesture classification and skills assessment (the how of surgery). We validated our framework on four video-based datasets of two commonly-encountered types of steps (dissection and suturing) within minimally-invasive robotic surgeries. We demonstrated that our framework can generalize well to unseen videos, surgeons, medical centres, and surgical procedures. We also found that our framework, which naturally lends itself to explainable findings, identified relevant information when achieving a particular task. These findings are likely to instill surgeons with more confidence in our framework's behaviour, increasing the likelihood of clinical adoption, and thus paving the way for more targeted surgical feedback.
翻訳日:2022-05-09 19:48:28 公開日:2022-05-06
# (参考訳) 確率測度のフーリエ変換の弱定式化を用いた実現に制約された確率的学習

Probabilistic learning constrained by realizations using a weak formulation of Fourier transform of probability measures ( http://arxiv.org/abs/2205.03078v1 )

ライセンス: CC BY 4.0
Christian Soize(参考訳) 本稿では,確率的学習アルゴリズムとして用いられるkullback-leibler最小原理の制約として,与えられた実現集合を考慮に入れる。 これにより、データの効果的な予測モデルへの統合が可能になる。 本稿では,興味の量(教師なしの場合)と関心の量と制御パラメータ(教師なしの場合)のペアからなるランダムベクトルの確率論的学習について考察する。 このランダムベクトルの独立な実現の訓練集合が与えられ、未知の事前確率測度で生成されると仮定される。 QoI の目的の集合は、2つの考慮されたケースで利用できる。 この枠組みは高次元における非ガウシアン問題の1つである。 関数的アプローチは確率測度(特性関数)のフーリエ変換の弱い定式化に基づいて展開される。 この構成により、クルバック・リーバー最小原理における QoI の目標集合を考慮に入れることができる。 提案手法では,QoIの後部確率測度(教師なしの場合)やQoIの後部関節確率測度(教師なしの場合)を制御パラメータ(教師付きの場合)で推定できる。 両症例について後方確率測度の存在と一意性について検討した。 提案手法の実装を容易にするため,数値的な側面を詳細に述べる。 提案した高次元応用は,提案アルゴリズムの効率性とロバスト性を示す。

This paper deals with the taking into account a given set of realizations as constraints in the Kullback-Leibler minimum principle, which is used as a probabilistic learning algorithm. This permits the effective integration of data into predictive models. We consider the probabilistic learning of a random vector that is made up of either a quantity of interest (unsupervised case) or the couple of the quantity of interest and a control parameter (supervised case). A training set of independent realizations of this random vector is assumed to be given and to be generated with a prior probability measure that is unknown. A target set of realizations of the QoI is available for the two considered cases. The framework is the one of non-Gaussian problems in high dimension. A functional approach is developed on the basis of a weak formulation of the Fourier transform of probability measures (characteristic functions). The construction makes it possible to take into account the target set of realizations of the QoI in the Kullback-Leibler minimum principle. The proposed approach allows for estimating the posterior probability measure of the QoI (unsupervised case) or of the posterior joint probability measure of the QoI with the control parameter (supervised case). The existence and the uniqueness of the posterior probability measure is analyzed for the two cases. The numerical aspects are detailed in order to facilitate the implementation of the proposed method. The presented application in high dimension demonstrates the efficiency and the robustness of the proposed algorithm.
翻訳日:2022-05-09 19:26:44 公開日:2022-05-06
# (参考訳) 騒がしいユーザフィードバックによる連合学習

Federated Learning with Noisy User Feedback ( http://arxiv.org/abs/2205.03092v1 )

ライセンス: CC BY-SA 4.0
Rahul Sharma, Anil Ramakrishna, Ansel MacLaughlin, Anna Rumshisky, Jimit Majmudar, Clement Chung, Salman Avestimehr, Rahul Gupta(参考訳) 機械学習(ML)システムはますます人気を博し、日々の生活の中でますます多くのアプリケーションやサービスを動かしている。 このようなシステムのトレーニングと改善には、人間のインタラクションデータをクラウドに送信する必要があるため、ユーザのプライバシに対する懸念が高まっている。 フェデレートラーニング(FL)は、機密性の高いユーザデータを使用してエッジデバイス上でMLモデルをトレーニングする方法として最近登場し、データのプライバシに対する懸念を軽減する手段として見なされている。 しかし,MLモデルが最も一般的にラベル管理で訓練されているため,FLを有効にするためには,エッジ上のラベルを抽出する方法が必要である。 本研究では,肯定的および否定的なユーザフィードバックを用いたFLモデルのトレーニング戦略を提案する。 また,ユーザフィードバックの異なるノイズパターンを学習するための新しいフレームワークを設計し,標準ノイズロバスト目標が,フェデレーション環境でモデルのトレーニングを行う際のノイズ軽減にどのように役立つかを検討する。 提案手法を2つのテキスト分類データセットの詳細な実験により評価し,ユーザ信頼性およびフィードバックノイズがモデル性能に与える影響を解析した。 本手法は, 自己学習ベースラインよりも大幅に改善され, 完全に管理されたモデルに近い性能が得られることを示す。

Machine Learning (ML) systems are getting increasingly popular, and drive more and more applications and services in our daily life. This has led to growing concerns over user privacy, since human interaction data typically needs to be transmitted to the cloud in order to train and improve such systems. Federated learning (FL) has recently emerged as a method for training ML models on edge devices using sensitive user data and is seen as a way to mitigate concerns over data privacy. However, since ML models are most commonly trained with label supervision, we need a way to extract labels on edge to make FL viable. In this work, we propose a strategy for training FL models using positive and negative user feedback. We also design a novel framework to study different noise patterns in user feedback, and explore how well standard noise-robust objectives can help mitigate this noise when training models in a federated setting. We evaluate our proposed training setup through detailed experiments on two text classification datasets and analyze the effects of varying levels of user reliability and feedback noise on model performance. We show that our method improves substantially over a self-training baseline, achieving performance closer to models trained with full supervision.
翻訳日:2022-05-09 18:15:15 公開日:2022-05-06
# (参考訳) 不確実性推定のための制御されたドロップアウト

Controlled Dropout for Uncertainty Estimation ( http://arxiv.org/abs/2205.03109v1 )

ライセンス: CC BY 4.0
Mehedi Hasan, Abbas Khosravi, Ibrahim Hossain, Ashikur Rahman and Saeid Nahavandi(参考訳) ニューラルネットワークにおける不確かさの定量化は、安全クリティカルな応用において最も議論されているトピックの1つである。 ニューラルネットワーク(nns)は多くのアプリケーションで最先端のパフォーマンスを達成しているが、不確実性推定に関する情報を欠いた信頼性の低いポイント予測を提供する。 ニューラルネットワークが不確かさを推定する様々な方法の中で、モンテカルロ(mc)のドロップアウトはその単純さのために短期間で大きな人気を集めている。 本研究では,従来のドロップアウト層の新バージョンを提案する。 したがって、各層はmc法に新しいドロップアウト層を取り込んで適用し、nn予測に関連する不確かさを定量化することができる。 玩具と現実のデータセットの両方で実験を行い,従来のドロップアウト層を用いたmc法と比較した。 不確実性評価メトリクスを利用したパフォーマンス分析は、ほとんどの場合、ドロップアウト層がより良いパフォーマンスを提供することを裏付けます。

Uncertainty quantification in a neural network is one of the most discussed topics for safety-critical applications. Though Neural Networks (NNs) have achieved state-of-the-art performance for many applications, they still provide unreliable point predictions, which lack information about uncertainty estimates. Among various methods to enable neural networks to estimate uncertainty, Monte Carlo (MC) dropout has gained much popularity in a short period due to its simplicity. In this study, we present a new version of the traditional dropout layer where we are able to fix the number of dropout configurations. As such, each layer can take and apply the new dropout layer in the MC method to quantify the uncertainty associated with NN predictions. We conduct experiments on both toy and realistic datasets and compare the results with the MC method using the traditional dropout layer. Performance analysis utilizing uncertainty evaluation metrics corroborates that our dropout layer offers better performance in most cases.
翻訳日:2022-05-09 17:59:01 公開日:2022-05-06
# (参考訳) SKILL-IL:マルチタスク模倣学習におけるスキルと知識の両立

SKILL-IL: Disentangling Skill and Knowledge in Multitask Imitation Learning ( http://arxiv.org/abs/2205.03130v1 )

ライセンス: CC BY-SA 4.0
Bian Xihan and Oscar Mendez and Simon Hadfield(参考訳) 本稿では,多タスク模倣学習における転送可能コンテンツの学習のための新しい視点を提案する。 人間はスキルと知識を伝達することができる。 仕事へのサイクルと店へのドライブが可能な場合は、ストアへのサイクルと作業へのドライブも可能です。 このことから着想を得て、ポリシーネットワークの潜在記憶を2つのパーティションに切り離すことができると仮定する。 これらは、タスクの環境コンテキストに関する知識や、タスクの解決に必要な一般化可能なスキルを含んでいる。 これにより、トレーニング効率が向上し、同じ環境でのスキルと、目に見えない環境でのスキルの組み合わせよりも一般化できる。 提案手法を用いて,2つの異なるマルチタスクIL環境に対するアンタングルエージェントのトレーニングを行った。 どちらのケースでも、タスクの成功率でSOTAを30%上回りました。 また、実際のロボットのナビゲーションもデモした。

In this work, we introduce a new perspective for learning transferable content in multi-task imitation learning. Humans are able to transfer skills and knowledge. If we can cycle to work and drive to the store, we can also cycle to the store and drive to work. We take inspiration from this and hypothesize the latent memory of a policy network can be disentangled into two partitions. These contain either the knowledge of the environmental context for the task or the generalizable skill needed to solve the task. This allows improved training efficiency and better generalization over previously unseen combinations of skills in the same environment, and the same task in unseen environments. We used the proposed approach to train a disentangled agent for two different multi-task IL environments. In both cases we out-performed the SOTA by 30% in task success rate. We also demonstrated this for navigation on a real robot.
翻訳日:2022-05-09 17:44:24 公開日:2022-05-06
# (参考訳) bdis:リアルタイムステレオ手術画像マッチングのためのベイズ密度逆探索法

BDIS: Bayesian Dense Inverse Searching Method for Real-Time Stereo Surgical Image Matching ( http://arxiv.org/abs/2205.03133v1 )

ライセンス: CC BY 4.0
Jingwei Song, Qiuchen Zhu, Jianyu Lin and Maani Ghaffari(参考訳) ステレオスコープベースのMinimally Invasive Surgeries (MIS)では、3D形状回復、AR、VR、ナビゲーションタスクにおいて、密集したステレオマッチングが不可欠である。 多数のDeep Neural Network (DNN) アプローチが提案されているが、オープンソースの注釈付きデータセットの欠如とタスク固有の事前訓練DNNの制限のため、従来の事前自由なアプローチは依然として業界で人気がある。 事前フリーのステレオマッチングアルゴリズムのうち、misのgpu環境にはないリアルタイムアルゴリズムは成功していない。 本稿では,一般的なMISタスクに対して,CPUレベルの事前自由ステレオマッチングアルゴリズムを提案する。 手術用cpu (i5-9400) を搭載した640*480画像では, 平均17hzであった。 一方、一般的なELASよりも若干精度が良い。 補正ステレオ画像にはパッチベース高速不一致探索アルゴリズムが採用されている。 異なるスケールでパッチ確率を評価するために,粗大なベイズ確率と空間ガウス混合モデルを提案した。 予測分散を定量化するために,任意の確率密度関数推定アルゴリズムを採用した。 広汎な実験により、非ランベルト反射率と暗照度からのテクスチャーレス表面の曖昧さと測光的不整合に対処する手法が実証された。 推定確率は、異なるスケールでステレオ画像に対するパッチの信頼性のバランスをとることができた。 MIS のベースライン ELAS よりも近いか高い精度で出力が小さいが、4-5倍高速である。 コードと合成データセットはhttps://github.com/JingweiSong/BDIS-v2で公開されている。

In stereoscope-based Minimally Invasive Surgeries (MIS), dense stereo matching plays an indispensable role in 3D shape recovery, AR, VR, and navigation tasks. Although numerous Deep Neural Network (DNN) approaches are proposed, the conventional prior-free approaches are still popular in the industry because of the lack of open-source annotated data set and the limitation of the task-specific pre-trained DNNs. Among the prior-free stereo matching algorithms, there is no successful real-time algorithm in none GPU environment for MIS. This paper proposes the first CPU-level real-time prior-free stereo matching algorithm for general MIS tasks. We achieve an average 17 Hz on 640*480 images with a single-core CPU (i5-9400) for surgical images. Meanwhile, it achieves slightly better accuracy than the popular ELAS. The patch-based fast disparity searching algorithm is adopted for the rectified stereo images. A coarse-to-fine Bayesian probability and a spatial Gaussian mixed model were proposed to evaluate the patch probability at different scales. An optional probability density function estimation algorithm was adopted to quantify the prediction variance. Extensive experiments demonstrated the proposed method's capability to handle ambiguities introduced by the textureless surfaces and the photometric inconsistency from the non-Lambertian reflectance and dark illumination. The estimated probability managed to balance the confidences of the patches for stereo images at different scales. It has similar or higher accuracy and fewer outliers than the baseline ELAS in MIS, while it is 4-5 times faster. The code and the synthetic data sets are available at https://github.com/JingweiSong/BDIS-v2.
翻訳日:2022-05-09 17:32:54 公開日:2022-05-06
# (参考訳) マルチプロトタイプ学習による3次元クラウドセグメンテーションの弱化

Weakly Supervised 3D Point Cloud Segmentation via Multi-Prototype Learning ( http://arxiv.org/abs/2205.03137v1 )

ライセンス: CC BY 4.0
Yongyi Su, Xun Xu, Kui Jia(参考訳) 3D Point Cloudセグメンテーションにおけるアノテーションの課題への対処は、弱い教師付き学習の研究にインスピレーションを与えている。 既存のアプローチは主に、大きなラベルのないデータポイントを利用するために、多様体と擬似ラベルの利用に焦点を当てている。 ここでの根本的な課題は、局所幾何学構造の大きなクラス内変異であり、結果として意味クラス内のサブクラスとなる。 本研究では,この直観を活用し,各サブクラスの個別分類器を維持することを選択する。 技術的には、各プロトタイプが1つのサブクラスの分類器重みとして機能するマルチプロトタイプ分類器を設計する。 マルチプロトタイプ分類器の重み付けを効果的に更新するために、各プロトタイプの全ての点特徴を更新し、多様なプロトタイプの学習を促すための2つの制約を提案する。 弱教師付き3次元点雲分割タスクの実験により, 提案手法の有効性が検証された。 我々の仮説はまた、追加アノテーションのコストを伴わずにセマンティックサブクラスの一貫した発見を前提に検証されている。

Addressing the annotation challenge in 3D Point Cloud segmentation has inspired research into weakly supervised learning. Existing approaches mainly focus on exploiting manifold and pseudo-labeling to make use of large unlabeled data points. A fundamental challenge here lies in the large intra-class variations of local geometric structure, resulting in subclasses within a semantic class. In this work, we leverage this intuition and opt for maintaining an individual classifier for each subclass. Technically, we design a multi-prototype classifier, each prototype serves as the classifier weights for one subclass. To enable effective updating of multi-prototype classifier weights, we propose two constraints respectively for updating the prototypes w.r.t. all point features and for encouraging the learning of diverse prototypes. Experiments on weakly supervised 3D point cloud segmentation tasks validate the efficacy of proposed method in particular at low-label regime. Our hypothesis is also verified given the consistent discovery of semantic subclasses at no cost of additional annotations.
翻訳日:2022-05-09 17:03:25 公開日:2022-05-06
# (参考訳) clip-clop:クリップガイド付きコラージュとフォトモンタージュ

CLIP-CLOP: CLIP-Guided Collage and Photomontage ( http://arxiv.org/abs/2205.03146v1 )

ライセンス: CC BY 4.0
Piotr Mirowski, Dylan Banarse, Mateusz Malinowski, Simon Osindero, Chrisantha Fernando(参考訳) CLIP双対画像とテキストエンコーダのような大規模ニューラルネットワークの未解決の神秘は、自動的に生成されたアートを普及させた。 より洗練されたジェネレータは芸術作品のリアリズムと視覚的な外観を強化し、創造的な即興的な工学は様式的な表現を可能にした。 ループの理想のアーティストによってガイドされた我々は、コラージュを生成するための勾配ベースのジェネレータを設計する。 人間のアーティストは、画像パッチのライブラリをキュレートし、画像構成全体を記述し(プロンプトで)、生成中のパッチの位置を手動で調整することで、プロセスのコントロールを回復し、より創造的な自由を達成することができる。 われわれは高解像度コラージュの美的可能性を探究し、オープンソースのGoogle Colabを芸術ツールとして提供する。

The unabated mystique of large-scale neural networks, such as the CLIP dual image-and-text encoder, popularized automatically generated art. Increasingly more sophisticated generators enhanced the artworks' realism and visual appearance, and creative prompt engineering enabled stylistic expression. Guided by an artist-in-the-loop ideal, we design a gradient-based generator to produce collages. It requires the human artist to curate libraries of image patches and to describe (with prompts) the whole image composition, with the option to manually adjust the patches' positions during generation, thereby allowing humans to reclaim some control of the process and achieve greater creative freedom. We explore the aesthetic potentials of high-resolution collages, and provide an open-source Google Colab as an artistic tool.
翻訳日:2022-05-09 16:44:02 公開日:2022-05-06
# (参考訳) Zulu言語のためのスタンス検出のためのドメインギャップのブリッジ

Bridging the Domain Gap for Stance Detection for the Zulu language ( http://arxiv.org/abs/2205.03153v1 )

ライセンス: CC BY 4.0
Gcinizwe Dlamini, Imad Eddine Ibrahim Bekkouch, Adil Khan, and Leon Derczynski(参考訳) 情報ソースが広まるにつれ、近年は誤情報が大きな関心事になっている。 過去数年間、この分野では多くのNLPタスクが導入されており、いくつかのシステムは英語のデータセットに良い結果をもたらした。 文献で誤情報と戦うための既存のAIベースのアプローチは、自動姿勢検出を成功への不可欠な第一歩として示唆している。 本稿は,英語と対象言語とのドメインギャップのため,その知識を他の言語に伝達するための英語の進歩を活用することを目的としている。 本稿では,教師なしと教師なしの両方の方法で低品質データを活用することにより,対象言語における人間の専門知識を必要とせずに,ドメイン適応技術を用いてドメイン間ギャップを低減できるブラックボックス非インタラクティブ手法を提案する。 これにより、英語で見られるように、この作業のターゲット言語であるzulu言語の姿勢検出において、同様の結果が迅速に達成できます。 Zulu言語における姿勢検出データセットも提供する。 実験の結果、英語データセットと機械翻訳を利用することで、英語データと他の言語の両方のパフォーマンスを向上させることができることがわかった。

Misinformation has become a major concern in recent last years given its spread across our information sources. In the past years, many NLP tasks have been introduced in this area, with some systems reaching good results on English language datasets. Existing AI based approaches for fighting misinformation in literature suggest automatic stance detection as an integral first step to success. Our paper aims at utilizing this progress made for English to transfers that knowledge into other languages, which is a non-trivial task due to the domain gap between English and the target languages. We propose a black-box non-intrusive method that utilizes techniques from Domain Adaptation to reduce the domain gap, without requiring any human expertise in the target language, by leveraging low-quality data in both a supervised and unsupervised manner. This allows us to rapidly achieve similar results for stance detection for the Zulu language, the target language in this work, as are found for English. We also provide a stance detection dataset in the Zulu language. Our experimental results show that by leveraging English datasets and machine translation we can increase performances on both English data along with other languages.
翻訳日:2022-05-09 16:34:41 公開日:2022-05-06
# (参考訳) 不均一胸部X線データの分類のための個人差分学習による再建攻撃の回避

Defending against Reconstruction Attacks through Differentially Private Federated Learning for Classification of Heterogeneous Chest X-Ray Data ( http://arxiv.org/abs/2205.03168v1 )

ライセンス: CC BY 4.0
Joceline Ziegler, Bjarne Pfitzner, Heinrich Schulz, Axel Saalbach, Bert Arnrich(参考訳) プライバシー規制と異種データの物理的分布は、しばしば医学的文脈における深層学習モデルの開発における主要な関心事である。 本稿では,DenseNet121およびResNet50ネットワークアーキテクチャに対するプライバシ攻撃に対する防御手段として,胸部X線分類のための差分プライベートフェデレーション学習の可能性を評価する。 公開のchexpertとmendeleyの胸部x線データセットからの画像を36のクライアントに均等に分散することで,フェデレーション環境をシミュレートした。 どちらの非民間ベースラインモデルも、医学的発見の有無を検出する二分分類タスクにおいて、ROC曲線(AUC)0.94の領域を達成した。 両モデルアーキテクチャは,各クライアントのローカルモデル更新に画像再構成攻撃を適用することにより,プライバシー侵害に対して脆弱であることを示す。 この攻撃は後の訓練で特に成功した。 プライバシー侵害のリスクを軽減するため、我々はR'enyi差分プライバシーとガウスノイズ機構をローカルモデルトレーニングに統合した。 プライバシ予算に対するモデルパフォーマンスと攻撃脆弱性を$\epsilon \in$ {1, 3, 6, 10} で評価する。 DenseNet121は、$\epsilon$ = 6のAUCで最高のユーティリティプライバシトレードオフを達成した。 モデル性能は、非プライベートベースラインと比較して、個々のクライアントに対してわずかに低下した。 ResNet50は同じプライバシー設定でAUCが0.76に達した。 その性能はプライバシー上の制約を考慮に入れたDenseNet121よりも劣っており、DenseNet121アーキテクチャは差分プライベートトレーニングよりも堅牢であることを示している。

Privacy regulations and the physical distribution of heterogeneous data are often primary concerns for the development of deep learning models in a medical context. This paper evaluates the feasibility of differentially private federated learning for chest X-ray classification as a defense against privacy attacks on DenseNet121 and ResNet50 network architectures. We simulated a federated environment by distributing images from the public CheXpert and Mendeley chest X-ray datasets unevenly among 36 clients. Both non-private baseline models achieved an area under the ROC curve (AUC) of 0.94 on the binary classification task of detecting the presence of a medical finding. We demonstrate that both model architectures are vulnerable to privacy violation by applying image reconstruction attacks to local model updates from individual clients. The attack was particularly successful during later training stages. To mitigate the risk of privacy breach, we integrated R\'enyi differential privacy with a Gaussian noise mechanism into local model training. We evaluate model performance and attack vulnerability for privacy budgets $\epsilon \in$ {1, 3, 6, 10}. The DenseNet121 achieved the best utility-privacy trade-off with an AUC of 0.94 for $\epsilon$ = 6. Model performance deteriorated slightly for individual clients compared to the non-private baseline. The ResNet50 only reached an AUC of 0.76 in the same privacy setting. Its performance was inferior to that of the DenseNet121 for all considered privacy constraints, suggesting that the DenseNet121 architecture is more robust to differentially private training.
翻訳日:2022-05-09 16:22:42 公開日:2022-05-06
# (参考訳) NT-Xent損失上限

The NT-Xent loss upper bound ( http://arxiv.org/abs/2205.03169v1 )

ライセンス: CC BY 4.0
Wilhelm {\AA}gren(参考訳) 自己教師付き学習は、深層表現学習のパラダイムとして成長し、低ラベルのデータ構造における高度な一般化能力と競争性能を示す。 SimCLRフレームワークは、コントラスト表現学習のためのNT-Xent損失を提案する。 損失関数の目的は、サンプル正対間の一致、類似性を最大化することである。 本論文は、損失と平均的類似性に対する上限を導出し、提案する。 しかし、影響の分析は提供されていないが、この分野の誰にでも実施するよう強く推奨している。

Self-supervised learning is a growing paradigm in deep representation learning, showing great generalization capabilities and competitive performance in low-labeled data regimes. The SimCLR framework proposes the NT-Xent loss for contrastive representation learning. The objective of the loss function is to maximize agreement, similarity, between sampled positive pairs. This short paper derives and proposes an upper bound for the loss and average similarity. An analysis of the implications is however not provided, but we strongly encourage anyone in the field to conduct this.
翻訳日:2022-05-09 16:00:26 公開日:2022-05-06
# (参考訳) 緑の加速ホッフィングツリー

Green Accelerated Hoeffding Tree ( http://arxiv.org/abs/2205.03184v1 )

ライセンス: CC BY 4.0
Eva Garcia-Martin, Albert Bifet, Niklas Lavesson, Rikard K\"onig, Henrik Linusson(参考訳) 最先端の機械学習ソリューションは、ハードウェアリソースに制約なく高精度なモデルを作ることに重点を置いている。 ストリームマイニングアルゴリズムはリソース制約のあるデバイス上で動作するよう設計されており、低消費電力、エネルギー、メモリ効率に重点を置いている。 Hoeffding Treeアルゴリズムは、エネルギー効率の良いモデルを作成することができるが、アンサンブルに比べて精度の低い木を犠牲にすることができる。 一方、ホッフディングツリーのアンサンブルは、高度に正確な木の森を作りますが、平均して5倍のエネルギーを消費します。 Hoeffding ツリーのアンサンブルと同じような結果を得ようとした拡張は Extremely Fast Decision Tree (EFDT) であった。 本稿では,グリーン加速度Hoeffding Tree (GAHT) アルゴリズム,エネルギーとメモリフットプリントが低く,精度が同じ(あるいは高い)EFDTアルゴリズムの拡張について述べる。 GAHTは、それぞれの葉のインスタンス数の分布に基づいて、各ノードごとに個別分割基準を設定するツリーを成長させる。 その結果,GAHT は EFDT と Hoeffding のアンサンブルと同等の競争精度を達成でき,エネルギー消費量を 70% まで削減できることがわかった。

State-of-the-art machine learning solutions mainly focus on creating highly accurate models without constraints on hardware resources. Stream mining algorithms are designed to run on resource-constrained devices, thus a focus on low power and energy and memory-efficient is essential. The Hoeffding tree algorithm is able to create energy-efficient models, but at the cost of less accurate trees in comparison to their ensembles counterpart. Ensembles of Hoeffding trees, on the other hand, create a highly accurate forest of trees but consume five times more energy on average. An extension that tried to obtain similar results to ensembles of Hoeffding trees was the Extremely Fast Decision Tree (EFDT). This paper presents the Green Accelerated Hoeffding Tree (GAHT) algorithm, an extension of the EFDT algorithm with a lower energy and memory footprint and the same (or higher for some datasets) accuracy levels. GAHT grows the tree setting individual splitting criteria for each node, based on the distribution of the number of instances over each particular leaf. The results show that GAHT is able to achieve the same competitive accuracy results compared to EFDT and ensembles of Hoeffding trees while reducing the energy consumption up to 70%.
翻訳日:2022-05-09 15:56:15 公開日:2022-05-06
# (参考訳) 論理に基づく確率のトレーサブル近似

A Logic-based Tractable Approximation of Probability ( http://arxiv.org/abs/2205.03198v1 )

ライセンス: CC BY 4.0
Paolo Baldi and Hykel Hosni(参考訳) 資源結合型エージェントが確率論的推論の近似を行うことができる論理的枠組みを提供する。 主な結果は以下の通りである。 まず,命題確率関数が深さ境界信念関数の階層によって近似できる条件を明らかにする。 第二に、かなり快適な制約の下では、確率の近似は不確定な推論につながり、フィールドの通常の仮定の下では、扱いやすいと認定される。

We provide a logical framework in which a resource-bounded agent can be seen to perform approximations of probabilistic reasoning. Our main results read as follows. First we identify the conditions under which propositional probability functions can be approximated by a hierarchy of depth-bounded Belief functions. Second we show that under rather palatable restrictions, our approximations of probability lead to uncertain reasoning which, under the usual assumptions in the field, qualifies as tractable.
翻訳日:2022-05-09 15:42:52 公開日:2022-05-06
# (参考訳) 強化学習を用いた目標指向次善活動推薦

Goal-Oriented Next Best Activity Recommendation using Reinforcement Learning ( http://arxiv.org/abs/2205.03219v1 )

ライセンス: CC BY 4.0
Prerna Agarwal, Avani Gupta, Renuka Sindhgatta, Sampath Dechu(参考訳) 進行中のケースで一連のアクティビティを推奨するには、推奨事項が基礎となるビジネスプロセスに準拠し、完了時間またはプロセス結果のパフォーマンス目標を満たさなければなりません。 次のアクティビティ予測に関する既存の作業は、将来のアクティビティを予測できるが、予測が適合しているか、目標を満たすことを保証できない。 そこで本研究では,ゴール指向の次善の行動推薦を提案する。 提案フレームワークは,学習モデルを用いて,次のベストアクティビティと,そのアクティビティが与えられた目標の見積値を予測する。 強化学習法は、1つ以上の目標を達成しそうな見積もりに基づいてアクティビティのシーケンスを探索する。 さらに,推奨活動の結果のバランスと目標達成のために,追加の報酬関数を導入することで,複数の目標の現実的な問題に対処する。 本稿では,異なる特性を持つ4つの実世界データセットに対する提案手法の有効性を示す。 その結果,提案手法の勧告は,既存の最先端の次の活動推奨手法と比較して,目標満足度や適合性に優れていた。

Recommending a sequence of activities for an ongoing case requires that the recommendations conform to the underlying business process and meet the performance goal of either completion time or process outcome. Existing work on next activity prediction can predict the future activity but cannot provide guarantees of the prediction being conformant or meeting the goal. Hence, we propose a goal-oriented next best activity recommendation. Our proposed framework uses a deep learning model to predict the next best activity and an estimated value of a goal given the activity. A reinforcement learning method explores the sequence of activities based on the estimates likely to meet one or more goals. We further address a real-world problem of multiple goals by introducing an additional reward function to balance the outcome of a recommended activity and satisfy the goal. We demonstrate the effectiveness of the proposed method on four real-world datasets with different characteristics. The results show that the recommendations from our proposed approach outperform in goal satisfaction and conformance compared to the existing state-of-the-art next best activity recommendation techniques.
翻訳日:2022-05-09 15:42:00 公開日:2022-05-06
# (参考訳) 説明可能性への道はバイアスで舗装されている:説明の公正さを測る

The Road to Explainability is Paved with Bias: Measuring the Fairness of Explanations ( http://arxiv.org/abs/2205.03295v1 )

ライセンス: CC BY 4.0
Aparna Balagopalan, Haoran Zhang, Kimia Hamidieh, Thomas Hartvigsen, Frank Rudzicz, Marzyeh Ghassemi(参考訳) 医療のような安全クリティカルな環境での機械学習モデルはブラックボックスであることが多い。 ブラックボックスモデルの振る舞いを模倣する単純な人間解釈可能なモデルがモデル予測を信頼するためにしばしば提案されるポストホックな説明可能性手法。 本研究では, 金融, 医療, 大学入学, 司法制度の4つの設定から得られた実データを用いて, 異なる保護サブグループの説明の質を監査する。 2つの異なるブラックボックスモデルアーキテクチャと4つの一般的な説明可能性手法の間で、説明モデルの近似品質がサブグループ間で大きく異なることが判明した。 また、ロバストな機械学習の最近の進歩と組み合わせた説明可能性手法が、いくつかの設定で説明の公平性を向上させることを実証する。 しかしながら、すべての設定に単一のソリューションが存在するとは限らないため、ユーザに対する非ゼロ忠実性ギャップの詳細を伝えることの重要性を強調している。 最後に,不公平な説明モデルの意義を,機械学習コミュニティが直面する困難かつ未熟な問題として論じる。

Machine learning models in safety-critical settings like healthcare are often blackboxes: they contain a large number of parameters which are not transparent to users. Post-hoc explainability methods where a simple, human-interpretable model imitates the behavior of these blackbox models are often proposed to help users trust model predictions. In this work, we audit the quality of such explanations for different protected subgroups using real data from four settings in finance, healthcare, college admissions, and the US justice system. Across two different blackbox model architectures and four popular explainability methods, we find that the approximation quality of explanation models, also known as the fidelity, differs significantly between subgroups. We also demonstrate that pairing explainability methods with recent advances in robust machine learning can improve explanation fairness in some settings. However, we highlight the importance of communicating details of non-zero fidelity gaps to users, since a single solution might not exist across all settings. Finally, we discuss the implications of unfair explanation models as a challenging and understudied problem facing the machine learning community.
翻訳日:2022-05-09 15:29:07 公開日:2022-05-06
# (参考訳) 政治パロディ検出を改善するためのユーモアと皮肉の組み合わせ

Combining Humor and Sarcasm for Improving Political Parody Detection ( http://arxiv.org/abs/2205.03313v1 )

ライセンス: CC BY 4.0
Xiao Ao, Danae S\'anchez Villegas, Daniel Preo\c{t}iuc-Pietro, Nikolaos Aletras(参考訳) パロディ(英: Parody)は、コメディや批判的な目的のために実体を模倣するために用いられる図形装置である。 パロディは故意にユーモラスで、しばしば皮肉を伴う。 本稿では, ツイートにおける政治的パロディ検出の性能向上を目標として, これらの比喩的傾向を共同でモデル化する。 そこで本研究では,3つの並列エンコーダを組み合わせたマルチエンコーダモデルを提案する。 政治パロディツイートの公開データセットの実験は、我々のアプローチが過去の最先端の手法よりも優れていることを示している。

Parody is a figurative device used for mimicking entities for comedic or critical purposes. Parody is intentionally humorous and often involves sarcasm. This paper explores jointly modelling these figurative tropes with the goal of improving performance of political parody detection in tweets. To this end, we present a multi-encoder model that combines three parallel encoders to enrich parody-specific representations with humor and sarcasm information. Experiments on a publicly available data set of political parody tweets demonstrate that our approach outperforms previous state-of-the-art methods.
翻訳日:2022-05-09 15:28:04 公開日:2022-05-06
# (参考訳) エイリアン動物園に行こう: 機械学習における対実的説明の使用可能性を研究する実験フレームワークの導入

Let's Go to the Alien Zoo: Introducing an Experimental Framework to Study Usability of Counterfactual Explanations for Machine Learning ( http://arxiv.org/abs/2205.03398v1 )

ライセンス: CC BY 4.0
Ulrike Kuhl and Andr\'e Artelt and Barbara Hammer(参考訳) 機械学習(ML)の有用性と説明責任を高めるためには、モデルの性能評価に加えて、モデルの決定を説明することが不可欠である。 そのため、説明可能な人工知能(XAI)の分野は活発な研究のトピックとして再浮上し、自動意思決定の「方法」と「理由」に対処するためのアプローチを提供している。 この領域では、反事実説明(cfes)はポストホックな説明を生成する心理的根拠のあるアプローチとしてかなりの注目を集めている。 そのためにCFEは、モデル入力の変更が特定の方法で予測を変更したことを強調する。 しかし、多くのCFEアプローチが導入されたにもかかわらず、そのユーザビリティは人間レベルではまだ十分に検証されていない。 そこで我々は,XAI の分野を前進させるために,エンゲージメント,Web ベース,ゲームに触発された実験フレームワークである Alien Zoo を紹介する。 Alien Zooは、自動化されたシステムから新たな知識を得るためのCFEのユーザビリティを評価する手段を提供する。 概念実証として,本手法の有効性と実現可能性を示す。 提案した反復学習課題における客観的パフォーマンスと主観的ユーザビリティの両面から,ユーザがCFEを受けることのメリットが示唆された。 本研究は,従来の技術指向の業務を補完するために,制御され,優れたユーザスタディを容易に実行するための手段を,研究グループや実践者に提供することを目的としている。 したがって、再現可能な研究の利益のために、基礎となるモデルやユーザデータとともに、コード全体を提供する。

To foster usefulness and accountability of machine learning (ML), it is essential to explain a model's decisions in addition to evaluating its performance. Accordingly, the field of explainable artificial intelligence (XAI) has resurfaced as a topic of active research, offering approaches to address the "how" and "why" of automated decision-making. Within this domain, counterfactual explanations (CFEs) have gained considerable traction as a psychologically grounded approach to generate post-hoc explanations. To do so, CFEs highlight what changes to a model's input would have changed its prediction in a particular way. However, despite the introduction of numerous CFE approaches, their usability has yet to be thoroughly validated at the human level. Thus, to advance the field of XAI, we introduce the Alien Zoo, an engaging, web-based and game-inspired experimental framework. The Alien Zoo provides the means to evaluate usability of CFEs for gaining new knowledge from an automated system, targeting novice users in a domain-general context. As a proof of concept, we demonstrate the practical efficacy and feasibility of this approach in a user study. Our results suggest that users benefit from receiving CFEs compared to no explanation, both in terms of objective performance in the proposed iterative learning task, and subjective usability. With this work, we aim to equip research groups and practitioners with the means to easily run controlled and well-powered user studies to complement their otherwise often more technology-oriented work. Thus, in the interest of reproducible research, we provide the entire code, together with the underlying models and user data.
翻訳日:2022-05-09 15:16:37 公開日:2022-05-06
# ハイブリッド無線チャネルモデルを用いたuav支援無線ノード定位

UAV-aided Wireless Node Localization Using Hybrid Radio Channel Models ( http://arxiv.org/abs/2205.03327v1 )

ライセンス: Link先を確認
Omid Esrafilian, Rajeev Gangula, and David Gesbert(参考訳) 本稿では,無人航空機 (uav) による受信信号強度 (rss) 測定に基づく地中ユーザ位置推定の問題点について考察する。 我々は,UAV-ユーザリンクチャネルモデルパラメータとUAVのアンテナ放射パターンを推定する必要のある未知として扱う。 従来の経路損失モデルとUAVアンテナゲイン関数を近似したニューラルネットワークを組み合わせたハイブリッドチャネルモデルを提案する。 このモデルとオフラインrss測定セットによって、未知のパラメータが推定される。 次に,学習したハイブリッドチャネルモデルと環境の3次元マップを併用したpso( particle swarm optimization)手法を用いて,地盤ユーザを正確にローカライズする。 開発したアルゴリズムの性能はシミュレーションや実世界の実験を通して評価する。

This paper considers the problem of ground user localization based on received signal strength (RSS) measurements obtained by an unmanned aerial vehicle (UAV). We treat UAV-user link channel model parameters and antenna radiation pattern of the UAV as unknowns that need to be estimated. A hybrid channel model is proposed that consists of a traditional path loss model combined with a neural network approximating the UAV antenna gain function. With this model and a set of offline RSS measurements, the unknown parameters are estimated. We then employ the particle swarm optimization (PSO) technique which utilizes the learned hybrid channel model along with a 3D map of the environment to accurately localize the ground users. The performance of the developed algorithm is evaluated through simulations and also real-world experiments.
翻訳日:2022-05-09 14:29:00 公開日:2022-05-06
# 生成的対向ニューラル演算子

Generative Adversarial Neural Operators ( http://arxiv.org/abs/2205.03017v1 )

ライセンス: Link先を確認
Md Ashiqur Rahman, Manuel A. Florez, Anima Anandkumar, Zachary E. Ross, Kamyar Azizzadenesheli(参考訳) 本稿では,無限次元関数空間における確率学習のための生成モデルパラダイムであるgano(generative adversarial neural operator)を提案する。 自然科学と工学は無限次元関数空間からサンプリングされる多くの種類のデータを持つことが知られており、古典的な有限次元深層生成逆数ネットワーク(GAN)は直接適用できない。 GANOはGANフレームワークを一般化し、無限次元空間におけるプッシュフォワード作用素写像を学習することで関数のサンプリングを可能にする。 GANOは、ジェネレータニューラル演算子と識別器ニューラル関数の2つの主要成分からなる。 生成器への入力は、例えば、ガウス確率場(grf)のようなユーザ特定確率測度からの関数のサンプルであり、生成器出力は合成データ関数である。 判別器への入力は、実データ関数または合成データ関数である。 本研究では,wasserstein の基準を用いて gano をインスタンス化し,wasserstein の損失を無限次元空間でどのように計算できるかを示す。 入力関数と出力関数が共に GRF からのサンプルである場合のGANO を実験的に検討し、その性能を有限次元の GAN と比較する。 本研究では, GANOが火山活動の実際の機能データに与える影響を実証的に研究し, GANよりも優れた性能を示した。 さらに,関数に基づくデータを考えると,GANOはGANよりも訓練が安定であり,ハイパーパラメータ最適化が不要であることがわかった。

We propose the generative adversarial neural operator (GANO), a generative model paradigm for learning probabilities on infinite-dimensional function spaces. The natural sciences and engineering are known to have many types of data that are sampled from infinite-dimensional function spaces, where classical finite-dimensional deep generative adversarial networks (GANs) may not be directly applicable. GANO generalizes the GAN framework and allows for the sampling of functions by learning push-forward operator maps in infinite-dimensional spaces. GANO consists of two main components, a generator neural operator and a discriminator neural functional. The inputs to the generator are samples of functions from a user-specified probability measure, e.g., Gaussian random field (GRF), and the generator outputs are synthetic data functions. The input to the discriminator is either a real or synthetic data function. In this work, we instantiate GANO using the Wasserstein criterion and show how the Wasserstein loss can be computed in infinite-dimensional spaces. We empirically study GANOs in controlled cases where both input and output functions are samples from GRFs and compare its performance to the finite-dimensional counterpart GAN. We empirically study the efficacy of GANO on real-world function data of volcanic activities and show its superior performance over GAN. Furthermore, we find that for the function-based data considered, GANOs are more stable to train than GANs and require less hyperparameter optimization.
翻訳日:2022-05-09 14:28:12 公開日:2022-05-06
# beyond backpropagation:二レベル最適化のための暗黙の勾配

Beyond backpropagation: implicit gradients for bilevel optimization ( http://arxiv.org/abs/2205.03076v1 )

ライセンス: Link先を確認
Nicolas Zucchet and Jo\~ao Sacramento(参考訳) 本稿では,2段階最適化問題の解法として,勾配に基づく手法を概観する。 双レベル最適化は、最小限の量で暗黙的に定義されるシステムの学習をフレーム化する一般的な方法である。 この特徴付けは、ニューラルネットワーク、オプティマイザ、アルゴリズムソルバ、さらには物理システムにも適用でき、そのようなシステムの明示的な定義よりもモデリングの柔軟性が向上する。 ここでは,このような問題を解決するグラデーションベースアプローチに注目する。 我々はこれらを、暗黙の微分に根付いたものと、平衡伝播定理を利用するものとの2つのカテゴリで区別する。 このような手法の背景にある数学的基礎について,勾配推定アルゴリズムを詳細に導入し,異なるアプローチの競争上の優位性を比較する。

This paper reviews gradient-based techniques to solve bilevel optimization problems. Bilevel optimization is a general way to frame the learning of systems that are implicitly defined through a quantity that they minimize. This characterization can be applied to neural networks, optimizers, algorithmic solvers and even physical systems, and allows for greater modeling flexibility compared to an explicit definition of such systems. Here we focus on gradient-based approaches that solve such problems. We distinguish them in two categories: those rooted in implicit differentiation, and those that leverage the equilibrium propagation theorem. We present the mathematical foundations that are behind such methods, introduce the gradient-estimation algorithms in detail and compare the competitive advantages of the different approaches.
翻訳日:2022-05-09 14:27:48 公開日:2022-05-06
# PTFlash:等温二相平衡計算のためのディープラーニングフレームワーク

PTFlash: A deep learning framework for isothermal two-phase equilibrium calculations ( http://arxiv.org/abs/2205.03090v1 )

ライセンス: Link先を確認
Jingang Qu (MLIA, IFPEN), Thibault Faney (IFPEN), Jean-Charles de Hemptinne (IFPEN), Soleiman Yousef (IFPEN), Patrick Gallinari (MLIA)(参考訳) 相平衡計算は多孔質媒質中の多成分多相流の数値シミュレーションの重要な部分であり、計算時間の最大のシェアを占めている。 本研究では、PyTorchを用いた等温二相フラッシュ計算に必要なアルゴリズムをベクトル化し、幅広いダウンストリームアプリケーションを容易にするためのGPU対応高速並列フレームワークPTFlashを提案する。 さらにPTFlashをさらに高速化するために、与えられた混合物の安定性を予測するための2つのタスク固有ニューラルネットワークと、オフラインでトレーニングされた分散係数の推定を行い、サイドステッピング安定性解析により計算時間を短縮し、収束点に達するイテレーション数を短縮する2つのタスク固有ニューラルネットワークを設計する。 PTFlashの評価は, 炭化水素を含む3つのケーススタディ, CO$_2$およびN$_2$で行われ, 相平衡はSave-Redlich-Kwong (SRK) 方程式を用いて, 幅広い温度, 圧力, 組成条件で試験された。 PTFlashとC++で記述された社内熱力学ライブラリCarnotを比較し,CPU上で1つずつフラッシュ計算を行う。 結果は,carnot が提供する基準解による完全精度を維持しつつ,最大2桁の大規模計算における高速化を示す。

Phase equilibrium calculations are an essential part of numerical simulations of multi-component multi-phase flow in porous media, accounting for the largest share of the computational time. In this work, we introduce a GPUenabled, fast, and parallel framework, PTFlash, that vectorizes algorithms required for isothermal two-phase flash calculations using PyTorch, and can facilitate a wide range of downstream applications. In addition, to further accelerate PTFlash, we design two task-specific neural networks, one for predicting the stability of given mixtures and the other for providing estimates of the distribution coefficients, which are trained offline and help shorten computation time by sidestepping stability analysis and reducing the number of iterations to reach convergence. The evaluation of PTFlash was conducted on three case studies involving hydrocarbons, CO$_2$ and N$_2$ , for which the phase equilibrium was tested over a large range of temperature, pressure and composition conditions, using the Soave-Redlich-Kwong (SRK) equation of state. We compare PTFlash with an in-house thermodynamic library, Carnot, written in C++ and performing flash calculations one by one on CPU. Results show speed-ups on large scale calculations up to two order of magnitudes, while maintaining perfect precision with the reference solution provided by Carnot.
翻訳日:2022-05-09 14:27:35 公開日:2022-05-06
# 不可避なバックドア攻撃:入力空間から特徴表現へ

Imperceptible Backdoor Attack: From Input Space to Feature Representation ( http://arxiv.org/abs/2205.03190v1 )

ライセンス: Link先を確認
Nan Zhong, Zhenxing Qian, Xinpeng Zhang(参考訳) バックドア攻撃はディープニューラルネットワーク(DNN)に対する脅威が急速に高まっている。 バックドア攻撃シナリオでは、攻撃者は通常、トレーニングデータセットまたはトレーニングプロセスを操作して、ターゲットモデルにバックドアを組み込む。 そして、侵害されたモデルは正常な入力に対して振る舞うが、事前に定義されたトリガーが現れると間違いを犯す。 本稿では,既存の攻撃手法の欠点を分析し,新たな非受容的バックドア攻撃を提案する。 我々は、トリガーパターンを、多項分布に続く特別な種類のノイズとして扱う。 U-netベースのネットワークを用いて、各良性入力に対する多項分布の具体的なパラメータを生成する。 この精巧なトリガーは、我々のアプローチが人間と統計的検出の両方に見えないことを保証します。 トリガーの設計に加えて,モデル診断に基づく防御に対するアプローチの堅牢性についても検討する。 トリガーで押された悪意のある入力の特徴表現を、良質な入力と絡み合うように強制します。 広範なデータセットとネットワークを通じて,最先端の複数の防御に対して有効性と堅牢性を示す。 我々のトリガーは良画像の1×%ピクセル以下を修正するだけで、修正等級は1である。 ソースコードはhttps://github.com/Ekko-zn/IJCAI2022-Backdoor.comから入手可能です。

Backdoor attacks are rapidly emerging threats to deep neural networks (DNNs). In the backdoor attack scenario, attackers usually implant the backdoor into the target model by manipulating the training dataset or training process. Then, the compromised model behaves normally for benign input yet makes mistakes when the pre-defined trigger appears. In this paper, we analyze the drawbacks of existing attack approaches and propose a novel imperceptible backdoor attack. We treat the trigger pattern as a special kind of noise following a multinomial distribution. A U-net-based network is employed to generate concrete parameters of multinomial distribution for each benign input. This elaborated trigger ensures that our approach is invisible to both humans and statistical detection. Besides the design of the trigger, we also consider the robustness of our approach against model diagnose-based defences. We force the feature representation of malicious input stamped with the trigger to be entangled with the benign one. We demonstrate the effectiveness and robustness against multiple state-of-the-art defences through extensive datasets and networks. Our trigger only modifies less than 1\% pixels of a benign image while the modification magnitude is 1. Our source code is available at https://github.com/Ekko-zn/IJCAI2022-Backdoor.
翻訳日:2022-05-09 14:27:10 公開日:2022-05-06
# symphony: 自律運転シミュレーションのためのリアルで多様なエージェントの学習

Symphony: Learning Realistic and Diverse Agents for Autonomous Driving Simulation ( http://arxiv.org/abs/2205.03195v1 )

ライセンス: Link先を確認
Maximilian Igl, Daewoo Kim, Alex Kuefler, Paul Mougin, Punit Shah, Kyriacos Shiarlis, Dragomir Anguelov, Mark Palatucci, Brandyn White, Shimon Whiteson(参考訳) シミュレーションは自動運転車の開発を加速するための重要なツールである。 シミュレーションを現実的にするには、そのような車と対話する人間の道路利用者のモデルが必要である。 このようなモデルは、既に道路上で観測されている車両の軌跡に、実演(LfD)から学習を適用することで得ることができる。 しかし、既存のlfd手法は概して不十分であり、頻繁に衝突したり道路から外れたりする政策をもたらす。 この問題に対処するために,従来のポリシーと並列ビーム探索を組み合わせることで,リアリズムを大幅に改善するSymphonyを提案する。 ビームサーチは、判別器によって不当に評価される枝を刈り取ることにより、これらの方針をフライで洗練する。 しかし、これは多様性、すなわち、刈り取りがモード崩壊を促進するため、エージェントが現実的な行動の分布全体をいかにうまくカバーするかを損なうこともある。 Symphonyはこの問題を階層的なアプローチで解決し、エージェントの振る舞いをゴール生成とゴール条件に分解する。 このような目標を用いることで、敵の訓練中にエージェントの多様性が消えることも、ビームサーチによって追い払われることもなくなる。 プロプライエタリとオープン両方のWaymoデータセットの実験は、Symphonyエージェントが複数のベースラインよりも現実的で多様な振る舞いを学ぶことを確認した。

Simulation is a crucial tool for accelerating the development of autonomous vehicles. Making simulation realistic requires models of the human road users who interact with such cars. Such models can be obtained by applying learning from demonstration (LfD) to trajectories observed by cars already on the road. However, existing LfD methods are typically insufficient, yielding policies that frequently collide or drive off the road. To address this problem, we propose Symphony, which greatly improves realism by combining conventional policies with a parallel beam search. The beam search refines these policies on the fly by pruning branches that are unfavourably evaluated by a discriminator. However, it can also harm diversity, i.e., how well the agents cover the entire distribution of realistic behaviour, as pruning can encourage mode collapse. Symphony addresses this issue with a hierarchical approach, factoring agent behaviour into goal generation and goal conditioning. The use of such goals ensures that agent diversity neither disappears during adversarial training nor is pruned away by the beam search. Experiments on both proprietary and open Waymo datasets confirm that Symphony agents learn more realistic and diverse behaviour than several baselines.
翻訳日:2022-05-09 14:26:53 公開日:2022-05-06
# Perseus: 変分不等式に対する簡易な高次規則化法

Perseus: A Simple High-Order Regularization Method for Variational Inequalities ( http://arxiv.org/abs/2205.03202v1 )

ライセンス: Link先を確認
Tianyi Lin and Michael. I. Jordan(参考訳) 本稿では、スムーズかつ単調な変分不等式(VIs)を解くための単純な高次正則化法の設計に関するオープンで挑戦的な問題を解決する。 VI は$x^\star \in \mathcal{X}$ を$\langle F(x), x - x^\star\rangle \geq 0$ for all $x \in \mathcal{X}$ とし、$F: \mathbb{R}^d \mapsto \mathbb{R}^d$ が$(p-1)^{th}$-階微分で滑らかであるような設定を考える。 p = 2$,~\citet{nesterov-2006-constrained} の場合、立方体正規化ニュートン法を vis に拡張し、グローバルレートは $o(\epsilon^{-1})$ である。 \citet{Monteiro-2012-Iteration} は$O(\epsilon^{-2/3}\log(1/\epsilon))$を改良した別の2階法を提案したが、この方法は内部ループとして非自明な二項探索手順を必要とした。 類似した二項探索手順に基づく高階法がさらに開発され、$o(\epsilon^{-2/(p+1)}\log(1/\epsilon))$となることが示されている。 しかし、そのような探索手順は実際は計算が禁止され、単純な高次正規化法を見つけるという問題は、最適化理論においてオープンで挑戦的な問題として残されている。 我々は、$p^{th}$-orderメソッドを提案し、これは \textit{not} が任意のバイナリ検索スキームを必要とし、大域レート$O(\epsilon^{-2/(p+1)})$で弱解に収束することを保証している。 再スタートを伴うバージョンは、滑らかで強い単調 vis に対する大域的な線形および局所超線形収束率を達成する。 さらに,Minty条件を満たすスムーズかつ非モノトン VI の解法として大域的な$O(\epsilon^{-2/p})$を達成し,さらに,強いMinty条件が成立すれば,再起動版が再び大域的線形および局所超線形収束率を達成する。

This paper settles an open and challenging question pertaining to the design of simple high-order regularization methods for solving smooth and monotone variational inequalities (VIs). A VI involves finding $x^\star \in \mathcal{X}$ such that $\langle F(x), x - x^\star\rangle \geq 0$ for all $x \in \mathcal{X}$ and we consider the setting where $F: \mathbb{R}^d \mapsto \mathbb{R}^d$ is smooth with up to $(p-1)^{th}$-order derivatives. For the case of $p = 2$,~\citet{Nesterov-2006-Constrained} extended the cubic regularized Newton's method to VIs with a global rate of $O(\epsilon^{-1})$. \citet{Monteiro-2012-Iteration} proposed another second-order method which achieved an improved rate of $O(\epsilon^{-2/3}\log(1/\epsilon))$, but this method required a nontrivial binary search procedure as an inner loop. High-order methods based on similar binary search procedures have been further developed and shown to achieve a rate of $O(\epsilon^{-2/(p+1)}\log(1/\epsilon))$. However, such search procedure can be computationally prohibitive in practice and the problem of finding a simple high-order regularization methods remains as an open and challenging question in optimization theory. We propose a $p^{th}$-order method which does \textit{not} require any binary search scheme and is guaranteed to converge to a weak solution with a global rate of $O(\epsilon^{-2/(p+1)})$. A version with restarting attains a global linear and local superlinear convergence rate for smooth and strongly monotone VIs. Further, our method achieves a global rate of $O(\epsilon^{-2/p})$ for solving smooth and non-monotone VIs satisfying the Minty condition; moreover, the restarted version again attains a global linear and local superlinear convergence rate if the strong Minty condition holds.
翻訳日:2022-05-09 14:26:31 公開日:2022-05-06
# QD-suiteに向けて:品質多様性アルゴリズムのためのベンチマークセットの開発

Towards QD-suite: developing a set of benchmarks for Quality-Diversity algorithms ( http://arxiv.org/abs/2205.03207v1 )

ライセンス: Link先を確認
Achkan Salehi and Stephane Doncieux(参考訳) QD(Quality-Diversity)の分野は確率的最適化の一分野に成長してきたが、特に移動やナビゲーションタスクといったいくつかの問題はデファクトスタンダードになっている。 そのようなベンチマークは十分ですか? それらはQDアルゴリズムが直面する重要な課題を表しているか? 相手から適切に切り離すことで、特定の課題に集中する能力を提供していますか? スケーラビリティと一般化の点で、予測力はたくさんありますか? 既存のベンチマークは標準化されておらず、現在、QDに準ずるMNISTはない。 強化学習ベンチマーク(Reinforcement Learning benchmarks)に関する最近の研究に触発されて、我々はQDメソッドが直面する課題の特定と、目標とする、挑戦的でスケーラブルで安価なベンチマークの開発が重要なステップであると主張している。 最初の試みとして,少額報酬設定において困難である3つの問題を特定し,関連するベンチマークを提案する。(1)行動計量バイアス,すなわち,行動空間の構造に適合しないメトリクスの使用によるものである。 2) 行動台地は, 多様な特性を持つため, 適応型qdアルゴリズムと(3) 進化可能性トラップが必要となる。 提案する環境は上記の特性を満たす。

While the field of Quality-Diversity (QD) has grown into a distinct branch of stochastic optimization, a few problems, in particular locomotion and navigation tasks, have become de facto standards. Are such benchmarks sufficient? Are they representative of the key challenges faced by QD algorithms? Do they provide the ability to focus on one particular challenge by properly disentangling it from others? Do they have much predictive power in terms of scalability and generalization? Existing benchmarks are not standardized, and there is currently no MNIST equivalent for QD. Inspired by recent works on Reinforcement Learning benchmarks, we argue that the identification of challenges faced by QD methods and the development of targeted, challenging, scalable but affordable benchmarks is an important step. As an initial effort, we identify three problems that are challenging in sparse reward settings, and propose associated benchmarks: (1) Behavior metric bias, which can result from the use of metrics that do not match the structure of the behavior space. (2) Behavioral Plateaus, with varying characteristics, such that escaping them would require adaptive QD algorithms and (3) Evolvability Traps, where small variations in genotype result in large behavioral changes. The environments that we propose satisfy the properties listed above.
翻訳日:2022-05-09 14:25:21 公開日:2022-05-06
# Infinityにおける凸解析:アストラル空間入門

Convex Analysis at Infinity: An Introduction to Astral Space ( http://arxiv.org/abs/2205.03260v1 )

ライセンス: Link先を確認
Miroslav Dud\'ik, Ziwei Ji, Robert E. Schapire, and Matus Telgarsky(参考訳) {\mathbb{r}^n$ 上のすべての凸函数が有限の最小値を持つわけではない。 本研究は,無限大におけるそのような最小化の理解理論の開発を目的とする。 我々は、そのような無限大の点が加えられた$\mathbb{r}^n$ のコンパクト拡大であるアストラル空間について研究する。 アストラル空間はできるだけ小さいように構成され、すべての線型函数が新しい空間へ連続的に拡張されることを保証する。 アストラル空間はすべての$\mathbb{r}^n$を含むが、ベクトル空間でも距離空間でもない。 しかし、凸性、共役性、および部分微分の概念の有用かつ有意義な拡張を可能にするには十分に構造化されている。 これらの概念を開発し,アストラル空間上の凸関数の細部構造,連続性の厳密なキャラクタリゼーション,降下アルゴリズムの収束など,様々な性質を分析する。

Not all convex functions on $\mathbb{R}^n$ have finite minimizers; some can only be minimized by a sequence as it heads to infinity. In this work, we aim to develop a theory for understanding such minimizers at infinity. We study astral space, a compact extension of $\mathbb{R}^n$ to which such points at infinity have been added. Astral space is constructed to be as small as possible while still ensuring that all linear functions can be continuously extended to the new space. Although astral space includes all of $\mathbb{R}^n$, it is not a vector space, nor even a metric space. However, it is sufficiently well-structured to allow useful and meaningful extensions of concepts of convexity, conjugacy, and subdifferentials. We develop these concepts and analyze various properties of convex functions on astral space, including the detailed structure of their minimizers, exact characterizations of continuity, and convergence of descent algorithms.
翻訳日:2022-05-09 14:25:00 公開日:2022-05-06
# ロボットの時間を延ばす方法:視覚に基づくロボットマニピュレーションのためのブリッジングキックスタートとオフライン強化学習

How to Spend Your Robot Time: Bridging Kickstarting and Offline Reinforcement Learning for Vision-based Robotic Manipulation ( http://arxiv.org/abs/2205.03353v1 )

ライセンス: Link先を確認
Alex X. Lee, Coline Devin, Jost Tobias Springenberg, Yuxiang Zhou, Thomas Lampe, Abbas Abdolmaleki, Konstantinos Bousmalis(参考訳) 強化学習(rl)は経験からの学習制御に有効であることが示されている。 しかし、RLは通常、環境と大量のオンラインインタラクションを必要とする。 これにより、そのような相互作用が高価であるロボティクスなど、現実の環境への適用性が制限される。 本研究は,対象タスクにおけるオンラインインタラクションを最小化する方法について,例えば,関連する事前タスクのトレーニングやシミュレーションからアクセス可能な準最適ポリシーを再利用することで検討する。 そこで本研究では,教師の政策の行動分布だけでなく,その課題に関する政策によって収集されたデータを用いて,学習を高速化する2つのRLアルゴリズムを開発した。 我々は,視覚に基づく多様な物体の積み重ねに挑戦するロボット操作ベンチマークにおいて,サブオプティカル教師の活用法を徹底的に実験的に検討する。 我々は、オフライン、オンライン、オフラインからオンライン、キックスタートのrlアルゴリズムと比較する。 これにより、教師と生徒の双方からのデータに対するトレーニングによって、限られたデータ予算で最高のパフォーマンスが得られます。 本研究では,教師と生徒の方針を対象とする限られたデータ予算を最適に割り当てる方法について検討し,様々な予算を用いた実験,最適度が異なる2人の教師,多様な行動を必要とする5つの積み重ねタスクについて報告する。 シミュレーションと実世界の双方で分析したところ、我々のアプローチはデータ予算で最高のものであるのに対して、教師のロールアウトから標準のオフラインRLは十分なデータが与えられると驚くほど効果的であることがわかった。

Reinforcement learning (RL) has been shown to be effective at learning control from experience. However, RL typically requires a large amount of online interaction with the environment. This limits its applicability to real-world settings, such as in robotics, where such interaction is expensive. In this work we investigate ways to minimize online interactions in a target task, by reusing a suboptimal policy we might have access to, for example from training on related prior tasks, or in simulation. To this end, we develop two RL algorithms that can speed up training by using not only the action distributions of teacher policies, but also data collected by such policies on the task at hand. We conduct a thorough experimental study of how to use suboptimal teachers on a challenging robotic manipulation benchmark on vision-based stacking with diverse objects. We compare our methods to offline, online, offline-to-online, and kickstarting RL algorithms. By doing so, we find that training on data from both the teacher and student, enables the best performance for limited data budgets. We examine how to best allocate a limited data budget -- on the target task -- between the teacher and the student policy, and report experiments using varying budgets, two teachers with different degrees of suboptimality, and five stacking tasks that require a diverse set of behaviors. Our analysis, both in simulation and in the real world, shows that our approach is the best across data budgets, while standard offline RL from teacher rollouts is surprisingly effective when enough data is given.
翻訳日:2022-05-09 14:24:43 公開日:2022-05-06
# 物理インフォームドニューラルネットワークによるPDE制約最適化と制御

Physics-informed neural networks for PDE-constrained optimization and control ( http://arxiv.org/abs/2205.03377v1 )

ライセンス: Link先を確認
Jostein Barry-Straume, Arash Sarshar, Andrey A. Popov, and Adrian Sandu(参考訳) 科学の根本的な問題は、与えられた環境を操作して望ましい結果を生み出す最適な制御ポリシーを設計することである。 制御物理情報ニューラルネットワークは、システムの物理法則に従う一段階のフレームワークにおいて、与えられたシステム状態とその最適制御を同時に解決する。 以前のアプローチでは、システムのモデリングと制御をシーケンシャルに行う2段階フレームワークを使用しているが、コントロールピンはそのアーキテクチャと損失関数に必要な最適条件を取り入れている。 Control PINNの成功は、以下のオープンループ最適制御問題を解くことで示される。 i)分析上の問題 (ii)一次元の熱方程式、及び (iii)二次元捕食・捕食問題。

A fundamental problem of science is designing optimal control policies that manipulate a given environment into producing a desired outcome. Control Physics-Informed Neural Networks simultaneously solve a given system state, and its respective optimal control, in a one-stage framework that conforms to physical laws of the system. Prior approaches use a two-stage framework that models and controls a system sequentially, whereas Control PINNs incorporates the required optimality conditions in its architecture and loss function. The success of Control PINNs is demonstrated by solving the following open-loop optimal control problems: (i) an analytical problem (ii) a one-dimensional heat equation, and (iii) a two-dimensional predator-prey problem.
翻訳日:2022-05-09 14:24:18 公開日:2022-05-06
# 機械学習加速材料発見における密度汎関数理論の適用

Putting Density Functional Theory to the Test in Machine-Learning-Accelerated Materials Discovery ( http://arxiv.org/abs/2205.02967v1 )

ライセンス: Link先を確認
Chenru Duan, Fang Liu, Aditya Nandy, and Heather J. Kulik(参考訳) 機械学習(ml)による加速発見は、計算材料設計の組合せ的課題を克服するために必要な効率の進歩を提供し始めた。 それでも、ML加速発見は、密度汎関数理論(DFT)に由来するトレーニングデータのバイアスを継承し、失敗する運命にある多くの計算を試みている。 多くの魅力的な機能性材料と触媒プロセスは、ひずみした化学結合、開殻ラジカルおよび二ラジカル、または開殻遷移金属中心への金属-有機結合を含む。 有望なターゲットではあるが、これらの材料は電子構造法とそれらの発見のための組合せ的課題に独特な挑戦を与えている。 本稿では、従来のDFTベースのMLワークフローで典型的なものを超えて、精度、効率、アプローチに必要な進歩について述べる。 これらの課題は、複数のメソッドの結果やそれらの違いを予測するために訓練されたMLモデルを通じて解決され始めており、定量的感度分析を可能にしている。 DFTが高スループット画面で所定のデータポイントを信頼するには、一連のテストに合格しなければならない。 計算成功の可能性を予測し、強い相関関係の存在を検出するMLモデルは、迅速な診断と適応戦略を可能にする。 これらの「決定エンジン」は、DFTベースの材料発見の堅牢性に関する専門家による決定を避けるための、自律ワークフローに向けた最初のステップである。

Accelerated discovery with machine learning (ML) has begun to provide the advances in efficiency needed to overcome the combinatorial challenge of computational materials design. Nevertheless, ML-accelerated discovery both inherits the biases of training data derived from density functional theory (DFT) and leads to many attempted calculations that are doomed to fail. Many compelling functional materials and catalytic processes involve strained chemical bonds, open-shell radicals and diradicals, or metal-organic bonds to open-shell transition-metal centers. Although promising targets, these materials present unique challenges for electronic structure methods and combinatorial challenges for their discovery. In this Perspective, we describe the advances needed in accuracy, efficiency, and approach beyond what is typical in conventional DFT-based ML workflows. These challenges have begun to be addressed through ML models trained to predict the results of multiple methods or the differences between them, enabling quantitative sensitivity analysis. For DFT to be trusted for a given data point in a high-throughput screen, it must pass a series of tests. ML models that predict the likelihood of calculation success and detect the presence of strong correlation will enable rapid diagnoses and adaptation strategies. These "decision engines" represent the first steps toward autonomous workflows that avoid the need for expert determination of the robustness of DFT-based materials discoveries.
翻訳日:2022-05-09 14:21:47 公開日:2022-05-06
# 高速レート一般化誤差境界:テーマのバリエーション

Fast Rate Generalization Error Bounds: Variations on a Theme ( http://arxiv.org/abs/2205.03131v1 )

ライセンス: Link先を確認
Xuetong Wu, Jonathan H. Manton, Uwe Aickelin, Jingge Zhu(参考訳) 原文(投稿日:2019/09/17)へのリンク \cite{russo2016controlling} と \cite{xu2017information} によって始められた最近の一連の研究は、学習アルゴリズムの一般化誤差が情報尺度によって上限を上回ることができることを示した。 関連するほとんどの研究において、期待一般化誤差の収束率は o(\sqrt{\lambda/{n}}) の形であり、ここで \lambda はデータサンプルと学習仮説の間の相互情報のような情報理論的な量である。 しかし、このような学習速度は、多くの学習シナリオにおいてO(1/n)の「高速」と比較して「遅い」と考えられている。 本研究では,まず,平方根が必ずしも低速であるとは限らないことを示し,適切な仮定の下では,このバウンドを用いて高速率 (o(1/n)) の結果を得ることができることを示した。 さらに、(\eta,c)-central conditionと呼ばれる高速速度一般化エラーに必要な重要な条件を特定する。 この条件下では、経験的リスク最小化のような特定の学習アルゴリズムに対して、O(\lambda/{n})の収束率で一般化誤差と過剰リスクに関する情報理論境界を与える。 最後に、境界の有効性を示す分析的な例が与えられる。

A recent line of works, initiated by \cite{russo2016controlling} and \cite{xu2017information}, has shown that the generalization error of a learning algorithm can be upper bounded by information measures. In most of the relevant works, the convergence rate of the expected generalization error is in the form of O(\sqrt{\lambda/{n}}) where \lambda is some information-theoretic quantities such as the mutual information between the data sample and the learned hypothesis. However, such a learning rate is typically considered to be "slow", compared to a "fast rate" of O(1/n) in many learning scenarios. In this work, we first show that the square root does not necessarily imply a slow rate, and a fast rate (O(1/n)) result can still be obtained using this bound under appropriate assumptions. Furthermore, we identify the key conditions needed for the fast rate generalization error, which we call the (\eta,c)-central condition. Under this condition, we give information-theoretic bounds on the generalization error and excess risk, with a convergence rate of O(\lambda/{n}) for specific learning algorithms such as empirical risk minimization. Finally, analytical examples are given to show the effectiveness of the bounds.
翻訳日:2022-05-09 14:21:23 公開日:2022-05-06
# パイロット信号の少ないインテリジェント反射面に対するフェデレーションチャネル学習

Federated Channel Learning for Intelligent Reflecting Surfaces With Fewer Pilot Signals ( http://arxiv.org/abs/2205.03196v1 )

ライセンス: Link先を確認
Ahmet M. Elbir and Sinem Coleri and Kumar Vijay Mishra(参考訳) チャネル推定は、環境力学による不確実性やIRS構成の急激な変化により、インテリジェント反射面(IRS)支援無線システムにおいて重要な課題である。 これらの不確実性に対処するため,ディープラーニング(DL)アプローチが提案されている。 これまでの研究では、ベースステーション(BS)のユーザからトレーニングデータセット全体の収集が必要なモデルトレーニングのための集中型学習(CL)アプローチが検討されていた。 この課題に対処するために,IRS支援無線システムにおける直接チャネルとカスケードチャネルの両方を共同で推定するフェデレートラーニング(FL)フレームワークを提案する。 我々は、ユーザのローカルデータセットでトレーニングされた単一の畳み込みニューラルネットワークをbsに送信せずに設計する。 提案手法ではパイロット信号の約60%の低減が必要であり,CLに近い性能を維持しつつ,CLよりも12倍の伝送オーバヘッドを有することを示す。 さらに、最先端のDLベースのスキームよりも低い推定誤差を提供する。

Channel estimation is a critical task in intelligent reflecting surface (IRS)-assisted wireless systems due to the uncertainties imposed by environment dynamics and rapid changes in the IRS configuration. To deal with these uncertainties, deep learning (DL) approaches have been proposed. Previous works consider centralized learning (CL) approach for model training, which entails the collection of the whole training dataset from the users at the base station (BS), hence introducing huge transmission overhead for data collection. To address this challenge, this paper proposes a federated learning (FL) framework to jointly estimate both direct and cascaded channels in IRS-assisted wireless systems. We design a single convolutional neural network trained on the local datasets of the users without sending them to the BS. We show that the proposed FL-based channel estimation approach requires approximately 60% fewer pilot signals and it exhibits 12 times lower transmission overhead than CL, while maintaining satisfactory performance close to CL. In addition, it provides lower estimation error than the state-of-the-art DL-based schemes.
翻訳日:2022-05-09 14:21:03 公開日:2022-05-06
# HumanAL: ひとつのタスクを超えて人間のマッチングを校正する

HumanAL: Calibrating Human Matching Beyond a Single Task ( http://arxiv.org/abs/2205.03209v1 )

ライセンス: Link先を確認
Roee Shraga(参考訳) この研究は、人間の入力をラベルとして使用することに関する新しい見解を提供し、人間が不利になることを認めている。 我々は、入力の特徴表現として使用される人間のアノテーションに対する行動プロファイルを構築する。 ブラックボックス機械学習を利用することで、人間の行動を考慮し、その入力を校正し、ラベル品質を向上させることができることを示す。 クレームをサポートし,概念実証を提供するために,スキーママッチング,エンティティマッチング,テキストマッチングという3つの異なるマッチングタスクを実験した。 提案手法は,複数のドメイン(異なるマッチングタスク)を含む複数の設定で収集されたラベルの品質を向上させることができることを示す。

This work offers a novel view on the use of human input as labels, acknowledging that humans may err. We build a behavioral profile for human annotators which is used as a feature representation of the provided input. We show that by utilizing black-box machine learning, we can take into account human behavior and calibrate their input to improve the labeling quality. To support our claims and provide a proof-of-concept, we experiment with three different matching tasks, namely, schema matching, entity matching and text matching. Our empirical evaluation suggests that the method can improve the quality of gathered labels in multiple settings including cross-domain (across different matching tasks).
翻訳日:2022-05-09 14:20:49 公開日:2022-05-06
# 変分推論としての最適制御

Optimal Control as Variational Inference ( http://arxiv.org/abs/2205.03279v1 )

ライセンス: Link先を確認
Tom Lefebvre(参考訳) 本稿では,確率的かつリスクに敏感な最適制御問題を確率論的に解き,変分推論の原理を用いて確率的モデルを分解し,解く。 決定論的最適方針を反復的に推測できる2つの確率的推論手順に結実することを示す。 より正式には、決定論的最適ポリシーの確率的プロキシとしての信念ポリシーの列は、決定論的解と一致する平衡点を持つ固定点反復を通して特定される。 これらの結果は、最適推定と制御の深い根本的関係を期待する強化学習コミュニティによって元々探求され、活用された、制御としての制御のパラダイムを再確立する。 Control as Inferenceパラダイムがすでにいくつかの強化学習アルゴリズムの開発に結びついているが、これまでは基盤となるメカニズムは部分的にしか理解されていなかった。 そのため、推論としての制御はコントロールコミュニティからはあまり受け入れられていない。 基盤となるメカニズムを明らかにすることで、最適な制御に取って代わるフレームワークとして、一般的に受け入れられることを目指している。 その一般性を示すため,経路積分制御の並列性について議論し,幅広い応用の可能性について議論する。

In this article we address the stochastic and risk sensitive optimal control problem probabilistically and decompose and solve the probabilistic models using principles from variational inference. We demonstrate how this culminates into two separate probabilistic inference procedures that allow to iteratively infer the deterministic optimal policy. More formally a sequence of belief policies, as a probabilistic proxy for the deterministic optimal policy, is specified through a fixed point iteration with the equilibrium point coinciding with the deterministic solution. These results re-establish the paradigm of Control as Inference, a concept explored and exploited originally by the Reinforcement Learning community anticipating deep rooted connections between optimal estimation and control. Although the Control as Inference paradigm already resulted in the development of several Reinforcement Learning algorithms, until now the underlying mechanism were only partially understood. For that very reason control as inference has not been well received by the control community. By exposing the underlying mechanism we aim to contribute to its general acceptance as a framework superseding optimal control. In order to exhibit its general relevance we discuss parallels with path integral control and discuss a wide range of possible applications.
翻訳日:2022-05-09 14:20:38 公開日:2022-05-06
# インフラストラクチャレジリエンス予測モデルにおけるクラスタリングアルゴリズムの次元性低減への応用

Application of Clustering Algorithms for Dimensionality Reduction in Infrastructure Resilience Prediction Models ( http://arxiv.org/abs/2205.03316v1 )

ライセンス: Link先を確認
Srijith Balakrishnan, Beatrice Cassottana, Arun Verma(参考訳) 最近の研究では、重要なインフラストラクチャシステムのレジリエンスを分析するために、シミュレーションベースの機械学習(ml)モデルが採用されている。 現実的なアプリケーションの場合、これらのMLモデルは緊急時のネットワーク応答に影響を与えるコンポーネントレベルの特性を考慮に入れます。 しかし、このようなアプローチは多数の機能をもたらし、mlモデルが‘次元の曲線’に苦しむ可能性がある。 大規模相互依存型ネットワークにおけるレジリエンス解析のために開発したMLモデルの予測精度を向上し,高次元性の問題の最小化を同時に行うクラスタリング方式を提案する。 方法論には3つの部分があります (a)シミュレーションデータセットの生成 (b)ネットワークコンポーネントクラスタリング、および (c)次元の低減と予測モデルの開発。 まず、相互依存型インフラストラクチャシミュレーションモデルが、様々な破壊的なイベントのネットワーク全体の結果をシミュレートする。 シミュレーションデータからコンポーネントレベルの特徴を抽出する。 次に、クラスタリングアルゴリズムを用いて、そのトポロジ的特徴と機能的特徴に基づいて、コンポーネントレベルの特徴をグループ化する。 最後に、MLアルゴリズムを使用して、クラスタレベルの機能を使用して破壊的なイベントのネットワーク全体の影響を予測するモデルを開発する。 本手法の適用性は, 相互依存型送水テストベッドを用いて実証した。 提案手法は,インフラストラクチャネットワークの障害後復旧のための意思決定支援ツールの開発に利用できる。

Recent studies increasingly adopt simulation-based machine learning (ML) models to analyze critical infrastructure system resilience. For realistic applications, these ML models consider the component-level characteristics that influence the network response during emergencies. However, such an approach could result in a large number of features and cause ML models to suffer from the `curse of dimensionality'. We present a clustering-based method that simultaneously minimizes the problem of high-dimensionality and improves the prediction accuracy of ML models developed for resilience analysis in large-scale interdependent infrastructure networks. The methodology has three parts: (a) generation of simulation dataset, (b) network component clustering, and (c) dimensionality reduction and development of prediction models. First, an interdependent infrastructure simulation model simulates the network-wide consequences of various disruptive events. The component-level features are extracted from the simulated data. Next, clustering algorithms are used to derive the cluster-level features by grouping component-level features based on their topological and functional characteristics. Finally, ML algorithms are used to develop models that predict the network-wide impacts of disruptive events using the cluster-level features. The applicability of the method is demonstrated using an interdependent power-water-transport testbed. The proposed method can be used to develop decision-support tools for post-disaster recovery of infrastructure networks.
翻訳日:2022-05-09 14:20:10 公開日:2022-05-06
# uav支援rfマッピングによる無線ネットワークのセンシングと接続

UAV-aided RF Mapping for Sensing and Connectivity in Wireless Networks ( http://arxiv.org/abs/2205.03335v1 )

ライセンス: Link先を確認
David Gesbert, Omid Esrafilian, Junting Chen, Rajeev Gangula, Urbashi Mitra(参考訳) 無人航空機(UAV)を空飛ぶ無線アクセスネットワーク(RAN)ノードとして使用することは、従来の固定地上配備を補完する。 最近では、無線ネットワークの状況において、ドローンは無線周波数(RF)センシングやローカライゼーションデバイスとしての使用も想定されている。 どちらの場合も、UAVを使うことの利点は、得られるネットワークスループットやセンシング性能が最適である空間の位置に対して、3Dで自由に移動できることにある。 実際には、UAVの適切な位置または軌道の選択は、周囲の電波障害物の位置を含む局所的な地形の特徴に大きく依存している。 したがって、ロボットは、そのデータ通信やセンシングサービスを実行するとき、その無線環境の特徴をマッピングできなければならない。 本稿では,この課題に関連する課題を無線マッピングと呼ぶ。 自律型無線対応UAVの効率的な軌道設計に関する約束は、アルゴリズムソリューションとともに強調される。 無線マッピングによる接続性,センシング,局所化性能の点での利点を示す。

The use of unmanned aerial vehicles (UAV) as flying radio access network (RAN) nodes offers a promising complement to traditional fixed terrestrial deployments. More recently yet still in the context of wireless networks, drones have also been envisioned for use as radio frequency (RF) sensing and localization devices. In both cases, the advantage of using UAVs lies in their ability to navigate themselves freely in 3D and in a timely manner to locations of space where the obtained network throughput or sensing performance is optimal. In practice, the selection of a proper location or trajectory for the UAV very much depends on local terrain features, including the position of surrounding radio obstacles. Hence, the robot must be able to map the features of its radio environment as it performs its data communication or sensing services. The challenges related to this task, referred here as radio mapping, are discussed in this paper. Its promises related to efficient trajectory design for autonomous radio-aware UAVs are highlighted, along with algorithm solutions. The advantages induced by radio-mapping in terms of connectivity, sensing, and localization performance are illustrated.
翻訳日:2022-05-09 14:19:51 公開日:2022-05-06
# 機械学習による分子システム間の化学・エネルギー知識の伝達

Transferring Chemical and Energetic Knowledge Between Molecular Systems with Machine Learning ( http://arxiv.org/abs/2205.03339v1 )

ライセンス: Link先を確認
Sajjad Heydari, Stefano Raniolo, Lorenzo Livi, Vittorio Limongelli(参考訳) 分子系の構造的およびエネルギー的性質の予測は、分子シミュレーションの基本的なタスクの1つであり、化学、生物学、医学において応用されている。 過去10年間、機械学習アルゴリズムの出現は、原子系の特性予測を含む様々なタスクの分子シミュレーションに影響を与えてきた。 本稿では,単純な分子系から得られた知識をより複雑なものに伝達する新しい手法を提案する。 特に、高エネルギー状態と低エネルギー状態の分類に焦点を当てる。 我々のアプローチは利用に頼っている (i)分子の新規なハイパーグラフ表現、配座のポテンシャルエネルギーを特徴付けるためのすべての関連情報を符号化すること、及び (II) ハイパーグラフ構造データの処理と予測を行うための新しいメッセージパッシング層とプール層。 問題の複雑さにもかかわらず,tri-alanine から deca-alanine システムへの転送学習におけるauc は 0.92 であった。 さらに, 同様の自由エネルギー値を持つクラスタにおけるデカアラニンの二次構造を, 教師なしの方法でグループ化するために, 全く同じ移動学習手法が利用できることを示す。 本研究は, 分子系の信頼性伝達学習モデルが, 生物学的システムの構造的およびエネルギー的特性を予測するための未探索経路への道を開くことができることを示すものである。

Predicting structural and energetic properties of a molecular system is one of the fundamental tasks in molecular simulations, and it has use cases in chemistry, biology, and medicine. In the past decade, the advent of machine learning algorithms has impacted on molecular simulations for various tasks, including property prediction of atomistic systems. In this paper, we propose a novel methodology for transferring knowledge obtained from simple molecular systems to a more complex one, possessing a significantly larger number of atoms and degrees of freedom. In particular, we focus on the classification of high and low free-energy states. Our approach relies on utilizing (i) a novel hypergraph representation of molecules, encoding all relevant information for characterizing the potential energy of a conformation, and (ii) novel message passing and pooling layers for processing and making predictions on such hypergraph-structured data. Despite the complexity of the problem, our results show a remarkable AUC of 0.92 for transfer learning from tri-alanine to the deca-alanine system. Moreover, we show that the very same transfer learning approach can be used to group, in an unsupervised way, various secondary structures of deca-alanine in clusters having similar free-energy values. Our study represents a proof of concept that reliable transfer learning models for molecular systems can be designed paving the way to unexplored routes in prediction of structural and energetic properties of biologically relevant systems.
翻訳日:2022-05-09 14:19:37 公開日:2022-05-06
# 多変量凸回帰のための高効率ミニマックス最適推定器

Efficient Minimax Optimal Estimators For Multivariate Convex Regression ( http://arxiv.org/abs/2205.03368v1 )

ライセンス: Link先を確認
Gil Kur and Eli Putterman(参考訳) 本研究では,多変量凸回帰のタスクの計算的側面を次元 $d \geq 5$ で検討する。 本稿では,計算効率の優れたミニマックス最適(対数因子まで)推定器のタスクについて述べる。 (i)$L$-Lipschitz凸回帰 (ii)多面体支持下での$\gamma$-bounded凸回帰。 これらの推定器の正しさの証明は、経験過程理論、確率幾何学、ポテンシャル理論など、様々な分野の様々なツールを使用する。 この研究は、非ドンスカークラスに対する効率的なミニマックス最適推定器の存在を、それらの最小二乗推定器が証明可能なミニマックス部分最適化であることを示す最初の例である。

We study the computational aspects of the task of multivariate convex regression in dimension $d \geq 5$. We present the first computationally efficient minimax optimal (up to logarithmic factors) estimators for the tasks of (i) $L$-Lipschitz convex regression (ii) $\Gamma$-bounded convex regression under polytopal support. The proof of the correctness of these estimators uses a variety of tools from different disciplines, among them empirical process theory, stochastic geometry, and potential theory. This work is the first to show the existence of efficient minimax optimal estimators for non-Donsker classes that their corresponding Least Squares Estimators are provably minimax sub-optimal; a result of independent interest.
翻訳日:2022-05-09 14:19:17 公開日:2022-05-06
# (参考訳) MINI:Few-Shotオブジェクト検出のための新規インスタンスのマイニング

MINI: Mining Implicit Novel Instances for Few-Shot Object Detection ( http://arxiv.org/abs/2205.03381v1 )

ライセンス: CC BY 4.0
Yuhang Cao, Jiaqi Wang, Yiqi Lin, Dahua Lin(参考訳) いくつかのトレーニングサンプルから学ぶことは、Few-Shot Object Detection (FSOD)の探索を刺激するオブジェクト検出器の望ましい能力である。 既存のアプローチの多くは、プリトレイントランスファーパラダイムを採用している。 モデルはまず、豊富なデータを持つベースクラスで事前訓練され、その後、いくつかの注釈付きサンプルを持つ新しいクラスに転送される。 実質的な進歩にもかかわらず、fsodのパフォーマンスは依然として満足のいくものには程遠い。 事前学習では,ベースクラスと新規クラスとの共起により,共起した新規クラスを背景として扱うことが学習される。 移動中、新しいクラスの希少なサンプルが与えられたモデルでは、新しいインスタンスをバックグラウンドやベースクラスと区別するために識別的特徴を学習する。 この課題を克服するために,暗黙の新規インスタンスマイニング(mini)という新しい枠組みを提案し,暗黙の新規インスタンスを,豊富なベースデータに広く存在するが注釈付されていない補助訓練サンプルとしてマイニングする。 MINIはオフラインマイニング機構とオンラインマイニング機構から構成される。 オフラインマイニング機構は、自己教師付き判別モデルを利用して、トレーニングされたfsodネットワークで暗黙の新規インスタンスを共同マイニングする。 オンラインマイニングの仕組みでは、トレーニングの補助として、FSODネットワークと暗黙の新規インスタンスを同時に更新するために、教師と学生のフレームワークを利用する。 PASCAL VOCとMS-COCOデータセットの大規模な実験は、MINIが任意のショットとスプリットに対して新しい最先端のパフォーマンスを達成することを示している。 大幅な性能改善は,提案手法の優越性を示す。

Learning from a few training samples is a desirable ability of an object detector, inspiring the explorations of Few-Shot Object Detection (FSOD). Most existing approaches employ a pretrain-transfer paradigm. The model is first pre-trained on base classes with abundant data and then transferred to novel classes with a few annotated samples. Despite the substantial progress, the FSOD performance is still far behind satisfactory. During pre-training, due to the co-occurrence between base and novel classes, the model is learned to treat the co-occurred novel classes as backgrounds. During transferring, given scarce samples of novel classes, the model suffers from learning discriminative features to distinguish novel instances from backgrounds and base classes. To overcome the obstacles, we propose a novel framework, Mining Implicit Novel Instances (MINI), to mine the implicit novel instances as auxiliary training samples, which widely exist in abundant base data but are not annotated. MINI comprises an offline mining mechanism and an online mining mechanism. The offline mining mechanism leverages a self-supervised discriminative model to collaboratively mine implicit novel instances with a trained FSOD network. Taking the mined novel instances as auxiliary training samples, the online mining mechanism takes a teacher-student framework to simultaneously update the FSOD network and the mined implicit novel instances on the fly. Extensive experiments on PASCAL VOC and MS-COCO datasets show MINI achieves new state-of-the-art performance on any shot and split. The significant performance improvements demonstrate the superiority of our method.
翻訳日:2022-05-09 14:18:36 公開日:2022-05-06
# 全粒, ワンスキーム(AGOS):空中シーン分類のための多粒インスタンス表現の学習

All Grains, One Scheme (AGOS): Learning Multi-grain Instance Representation for Aerial Scene Classification ( http://arxiv.org/abs/2205.03371v1 )

ライセンス: Link先を確認
Qi Bi, Beichen Zhou, Kun Qin, Qinghao Ye, Gui-Song Xia(参考訳) 航空シーンの分類は以下の通りである。 1)シーン構成の決定におけるキーオブジェクトのサイズは、大きく異なる。 2)シーンスキームに関係のない多くのオブジェクトが、画像にしばしば浸水する。 したがって、様々な大きさから興味領域(RoI)を効果的に知覚し、そのような複雑な物体分布からより差別的な表現を構築することは、航空シーンを理解する上で不可欠である。 本稿では,これらの課題に取り組むために,新しいall grains, one scheme (agos) フレームワークを提案する。 我々の知る限りでは、古典的な複数インスタンス学習をマルチグレーンの定式化に拡張する最初の試みである。 特に、Multi-grain Recognition Module (MGP)、Multi-branch Multi-instance Expression Module (MBMIR)、Self-aligned semantic fusion (SSF)モジュールで構成される。 第一に,mgpは,差分拡張畳み込み特徴をバックボーンから保存し,マルチグラインからの識別情報を拡大する。 そして、MBMIRは、MILの定式化の下で、マルチグライン表現のキーインスタンスをハイライトする。 最後に、SSFによって、我々のフレームワークは、マルチグレーンのインスタンス表現から同じシーンスキームを学習し、それらを融合させ、フレームワーク全体が全体として最適化されるようにします。 特に、AGOSは柔軟で、プラグアンドプレイで既存のCNNに容易に適応できます。 UCM、AID、NWPUベンチマークに関する大規模な実験は、AGOSが最先端の手法と同等のパフォーマンスを達成していることを示している。

Aerial scene classification remains challenging as: 1) the size of key objects in determining the scene scheme varies greatly; 2) many objects irrelevant to the scene scheme are often flooded in the image. Hence, how to effectively perceive the region of interests (RoIs) from a variety of sizes and build more discriminative representation from such complicated object distribution is vital to understand an aerial scene. In this paper, we propose a novel all grains, one scheme (AGOS) framework to tackle these challenges. To the best of our knowledge, it is the first work to extend the classic multiple instance learning into multi-grain formulation. Specially, it consists of a multi-grain perception module (MGP), a multi-branch multi-instance representation module (MBMIR) and a self-aligned semantic fusion (SSF) module. Firstly, our MGP preserves the differential dilated convolutional features from the backbone, which magnifies the discriminative information from multi-grains. Then, our MBMIR highlights the key instances in the multi-grain representation under the MIL formulation. Finally, our SSF allows our framework to learn the same scene scheme from multi-grain instance representations and fuses them, so that the entire framework is optimized as a whole. Notably, our AGOS is flexible and can be easily adapted to existing CNNs in a plug-and-play manner. Extensive experiments on UCM, AID and NWPU benchmarks demonstrate that our AGOS achieves a comparable performance against the state-of-the-art methods.
翻訳日:2022-05-09 13:58:58 公開日:2022-05-06
# 高精度多次元音声認識のための適応音響モデル

A Highly Adaptive Acoustic Model for Accurate Multi-Dialect Speech Recognition ( http://arxiv.org/abs/2205.03027v1 )

ライセンス: Link先を確認
Sanghyun Yoo, Inchul Song, Yoshua Bengio(参考訳) 音声認識におけるディープラーニングの成功にもかかわらず、多言語音声認識は難しい問題である。 方言特化音響モデルは一般によく機能することが知られているが、方言特化データが乏しく、言語ごとの方言の数が多い場合には維持が困難である。 したがって、多くの方言でよく一般化される単一統一音響モデル (AM) が要求されている。 本稿では,単一のamを用いた高精度マルチダイアレクト音声認識のための新しい音響モデル手法を提案する。 提案するAMは、方言情報とその内部表現に基づいて動的に適応し、複数の方言を同時に扱うための高度適応型AMとなる。 また,未知の方言に対処するための簡易かつ効果的な訓練手法を提案する。 大規模音声データセットにおける実験結果から,提案したAMは,方言固有のAMと比較して,単語誤り率(WER)が8.11%,方言固有のAMに比べて7.31%向上していることがわかった。

Despite the success of deep learning in speech recognition, multi-dialect speech recognition remains a difficult problem. Although dialect-specific acoustic models are known to perform well in general, they are not easy to maintain when dialect-specific data is scarce and the number of dialects for each language is large. Therefore, a single unified acoustic model (AM) that generalizes well for many dialects has been in demand. In this paper, we propose a novel acoustic modeling technique for accurate multi-dialect speech recognition with a single AM. Our proposed AM is dynamically adapted based on both dialect information and its internal representation, which results in a highly adaptive AM for handling multiple dialects simultaneously. We also propose a simple but effective training method to deal with unseen dialects. The experimental results on large scale speech datasets show that the proposed AM outperforms all the previous ones, reducing word error rates (WERs) by 8.11% relative compared to a single all-dialects AM and by 7.31% relative compared to dialect-specific AMs.
翻訳日:2022-05-09 13:57:58 公開日:2022-05-06
# 自由生活型ウェアラブルセンサによる縦型心肺機能予測

Longitudinal cardio-respiratory fitness prediction through free-living wearable sensors ( http://arxiv.org/abs/2205.03116v1 )

ライセンス: Link先を確認
Dimitris Spathis, Ignacio Perez-Pozuelo, Tomas I. Gonzales, Soren Brage, Nicholas Wareham, Cecilia Mascolo(参考訳) 循環器フィットネスは代謝性疾患と死亡の予測因子として確立されている。 フィットネスは、最大酸素消費量(VO2max)として直接測定されるか、または標準運動テストに対する心拍反応を用いて間接的に評価される。 しかし、このようなテストはコストと負担がかかり、有用性とスケーラビリティが制限される。 体力は安静時心拍数や自記式運動習慣を用いても近似できるが、精度は低い。 現代のウェアラブルは、ダイナミックな心拍データをキャプチャし、機械学習モデルと組み合わせることで、フィットネス予測を改善することができる。 本研究は,標準運動テストを行った11,059名と,2,675名からなる長手反復コーホートを用いて,ウェアラブルセンサからの運動と心拍信号を自由生活環境で解析した。 我々は,実世界(非運動的)な振る舞いを呈する被験者に対して,生のセンサデータを循環呼吸性フィットネス推定に変換するアルゴリズムとモデルを設計し,これらの推定値の経時的コホートにおけるフィットネスプロファイルの捕捉能力を評価する。 さらに, 最大vo2max試験を行った181名のうち, 最大心拍数と疲労レベルに達する必要があるため, ゴールド標準測定値と見なされる181名の外部コーホートによる検証を行った。 その結果,本モデルはホールドアウトサンプルの基底真理と比較して高い相関(r = 0.82, 95ci 0.80-0.83)が得られることがわかった。 これらのモデルは、特定の運動試験を必要とせず、通常の日常生活を測定することで、従来の非運動性モデルや従来のバイオマーカーよりも優れている。 さらに,7年後に繰り返し測定した長手サブサンプルの適合度変化を経時的に検出する手法の適応性と適用性を示した。

Cardiorespiratory fitness is an established predictor of metabolic disease and mortality. Fitness is directly measured as maximal oxygen consumption (VO2max), or indirectly assessed using heart rate response to a standard exercise test. However, such testing is costly and burdensome, limiting its utility and scalability. Fitness can also be approximated using resting heart rate and self-reported exercise habits but with lower accuracy. Modern wearables capture dynamic heart rate data which, in combination with machine learning models, could improve fitness prediction. In this work, we analyze movement and heart rate signals from wearable sensors in free-living conditions from 11,059 participants who also underwent a standard exercise test, along with a longitudinal repeat cohort of 2,675 participants. We design algorithms and models that convert raw sensor data into cardio-respiratory fitness estimates, and validate these estimates' ability to capture fitness profiles in a longitudinal cohort over time while subjects engaged in real-world (non-exercise) behaviour. Additionally, we validate our methods with a third external cohort of 181 participants who underwent maximal VO2max testing, which is considered the gold standard measurement because it requires reaching one's maximum heart rate and exhaustion level. Our results show that the developed models yield a high correlation (r = 0.82, 95CI 0.80-0.83), when compared to the ground truth in a holdout sample. These models outperform conventional non-exercise fitness models and traditional bio-markers using measurements of normal daily living without the need for a specific exercise test. Additionally, we show the adaptability and applicability of this approach for detecting fitness change over time in the longitudinal subsample that repeated measurements after 7 years.
翻訳日:2022-05-09 13:57:41 公開日:2022-05-06
# 合成データ --何、なぜ、どのように?

Synthetic Data -- what, why and how? ( http://arxiv.org/abs/2205.03257v1 )

ライセンス: Link先を確認
James Jordon, Lukasz Szpruch, Florimond Houssiau, Mirko Bottarelli, Giovanni Cherubin, Carsten Maple, Samuel N. Cohen, Adrian Weller(参考訳) この説明書は、特にプライバシに焦点を当てた、合成データ技術に関する急速な研究の現状の概要を提供することを目的としている。 この記事は技術系でない読者を対象としているが、専門家に明確化するための公式な定義もいくつかある。 この記事は、読者が合成データの概念をすぐに理解できるようにし、それに伴う微妙な複雑さを理解することを目的としている。 合成データが非常に有用なツールであると信じており、このレポートでは、デプロイで見落としやすいニュアンスに注意を向けながら、その点を強調したいと考えています。

This explainer document aims to provide an overview of the current state of the rapidly expanding work on synthetic data technologies, with a particular focus on privacy. The article is intended for a non-technical audience, though some formal definitions have been given to provide clarity to specialists. This article is intended to enable the reader to quickly become familiar with the notion of synthetic data, as well as understand some of the subtle intricacies that come with it. We do believe that synthetic data is a very useful tool, and our hope is that this report highlights that, while drawing attention to nuances that can easily be overlooked in its deployment.
翻訳日:2022-05-09 13:55:19 公開日:2022-05-06
# 非定常信号のためのトレーニング可能なウェーブレットニューラルネットワーク

Trainable Wavelet Neural Network for Non-Stationary Signals ( http://arxiv.org/abs/2205.03355v1 )

ライセンス: Link先を確認
Jason Stock and Chuck Anderson(参考訳) 本研究は,非定常信号に適合するフィルタバンクを学習するためのウェーブレットニューラルネットワークを導入し,デジタル信号処理の解釈性と性能を向上させる。 このネットワークは、複雑なモレットウェーブレットのパラメータ化関数である畳み込みがニューラルネットワークの第1層としてウェーブレット変換を使用する。 実験結果は、簡易データと大気重力波の両方で、ネットワークが収束し、ノイズの多いデータでよく一般化し、標準のネットワークアーキテクチャよりも優れています。

This work introduces a wavelet neural network to learn a filter-bank specialized to fit non-stationary signals and improve interpretability and performance for digital signal processing. The network uses a wavelet transform as the first layer of a neural network where the convolution is a parameterized function of the complex Morlet wavelet. Experimental results, on both simplified data and atmospheric gravity waves, show the network is quick to converge, generalizes well on noisy data, and outperforms standard network architectures.
翻訳日:2022-05-09 13:55:08 公開日:2022-05-06
# 不均一変圧器による偽ニュース検出

Fake News Detection with Heterogeneous Transformer ( http://arxiv.org/abs/2205.03100v1 )

ライセンス: Link先を確認
Tianle Li, Yushi Sun, Shang-ling Hsu, Yanjia Li, Raymond Chi-Wing Wong(参考訳) ソーシャルネットワーク上でのフェイクニュースの拡散は、効果的かつ効率的なフェイクニュース検出方法の必要性を高めた。 一般的に、ソーシャルネットワーク上のフェイクニュースはマルチモーダルであり、ユーザーや投稿など他のエンティティとさまざまなつながりがある。 ニュースコンテンツとソーシャルネットワーク内の他のエンティティとの関係の多様性は、ソーシャルネットワーク内のエンティティのローカルなマルチモーダルセマンティクスと伝播パターンのグローバル構造表現を包括的に捉えて、フェイクニュースを効果的かつ正確に分類するモデルを設計する上での課題をもたらす。 本稿では、トランスフォーマのエンコーダ・デコーダ構造を利用してニュース伝搬パターンの構造情報をキャプチャする、ソーシャルネットワークにおける偽ニュース検出問題を解決するための新しいトランスフォーマモデルhettransformerを提案する。 まず、ソーシャルネットワークにおけるニュース、ポスト、ユーザーエンティティの局所的な異種意味を捉えます。 次に,トランスフォーマーを用いて,ソーシャルネットワークにおける伝播パターンのグローバルな構造表現を捉え,フェイクニュース検出を行う。 3つの実世界のデータセットに関する実験により、このモデルは偽ニュース検出において最先端のベースラインを上回ることができることを示した。

The dissemination of fake news on social networks has drawn public need for effective and efficient fake news detection methods. Generally, fake news on social networks is multi-modal and has various connections with other entities such as users and posts. The heterogeneity in both news content and the relationship with other entities in social networks brings challenges to designing a model that comprehensively captures the local multi-modal semantics of entities in social networks and the global structural representation of the propagation patterns, so as to classify fake news effectively and accurately. In this paper, we propose a novel Transformer-based model: HetTransformer to solve the fake news detection problem on social networks, which utilises the encoder-decoder structure of Transformer to capture the structural information of news propagation patterns. We first capture the local heterogeneous semantics of news, post, and user entities in social networks. Then, we apply Transformer to capture the global structural representation of the propagation patterns in social networks for fake news detection. Experiments on three real-world datasets demonstrate that our model is able to outperform the state-of-the-art baselines in fake news detection.
翻訳日:2022-05-09 13:54:13 公開日:2022-05-06
# Zhuyi: 自動運転車の安全性に対する知覚処理速度推定

Zhuyi: Perception Processing Rate Estimation for Safety in Autonomous Vehicles ( http://arxiv.org/abs/2205.03347v1 )

ライセンス: Link先を確認
Yu-Shun Hsiao, Siva Kumar Sastry Hari, Micha{\l} Filipiuk, Timothy Tsai, Michael B. Sullivan, Vijay Janapa Reddi, Vasu Singh, and Stephen W. Keckler(参考訳) 複雑なシナリオにおける高精度な認識のための自動運転車(AV)の処理要件は、車載コンピュータが提供するリソースを超え、安全性と快適性を低下させる。 本稿では,運転シナリオにおいて最小安全FPRを連続的に定量化するセンサフレーム処理率(FPR)推定モデルであるZhuyiを提案する。 Zhuyiはデプロイ後、オンラインの安全チェックとして採用し、仕事の優先順位を付けることができる。 マルチカメラの最先端産業AVシステムを用いた実験では、Zhuyiの推定FPRは保守的であるが、テストシナリオではデフォルトの30FPRシステムに比べて36%未満のフレームを処理することで安全性を維持することができる。

The processing requirement of autonomous vehicles (AVs) for high-accuracy perception in complex scenarios can exceed the resources offered by the in-vehicle computer, degrading safety and comfort. This paper proposes a sensor frame processing rate (FPR) estimation model, Zhuyi, that quantifies the minimum safe FPR continuously in a driving scenario. Zhuyi can be employed post-deployment as an online safety check and to prioritize work. Experiments conducted using a multi-camera state-of-the-art industry AV system show that Zhuyi's estimated FPRs are conservative, yet the system can maintain safety by processing only 36% or fewer frames compared to a default 30-FPR system in the tested scenarios.
翻訳日:2022-05-09 13:53:50 公開日:2022-05-06
# 中国語版weiboにおけるマルチドメイン偽ニュースの特徴とユーザ効果

Characterizing Multi-Domain False News and Underlying User Effects on Chinese Weibo ( http://arxiv.org/abs/2205.03068v1 )

ライセンス: Link先を確認
Qiang Sheng, Juan Cao, H. Russell Bernard, Kai Shu, Jintao Li, Huan Liu(参考訳) ソーシャルメディアに広まる偽ニュースは、ここ数年で急増し、現実世界の多面的な脅威につながっている。 特定のドメインに関する偽ニュース(政治や医療など)の研究もあるが、ドメイン間で偽ニュースを比較する研究はほとんどない。 この記事では、2009年から2019年にかけて、中国最大のtwitterライクなソーシャルメディアプラットフォームであるweiboの9つのドメインにわたる偽ニュースを調査します。 新たに収集されたデータは9つのドメインに44,728の投稿があり、40,215人が発行し、340万回以上再投稿されている。 マルチドメインデータセットの分布と拡散に基づいて、健康や医学といった日常生活に近い領域における偽ニュースは、投稿数が多いが、政治などの他の領域よりも効果的に拡散せず、政治的偽ニュースが拡散の最も有効な能力を持っていることを観察した。 広範に拡散したWeiboの偽ニュース投稿は、性別や年齢などによって特定の種類のユーザーと強く結びついている。 さらに、これらのポストはポストの強い感情を引き起こし、偽ニュース開始者の活発な関与によってさらに拡散した。 本研究は,疑わしいニュース発見,正確性予測,表示・説明において,偽ニュース検出システムの設計を支援する可能性を秘めている。 Weiboの調査結果と既存の研究結果との比較は、さまざまなプラットフォーム、国、言語からのデータに関するさらなる研究の必要性を示唆し、誤ったニュースの世界的な問題に取り組む必要があることを示唆している。 コードと新しい匿名データセットはhttps://github.com/ICTMCG/Characterizing-Weibo-Multi-Domain-False-Newsで公開されている。

False news that spreads on social media has proliferated over the past years and has led to multi-aspect threats in the real world. While there are studies of false news on specific domains (like politics or health care), little work is found comparing false news across domains. In this article, we investigate false news across nine domains on Weibo, the largest Twitter-like social media platform in China, from 2009 to 2019. The newly collected data comprise 44,728 posts in the nine domains, published by 40,215 users, and reposted over 3.4 million times. Based on the distributions and spreads of the multi-domain dataset, we observe that false news in domains that are close to daily life like health and medicine generated more posts but diffused less effectively than those in other domains like politics, and that political false news had the most effective capacity for diffusion. The widely diffused false news posts on Weibo were associated strongly with certain types of users -- by gender, age, etc. Further, these posts provoked strong emotions in the reposts and diffused further with the active engagement of false-news starters. Our findings have the potential to help design false news detection systems in suspicious news discovery, veracity prediction, and display and explanation. The comparison of the findings on Weibo with those of existing work demonstrates nuanced patterns, suggesting the need for more research on data from diverse platforms, countries, or languages to tackle the global issue of false news. The code and new anonymized dataset are available at https://github.com/ICTMCG/Characterizing-Weibo-Multi-Domain-False-News.
翻訳日:2022-05-09 13:53:37 公開日:2022-05-06
# 3次元LiDARを用いた意味誘導型移動物体セグメンテーション

Semantics-Guided Moving Object Segmentation with 3D LiDAR ( http://arxiv.org/abs/2205.03186v1 )

ライセンス: Link先を確認
Shuo Gu, Suling Yao, Jian Yang and Hui Kong(参考訳) 移動対象セグメンテーション(moving object segmentation, mos)は、移動車両や歩行者などの移動対象を、周囲の静環境から区別するタスクである。 MOSのセグメンテーション精度は、オドメトリー、マップ構築、計画タスクに影響を及ぼす可能性がある。 本稿では,オブジェクトセグメント移動のためのセマンティクス誘導畳み込みニューラルネットワークを提案する。 ネットワークは、連続したLiDARレンジ画像を入力として取り込む。 移動対象を直接セグメンテーションする代わりに、ネットワークはシングルスキャンベースのセグメンテーションとマルチスキャンベースの移動対象セグメンテーションを実行する。 セマンティックセグメンテーションモジュールは,MOSモジュールのセマンティックプリミティブを提供し,隣接するスキャンのセマンティック特徴を同一座標系に変換し,クロススキャンのセマンティック特徴を完全に活用するための隣接スキャンアソシエーション(ASA)モジュールを提案する。 最後に、変換された特徴間の差異を分析することにより、信頼性の高いMOS結果が迅速に得られる。 SemanticKITTI MOSデータセットの実験結果から,本研究の有効性が確認された。

Moving object segmentation (MOS) is a task to distinguish moving objects, e.g., moving vehicles and pedestrians, from the surrounding static environment. The segmentation accuracy of MOS can have an influence on odometry, map construction, and planning tasks. In this paper, we propose a semantics-guided convolutional neural network for moving object segmentation. The network takes sequential LiDAR range images as inputs. Instead of segmenting the moving objects directly, the network conducts single-scan-based semantic segmentation and multiple-scan-based moving object segmentation in turn. The semantic segmentation module provides semantic priors for the MOS module, where we propose an adjacent scan association (ASA) module to convert the semantic features of adjacent scans into the same coordinate system to fully exploit the cross-scan semantic features. Finally, by analyzing the difference between the transformed features, reliable MOS result can be obtained quickly. Experimental results on the SemanticKITTI MOS dataset proves the effectiveness of our work.
翻訳日:2022-05-09 13:51:31 公開日:2022-05-06
# 交流型mdpオートマトン

Alternating Good-for-MDP Automata ( http://arxiv.org/abs/2205.03243v1 )

ライセンス: Link先を確認
Ernst Moritz Hahn and Mateo Perez and Sven Schewe and Fabio Somenzi and Ashutosh Trivedi and Dominik Wojtczak(参考訳) MDPを制御するためのモデルフリー強化学習(RL)において、オメガ正則目的が最初に提案されたとき、決定論的ラビンオートマトンを用いて、それらのスカラー値への遷移を直接翻訳した。 これらの翻訳は失敗したが、代わりにグッド・フォー・MDP(GFM)B\"uchi Automaticaを使用することで修復可能であることが判明した。 これらは非決定論的B\「うちオートマタ」であり、非決定論的に制限されるが、ゲーム用オートマタほど制限されない。 実際、決定論的ラビンオートマトンは、状態とペアの数で双線型であるようなGFMオートマトンにかなり簡単に変換できる。 非決定論的ラビン (non deterministic rabin) や b\"uchi automata への翻訳は、目標のオートマトンをmdpsとして必要とせずとも指数関数的にコストがかかる。 優れたMDPオートマトンを得るためには、それ以上の費用を払わなければなりませんか? 決定論的ラビンオートマトンから得られる非決定論的GFMオートマトンや、決定論的Streetオートマトンから得られる交代的グッド・フォー・MDPオートマトンは、決定論的オートマトンとそのインデックスのサイズにおいて二直線であり、したがって最小の非決定論的B\"uchiオートマトンよりも指数関数的に簡潔である。

When omega-regular objectives were first proposed in model-free reinforcement learning (RL) for controlling MDPs, deterministic Rabin automata were used in an attempt to provide a direct translation from their transitions to scalar values. While these translations failed, it has turned out that it is possible to repair them by using good-for-MDPs (GFM) B\"uchi automata instead. These are nondeterministic B\"uchi automata with a restricted type of nondeterminism, albeit not as restricted as in good-for-games automata. Indeed, deterministic Rabin automata have a pretty straightforward translation to such GFM automata, which is bi-linear in the number of states and pairs. Interestingly, the same cannot be said for deterministic Streett automata: a translation to nondeterministic Rabin or B\"uchi automata comes at an exponential cost, even without requiring the target automaton to be good-for-MDPs. Do we have to pay more than that to obtain a good-for-MDP automaton? The surprising answer is that we have to pay significantly less when we instead expand the good-for-MDP property to alternating automata: like the nondeterministic GFM automata obtained from deterministic Rabin automata, the alternating good-for-MDP automata we produce from deterministic Streett automata are bi-linear in the the size of the deterministic automaton and its index, and can therefore be exponentially more succinct than minimal nondeterministic B\"uchi automata.
翻訳日:2022-05-09 13:51:13 公開日:2022-05-06
# (参考訳) イベントシーケンスのマルコフモデルの概要

Summary Markov Models for Event Sequences ( http://arxiv.org/abs/2205.03375v1 )

ライセンス: CC BY-SA 4.0
Debarun Bhattacharjya, Saurabh Sihag, Oktie Hassanzadeh, Liza Bialik(参考訳) 意味のあるタイムスタンプなしで異なる種類のイベントのシーケンスを含むデータセットは、テキストコーパスから抽出された場合など、多くのアプリケーションで広く使われている。 そこで我々は,イベントタイプを観測する確率は,その影響するイベントタイプの集合の歴史的発生の要約にのみ依存する,そのようなイベントシーケンスのためのモデル群 - 要約マルコフモデル - を提案する。 このマルコフモデルファミリーは、時系列のグランガー因果モデルに動機づけられており、イベントシーケンスの1つの位置にのみ1つの事象が発生するという重要な区別がある。 任意のイベントタイプと要約関数の選択に対して一意な最小インフルエンシング集合が存在し、特定のシーケンスダイナミクスを表現する一般ファミリーからの2つの新しいモデルを定式化し、イベントシーケンスデータからそれらを学習するための欲望探索アルゴリズムを提案する。 提案するモデルと関連するベースラインを比較し,テキストからのシーケンスを含むケーススタディを通じて,その知識獲得と発見能力について実験的に検討する。

Datasets involving sequences of different types of events without meaningful time stamps are prevalent in many applications, for instance when extracted from textual corpora. We propose a family of models for such event sequences -- summary Markov models -- where the probability of observing an event type depends only on a summary of historical occurrences of its influencing set of event types. This Markov model family is motivated by Granger causal models for time series, with the important distinction that only one event can occur in a position in an event sequence. We show that a unique minimal influencing set exists for any set of event types of interest and choice of summary function, formulate two novel models from the general family that represent specific sequence dynamics, and propose a greedy search algorithm for learning them from event sequence data. We conduct an experimental investigation comparing the proposed models with relevant baselines, and illustrate their knowledge acquisition and discovery capabilities through case studies involving sequences from text.
翻訳日:2022-05-09 13:49:16 公開日:2022-05-06
# テキストから手話の階層的表現への例に基づく機械翻訳

Example-Based Machine Translation from Text to a Hierarchical Representation of Sign Language ( http://arxiv.org/abs/2205.03314v1 )

ライセンス: Link先を確認
\'Elise Bertin-Lem\'ee, Annelies Braffort, Camille Challant, Claire Danet, Michael Filhol(参考訳) 本稿では,テキスト対符号翻訳の原文について述べる。 これは、AZeeにおける手話ビデオのテキストと階層的な形式記述の間のアライメントのドメイン固有の並列コーパスを使用して、データの不足を補う。 提案アルゴリズムは,ソーステキストに存在する類似性の検出に基づいて,一致セグメントの一致と置換を再帰的に活用し,新しい文に対する複数の候補翻訳を構築する。 これによって手話の構造を可能な限り保存し、リテラルの翻訳を高速に生成することが可能になる。 結果として得られた翻訳は、アバター合成システムへの入力として使用されるように設計されたアゼ表現の形で行われる。 対象言語の表現性と生成の可能性を実証し,その限界を観察するテストセットを提示する。 この研究は最終的に、正確性や文法の流布など、翻訳と言語的側面を評価するための展望を開放する。

This article presents an original method for Text-to-Sign Translation. It compensates data scarcity using a domain-specific parallel corpus of alignments between text and hierarchical formal descriptions of Sign Language videos in AZee. Based on the detection of similarities present in the source text, the proposed algorithm recursively exploits matches and substitutions of aligned segments to build multiple candidate translations for a novel statement. This helps preserving Sign Language structures as much as possible before falling back on literal translations too quickly, in a generative way. The resulting translations are in the form of AZee expressions, designed to be used as input to avatar synthesis systems. We present a test set tailored to showcase its potential for expressiveness and generation of idiomatic target language, and observed limitations. This work finally opens prospects on how to evaluate translation and linguistic aspects, such as accuracy and grammatical fluency.
翻訳日:2022-05-09 13:29:11 公開日:2022-05-06
# 短距離インテクスト学習における説明の不確実性

The Unreliability of Explanations in Few-Shot In-Context Learning ( http://arxiv.org/abs/2205.03401v1 )

ライセンス: Link先を確認
Xi Ye and Greg Durrett(参考訳) GPT-3のような大規模言語モデルでは、コンテキスト内学習を改善するにはどうすればよいのか? テキストによる推論,すなわち質問応答と自然言語推論という2つのnlpタスクに注目した。 プロンプトに説明を含め、モデルが生成しても、シンボリック推論タスク(Nye et al., 2021; Wei et al., 2022)の最近の結果とは対照的に、我々が研究している設定におけるパフォーマンスは一貫して改善しない。 注意深いプロンプトにもかかわらず、gpt-3によって生成された説明は、単純な抽出的説明を持つ単純なタスクであっても、実際に入力に基づかないかもしれない。 しかし、これらの欠陥のある説明は、GPT-3の予測をポストホックで検証する方法として有用である。 3つの設定で分析した結果、入力と予測に論理的に整合した人間が判断した説明は、通常より正確な予測を示すことがわかった。 そこで本研究では,説明の信頼性に基づいてモデル予測の校正を行う枠組みを提案する。 我々のフレームワークは、説明の信頼性を概ね評価する自動抽出スコアを使用してキャリブレータを訓練し、3つの異なるデータセットのパフォーマンス向上を支援する。

How can prompting a large language model like GPT-3 with explanations improve in-context learning? We focus specifically on two NLP tasks that involve reasoning over text, namely question answering and natural language inference. Including explanations in the prompt and having the model generate them does not consistently improve performance in the settings we study, contrary to recent results on symbolic reasoning tasks (Nye et al., 2021; Wei et al., 2022). Despite careful prompting, explanations generated by GPT-3 may not even be factually grounded in the input, even on simple tasks with straightforward extractive explanations. However, these flawed explanations can still be useful as a way to verify GPT-3's predictions post-hoc. Through analysis in three settings, we show that explanations judged as good by humans--those that are logically consistent with the input and the prediction--usually indicate more accurate predictions. Following these observations, we present a framework for calibrating model predictions based on the reliability of the explanations. Our framework trains calibrators using automatically extracted scores that approximately assess the reliability of explanations, which helps improve performance across three different datasets.
翻訳日:2022-05-09 13:28:55 公開日:2022-05-06
# データカルトグラフィーに基づく事前学習言語モデルのためのMixUp

A Data Cartography based MixUp for Pre-trained Language Models ( http://arxiv.org/abs/2205.03403v1 )

ライセンス: Link先を確認
Seo Yeon Park and Cornelia Caragea(参考訳) MixUpは、トレーニング中にランダムなトレーニングサンプルとラベルを組み合わせて追加のサンプルを生成するデータ拡張戦略である。 しかし、ランダムペアの選択は最適な選択ではない。 本研究では,トレーニングダイナミクスを活用した新しいMixUp戦略であるTDMixUpを提案する。 提案したTDMixUpは,まず信頼性,変動性(Swayamdipta et al., 2020),およびAUM(Pleiss et al., 2020)を用いて,トレーニングサンプルの特性(例えば,学習し易い試料やあいまいな試料)を同定し,それらの特徴を補間する。 提案手法は, トレーニングデータの少ないサブセットと強いベースラインとを比較した場合, また, NLPタスクの領域内および領域外の両方で, トレーニング済み言語モデルであるBERTのキャリブレーション誤差が低いことを実証的に検証した。 コードを公開しています。

MixUp is a data augmentation strategy where additional samples are generated during training by combining random pairs of training samples and their labels. However, selecting random pairs is not potentially an optimal choice. In this work, we propose TDMixUp, a novel MixUp strategy that leverages Training Dynamics and allows more informative samples to be combined for generating new data samples. Our proposed TDMixUp first measures confidence, variability, (Swayamdipta et al., 2020), and Area Under the Margin (AUM) (Pleiss et al., 2020) to identify the characteristics of training samples (e.g., as easy-to-learn or ambiguous samples), and then interpolates these characterized samples. We empirically validate that our method not only achieves competitive performance using a smaller subset of the training data compared with strong baselines, but also yields lower expected calibration error on the pre-trained language model, BERT, on both in-domain and out-of-domain settings in a wide range of NLP tasks. We publicly release our code.
翻訳日:2022-05-09 13:28:32 公開日:2022-05-06
# 集団攻撃を利用した論証原則の再発見

Rediscovering Argumentation Principles Utilizing Collective Attacks ( http://arxiv.org/abs/2205.03151v1 )

ライセンス: Link先を確認
Wolfgang Dvo\v{r}\'ak, Matthias K\"onig, Markus Ulbricht, Stefan Woltran(参考訳) argumentation Frameworks(AF)は、AI研究における重要なフォーマリズムである。 彼らのセマンティクスは、確立された分析と新しいセマンティクスの開発のためのガイダンスを提供するために特性特性を定義する原則の観点で研究されている。 afsの単純な構造のため、多くの望ましい性質はほぼ自明に保たれ、同時に構文的概念の背後に興味深い概念を隠す。 原則に基づくアプローチを集合攻撃(setafs)を伴う議論フレームワークに拡張し,それらの意味論に関する共通原則の包括的概要を提供する。 分析の結果、与えられたSETAF(例えば、方向性やSCC再帰性)の分解に基づく原理の検証は、通常のAFと比較して、さらなる課題をもたらすことが示された。 この種の調査に有効であることが証明されるSETAFのレダクトの概念とモジュラー化原理を紹介する。 次に,拡張の漸進的計算にこの知見をどのように活用できるかを実証し,望ましい拡張の検証に新しいパラメータ化導出結果を与える。

Argumentation Frameworks (AFs) are a key formalism in AI research. Their semantics have been investigated in terms of principles, which define characteristic properties in order to deliver guidance for analysing established and developing new semantics. Because of the simple structure of AFs, many desired properties hold almost trivially, at the same time hiding interesting concepts behind syntactic notions. We extend the principle-based approach to Argumentation Frameworks with Collective Attacks (SETAFs) and provide a comprehensive overview of common principles for their semantics. Our analysis shows that investigating principles based on decomposing the given SETAF (e.g. directionality or SCC-recursiveness) poses additional challenges in comparison to usual AFs. We introduce the notion of the reduct as well as the modularization principle for SETAFs which will prove beneficial for this kind of investigation. We then demonstrate how our findings can be utilized for incremental computation of extensions and give a novel parameterized tractability result for verifying preferred extensions.
翻訳日:2022-05-09 13:27:51 公開日:2022-05-06
# ビデオキャプション用デュアルレベルデカップリングトランス

Dual-Level Decoupled Transformer for Video Captioning ( http://arxiv.org/abs/2205.03039v1 )

ライセンス: Link先を確認
Yiqi Gao, Xinglin Hou, Wei Suo, Mengyang Sun, Tiezheng Ge, Yuning Jiang and Peng Wang(参考訳) ビデオキャプションは、ビデオの時空間意味概念を理解し、記述文を生成することを目的としている。 このタスクに対するデファクトアプローチは、テキストジェネレータが \textit{offline-extracted} の動きや、 \textit{pre-trained} ビジョンモデルからの外観特徴から学ぶように指示する。 しかし、これらの手法は \textit{video spatio-temporal representation} と \textit{sentence generation} の両方において、いわゆる \textbf{\textit{"couple"}} の欠点を被ることがある。 前者にとって、 \textbf{\textit{"couple"}} とは、単一のモデル(3dcnn)で時空間表現を学ぶことを意味する。 後者については、textbf{\textit{"couple"}} は視覚的意味論と構文関連語の生成を等しく扱うことを意味する。 この目的のために、上記の欠点を解決するために、$\mathcal{D}^{2}$というデュアルレベルデカップリングトランスフォーマーパイプラインを提示する。 i) ビデオ時空間表現において,その過程を「第1時空間」パラダイムに分離し,事前学習タスクと下流タスクを接続するために専用モデル(\textit{e.} image-text pre-training)を使用することの可能性を公開する。 \emph{ 文生成のために,視覚的意味論と構文関連単語の寄与を動的に測定するために,emph{Syntax-Aware Decoder}を提案する。 広範に使用されている3つのベンチマーク(MSVD, MSR-VTT, VATEX)の大規模な実験は、提案された$\mathcal{D}^{2}$の大きな可能性を示し、ビデオキャプションのタスクにおいて、従来の手法をはるかに上回っている。

Video captioning aims to understand the spatio-temporal semantic concept of the video and generate descriptive sentences. The de-facto approach to this task dictates a text generator to learn from \textit{offline-extracted} motion or appearance features from \textit{pre-trained} vision models. However, these methods may suffer from the so-called \textbf{\textit{"couple"}} drawbacks on both \textit{video spatio-temporal representation} and \textit{sentence generation}. For the former, \textbf{\textit{"couple"}} means learning spatio-temporal representation in a single model(3DCNN), resulting the problems named \emph{disconnection in task/pre-train domain} and \emph{hard for end-to-end training}. As for the latter, \textbf{\textit{"couple"}} means treating the generation of visual semantic and syntax-related words equally. To this end, we present $\mathcal{D}^{2}$ - a dual-level decoupled transformer pipeline to solve the above drawbacks: \emph{(i)} for video spatio-temporal representation, we decouple the process of it into "first-spatial-then-temporal" paradigm, releasing the potential of using dedicated model(\textit{e.g.} image-text pre-training) to connect the pre-training and downstream tasks, and makes the entire model end-to-end trainable. \emph{(ii)} for sentence generation, we propose \emph{Syntax-Aware Decoder} to dynamically measure the contribution of visual semantic and syntax-related words. Extensive experiments on three widely-used benchmarks (MSVD, MSR-VTT and VATEX) have shown great potential of the proposed $\mathcal{D}^{2}$ and surpassed the previous methods by a large margin in the task of video captioning.
翻訳日:2022-05-09 13:25:51 公開日:2022-05-06
# タスク相関誘導ゲーティング機構を用いた連続物体検出

Continual Object Detection via Prototypical Task Correlation Guided Gating Mechanism ( http://arxiv.org/abs/2205.03055v1 )

ライセンス: Link先を確認
Binbin Yang, Xinchi Deng, Han Shi, Changlin Li, Gengwei Zhang, Hang Xu, Shen Zhao, Liang Lin, Xiaodan Liang(参考訳) 連続学習は、ストリーミング形式でデータが提供される場合、成熟したAIシステムを構築する上で困難な現実的な問題である。 近年の連続的な分類の進歩にもかかわらず、連続物体検出の研究は各画像のさまざまな大きさと数によって妨げられている。 本研究では,すべてのタスクに対してネットワーク全体をチューニングする従来の作業とは違って,prototypepical task correlation guided gating mechanism (rosetta) による連続的物体検出のためのシンプルで柔軟なフレームワークを提案する。 具体的には、統一フレームワークはすべてのタスクで共有され、タスク対応ゲートは特定のタスクのサブモデルを自動的に選択するために導入される。 このようにして、対応するサブモデル重みをシステムに格納することで、様々な知識を逐次記憶することができる。 ロゼッタがどの体験が利用可能で有用かを自動的に判断するために、クラス固有のプロトタイプに基づいて新しいタスクのゲートの多様性を適応的に調整するために、gdc(prototypepical task correlation guided gating diversity controller)を導入する。 GDCモジュールは、クラス間相関行列を計算して、クロスタスク相関を表現し、重要なドメインギャップが観測された場合、新しいタスクのためのより排他的なゲートを活性化する。 COCO-VOC、KITTI-Kitchen、VOCにおけるクラスインクリメンタル検出、および4つのタスクのシーケンシャル学習に関する総合的な実験は、ROSETTAがタスクベースおよびクラスベース連続オブジェクト検出の両方で最先端のパフォーマンスを得ることを示す。

Continual learning is a challenging real-world problem for constructing a mature AI system when data are provided in a streaming fashion. Despite recent progress in continual classification, the researches of continual object detection are impeded by the diverse sizes and numbers of objects in each image. Different from previous works that tune the whole network for all tasks, in this work, we present a simple and flexible framework for continual object detection via pRotOtypical taSk corrElaTion guided gaTing mechAnism (ROSETTA). Concretely, a unified framework is shared by all tasks while task-aware gates are introduced to automatically select sub-models for specific tasks. In this way, various knowledge can be successively memorized by storing their corresponding sub-model weights in this system. To make ROSETTA automatically determine which experience is available and useful, a prototypical task correlation guided Gating Diversity Controller(GDC) is introduced to adaptively adjust the diversity of gates for the new task based on class-specific prototypes. GDC module computes class-to-class correlation matrix to depict the cross-task correlation, and hereby activates more exclusive gates for the new task if a significant domain gap is observed. Comprehensive experiments on COCO-VOC, KITTI-Kitchen, class-incremental detection on VOC and sequential learning of four tasks show that ROSETTA yields state-of-the-art performance on both task-based and class-based continual object detection.
翻訳日:2022-05-09 13:24:59 公開日:2022-05-06
# データセットから抽出した補助情報を用いた高精度教師なし人物再識別手法

A High-Accuracy Unsupervised Person Re-identification Method Using Auxiliary Information Mined from Datasets ( http://arxiv.org/abs/2205.03124v1 )

ライセンス: Link先を確認
Hehan Teng, Tao He, Yuchen Guo, Guiguang Ding(参考訳) 監視された人物再識別手法は、高品質のクロスカメラ訓練ラベルに大きく依存している。 これは現実世界のアプリケーションへのre-idモデルのデプロイを著しく阻害する。 教師なしのperson re-idメソッドは、データアノテーションのコストを削減できるが、そのパフォーマンスは教師なしメソッドよりもはるかに低い。 本稿では,カメラ情報,時間情報,空間情報を含むマルチモーダル特徴学習において,データセットから抽出した補助情報をフル活用する。 カメラのスタイルバイアス, 歩行者の移動軌跡の特徴, カメラネットワークの位置を解析することにより, 補助情報を利用するために, 時間オーバーラップ制約(TOC), 時空間類似度(STS), サメカメラペナルティ(SCP)の3つのモジュールを設計する。 補助情報は、関連制約を構築したり、視覚的特徴と融合することによって、モデル性能と推測精度を向上させることができる。 さらに,制限ラベル平滑化クロスエントロピー損失(rlsce),重量適応三重項損失(watl),動的トレーニング反復(dti)の3つの効果的なトレーニング手法を提案する。 この手法はMARSとDukeMTMC-VideoReIDでそれぞれ72.4%と81.1%のmAPを達成する。 本手法は補助情報活用モジュールと組み合わせて,TOC,STS,SCPが性能改善に寄与するDukeMTMCにおいて89.9%のmAPを達成した。 本稿では,非教師付き再id法と教師なし再id法のギャップを狭める手法を提案する。 私たちのコードはhttps://github.com/tenghehan/AuxUSLReIDにあります。

Supervised person re-identification methods rely heavily on high-quality cross-camera training label. This significantly hinders the deployment of re-ID models in real-world applications. The unsupervised person re-ID methods can reduce the cost of data annotation, but their performance is still far lower than the supervised ones. In this paper, we make full use of the auxiliary information mined from the datasets for multi-modal feature learning, including camera information, temporal information and spatial information. By analyzing the style bias of cameras, the characteristics of pedestrians' motion trajectories and the positions of camera network, this paper designs three modules: Time-Overlapping Constraint (TOC), Spatio-Temporal Similarity (STS) and Same-Camera Penalty (SCP) to exploit the auxiliary information. Auxiliary information can improve the model performance and inference accuracy by constructing association constraints or fusing with visual features. In addition, this paper proposes three effective training tricks, including Restricted Label Smoothing Cross Entropy Loss (RLSCE), Weight Adaptive Triplet Loss (WATL) and Dynamic Training Iterations (DTI). The tricks achieve mAP of 72.4% and 81.1% on MARS and DukeMTMC-VideoReID, respectively. Combined with auxiliary information exploiting modules, our methods achieve mAP of 89.9% on DukeMTMC, where TOC, STS and SCP all contributed considerable performance improvements. The method proposed by this paper outperforms most existing unsupervised re-ID methods and narrows the gap between unsupervised and supervised re-ID methods. Our code is at https://github.com/tenghehan/AuxUSLReID.
翻訳日:2022-05-09 13:24:29 公開日:2022-05-06
# 簡単からハードへ:遠隔センシングデータに基づく視覚質問応答のための言語指導カリキュラムの学習

From Easy to Hard: Learning Language-guided Curriculum for Visual Question Answering on Remote Sensing Data ( http://arxiv.org/abs/2205.03147v1 )

ライセンス: Link先を確認
Zhenghang Yuan, Lichao Mou, Qi Wang, and Xiao Xiang Zhu(参考訳) リモートセンシングシーンに対する視覚的質問応答(VQA)は、インテリジェントな人-コンピュータインタラクションシステムにおいて大きな可能性を秘めている。 コンピュータビジョンのVQAは広く研究されているが、リモートセンシングデータ(RSVQA)のVQAはまだ初期段階である。 RSVQAタスクには,特に考慮すべき特徴が2つある。 1) RSVQAデータセットにはオブジェクトアノテーションがないため、モデルが情報的領域表現を活用できない。 2) rsvqaタスクでは,画像毎に難易度が明確に異なる質問が存在する。 ランダムな順序の質問でモデルを直接トレーニングすると、モデルが混乱し、パフォーマンスが制限される可能性がある。 本稿では,これら2つの問題に対処するため,言語誘導型全体像と地域像を共同抽出する多段階視覚特徴学習手法を提案する。 さらに, 自己評価型カリキュラム学習(SPCL)に基づくVQAモデルを開発し, サンプルを用いたネットワークのトレーニングを行う。 より具体的には,ソフトな重み付け戦略を持つ言語誘導型SPCL法について検討した。 提案手法を3つの公開データセットで評価し,その実験結果から提案したRSVQAフレームワークが有望な性能を実現することを示す。

Visual question answering (VQA) for remote sensing scene has great potential in intelligent human-computer interaction system. Although VQA in computer vision has been widely researched, VQA for remote sensing data (RSVQA) is still in its infancy. There are two characteristics that need to be specially considered for the RSVQA task. 1) No object annotations are available in RSVQA datasets, which makes it difficult for models to exploit informative region representation; 2) There are questions with clearly different difficulty levels for each image in the RSVQA task. Directly training a model with questions in a random order may confuse the model and limit the performance. To address these two problems, in this paper, a multi-level visual feature learning method is proposed to jointly extract language-guided holistic and regional image features. Besides, a self-paced curriculum learning (SPCL)-based VQA model is developed to train networks with samples in an easy-to-hard way. To be more specific, a language-guided SPCL method with a soft weighting strategy is explored in this work. The proposed model is evaluated on three public datasets, and extensive experimental results show that the proposed RSVQA framework can achieve promising performance.
翻訳日:2022-05-09 13:23:58 公開日:2022-05-06
# プロンプト分布学習

Prompt Distribution Learning ( http://arxiv.org/abs/2205.03340v1 )

ライセンス: Link先を確認
Yuning Lu, Jianzhuang Liu, Yonggang Zhang, Yajing Liu, Xinmei Tian(参考訳) そこで本研究では,事前学習した視覚言語モデルを用いて下流認識課題に効果的に適応するための素早い分布学習を提案する。 提案手法は,少数のサンプルから低バイアスプロンプトを学習するだけでなく,様々な視覚表現を扱うための多様なプロンプトの分布も捉える。 このようにして、認識を容易にするための高品質なタスク関連コンテンツを提供する。 このプロンプト分布学習は、入力埋め込みの代わりにプロンプトの出力埋め込みを学ぶ効率的なアプローチによって実現される。 したがって、ガウス分布を効果的にモデル化し、効率的な訓練のための代理損失を導出することができる。 12のデータセットに対する大規模な実験により、我々の手法は既存の手法よりも一貫して大幅に優れていることが示された。 例えば、1つのカテゴリに1つのサンプルがある場合、人造プロンプトに比べて平均結果を9.1%改善する。

We present prompt distribution learning for effectively adapting a pre-trained vision-language model to address downstream recognition tasks. Our method not only learns low-bias prompts from a few samples but also captures the distribution of diverse prompts to handle the varying visual representations. In this way, we provide high-quality task-related content for facilitating recognition. This prompt distribution learning is realized by an efficient approach that learns the output embeddings of prompts instead of the input embeddings. Thus, we can employ a Gaussian distribution to model them effectively and derive a surrogate loss for efficient training. Extensive experiments on 12 datasets demonstrate that our method consistently and significantly outperforms existing methods. For example, with 1 sample per category, it relatively improves the average result by 9.1% compared to human-crafted prompts.
翻訳日:2022-05-09 13:23:39 公開日:2022-05-06
# 直交する正則性を持つマルチタスクAETによる暗黒物体検出

Multitask AET with Orthogonal Tangent Regularity for Dark Object Detection ( http://arxiv.org/abs/2205.03346v1 )

ライセンス: Link先を確認
Ziteng Cui, Guo-Jun Qi, Lin Gu, Shaodi You, Zenghui Zhang, Tatsuya Harada(参考訳) 暗黒環境は、光子不足と望ましくないノイズのため、コンピュータビジョンアルゴリズムにとって課題となる。 暗環境における物体検出を強化するために,照明翻訳の背後にある内在的なパターンを探索可能な,新しいマルチタスクオートエンコーディング変換(maet)モデルを提案する。 物理ノイズモデルと画像信号処理(ISP)を考慮した現実的な照明劣化変換を符号化し、復号化することにより、MAETは本質的な視覚構造を学ぶ。 この表現に基づき、バウンディングボックス座標とクラスをデコードすることにより、オブジェクト検出タスクを実現する。 2つのタスクの過剰絡みを避けるため、MAETは直交接正則性を付与することにより対象を歪め、特徴を劣化させる。 これは、各タスクの出力に沿って接点間の直交性を最大化することにより、多タスク予測を幾何学的に定式化できるパラメトリック多様体を形成する。 我々のフレームワークは、VOCやCOCOといった通常のターゲット検出データセットを用いて、主流のオブジェクト検出アーキテクチャと直接訓練されたエンドツーエンドに基づいて実装することができる。 合成および実世界のデータセットを用いて最先端のパフォーマンスを実現した。 コードはhttps://github.com/cuiziteng/MAETで入手できる。

Dark environment becomes a challenge for computer vision algorithms owing to insufficient photons and undesirable noise. To enhance object detection in a dark environment, we propose a novel multitask auto encoding transformation (MAET) model which is able to explore the intrinsic pattern behind illumination translation. In a self-supervision manner, the MAET learns the intrinsic visual structure by encoding and decoding the realistic illumination-degrading transformation considering the physical noise model and image signal processing (ISP). Based on this representation, we achieve the object detection task by decoding the bounding box coordinates and classes. To avoid the over-entanglement of two tasks, our MAET disentangles the object and degrading features by imposing an orthogonal tangent regularity. This forms a parametric manifold along which multitask predictions can be geometrically formulated by maximizing the orthogonality between the tangents along the outputs of respective tasks. Our framework can be implemented based on the mainstream object detection architecture and directly trained end-to-end using normal target detection datasets, such as VOC and COCO. We have achieved the state-of-the-art performance using synthetic and real-world datasets. Code is available at https://github.com/cuiziteng/MAET.
翻訳日:2022-05-09 13:23:26 公開日:2022-05-06
# (参考訳) nowcastingにおけるeconometricおよびmachine learning方法論のベンチマーク

Benchmarking Econometric and Machine Learning Methodologies in Nowcasting ( http://arxiv.org/abs/2205.03318v1 )

ライセンス: CC BY 4.0
Daniel Hopp(参考訳) nowcastingは、ファイナルgdpの数値など、大きな時間遅れで公表されたデータに対する、政策立案者にタイムリーな洞察を与える上で、重要な役割を果たす。 現在、実践者が選択できる方法論やアプローチはたくさんあります。 しかし、予測性能と特性の観点からこれらの異なるアプローチを包括的に比較することはできない。 本稿は、現在最もよく使われている方法や、最もポピュラーな機械学習アプローチを含む、米国の四半期GDP成長の予測において、12の異なる方法論のパフォーマンスを調べることで、不足を解消するものである。 業績は1980年代初めの景気後退、2008年の金融危機、新型コロナウイルス危機の3つの異なる時期において評価された。 この分析における2つの最良の手法は、長期記憶人工ニューラルネットワーク(LSTM)とベイズベクトル自己回帰(BVAR)である。 調査対象の各方法論のさらなる適用とテストを容易にするため,さまざまなデータセットに適用可能な定型コードを含むオープンソースリポジトリが,論文とともに公開されている。

Nowcasting can play a key role in giving policymakers timelier insight to data published with a significant time lag, such as final GDP figures. Currently, there are a plethora of methodologies and approaches for practitioners to choose from. However, there lacks a comprehensive comparison of these disparate approaches in terms of predictive performance and characteristics. This paper addresses that deficiency by examining the performance of 12 different methodologies in nowcasting US quarterly GDP growth, including all the methods most commonly employed in nowcasting, as well as some of the most popular traditional machine learning approaches. Performance was assessed on three different tumultuous periods in US economic history: the early 1980s recession, the 2008 financial crisis, and the COVID crisis. The two best performing methodologies in the analysis were long short-term memory artificial neural networks (LSTM) and Bayesian vector autoregression (BVAR). To facilitate further application and testing of each of the examined methodologies, an open-source repository containing boilerplate code that can be applied to different datasets is published alongside the paper, available at: github.com/dhopp1/nowcasting_benchmark.
翻訳日:2022-05-09 13:22:30 公開日:2022-05-06
# sound2synth: fmシンセサイザーパラメータ推定による音声の解釈

Sound2Synth: Interpreting Sound via FM Synthesizer Parameters Estimation ( http://arxiv.org/abs/2205.03043v1 )

ライセンス: Link先を確認
Zui Chen, Yansen Jing, Shengcheng Yuan, Yifei Xu, Jian Wu and Hang Zhao(参考訳) シンセサイザー(Synthesizer)は、現代音楽の制作や音響設計において広く使われている電子楽器の一種である。 シンセサイザーのそれぞれのパラメータ構成はユニークな音色を生成し、ユニークな楽器と見なすことができる。 音の音色を最もよく復元するパラメータの集合を推定する問題は重要で複雑な問題、すなわち合成器パラメータ推定問題である。 本研究では,この問題を解決するために特別に設計されたネットワーク構造であるprime-dilated convolution (pdc) とともに,マルチモーダルなディープラーニングベースのパイプラインsound2synthを提案する。 提案手法はSOTAだけでなく,一般的なFMシンセサイザーであるデキシードシンセサイザーにも適用可能な最初の実世界の結果となった。

Synthesizer is a type of electronic musical instrument that is now widely used in modern music production and sound design. Each parameters configuration of a synthesizer produces a unique timbre and can be viewed as a unique instrument. The problem of estimating a set of parameters configuration that best restore a sound timbre is an important yet complicated problem, i.e.: the synthesizer parameters estimation problem. We proposed a multi-modal deep-learning-based pipeline Sound2Synth, together with a network structure Prime-Dilated Convolution (PDC) specially designed to solve this problem. Our method achieved not only SOTA but also the first real-world applicable results on Dexed synthesizer, a popular FM synthesizer.
翻訳日:2022-05-09 13:18:54 公開日:2022-05-06
# LPGNet: ノード分類のためのプライベートグラフネットワークリンク

LPGNet: Link Private Graph Networks for Node Classification ( http://arxiv.org/abs/2205.03105v1 )

ライセンス: Link先を確認
Aashish Kolluri, Teodora Baluta, Bryan Hooi, Prateek Saxena(参考訳) ラベル付きグラフ構造化データの分類タスクは、ソーシャルレコメンデーションから金融モデリングまで、多くの重要な応用がある。 ディープニューラルネットワークはグラフ上のノード分類にますます使われており、同様の特徴を持つノードに同じラベルを付ける必要がある。 グラフ畳み込みネットワーク(GCN)は、このような広く研究されているニューラルネットワークアーキテクチャの1つである。 しかし、GCNに対する強力なリンクスティーリング攻撃は、トレーニングされたモデルにブラックボックスアクセスしても、トレーニンググラフにどのリンク(またはエッジ)が存在するかを推測することは実用的であることを示した。 本稿では、プライバシに敏感なエッジを持つグラフをトレーニングするためのLPGNetと呼ばれる新しいニューラルネットワークアーキテクチャを提案する。 LPGNetは、トレーニング中にグラフエッジ構造が使用される新しい設計を使用して、エッジに対する差分プライバシー(DP)保証を提供する。 エッジ情報(例えば、バニラMLP)を使用しない"自明な"プライベートアーキテクチャよりも優れたユーティリティを提供し、エッジ構造を使用するバニラGCNよりも既存のリンクステアリング攻撃に対するレジリエンスを提供することができます。 LPGNetはまた、評価データセットの大部分において、従来のGCNに差分プライバシーを適合させる最先端のメカニズムであるDPGCNよりも一貫して優れたプライバシーユーティリティトレードオフを提供している。

Classification tasks on labeled graph-structured data have many important applications ranging from social recommendation to financial modeling. Deep neural networks are increasingly being used for node classification on graphs, wherein nodes with similar features have to be given the same label. Graph convolutional networks (GCNs) are one such widely studied neural network architecture that perform well on this task. However, powerful link-stealing attacks on GCNs have recently shown that even with black-box access to the trained model, inferring which links (or edges) are present in the training graph is practical. In this paper, we present a new neural network architecture called LPGNet for training on graphs with privacy-sensitive edges. LPGNet provides differential privacy (DP) guarantees for edges using a novel design for how graph edge structure is used during training. We empirically show that LPGNet models often lie in the sweet spot between providing privacy and utility: They can offer better utility than "trivially" private architectures which use no edge information (e.g., vanilla MLPs) and better resilience against existing link-stealing attacks than vanilla GCNs which use the full edge structure. LPGNet also offers consistently better privacy-utility tradeoffs than DPGCN, which is the state-of-the-art mechanism for retrofitting differential privacy into conventional GCNs, in most of our evaluated datasets.
翻訳日:2022-05-09 13:18:42 公開日:2022-05-06
# 測地学、非線形性、新奇な探索のアーカイブ

Geodesics, Non-linearities and the Archive of Novelty Search ( http://arxiv.org/abs/2205.03162v1 )

ライセンス: Link先を確認
Achkan Salehi, Alexandre Coninx, Stephane Doncieux(参考訳) Novelty Search (NS)アルゴリズムは10年以上前に提案された。 しかし、その実証的な成功のメカニズムはまだ十分に定式化されていない。 この短いノートは、アーカイブが探検に与える影響に焦点を当てている。 いくつかのアプリケーションドメインからの実験的な証拠から、アーカイブベースのnsは、ノベルティが人口に対してのみ計算される場合よりも一般的に機能することが示唆される。 文献でよく見られる議論は、アーカイブがバックトラックやサイクリングの探索を妨げている、すなわち、以前遭遇した行動空間の領域を再考するのを防ぐことである。 これはバックトラッキング(しばしば望ましいこと以外)がアーカイブによって実際に有効になるため、完全で正確な説明ではない。 低次元・分析的な例を通して、このアーカイブの重要な効果は、不適切な行動指標の使用や行動マッピングの非線形性など、結果の探索バイアスと相反することである。 我々の観察は、サンプリングにおいてアーカイブにより積極的な役割を果たすことが有益であることを示唆している。

The Novelty Search (NS) algorithm was proposed more than a decade ago. However, the mechanisms behind its empirical success are still not well formalized/understood. This short note focuses on the effects of the archive on exploration. Experimental evidence from a few application domains suggests that archive-based NS performs in general better than when Novelty is solely computed with respect to the population. An argument that is often encountered in the literature is that the archive prevents exploration from backtracking or cycling, i.e. from revisiting previously encountered areas in the behavior space. We argue that this is not a complete or accurate explanation as backtracking - beside often being desirable - can actually be enabled by the archive. Through low-dimensional/analytical examples, we show that a key effect of the archive is that it counterbalances the exploration biases that result, among other factors, from the use of inadequate behavior metrics and the non-linearities of the behavior mapping. Our observations seem to hint that attributing a more active role to the archive in sampling can be beneficial.
翻訳日:2022-05-09 13:18:18 公開日:2022-05-06
# 解析関数でパラメータ化された境界条件について

On boundary conditions parametrized by analytic functions ( http://arxiv.org/abs/2205.03185v1 )

ライセンス: Link先を確認
Markus Lange-Hegermann, Daniel Robertz(参考訳) 計算機代数学は記号アルゴリズムを用いて偏微分方程式に関する様々な質問に答えることができる。 しかし、方程式にデータを含めることはコンピュータ代数ではまれである。 したがって、近年、計算機代数モデルと機械学習の回帰モデルであるガウス過程が組み合わされ、データの下での微分方程式の振る舞いを記述するようになった。 この文脈で多項式境界条件を記述することは可能であるが、これらのモデルを解析境界条件に拡張する。 さらに、ある種の解析係数を持つワイル代数のGr\obnerおよびJanet基底に必要なアルゴリズムを記述する。 これらのアルゴリズムを用いて,解析関数に有界な領域における分岐自由流れの例を示し,観察に適応する。

Computer algebra can answer various questions about partial differential equations using symbolic algorithms. However, the inclusion of data into equations is rare in computer algebra. Therefore, recently, computer algebra models have been combined with Gaussian processes, a regression model in machine learning, to describe the behavior of certain differential equations under data. While it was possible to describe polynomial boundary conditions in this context, we extend these models to analytic boundary conditions. Additionally, we describe the necessary algorithms for Gr\"obner and Janet bases of Weyl algebras with certain analytic coefficients. Using these algorithms, we provide examples of divergence-free flow in domains bounded by analytic functions and adapted to observations.
翻訳日:2022-05-09 13:18:01 公開日:2022-05-06
# 多目的最適化を用いた生薬シード列車設計における可変性を考慮したロバストなバイオテクノロジープロセスの設計

Designing Robust Biotechnological Processes Regarding Variabilities using Multi-Objective Optimization Applied to a Biopharmaceutical Seed Train Design ( http://arxiv.org/abs/2205.03261v1 )

ライセンス: Link先を確認
Tanja Hern\'andez Rodr\'iguez, Anton Sekulic, Markus Lange-Hegermann, Bj\"orn Frahm(参考訳) 細胞培養によるバイオ医薬品製造プロセスの開発と最適化はコストと時間がかかり、経験的に行われることが多い。 プロセス時間、実行可能なセル密度、運用手順と栽培規模、必要な培地、製品量、製品品質といった多目的物の効率的な最適化は、有望なアプローチを示している。 この貢献は、不確実性に基づく上流シミュレーションとガウス過程を用いたベイズ最適化を結合するワークフローを提供する。 プロセス開発における関連産業課題のシミュレーションケーススタディにおいて, セル成長に関する不確実性や変動性にもかかわらず, シードトレイン中の生存可能なセル密度の変動が低くなるという, 堅牢な細胞培養拡大プロセス(種子トレイン)の設計が示された。 非最適化の基準シードトレインと比較すると、最適化されたプロセスは5または4のシェイクフラスクスケールを用いた細胞密度(41.7%ではなく~10%)に関してかなり低い偏差率を示し、シードトレインの持続時間は56hから576hから520hに短縮された。 全体として,ベイズ最適化を適用することで,最適化可能な入力変数を複数有する多目的最適化関数の最適化が可能となり,計算量が少ないかなりの制約下での最適化が可能となった。 このアプローチは、例えば、最適で堅牢なシードトレイン設計の選択や、プロセス開発におけるさらなる最適化タスクのために、決定ツールとして使用される可能性を提供します。

Development and optimization of biopharmaceutical production processes with cell cultures is cost- and time-consuming and often performed rather empirically. Efficient optimization of multiple-objectives like process time, viable cell density, number of operating steps & cultivation scales, required medium, amount of product as well as product quality depicts a promising approach. This contribution presents a workflow which couples uncertainty-based upstream simulation and Bayes optimization using Gaussian processes. Its application is demonstrated in a simulation case study for a relevant industrial task in process development, the design of a robust cell culture expansion process (seed train), meaning that despite uncertainties and variabilities concerning cell growth, low variations of viable cell density during the seed train are obtained. Compared to a non-optimized reference seed train, the optimized process showed much lower deviation rates regarding viable cell densities (<~10% instead of 41.7%) using 5 or 4 shake flask scales and seed train duration could be reduced by 56 h from 576 h to 520 h. Overall, it is shown that applying Bayes optimization allows for optimization of a multi-objective optimization function with several optimizable input variables and under a considerable amount of constraints with a low computational effort. This approach provides the potential to be used in form of a decision tool, e.g. for the choice of an optimal and robust seed train design or for further optimization tasks within process development.
翻訳日:2022-05-09 13:17:51 公開日:2022-05-06
# 微分プライベート画像分類のための大規模転送学習

Large Scale Transfer Learning for Differentially Private Image Classification ( http://arxiv.org/abs/2205.02973v1 )

ライセンス: Link先を確認
Harsh Mehta, Abhradeep Thakurta, Alexey Kurakin, Ashok Cutkosky(参考訳) Differential Privacy(DP)は、個別のサンプルレベルのプライバシで機械学習モデルをトレーニングするための正式なフレームワークを提供する。 dpを用いたトレーニングモデルは、潜在的に敵対的な設定で機密データの漏洩からモデルを保護する。 深層学習の分野では,DP-SGD (differially Private Stochastic Gradient Descent) が一般的なプライベートトレーニングアルゴリズムとして登場した。 DP-SGDを用いたプライベートトレーニングは、個々のサンプル勾配にノイズを注入することで漏れを防ぐ。 この結果は非常に魅力的であるが,DP-SGDを用いた大規模モデルのトレーニングの計算コストは,非プライベートトレーニングよりもかなり高い。 このことは、パラメータ数の増加がDPによるユーティリティの劣化に繋がるという事実によってさらに悪化する。 本研究では、ImageNetデータセットを拡大し、非プライベートケースと同様、大規模なパブリックデータセット上で事前トレーニングされたオーバーパラメータ化モデルが、モデルがプライベートに微調整された場合、大幅に向上することを示した。 さらに,大規模バッチサイズでプライベートモデルと非プライベートモデルを体系的に比較することにより,非プライベート設定と同様,最適化器の選択によりDPの性能が大幅に向上することがわかった。 DP-SGDからDP-LAMBに切り替えることで、最大20$\%のポイント(絶対)が改善されました。 最後に、全バッチ設定で \emph{single step} の最後のレイヤだけを微調整すると、幅広いプライバシー予算の範囲で 81.7$\%$ と$\epsilon \in [4, 10]$ と $\delta$ = 10^{-6}$ という2つの sota 結果が得られるが、計算オーバーヘッドは実質的に最小化される。

Differential Privacy (DP) provides a formal framework for training machine learning models with individual example level privacy. Training models with DP protects the model against leakage of sensitive data in a potentially adversarial setting. In the field of deep learning, Differentially Private Stochastic Gradient Descent (DP-SGD) has emerged as a popular private training algorithm. Private training using DP-SGD protects against leakage by injecting noise into individual example gradients, such that the trained model weights become nearly independent of the use any particular training example. While this result is quite appealing, the computational cost of training large-scale models with DP-SGD is substantially higher than non-private training. This is further exacerbated by the fact that increasing the number of parameters leads to larger degradation in utility with DP. In this work, we zoom in on the ImageNet dataset and demonstrate that similar to the non-private case, pre-training over-parameterized models on a large public dataset can lead to substantial gains when the model is finetuned privately. Moreover, by systematically comparing private and non-private models across a range of huge batch sizes, we find that similar to non-private setting, choice of optimizer can further improve performance substantially with DP. By switching from DP-SGD to DP-LAMB we saw improvement of up to 20$\%$ points (absolute). Finally, we show that finetuning just the last layer for a \emph{single step} in the full batch setting leads to both SOTA results of 81.7 $\%$ under a wide privacy budget range of $\epsilon \in [4, 10]$ and $\delta$ = $10^{-6}$ while minimizing the computational overhead substantially.
翻訳日:2022-05-09 13:15:49 公開日:2022-05-06
# 完全量子分類のためのインクリメンタルデータアップロード

Incremental Data-Uploading for Full-Quantum Classification ( http://arxiv.org/abs/2205.03057v1 )

ライセンス: Link先を確認
Maniraman Periyasamy, Nico Meyer, Christian Ufrecht, Daniel D. Scherer, Axel Plinge, Christopher Mutschler(参考訳) 機械学習モデルにおけるデータ表現は、その性能に大きく影響する。 これは、ノイズの多い中間スケール量子(NISQ)デバイス上に実装された量子機械学習モデルにとってさらに重要である。 高次元データをNISQデバイス用の量子回路に符号化することは、情報を失うことなく簡単であり、多くの課題をもたらす。 単純な符号化方式(高次元データを符号化する単一キュービット回転ゲートのような)は回路内の情報損失を引き起こすことが多いが、絡み合いとデータ再アップロードを伴う複雑な符号化方式は符号化ゲート数の増加につながる。 NISQデバイスには適していない。 本稿では,高次元データに対する新しいエンコーディングパターンである「インクリメンタル・データ・アップローディング」を提案する。 我々は、与えられたデータポイントの特徴ベクトルの符号化ゲートをパラメータ化ゲートで量子回路全体に展開した。 このエンコーディングパターンは、最小限の事前処理要件で量子回路内のデータのより優れた表現をもたらす。 mnistおよびfashion-mnistデータセットを用いた分類タスクにおける符号化パターンの有効性を示し,分類精度とモデルの有効次元を用いて異なる符号化手法を比較した。

The data representation in a machine-learning model strongly influences its performance. This becomes even more important for quantum machine learning models implemented on noisy intermediate scale quantum (NISQ) devices. Encoding high dimensional data into a quantum circuit for a NISQ device without any loss of information is not trivial and brings a lot of challenges. While simple encoding schemes (like single qubit rotational gates to encode high dimensional data) often lead to information loss within the circuit, complex encoding schemes with entanglement and data re-uploading lead to an increase in the encoding gate count. This is not well-suited for NISQ devices. This work proposes 'incremental data-uploading', a novel encoding pattern for high dimensional data that tackles these challenges. We spread the encoding gates for the feature vector of a given data point throughout the quantum circuit with parameterized gates in between them. This encoding pattern results in a better representation of data in the quantum circuit with a minimal pre-processing requirement. We show the efficiency of our encoding pattern on a classification task using the MNIST and Fashion-MNIST datasets, and compare different encoding methods via classification accuracy and the effective dimension of the model.
翻訳日:2022-05-09 13:15:16 公開日:2022-05-06
# 小型農場における作物型識別 : 衛星画像における空間・時間・スペクトル分解能の分析

Crop Type Identification for Smallholding Farms: Analyzing Spatial, Temporal and Spectral Resolutions in Satellite Imagery ( http://arxiv.org/abs/2205.03104v1 )

ライセンス: Link先を確認
Depanshu Sani, Sandeep Mahato, Parichya Sirohi, Saket Anand, Gaurav Arora, Charu Chandra Devshali, T. Jayaraman(参考訳) 現代の機械学習(ml)モデルのリモートセンシングと農業への統合により、農業領域における衛星画像の適用範囲が拡大した。 本稿では,中時空間分解能 (MSTR) から高時空間分解能 (HSTR) への移動により,作物型識別の精度が向上することを示す。 さらに,衛星画像における高スペクトル分解能は低空間分解能および時間分解能(lstr)画像の予測性能を向上させることを実証する。 MSTR画像のマルチスペクトルデータを用いて、HSTR画像から得られる最良の結果と比較すると、F1スコアは7%向上する。 同様に、多スペクトルデータの収穫季に基づく時系列データを用いると、F1スコアの1.2%の増加が観測される。 この結果は、合成バンド生成の分野におけるさらなる進歩を動機付ける。

The integration of the modern Machine Learning (ML) models into remote sensing and agriculture has expanded the scope of the application of satellite images in the agriculture domain. In this paper, we present how the accuracy of crop type identification improves as we move from medium-spatiotemporal-resolution (MSTR) to high-spatiotemporal-resolution (HSTR) satellite images. We further demonstrate that high spectral resolution in satellite imagery can improve prediction performance for low spatial and temporal resolutions (LSTR) images. The F1-score is increased by 7% when using multispectral data of MSTR images as compared to the best results obtained from HSTR images. Similarly, when crop season based time series of multispectral data is used we observe an increase of 1.2% in the F1-score. The outcome motivates further advancements in the field of synthetic band generation.
翻訳日:2022-05-09 13:14:59 公開日:2022-05-06
# 画像分類における周波数バイアスの調査と説明

Investigating and Explaining the Frequency Bias in Image Classification ( http://arxiv.org/abs/2205.03154v1 )

ライセンス: Link先を確認
ZhiYu Lin, YiFei Gao, JiTao Sang(参考訳) CNNは人間とは異なる多くの行動を示しており、その1つは高周波成分を用いる能力である。 本稿では,画像分類作業における周波数バイアス現象について論じる。 まず,特徴の識別と学習優先性に関する2つの観察を提示し,周波数バイアス現象を考察する。 さらに、我々はそれを仮定する。 スペクトル密度; スペクトル密度; スペクトル密度 (ii)クラス一貫性は周波数バイアスに直接影響する。 具体的には,データセットのスペクトル密度が学習優先度に,クラス一貫性が特徴識別に主に影響していることを検証する。

CNNs exhibit many behaviors different from humans, one of which is the capability of employing high-frequency components. This paper discusses the frequency bias phenomenon in image classification tasks: the high-frequency components are actually much less exploited than the low- and mid-frequency components. We first investigate the frequency bias phenomenon by presenting two observations on feature discrimination and learning priority. Furthermore, we hypothesize that (i) the spectral density, (ii) class consistency directly affect the frequency bias. Specifically, our investigations verify that the spectral density of datasets mainly affects the learning priority, while the class consistency mainly affects the feature discrimination.
翻訳日:2022-05-09 13:14:47 公開日:2022-05-06
# 何が良い漁師になるのか? 自己選択バイアス下における線形回帰

What Makes A Good Fisherman? Linear Regression under Self-Selection Bias ( http://arxiv.org/abs/2205.03246v1 )

ライセンス: Link先を確認
Yeshwanth Cherapanamjeri, Constantinos Daskalakis, Andrew Ilyas, Manolis Zampetakis(参考訳) 古典的な自己選択の場合、目標は、観察値の$(x^{(i)}, y^{(i)})$から同時に$k$モデルを学習することであり、ここで$y^{(i)}$は入力の$x^{(i)}$上の$k$モデルの出力である。 ランダムに選択されたモデルの出力を観測する混合モデルとは対照的に、観測されたモデルは出力自身に依存し、既知の選択基準によって決定される。 例えば、最高出力、最小出力、または$k$モデルの中央出力を観測することができる。 既知のインデックス自己選択では、観測されたモデル出力の同一性は観測可能である。 自己選択は、治療効果の推定、模倣学習、戦略的に報告されたデータからの学習、不均衡での市場からの学習など、様々な理論および応用分野における計量学および応用において長い歴史を持つ。 本稿では,モデルが線形である問題の最も標準的な設定に対して,最初の計算量および統計効率のよい推定アルゴリズムを提案する。 既知のインデックスの場合、すべてのモデルパラメータを正確に推定するために、poly$(1/\varepsilon, k, d)$サンプルと時間複雑さが必要であり、非常に一般的な選択基準を満たすことができる。 より困難な未知のインデックスの場合、(無限に多くのサンプルから)線形モデルの識別可能性さえ分かっていない。 1) 線形モデルが真に識別可能であること、(2) 一般の $k$ に対して poly$(d) \exp(\text{poly}(k))$ による回帰パラメータを誤差1/\text{poly}(k)$, (3) $k = 2$ 任意の誤差$\varepsilon$ と poly$(d, 1/\varepsilon)$ のサンプルと時間の複雑さを推定するためのアルゴリズムを提供する。

In the classical setting of self-selection, the goal is to learn $k$ models, simultaneously from observations $(x^{(i)}, y^{(i)})$ where $y^{(i)}$ is the output of one of $k$ underlying models on input $x^{(i)}$. In contrast to mixture models, where we observe the output of a randomly selected model, here the observed model depends on the outputs themselves, and is determined by some known selection criterion. For example, we might observe the highest output, the smallest output, or the median output of the $k$ models. In known-index self-selection, the identity of the observed model output is observable; in unknown-index self-selection, it is not. Self-selection has a long history in Econometrics and applications in various theoretical and applied fields, including treatment effect estimation, imitation learning, learning from strategically reported data, and learning from markets at disequilibrium. In this work, we present the first computationally and statistically efficient estimation algorithms for the most standard setting of this problem where the models are linear. In the known-index case, we require poly$(1/\varepsilon, k, d)$ sample and time complexity to estimate all model parameters to accuracy $\varepsilon$ in $d$ dimensions, and can accommodate quite general selection criteria. In the more challenging unknown-index case, even the identifiability of the linear models (from infinitely many samples) was not known. We show three results in this case for the commonly studied $\max$ self-selection criterion: (1) we show that the linear models are indeed identifiable, (2) for general $k$ we provide an algorithm with poly$(d) \exp(\text{poly}(k))$ sample and time complexity to estimate the regression parameters up to error $1/\text{poly}(k)$, and (3) for $k = 2$ we provide an algorithm for any error $\varepsilon$ and poly$(d, 1/\varepsilon)$ sample and time complexity.
翻訳日:2022-05-09 13:13:18 公開日:2022-05-06
# ファイングラインドエンティティタイピングのためのノイズラベルの自動補正

Automatic Noisy Label Correction for Fine-Grained Entity Typing ( http://arxiv.org/abs/2205.03011v1 )

ライセンス: Link先を確認
Weiran Pan, Wei Wei, Feida Zhu(参考訳) きめ細かいエンティティ型付け(FET)は、コンテキストに応じてエンティティの参照に適切なセマンティック型を割り当てることを目的としています。 現在のFETシステムは通常、大量のノイズを伴ってFETタスクの性能を著しく損なうような、大規模で弱い教師付き/依存的なアノテーションデータに基づいている。 以前の研究では、FETのノイズラベルを自動的に識別することに成功したが、現実のアプリケーションでは利用できないいくつかの補助的なリソース(例えば、事前定義された階層型構造、人間の注釈付きサブセット)に依存している。 本稿では,外部リソースを使わずにFETのノイズラベルを自動的に修正する手法を提案する。 具体的には、まず、モデルが出力したロジットに応じてラベルの後方確率を正または負と推定し、残りのクリーンラベルに対してロバストモデルを訓練してrelabel候補のノイズラベルを識別する。 2つの人気のあるベンチマーク実験により,本手法の有効性が証明された。 ソースコードは \url{https://github.com/CCIIPLab/DenoiseFET} から取得できます。

Fine-grained entity typing (FET) aims to assign proper semantic types to entity mentions according to their context, which is a fundamental task in various entity-leveraging applications. Current FET systems usually establish on large-scale weakly-supervised/distantly annotation data, which may contain abundant noise and thus severely hinder the performance of the FET task. Although previous studies have made great success in automatically identifying the noisy labels in FET, they usually rely on some auxiliary resources which may be unavailable in real-world applications (e.g. pre-defined hierarchical type structures, human-annotated subsets). In this paper, we propose a novel approach to automatically correct noisy labels for FET without external resources. Specifically, it first identifies the potentially noisy labels by estimating the posterior probability of a label being positive or negative according to the logits output by the model, and then relabel candidate noisy labels by training a robust model over the remaining clean labels. Experiments on two popular benchmarks prove the effectiveness of our method. Our source code can be obtained from \url{https://github.com/CCIIPLab/DenoiseFET}.
翻訳日:2022-05-09 13:11:58 公開日:2022-05-06
# aksharantar: 次の10億ユーザのためのオープン翻訳ツールの構築に向けて

Aksharantar: Towards building open transliteration tools for the next billion users ( http://arxiv.org/abs/2205.03018v1 )

ライセンス: Link先を確認
Yash Madhani, Sushane Parthan, Priyanka Bedekar, Ruchi Khapra, Vivek Seshadri, Anoop Kunchukuttan, Pratyush Kumar, Mitesh M. Khapra(参考訳) 2600万の翻訳ペアを含む21のindic言語で利用可能な最大の翻訳データセットであるaksharantarを紹介する。 このデータセットは、大きなモノリンガルとパラレルコーパスから文字ペアをマイニングし、人間のアノテータから文字を収集することで、単語の多様性と低リソース言語の表現を保証する。 そこで本研究では,19言語にまたがる103k単語ペアを含むindic language transliteration用の新しい大規模多種多様なテストセットを提案する。 我々はAksharantarトレーニングセット上でIndicXlitモデルをトレーニングする。 IndicXlitは、21のIndic言語をサポートするroman to Indicスクリプト変換のための、単一のトランスフォーマーベースの多言語変換モデルである。 Dakshinaテストセットの最先端の成果を達成し、この作業とともにリリースされたAksharantarテストセットの強力なベースラインを確立する。 すべてのデータセットとモデルは、https://indicnlp.ai4bharat.org/aksharantarで公開されている。 このような大規模でオープンなリソースが利用可能になれば,indic language transliterationやダウンストリームアプリケーションのイノベーションが促進されることを願っています。

We introduce Aksharantar, the largest publicly available transliteration dataset for 21 Indic languages containing 26 million transliteration pairs. We build this dataset by mining transliteration pairs from large monolingual and parallel corpora, as well as collecting transliterations from human annotators to ensure diversity of words and representation of low-resource languages. We introduce a new, large, diverse testset for Indic language transliteration containing 103k words pairs spanning 19 languages that enables fine-grained analysis of transliteration models. We train the IndicXlit model on the Aksharantar training set. IndicXlit is a single transformer-based multilingual transliteration model for roman to Indic script conversion supporting 21 Indic languages. It achieves state-of-the art results on the Dakshina testset, and establishes strong baselines on the Aksharantar testset released along with this work. All the datasets and models are publicly available at https://indicnlp.ai4bharat.org/aksharantar. We hope the availability of these large-scale, open resources will spur innovation for Indic language transliteration and downstream applications.
翻訳日:2022-05-09 13:11:36 公開日:2022-05-06
# globenc: トランスフォーマーにエンコーダ層全体を組み込むことによるグローバルトークン属性の定量化

GlobEnc: Quantifying Global Token Attribution by Incorporating the Whole Encoder Layer in Transformers ( http://arxiv.org/abs/2205.03286v1 )

ライセンス: Link先を確認
Ali Modarressi, Mohsen Fayyaz, Yadollah Yaghoobzadeh, Mohammad Taher Pilehvar(参考訳) トランスフォーマーの基盤となるダイナミクスを解釈することへの関心が高まっている。 自己注意パターンは、当初は主要な選択肢と考えられていたが、最近の研究では、他のコンポーネントを統合することでより正確な説明が得られることが示されている。 本稿では,エンコーダブロック内のすべてのコンポーネントをインクルードし,これをレイヤ全体に集約する,新しいトークン帰属分析手法を提案する。 定量的および定性的実験を通じて,本手法が忠実で有意義なグローバルトークン属性を生成できることを示す。 私たちの実験では、ほぼすべてのエンコーダコンポーネントを組み込むことで、ローカル(シングル層)とグローバル(モデル全体)の両方でより正確な分析が可能になります。 我々のグローバル属性分析は、勾配に基づく正解率スコアとの相関に関する様々なタスクにおいて、過去の手法よりも有意に優れていた。 私たちのコードはhttps://github.com/mohsenfayyaz/globencで無料で利用できます。

There has been a growing interest in interpreting the underlying dynamics of Transformers. While self-attention patterns were initially deemed as the primary option, recent studies have shown that integrating other components can yield more accurate explanations. This paper introduces a novel token attribution analysis method that incorporates all the components in the encoder block and aggregates this throughout layers. Through extensive quantitative and qualitative experiments, we demonstrate that our method can produce faithful and meaningful global token attributions. Our experiments reveal that incorporating almost every encoder component results in increasingly more accurate analysis in both local (single layer) and global (the whole model) settings. Our global attribution analysis significantly outperforms previous methods on various tasks regarding correlation with gradient-based saliency scores. Our code is freely available at https://github.com/mohsenfayyaz/GlobEnc.
翻訳日:2022-05-09 13:11:20 公開日:2022-05-06
# ソーシャルメディアにおけるワクチン態度検出のためのスタンスとアスペクトトピックの絡み合った学習

Disentangled Learning of Stance and Aspect Topics for Vaccine Attitude Detection in Social Media ( http://arxiv.org/abs/2205.03296v1 )

ライセンス: Link先を確認
Lixing Zhu and Zheng Fang and Gabriele Pergola and Rob Procter and Yulan He(参考訳) ソーシャルメディア上でワクチンの態度を検出するためのモデルの構築は、複合的で、しばしば複雑な側面と、注釈付きデータの限られた可用性のために困難である。 既存のアプローチは、豊富なアノテーションと事前定義されたアスペクトカテゴリを必要とする教師付きトレーニングに大きく依存しています。 そこで本研究では,ワクチン接種に関する無記名データを活用することを目的として,ワクチン態度検出のための新しい半教師付き手法であるvadetを提案する。 言語モデルに基づく変分自動エンコーディングアーキテクチャを用いて、ドメインのトピック情報に関する未ラベルデータから学習する。 次に、モデルに手動でアノテートされたユーザ態度の例をいくつか追加する。 我々は,VADetの接種データおよびワクチンに関する意見を付した既存の接種コーパスに対する効果を検証した。 以上の結果から,VADetは,アンスタンス検出とつぶやきクラスタリングの両面で,既存のアスペクトベース感情分析モデルよりも優れていることがわかった。

Building models to detect vaccine attitudes on social media is challenging because of the composite, often intricate aspects involved, and the limited availability of annotated data. Existing approaches have relied heavily on supervised training that requires abundant annotations and pre-defined aspect categories. Instead, with the aim of leveraging the large amount of unannotated data now available on vaccination, we propose a novel semi-supervised approach for vaccine attitude detection, called VADet. A variational autoencoding architecture based on language models is employed to learn from unlabelled data the topical information of the domain. Then, the model is fine-tuned with a few manually annotated examples of user attitudes. We validate the effectiveness of VADet on our annotated data and also on an existing vaccination corpus annotated with opinions on vaccines. Our results show that VADet is able to learn disentangled stance and aspect topics, and outperforms existing aspect-based sentiment analysis models on both stance detection and tweet clustering.
翻訳日:2022-05-09 13:11:05 公開日:2022-05-06
# 説明文分類器の必要性と十分性:Hate音声検出を事例として

Necessity and Sufficiency for Explaining Text Classifiers: A Case Study in Hate Speech Detection ( http://arxiv.org/abs/2205.03302v1 )

ライセンス: Link先を確認
Esma Balkir, Isar Nejadgholi, Kathleen C. Fraser, and Svetlana Kiritchenko(参考訳) 本稿では,テキスト分類器を説明する新しい特徴帰属法を提案し,ヘイトスピーチ検出の文脈で解析する。 特徴属性モデルは、通常、トークンごとに単一の重要なスコアを提供するが、代わりに2つの補足的および理論的に根拠付けられたスコア -- 必要性と十分性 -- を提供する。 そこで本研究では,入力テキストの明示的な摂動を発生させることで,これらの値を計算する透明な手法を提案する。 提案手法は,テストスイートから抽出した同じ例の集合上で異なるヘイトスピーチ検出モデルの予測を解析し,識別項の必要性と十分性の異なる値が,異なる種類の偽陽性誤差に対応し,分類器のバイアス源が辺縁化群に対して現れることを示す。

We present a novel feature attribution method for explaining text classifiers, and analyze it in the context of hate speech detection. Although feature attribution models usually provide a single importance score for each token, we instead provide two complementary and theoretically-grounded scores -- necessity and sufficiency -- resulting in more informative explanations. We propose a transparent method that calculates these values by generating explicit perturbations of the input text, allowing the importance scores themselves to be explainable. We employ our method to explain the predictions of different hate speech detection models on the same set of curated examples from a test suite, and show that different values of necessity and sufficiency for identity terms correspond to different kinds of false positive errors, exposing sources of classifier bias against marginalized groups.
翻訳日:2022-05-09 13:10:48 公開日:2022-05-06
# (参考訳) 合成と融合の定量化と機械翻訳への影響

Quantifying Synthesis and Fusion and their Impact on Machine Translation ( http://arxiv.org/abs/2205.03369v1 )

ライセンス: CC BY 4.0
Arturo Oncevay and Duygu Ataman and Niels van Berkel and Barry Haddow and Alexandra Birch and Johannes Bjerva(参考訳) 形態的タイポロジーにおける理論的研究は、連続的なスケールで形態的多様性を測定する可能性を提供する。 しかしながら、自然言語処理(NLP)の文献は一般的に、融合や凝集のような厳格な形態を持つ言語全体をラベル付けしている。 本研究では,単語とセグメントレベルで形態型を定量化することにより,そのようなクレームの剛性を低減することを提案する。 We consider Payne (2017)'s approach to classification morphology using two indices: synthesis (例: analysis to polysynthetic) and fusion (agglutinative to fusional)。 合成の計算では,英語,ドイツ語,トルコ語の非教師なし・教師付き形態素分割法を試験する一方,融合ではスペイン語を用いた半自動手法を提案する。 そして,機械翻訳品質と単語の合成・融合度(英語・トルコ語の名詞・動詞,英語・スペイン語の動詞)とセグメントレベル(以前の言語対+英語・ドイツ語両方向)の関係を解析した。 単語レベル解析と人間の評価を補完し、全体として、両方の指標が機械翻訳品質に与える影響を一貫して観察する。

Theoretical work in morphological typology offers the possibility of measuring morphological diversity on a continuous scale. However, literature in Natural Language Processing (NLP) typically labels a whole language with a strict type of morphology, e.g. fusional or agglutinative. In this work, we propose to reduce the rigidity of such claims, by quantifying morphological typology at the word and segment level. We consider Payne (2017)'s approach to classify morphology using two indices: synthesis (e.g. analytic to polysynthetic) and fusion (agglutinative to fusional). For computing synthesis, we test unsupervised and supervised morphological segmentation methods for English, German and Turkish, whereas for fusion, we propose a semi-automatic method using Spanish as a case study. Then, we analyse the relationship between machine translation quality and the degree of synthesis and fusion at word (nouns and verbs for English-Turkish, and verbs in English-Spanish) and segment level (previous language pairs plus English-German in both directions). We complement the word-level analysis with human evaluation, and overall, we observe a consistent impact of both indexes on machine translation quality.
翻訳日:2022-05-09 13:09:27 公開日:2022-05-06
# QLEVR: 量子言語と初等視覚推論のための診断データセット

QLEVR: A Diagnostic Dataset for Quantificational Language and Elementary Visual Reasoning ( http://arxiv.org/abs/2205.03075v1 )

ライセンス: Link先を確認
Zechen Li and Anders S{\o}gaard(参考訳) 合成データセットは、その推論能力のための視覚的質問応答データセットの探索に成功している。 例えば、CLEVR (johnson2017clevr)は、様々な視覚的推論能力をテストする。 CLEVRの質問は、形状、色、サイズ、数値的推論、存在主張の比較に焦点を当てている。 本稿では,画像中の少なくとも3つの青い球より小さい2つ以上の赤い球が存在するかどうかを問う,より複雑な量化器とそれらの組み合わせに焦点を当てた,最小バイアスの診断用視覚的質問応答データセットであるqlevrを提案する。 データセットがどのように作成され、最先端の視覚的質問応答モデルの最初の評価結果が提示され、QLEVRが現在のモデルに深刻な課題を呈していることを示す。 コードとデータセットはhttps://github.com/zechenli03/QLEVRで入手できる。

Synthetic datasets have successfully been used to probe visual question-answering datasets for their reasoning abilities. CLEVR (johnson2017clevr), for example, tests a range of visual reasoning abilities. The questions in CLEVR focus on comparisons of shapes, colors, and sizes, numerical reasoning, and existence claims. This paper introduces a minimally biased, diagnostic visual question-answering dataset, QLEVR, that goes beyond existential and numerical quantification and focus on more complex quantifiers and their combinations, e.g., asking whether there are more than two red balls that are smaller than at least three blue balls in an image. We describe how the dataset was created and present a first evaluation of state-of-the-art visual question-answering models, showing that QLEVR presents a formidable challenge to our current models. Code and Dataset are available at https://github.com/zechenli03/QLEVR
翻訳日:2022-05-09 12:44:11 公開日:2022-05-06
# 時空間学習を用いた動的環境における将来の作業グリッド予測

Predicting Future Occupancy Grids in Dynamic Environment with Spatio-Temporal Learning ( http://arxiv.org/abs/2205.03212v1 )

ライセンス: Link先を確認
Khushdeep Singh Mann, Abhishek Tomy, Anshul Paigwar, Alessandro Renzaglia, Christian Laugier(参考訳) 高度にダイナミックな都市環境の将来の占有率を確実に予測することは、安全な自律航法にとって重要な先駆者である。 予測における一般的な課題には、他の車両の相対的な位置の予測、異なる交通条件の車両のダイナミクスのモデル化、周囲の物体の消滅などがある。 これらの課題に対処するために,過去の情報を環境と意味ラベルから分離して,将来の占有予測を生成する時空間予測ネットワークパイプラインを提案する。 現在のSOTAと比較して、我々の手法は3秒間、およびnuScenesデータセットから比較的複雑な環境での占有率を予測する。 実験結果は,hdマップや明示的なモデリング動的オブジェクトを必要とせずに,時空間ネットワークがシーンのダイナミクスを理解する能力を示す。 我々はnuScenesに基づいた占有率グリッドデータセットを公開し、さらなる研究を支援します。

Reliably predicting future occupancy of highly dynamic urban environments is an important precursor for safe autonomous navigation. Common challenges in the prediction include forecasting the relative position of other vehicles, modelling the dynamics of vehicles subjected to different traffic conditions, and vanishing surrounding objects. To tackle these challenges, we propose a spatio-temporal prediction network pipeline that takes the past information from the environment and semantic labels separately for generating future occupancy predictions. Compared to the current SOTA, our approach predicts occupancy for a longer horizon of 3 seconds and in a relatively complex environment from the nuScenes dataset. Our experimental results demonstrate the ability of spatio-temporal networks to understand scene dynamics without the need for HD-Maps and explicit modeling dynamic objects. We publicly release our occupancy grid dataset based on nuScenes to support further research.
翻訳日:2022-05-09 12:43:54 公開日:2022-05-06
# Forget Less, Count Better: 生涯集団計数のためのドメイン・インクリメンタルな自己蒸留学習ベンチマーク

Forget Less, Count Better: A Domain-Incremental Self-Distillation Learning Benchmark for Lifelong Crowd Counting ( http://arxiv.org/abs/2205.03307v1 )

ライセンス: Link先を確認
Jiaqi Gao, Jingqi Li, Hongming Shan, Yanyun Qu, James Z. Wang, Junping Zhang(参考訳) 群衆カウントは公衆安全とパンデミック管理に重要な応用がある。 堅牢で実用的なクラウドカウントシステムは、1つのドメインのみに当てはまるのではなく、現実世界のシナリオで新しいドメインデータを使って継続的に学習できる必要があります。 オフザシェルフ法は複数のドメインを扱うのにいくつかの欠点がある。 1)各ドメインの内在データ分布の相違により,新ドメインの画像のトレーニング後に旧ドメイン間での限られた性能(たとえ劇的に低下しても)が達成される。 2) 特定のドメインのよく訓練されたモデルは、ドメインシフトのため、他の見えないドメイン間の不完全なパフォーマンスを達成する。 3) トレーニング用のすべてのデータを混在させたり,あるいは新しいドメインが利用可能になった時に,数十の別々のモデルをトレーニングするだけで,ストレージオーバーヘッドがリニアに増加します。 これらの課題を克服するために, インクリメンタル・ドメイン・トレーニング・セッティング, すなわち, 生涯のオーディエンス・カウントという新しい課題について検討した。 インクリメンタルドメインによって更新された単一のモデルを使用して、破滅的な忘れを緩和し、一般化能力を改善することを目的としている。 より具体的には、一生涯の群衆カウントのためのベンチマークとして、自己蒸留学習フレームワークを提案する。このフレームワークは、新しいデータが到着したときの忘れを緩和するために、以前の有意義な知識を持続的に活用するのに役立つ。 一方、生涯学習過程におけるモデルの忘れ度を評価するために、新しい量的計量である正規化後方移動~(nBwT)を開発した。 広範な実験結果から,提案するベンチマークは,低い破壊的忘れやすさと強い一般化能力を達成する上で優れていることが示された。

Crowd Counting has important applications in public safety and pandemic control. A robust and practical crowd counting system has to be capable of continuously learning with the new-coming domain data in real-world scenarios instead of fitting one domain only. Off-the-shelf methods have some drawbacks to handle multiple domains. 1) The models will achieve limited performance (even drop dramatically) among old domains after training images from new domains due to the discrepancies of intrinsic data distributions from various domains, which is called catastrophic forgetting. 2) The well-trained model in a specific domain achieves imperfect performance among other unseen domains because of the domain shift. 3) It leads to linearly-increased storage overhead either mixing all the data for training or simply training dozens of separate models for different domains when new ones are available. To overcome these issues, we investigate a new task of crowd counting under the incremental domains training setting, namely, Lifelong Crowd Counting. It aims at alleviating the catastrophic forgetting and improving the generalization ability using a single model updated by the incremental domains. To be more specific, we propose a self-distillation learning framework as a benchmark~(Forget Less, Count Better, FLCB) for lifelong crowd counting, which helps the model sustainably leverage previous meaningful knowledge for better crowd counting to mitigate the forgetting when the new data arrive. Meanwhile, a new quantitative metric, normalized backward transfer~(nBwT), is developed to evaluate the forgetting degree of the model in the lifelong learning process. Extensive experimental results demonstrate the superiority of our proposed benchmark in achieving a low catastrophic forgetting degree and strong generalization ability.
翻訳日:2022-05-09 12:43:40 公開日:2022-05-06
# パッセージ検索のための集団関連ラベル付け

Collective Relevance Labeling for Passage Retrieval ( http://arxiv.org/abs/2205.03273v1 )

ライセンス: Link先を確認
Jihyuk Kim, Minsso Kim, Seung-won Hwang(参考訳) deep learning for information retrieval (ir) は高品質なクエリドキュメント関連ラベルを必要とするが、そのようなラベルは本質的には乏しい。 ラベル平滑化は観測された確率質量を観測されていないインスタンス上で再分配する。 対照的に, 評価時に高い計算オーバーヘッドを伴わずに, インフォームドラベルの知識蒸留を提案する。 本研究の貢献は,より複雑な教師モデルから蒸留した成果を上回って,集団的知識を活かした,単純かつ効率的な教師モデルを設計することである。 具体的には、最先端の教師よりもx8まで速くトレーニングし、ランキングを蒸留します。 私たちのコードはhttps://github.com/jihyukkim-nlp/collectivekdで公開されています。

Deep learning for Information Retrieval (IR) requires a large amount of high-quality query-document relevance labels, but such labels are inherently sparse. Label smoothing redistributes some observed probability mass over unobserved instances, often uniformly, uninformed of the true distribution. In contrast, we propose knowledge distillation for informed labeling, without incurring high computation overheads at evaluation time. Our contribution is designing a simple but efficient teacher model which utilizes collective knowledge, to outperform state-of-the-arts distilled from a more complex teacher model. Specifically, we train up to x8 faster than the state-of-the-art teacher, while distilling the rankings better. Our code is publicly available at https://github.com/jihyukkim-nlp/CollectiveKD.
翻訳日:2022-05-09 12:43:14 公開日:2022-05-06
# グラフニューラルネットワークの最適伝播学習

Learning Optimal Propagation for Graph Neural Networks ( http://arxiv.org/abs/2205.02998v1 )

ライセンス: Link先を確認
Beidi Zhao, Boxin Du, Zhe Xu, Liangyue Li and Hanghang Tong(参考訳) グラフニューラルネットワーク(GNN)は、固定されたグラフデータを入力として頼りにすることで、様々な現実世界のアプリケーションで大きな成功を収めている。 しかしながら、最初の入力グラフは、情報不足、ノイズ、敵対的攻撃、あるいはグラフトポロジー、特徴、接地ラベルの分布の不一致のため、特定の下流タスクの観点からは最適ではないかもしれない。 本稿では,パーソナライズされたページランク伝播行列と下流半教師付きノード分類を同時に学習することにより,最適グラフ構造を学習するための2レベル最適化に基づく手法を提案する。 また,時間の複雑さをさらに減らすために,低ランク近似モデルも検討する。 実験による評価は, 提案モデルの有効性とロバスト性を示す。

Graph Neural Networks (GNNs) have achieved tremendous success in a variety of real-world applications by relying on the fixed graph data as input. However, the initial input graph might not be optimal in terms of specific downstream tasks, because of information scarcity, noise, adversarial attacks, or discrepancies between the distribution in graph topology, features, and groundtruth labels. In this paper, we propose a bi-level optimization-based approach for learning the optimal graph structure via directly learning the Personalized PageRank propagation matrix as well as the downstream semi-supervised node classification simultaneously. We also explore a low-rank approximation model for further reducing the time complexity. Empirical evaluations show the superior efficacy and robustness of the proposed model over all baseline methods.
翻訳日:2022-05-09 12:41:16 公開日:2022-05-06
# 深層q-learningを用いたモジュラー生産コンテキストにおける車両管理

Vehicle management in a modular production context using Deep Q-Learning ( http://arxiv.org/abs/2205.03294v1 )

ライセンス: Link先を確認
Lucain Pouget, Timo Hasenbichler, Jakob Auer, Klaus Lichtenegger, Andreas Windisch(参考訳) 本研究では,分散イベントシミュレーションを用いて,モジュール型生産施設におけるジョブショップスケジューリング問題に対するdeep-qベースの深層強化学習エージェントの適用可能性について検討する。 これらの環境は、処理対象の部品と(複数の)ワークステーションのソースとシンクで構成されています。 エージェントは、これらのステーションを行き来する部品を最適な方法で輸送するために、自動誘導車両のスケジュールを訓練される。 非常に単純な設定から始めて、環境の複雑さを高め、エージェントのパフォーマンスを、ファーストインファーストベースのエージェント、コストテーブル、近距離-neighborアプローチといった、確立されたヒューリスティックなアプローチと比較します。 さらに、ヒューリスティックアプローチが苦労する環境の特定の構成を求め、Deep-Qエージェントがこれらの課題にどの程度影響するかを調査する。 Deep-Qベースのエージェントはヒューリスティックベースラインと同等の性能を示す。 さらに, 従来の手法と比較して, DRL剤の騒音に対する堅牢性は高いことが示唆された。 全体として、DRLエージェントはこの種のスケジューリング問題に対して貴重なアプローチであることがわかった。

We investigate the feasibility of deploying Deep-Q based deep reinforcement learning agents to job-shop scheduling problems in the context of modular production facilities, using discrete event simulations for the environment. These environments are comprised of a source and sink for the parts to be processed, as well as (several) workstations. The agents are trained to schedule automated guided vehicles to transport the parts back and forth between those stations in an optimal fashion. Starting from a very simplistic setup, we increase the complexity of the environment and compare the agents' performances with well established heuristic approaches, such as first-in-first-out based agents, cost tables and a nearest-neighbor approach. We furthermore seek particular configurations of the environments in which the heuristic approaches struggle, to investigate to what degree the Deep-Q agents are affected by these challenges. We find that Deep-Q based agents show comparable performance as the heuristic baselines. Furthermore, our findings suggest that the DRL agents exhibit an increased robustness to noise, as compared to the conventional approaches. Overall, we find that DRL agents constitute a valuable approach for this type of scheduling problems.
翻訳日:2022-05-09 12:41:05 公開日:2022-05-06
# 日次phq-2抑うつ予測と予測のためのジャーナリングデータ

Journaling Data for Daily PHQ-2 Depression Prediction and Forecasting ( http://arxiv.org/abs/2205.03391v1 )

ライセンス: Link先を確認
Alexander Kathan, Andreas Triantafyllopoulos, Xiangheng He, Manuel Milling, Tianhao Yan, Srividya Tirunellai Rajamani, Ludwig K\"uster, Mathias Harrer, Elena Heber, Inga Grossmann, David D. Ebert, Bj\"orn W. Schuller(参考訳) デジタルヘルスの応用は、うつ病などの精神疾患に苦しむ人々の健康を評価・監視するためにますます重要になっている。 本研究の目的は,うつ病患者の症状の重症度を示すセルフアセスメントされた患者・健康調査(PHQ)の結果を予測することである。 本研究では,新たに収集した時系列データセットを用いて,アクティブに収集したデータを用いて,毎日のPHQ-2スコアを予測・予測する可能性を検討する。 本研究では, PHQ-2 スコアの日次予測に 1.417 の MAE が最適であり, 使用するデータセットは 0 から 12 の範囲で, 残差1 サブジェクトアウトのクロスバリデーション, および過去7 日間のデータを用いた PHQ-2 スコアの予測には 1.914 の MAE が最適である。 これは、うつ病モニタリングアプリケーションにアクティブに収集されたデータを組み込むことで得られる付加価値を示す。

Digital health applications are becoming increasingly important for assessing and monitoring the wellbeing of people suffering from mental health conditions like depression. A common target of said applications is to predict the results of self-assessed Patient-Health-Questionnaires (PHQ), indicating current symptom severity of depressive individuals. In this work, we explore the potential of using actively-collected data to predict and forecast daily PHQ-2 scores on a newly-collected longitudinal dataset. We obtain a best MAE of 1.417 for daily prediction of PHQ-2 scores, which specifically in the used dataset have a range of 0 to 12, using leave-one-subject-out cross-validation, as well as a best MAE of 1.914 for forecasting PHQ-2 scores using data from up to the last 7 days. This illustrates the additive value that can be obtained by incorporating actively-collected data in a depression monitoring application.
翻訳日:2022-05-09 12:40:45 公開日:2022-05-06
# 非凸オーバーラップ核ノルム正規化による低ランクテンソル学習

Low-rank Tensor Learning with Nonconvex Overlapped Nuclear Norm Regularization ( http://arxiv.org/abs/2205.03059v1 )

ライセンス: Link先を確認
Quanming Yao and Yaqing Wang and Bo Han and James Kwok(参考訳) 非凸正則化は低ランク行列学習に広く用いられている。 しかし、低ランクテンソル学習への拡張は依然として計算コストが高い。 この問題に対処するため,重なり合う核ノルム正規化器の非凸拡張を用いた効率的な解法を開発した。 近位平均アルゴリズムに基づいて、提案アルゴリズムは高価なテンソル折り畳み/折り畳み操作を回避できる。 特別な「スパースプラスローランク」構造はイテレーションを通して維持され、個々の近位ステップの高速な計算を可能にする。 経験的収束は適応運動量を用いてさらに改善される。 我々は、滑らかな損失に対する臨界点およびクルディカ-{\L}ojasiewicz条件を満たす目的に対する収束保証を提供する。 最適化問題は非凸かつ非滑らかであるが、その臨界点はテンソル完備化問題に対して良い統計性能を有することを示す。 様々な合成および実世界のデータセットの実験により、提案アルゴリズムは時間と空間の両方で効率的であり、既存の最先端技術よりも正確であることが示された。

Nonconvex regularization has been popularly used in low-rank matrix learning. However, extending it for low-rank tensor learning is still computationally expensive. To address this problem, we develop an efficient solver for use with a nonconvex extension of the overlapped nuclear norm regularizer. Based on the proximal average algorithm, the proposed algorithm can avoid expensive tensor folding/unfolding operations. A special "sparse plus low-rank" structure is maintained throughout the iterations, and allows fast computation of the individual proximal steps. Empirical convergence is further improved with the use of adaptive momentum. We provide convergence guarantees to critical points on smooth losses and also on objectives satisfying the Kurdyka-{\L}ojasiewicz condition. While the optimization problem is nonconvex and nonsmooth, we show that its critical points still have good statistical performance on the tensor completion problem. Experiments on various synthetic and real-world data sets show that the proposed algorithm is efficient in both time and space and more accurate than the existing state-of-the-art.
翻訳日:2022-05-09 12:40:25 公開日:2022-05-06
# 行列スケッチによるニューラルネットワークの予測間隔のスケーラブルな計算

Scalable computation of prediction intervals for neural networks via matrix sketching ( http://arxiv.org/abs/2205.03194v1 )

ライセンス: Link先を確認
Alexander Fishkov and Maxim Panov(参考訳) 現代のニューラルネットワークの予測の不確実性を考慮することは、多くの領域において困難で重要な課題である。 既存の不確実性推定アルゴリズムでは、モデルアーキテクチャとトレーニング手順(例えばベイズニューラルネットワーク)を変更するか、アンサンブルに基づくアプローチのような予測の計算コストを劇的に高める必要がある。 本研究では,与えられたニューラルネットワークに適用し,近似予測間隔を生成する新しいアルゴリズムを提案する。 この手法は統計学における古典デルタ法に基づくが,行列スケッチを用いてヤコビ行列を近似することにより計算効率を向上する。 得られたアルゴリズムは、UCIリポジトリから様々な回帰データセットの予測間隔を構築するための最先端のアプローチと競合する。

Accounting for the uncertainty in the predictions of modern neural networks is a challenging and important task in many domains. Existing algorithms for uncertainty estimation require modifying the model architecture and training procedure (e.g., Bayesian neural networks) or dramatically increase the computational cost of predictions such as approaches based on ensembling. This work proposes a new algorithm that can be applied to a given trained neural network and produces approximate prediction intervals. The method is based on the classical delta method in statistics but achieves computational efficiency by using matrix sketching to approximate the Jacobian matrix. The resulting algorithm is competitive with state-of-the-art approaches for constructing predictive intervals on various regression datasets from the UCI repository.
翻訳日:2022-05-09 12:40:10 公開日:2022-05-06
# (参考訳) 脊椎mriからの効率的な知識抽出におけるマルチタスク学習の有効性について

Explaining the Effectiveness of Multi-Task Learning for Efficient Knowledge Extraction from Spine MRI Reports ( http://arxiv.org/abs/2205.02979v1 )

ライセンス: CC BY 4.0
Arijit Sehanobish, McCullen Sandora, Nabila Abraham, Jayashri Pawar, Danielle Torres, Anasuya Das, Murray Becker, Richard Herzog, Benjamin Odry, Ron Vianu(参考訳) ドメイン固有コーパスを微調整した事前学習型トランスフォーマーモデルにより,NLPの景観が変化した。 しかしながら、個々のタスクに対してこれらのモデルをトレーニングしたり微調整したりすることは、時間とリソースを集中的に消費する可能性がある。 したがって、近年の研究の多くは、マルチタスク学習のためのトランスフォーマー(Raffel et al., 2020)と、タスク間で共有可能な効率的な表現の学習を支援するためにタスクをグループ化する方法について焦点を当てている(Standley et al., 2020; Fifty et al., 2021)。 本研究では,タスク固有モデルが隠れたレイヤ全体にわたって類似した表現を示し,その勾配が一致している場合,すなわち,その勾配が同じ方向に従う場合,単一のマルチタスクモデルがタスク固有モデルの性能に適合することを示す。 我々は、上記の観察がマルチタスク学習の有効性を説明すると仮定する。 内科放射線科医による頚椎・腰椎の注記データセットの観察を検証した。 本手法は単純かつ直感的であり,幅広いNLP問題に適用可能である。

Pretrained Transformer based models finetuned on domain specific corpora have changed the landscape of NLP. However, training or fine-tuning these models for individual tasks can be time consuming and resource intensive. Thus, a lot of current research is focused on using transformers for multi-task learning (Raffel et al.,2020) and how to group the tasks to help a multi-task model to learn effective representations that can be shared across tasks (Standley et al., 2020; Fifty et al., 2021). In this work, we show that a single multi-tasking model can match the performance of task specific models when the task specific models show similar representations across all of their hidden layers and their gradients are aligned, i.e. their gradients follow the same direction. We hypothesize that the above observations explain the effectiveness of multi-task learning. We validate our observations on our internal radiologist-annotated datasets on the cervical and lumbar spine. Our method is simple and intuitive, and can be used in a wide range of NLP problems.
翻訳日:2022-05-09 12:38:38 公開日:2022-05-06
# Emp-RFT: 発話間の特徴遷移認識による共感応答生成

Emp-RFT: Empathetic Response Generation via Recognizing Feature Transitions between Utterances ( http://arxiv.org/abs/2205.03112v1 )

ライセンス: Link先を確認
Wongyu Kim, Youbin Ahn, Donghyun Kim, and Kyong-Ho Lee(参考訳) マルチターン共感対話における発話には、感情、キーワード、発話レベルの意味といった特徴がある。 発話間の特徴遷移は自然に起こる。 しかし、既存のアプローチでは、粗い粒度のコンテキストの特徴を抽出するため、遷移を認識できない。 そこで本研究では,発話間の特徴遷移を認識し,対話の流れを理解し,注意を要する発話の特徴をより把握するための新しいアプローチを提案する。 また、反応を生成する際に適切な特徴に関連する感情やキーワードにフォーカスする応答生成戦略を導入する。 実験の結果,本手法はベースラインよりも優れており,特にマルチターン対話において顕著な改善が得られた。

Each utterance in multi-turn empathetic dialogues has features such as emotion, keywords, and utterance-level meaning. Feature transitions between utterances occur naturally. However, existing approaches fail to perceive the transitions because they extract features for the context at the coarse-grained level. To solve the above issue, we propose a novel approach of recognizing feature transitions between utterances, which helps understand the dialogue flow and better grasp the features of utterance that needs attention. Also, we introduce a response generation strategy to help focus on emotion and keywords related to appropriate features when generating responses. Experimental results show that our approach outperforms baselines and especially, achieves significant improvements on multi-turn dialogues.
翻訳日:2022-05-09 12:20:12 公開日:2022-05-06
# KECP:簡単な抽出質問応答のための知識強化コントラストプロンプト

KECP: Knowledge Enhanced Contrastive Prompting for Few-shot Extractive Question Answering ( http://arxiv.org/abs/2205.03071v1 )

ライセンス: Link先を確認
Jianing Wang, Chengyu Wang, Minghui Qiu, Qiuhui Shi, Hongbin Wang, Jun Huang, Ming Gao(参考訳) 抽出質問回答(英: Extractive Question Answering, EQA)は、機械読解理解(MRC)において最も重要なタスクの一つであり、事前学習言語モデル(PLM)のスパン選択ヘッドを微調整することで解決できる。 しかし、既存のMSCのアプローチのほとんどは、数ショットの学習シナリオでは不十分である。 そこで我々は,KECP(Knowledge Enhanced Contrastive Prompt-tuning)という新しいフレームワークを提案する。 PLMにポインタヘッドを追加する代わりに、タスクを非自己回帰型マスケッド言語モデリング(MLM)生成問題に変換するEQAのセミナルパラダイムを導入する。 同時に、外部知識ベース(kb)とパッセーションコンテキストからのリッチセマンティクスは、クエリの表現の強化をサポートする。 さらに, PLMの性能を高めるために, MLMと対照的な学習目標を用いてモデルを共同で訓練する。 複数のベンチマーク実験により,本手法は,数ショット設定における最先端のアプローチを大きなマージンで一貫して上回ることを示した。

Extractive Question Answering (EQA) is one of the most important tasks in Machine Reading Comprehension (MRC), which can be solved by fine-tuning the span selecting heads of Pre-trained Language Models (PLMs). However, most existing approaches for MRC may perform poorly in the few-shot learning scenario. To solve this issue, we propose a novel framework named Knowledge Enhanced Contrastive Prompt-tuning (KECP). Instead of adding pointer heads to PLMs, we introduce a seminal paradigm for EQA that transform the task into a non-autoregressive Masked Language Modeling (MLM) generation problem. Simultaneously, rich semantics from the external knowledge base (KB) and the passage context are support for enhancing the representations of the query. In addition, to boost the performance of PLMs, we jointly train the model by the MLM and contrastive learning objectives. Experiments on multiple benchmarks demonstrate that our method consistently outperforms state-of-the-art approaches in few-shot settings by a large margin.
翻訳日:2022-05-09 12:19:19 公開日:2022-05-06
# 深い文脈的埋め込みモデルに基づくアラビア語偽ニュース検出

Arabic Fake News Detection Based on Deep Contextualized Embedding Models ( http://arxiv.org/abs/2205.03114v1 )

ライセンス: Link先を確認
Ali Bou Nassif, Ashraf Elnagar, Omar Elgendy, Yaman Afadar(参考訳) ソーシャルメディアは、使いやすさと使いやすさから、多くの人々にとってニュースの源になりつつある。 その結果、フェイクニュースは、その信頼性に関係なく、特に過去10年間に急速に、そして容易に広まっている。 フェイクニュース出版社は、新型コロナウイルスのパンデミックやアメリカ大統領選挙のような重要な状況を利用して、社会に悪影響を及ぼす。 フェイクニュースは政治、金融、スポーツなど多くの分野で社会に深刻な影響を与える可能性がある。 英語で偽ニュースを検出するために多くの研究が行われているが、アラビア語で偽ニュースを検出する研究は少ない。 まず、大きくて多様なアラビア語の偽ニュースデータセットを構築しました。 第2に,現在最先端のアラビア語組込みモデルを用いて,偽ニュースを識別するトランスフォーマーベースの分類器を開発し,評価した。 これらのモデルは、以前はアラビア語の偽ニュース検出に使われていなかった。 我々は,最新のアラビア語文脈化埋め込みモデルの徹底的な分析を行い,同様の偽ニュース検出システムとの比較を行った。 実験の結果、これらの最先端モデルは98%以上の精度で堅牢であることが確認された。

Social media is becoming a source of news for many people due to its ease and freedom of use. As a result, fake news has been spreading quickly and easily regardless of its credibility, especially in the last decade. Fake news publishers take advantage of critical situations such as the Covid-19 pandemic and the American presidential elections to affect societies negatively. Fake news can seriously impact society in many fields including politics, finance, sports, etc. Many studies have been conducted to help detect fake news in English, but research conducted on fake news detection in the Arabic language is scarce. Our contribution is twofold: first, we have constructed a large and diverse Arabic fake news dataset. Second, we have developed and evaluated transformer-based classifiers to identify fake news while utilizing eight state-of-the-art Arabic contextualized embedding models. The majority of these models had not been previously used for Arabic fake news detection. We conduct a thorough analysis of the state-of-the-art Arabic contextualized embedding models as well as comparison with similar fake news detection systems. Experimental results confirm that these state-of-the-art models are robust, with accuracy exceeding 98%.
翻訳日:2022-05-09 12:18:57 公開日:2022-05-06
# 適応体積形状表現学習のための2つのオクターグラフネットワーク

Dual Octree Graph Networks for Learning Adaptive Volumetric Shape Representations ( http://arxiv.org/abs/2205.02825v2 )

ライセンス: Link先を確認
Peng-Shuai Wang, Yang Liu, Xin Tong(参考訳) 本稿では,3次元形状の体積場の適応的深部表現と,この深部表現を学習するための効率的な手法を提案する。 本手法では,octree によって整理された適応的特徴量を用いて3次元形状の体積場を符号化し,各3次元位置のフィールド値に特徴をマッピングするコンパクト多層パーセプトロンネットワークを適用する。 エンコーダ-デコーダネットワークは、octreeノードの双対グラフ上のグラフ畳み込みに基づいて適応的特徴量を学ぶように設計されている。 ネットワークのコアとなるのは,隣接する不規則なオクツリーノードから異なるレベルで融合した機能グリッド上に定義された新しいグラフ畳み込み演算子であり,不規則なオクツリーノード上の畳み込みの計算とメモリコストを削減するだけでなく,特徴学習の性能も向上する。 本手法は,形状の詳細を効果的にエンコードし,高速3次元形状再構成を可能にし,トレーニングカテゴリから3次元形状をモデル化するための汎用性を示す。 本手法は,3次元形状とシーンの再構成作業で評価し,他の既存手法よりもその優越性を検証する。 私たちのコード、データ、およびトレーニングされたモデルは、https://wang-ps.github.io/dualocnnで利用可能です。

We present an adaptive deep representation of volumetric fields of 3D shapes and an efficient approach to learn this deep representation for high-quality 3D shape reconstruction and auto-encoding. Our method encodes the volumetric field of a 3D shape with an adaptive feature volume organized by an octree and applies a compact multilayer perceptron network for mapping the features to the field value at each 3D position. An encoder-decoder network is designed to learn the adaptive feature volume based on the graph convolutions over the dual graph of octree nodes. The core of our network is a new graph convolution operator defined over a regular grid of features fused from irregular neighboring octree nodes at different levels, which not only reduces the computational and memory cost of the convolutions over irregular neighboring octree nodes, but also improves the performance of feature learning. Our method effectively encodes shape details, enables fast 3D shape reconstruction, and exhibits good generality for modeling 3D shapes out of training categories. We evaluate our method on a set of reconstruction tasks of 3D shapes and scenes and validate its superiority over other existing approaches. Our code, data, and trained models are available at https://wang-ps.github.io/dualocnn.
翻訳日:2022-05-09 10:42:26 公開日:2022-05-06
# 医療用ノートソフトのユーザ主導研究

User-Driven Research of Medical Note Generation Software ( http://arxiv.org/abs/2205.02549v2 )

ライセンス: Link先を確認
Tom Knoll, Francesco Moramarco, Alex Papadopoulos Korfiatis, Rachel Young, Claudia Ruffini, Mark Perera, Christian Perstl, Ehud Reiter, Anya Belz, Aleksandar Savkov(参考訳) 増大する作業は、自然言語処理(nlp)メソッドを使用して、医師・患者の診察の音声記録から医療ノートを自動的に生成する。 しかし、そのようなシステムを臨床でどのように使うか、臨床医がどのように使うか、システム設計がどのように影響されるべきか、といった研究はほとんどない。 本稿では,医療用ノート生成システムの開発において実施した3ラウンドのユーザスタディについて述べる。 本報告では, 臨床医の印象と, システムに価値あるものに適合させるべきかを考察し, 分析し, 考察する。 次に,実地遠隔医療における3週間のテスト走行について述べる。 主な発見は (i)五つの異なる注記行動の出現 (ii)相談中にリアルタイムにノートを生成するシステムの重要性 (iii)自動音符生成システムにとって困難である可能性がある多くの臨床用症例の同定。

A growing body of work uses Natural Language Processing (NLP) methods to automatically generate medical notes from audio recordings of doctor-patient consultations. However, there are very few studies on how such systems could be used in clinical practice, how clinicians would adjust to using them, or how system design should be influenced by such considerations. In this paper, we present three rounds of user studies, carried out in the context of developing a medical note generation system. We present, analyse and discuss the participating clinicians' impressions and views of how the system ought to be adapted to be of value to them. Next, we describe a three-week test run of the system in a live telehealth clinical practice. Major findings include (i) the emergence of five different note-taking behaviours; (ii) the importance of the system generating notes in real time during the consultation; and (iii) the identification of a number of clinical use cases that could prove challenging for automatic note generation systems.
翻訳日:2022-05-09 10:41:49 公開日:2022-05-06
# オープンドメイン用語知識の領域ベースマージ

Region-Based Merging of Open-Domain Terminological Knowledge ( http://arxiv.org/abs/2205.02660v2 )

ライセンス: Link先を確認
Zied Bouraoui, Sebastien Konieczny, Thanh Ma, Nicolas Schwind, Ivan Varzinczak(参考訳) 本稿では,オープンドメインの用語知識を融合する新しい手法を提案する。 これは、位相空間内の領域を表現し、それらの集合論的な関係を推論するために使われる形式主義である領域接続計算(RCC5)を利用する。 この目的のために,我々はまず,複数の相反する可能性のある情報源から提供される用語学知識を忠実に領域空間に翻訳することを提案する。 マージはこれらの空間上で実行され、その結果は入力元の基礎となる言語に変換される。 我々のアプローチは、矛盾する知識を原則的に扱いながら、RCC5の表現性と柔軟性の恩恵を受けることができます。

This paper introduces a novel method for merging open-domain terminological knowledge. It takes advantage of the Region Connection Calculus (RCC5), a formalism used to represent regions in a topological space and to reason about their set-theoretic relationships. To this end, we first propose a faithful translation of terminological knowledge provided by several and potentially conflicting sources into region spaces. The merging is then performed on these spaces, and the result is translated back into the underlying language of the input sources. Our approach allows us to benefit from the expressivity and the flexibility of RCC5 while dealing with conflicting knowledge in a principled way.
翻訳日:2022-05-09 10:41:36 公開日:2022-05-06
# 自律走行車における軌道予測のための神経進化多目的アプローチ

Neuroevolutionary Multi-objective approaches to Trajectory Prediction in Autonomous Vehicles ( http://arxiv.org/abs/2205.02105v3 )

ライセンス: Link先を確認
Fergal Stapleton, Edgar Galv\'an, Ganesh Sistu and Senthil Yogamani(参考訳) 神経進化と呼ばれるプロセスであるディープニューラルネットワーク(dnn)の自動最適化とトレーニングに進化アルゴリズム(eas)を使用するインセンティブは、近年勢いを増している。 これらのネットワークの構成とトレーニングは最適化問題として考えられる。 実際、神経進化に関する最近の研究の多くは、単目的最適化に重点を置いている。 さらに、神経進化と進化的多目的最適化(EMO)の交差点で実施された小さな研究から、これまで実施されてきたすべての研究は、MNISTのような確立された標準ベンチマーク問題を使用して、1種類のDNN(畳み込みニューラルネットワーク)の使用に主に焦点を合わせてきた。 本研究では,CNNとLong-Short Term MemoryネットワークからなるリッチDNNを用いて,これら2つの領域(神経進化とEMO)の理解を飛躍的に進める。 さらに,ロバストで挑戦的な車両軌道予測問題を用いる。 既知の非支配的ソート遺伝アルゴリズムiiを用いて,3つのカテゴリでテストされた5つの異なる目的の効果について検討し,これらの目的が自律走行車における軌道予測に対する神経進化における肯定的あるいは有害な効果を示す。

The incentive for using Evolutionary Algorithms (EAs) for the automated optimization and training of deep neural networks (DNNs), a process referred to as neuroevolution, has gained momentum in recent years. The configuration and training of these networks can be posed as optimization problems. Indeed, most of the recent works on neuroevolution have focused their attention on single-objective optimization. Moreover, from the little research that has been done at the intersection of neuroevolution and evolutionary multi-objective optimization (EMO), all the research that has been carried out has focused predominantly on the use of one type of DNN: convolutional neural networks (CNNs), using well-established standard benchmark problems such as MNIST. In this work, we make a leap in the understanding of these two areas (neuroevolution and EMO), regarded in this work as neuroevolutionary multi-objective, by using and studying a rich DNN composed of a CNN and Long-short Term Memory network. Moreover, we use a robust and challenging vehicle trajectory prediction problem. By using the well-known Non-dominated Sorting Genetic Algorithm-II, we study the effects of five different objectives, tested in categories of three, allowing us to show how these objectives have either a positive or detrimental effect in neuroevolution for trajectory prediction in autonomous vehicles.
翻訳日:2022-05-09 10:41:27 公開日:2022-05-06