このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220810となっている論文です。

PDF登録状況(公開日: 20220810)

TitleAuthorsAbstract論文公表日・翻訳日
# 相補関係からの絡み合いモノトン

Entanglement Monotones from Complementarity Relations ( http://arxiv.org/abs/2012.14471v4 )

ライセンス: Link先を確認
Marcos L. W. Basso and Jonas Maziero(参考訳) ボーアの相補性とシュル=オディンガーの絡み合いは量子系の2つの顕著な物理的性質である。 この手紙では、正式にそれらを接続します。 波動粒子双対性に対する相補性関係は、純粋な一量子量子状態に対してのみ飽和することが知られている。 混合状態の場合、波動粒子量化器は相補関係を飽和せず、最大混合状態に対してゼロに達する。 量子論を十分に特徴づけるためには、波動粒子の側面を考えるだけでは十分ではなく、他のシステムとの量子相関も考慮する必要がある。 ここでは,文献で確立された基準を満たす予測可能性と可視性指標を含む完全相補性関係について,これらの量子相関が絡み合う単調であることを示す。

Bohr's complementarity and Schr\"odinger's entanglement are two prominent physical characters of quantum systems. In this letter, we formally connect them. It is known that complementarity relations for wave-particle duality are saturated only for pure, single-quanton, quantum states. For mixed states, the wave-particle quantifiers never saturate a complementarity relation and can even reach zero for a maximally mixed state. To fully characterize a quanton, it is not enough to consider its wave-particle aspect; we have also to regard its quantum correlations with other systems. Here we prove that for any complete complementarity relation involving predictability and visibility measures that satisfy the criteria established in the literature, these corresponding quantum correlations are entanglement monotones.
翻訳日:2023-04-19 01:41:05 公開日:2022-08-10
# 単一電子二重量子ドットの動作レジームの最適制御

Optimal Control of the Operating Regime of a Single Electron Double Quantum Dot ( http://arxiv.org/abs/2104.13571v4 )

ライセンス: Link先を確認
Vincent Reiher and Yves B\'erub\'e-Lauzi\`ere(参考訳) double quantum dotデバイスは、スピンと電荷の量子ビットの両方の利点を享受すると同時に、その欠点を軽減できる。 注意深いゲート電圧変調は、デバイスにスピンライクまたはチャージライクなダイナミクスを与えることができ、電子的に駆動されたスピン回転やマイクロ波光子とのコヒーレント相互作用のために、前者の電気感受性と長いコヒーレンス時間をもたらす。 グラディエント・アセンセント・パルス・エンジニアリング(GRAPE)アルゴリズムを用いて発生する最適制御パルスは,線形手法で達成できるよりも高忠実な動作状態遷移が得られることを示す。

The double quantum dot device benefits from the advantages of both the spin and charge qubits, while offering ways to mitigate their drawbacks. Careful gate voltage modulation can grant greater spinlike or chargelike dynamics to the device, yielding long coherence times with the former and high electrical susceptibility with the latter for electrically driven spin rotations or coherent interactions with microwave photons. We show that optimal control pulses generated using the GRadient Ascent Pulse Engineering (GRAPE) algorithm can yield higher-fidelity operating regime transfers than can be achieved using linear methods.
翻訳日:2023-04-02 04:44:47 公開日:2022-08-10
# 非局所性による量子回路の等価性チェック

Equivalence checking of quantum circuits by nonlocality ( http://arxiv.org/abs/2105.02634v2 )

ライセンス: Link先を確認
Weixiao Sun and Zhaohui Wei(参考訳) 2つの量子回路チップが異なる位置にあると仮定し、そこでは事前の知識がなく、内部構造も見ることができないと仮定する。 もしそれらが同じ機能を持っているかどうかを確実に知りたいなら、どうすればいいのか? 本稿では,この現実的な問題を量子非局所性の観点から完全に解くことができることを示す。 具体的には、2つの量子回路が互いに等価である場合に限り、最も強い非局所性が観測できる量子非局所性を調べるエレガントなプロトコルを設計する。 このプロトコルは,2つの量子回路間の距離を,解析的に観測された量子非局所性によって正確に計算できることを示す。 さらに,提案プロトコルの計算コストは,比較量子回路のサイズに依存しないことが判明した。 最後に、複数の量子回路の等価性チェックを行う場合、この問題を1回で解決しようと試みるなど、多部ケースに対するプロトコルの一般化の可能性についても論じる。

Suppose two quantum circuit chips are located at different places, for which we do not have any prior knowledge, and cannot see the internal structures either. If we want to find out whether they have the same functions or not with certainty, what should we do? In this paper, we show that this realistic problem can be solved completely from the viewpoints of quantum nonlocality. Specifically, we design an elegant protocol that examines underlying quantum nonlocality, where the strongest nonlocality can be observed if and only if two quantum circuits are equivalent to each other. We show that the protocol also works approximately, where the distance between two quantum circuits can be calculated accurately by observed quantum nonlocality in an analytical manner. Furthermore, it turns out that the computational cost of our protocol is independent in the size of compared quantum circuits. Lastly, we also discuss the possibility to generalize the protocol to multipartite cases, i.e., if we do equivalence checking for multiple quantum circuits, we try to solve the problem in one go.
翻訳日:2023-04-01 07:59:04 公開日:2022-08-10
# 量子位置検証の実用化に向けて

Towards practical and error-robust quantum position verification ( http://arxiv.org/abs/2106.12911v2 )

ライセンス: Link先を確認
Rene Allerstorfer, Harry Buhrman, Florian Speelman and Philip Verduyn Lunel(参考訳) 入力の喪失は、量子位置検証(QPV)プロトコルのセキュリティを損なう可能性がある。 本研究では,textit{loss-tolerant} QPVプロトコルについて検討する。 我々は、スワップテストに基づいて、いくつかの望ましい特性を持つ新しい完全損失耐性プロトコルqpv$_{\textsf{swap}}$を提案する。 1つのビームスプリッタと2つの検出器だけで実装できるプロトコルのタスクは、2つの入力状態間の重なりを推定することである。 半定値プログラム (sdp) として可能な攻撃を定式化することにより, 局所的操作や古典的通信に限定された非絡み合った攻撃者に対する完全な損失耐性を証明し, ラウンドの並列反復により攻撃確率が指数関数的に減少することを示す。 攻撃者が量子通信を許可されてもプロトコルは安全であり、この特性を持つ最初の完全損失耐性プロトコルであることを示す。 実験条件下での詳細な解析を行い、QPV$_{\textsf{SWAP}}$が機器エラーに対してかなり堅牢であることを示した。 我々は、エラーによるセキュリティに必要な条件を特定し、現在現実的な実験パラメータでプロトコルの1つのインスタンスをシミュレートし、攻撃成功確率$\leq10^{-6}$が数百の決定的なプロトコルラウンドを集めることで達成可能であることを確認した。

Loss of inputs can be detrimental to the security of quantum position verification (QPV) protocols, as it may allow attackers to not answer on all played rounds, but only on those they perform well on. In this work, we study \textit{loss-tolerant} QPV protocols. We propose a new fully loss-tolerant protocol QPV$_{\textsf{SWAP}}$, based on the SWAP test, with several desirable properties. The task of the protocol, which could be implemented using only a single beam splitter and two detectors, is to estimate the overlap between two input states. By formulating possible attacks as a semi-definite program (SDP), we prove full loss tolerance against unentangled attackers restricted to local operations and classical communication, and show that the attack probability decays exponentially under parallel repetition of rounds. We show that the protocol remains secure even if unentangled attackers are allowed to quantum communicate, making our protocol the first fully loss-tolerant protocol with this property. A detailed analysis under experimental conditions is conducted, showing that QPV$_{\textsf{SWAP}}$ remains fairly robust against equipment errors. We identify a necessary condition for security with errors and simulate one instance of our protocol with currently realistic experimental parameters, gathering that an attack success probability of $\leq10^{-6}$ can be achieved by collecting just a few hundred conclusive protocol rounds.
翻訳日:2023-03-25 16:21:14 公開日:2022-08-10
# 開放系における相関減衰とマルコビアン性

Correlation decay and Markovianity in open systems ( http://arxiv.org/abs/2107.02515v2 )

ライセンス: Link先を確認
Marco Merkli(参考訳) 有限量子系sは、熱的ボソニック貯水池rに結合され、初期sr状態は、大きなクラスから取られた量子演算を非結合平衡状態に適用することにより、関連付けられる可能性がある。 系-保存力学はマルコフ項と相関項で与えられ、結合定数 $\lambda$ の残りの小ささは、すべての時間に対して一様に$t\ge 0$ である。 相関項は多項式時間で、$\lambda$ に依存しない速度で崩壊する。 その後、マルコフ項が支配的になり、系はデイヴィス生成器によって生成された完全正のトレース保存半群に従って発展し、貯水池は平衡状態のままである。 これは (a)最初のSR相関が崩壊した後、SRダイナミクスはボルンとマルコフの近似が有効である状態に入る。 (b)還元系ダイナミクスは、相関したsr初期状態であっても、常にマルコフ的である。

A finite quantum system S is coupled to a thermal, bosonic reservoir R. Initial SR states are possibly correlated, obtained by applying a quantum operation taken from a large class, to the uncoupled equilibrium state. We show that the full system-reservoir dynamics is given by a markovian term plus a correlation term, plus a remainder small in the coupling constant $\lambda$ uniformly for all times $t\ge 0$. The correlation term decays polynomially in time, at a speed independent of $\lambda$. After this, the markovian term becomes dominant, where the system evolves according to the completely positive, trace-preserving semigroup generated by the Davies generator, while the reservoir stays stationary in equilibrium. This shows that (a) after initial SR correlations decay, the SR dynamics enters a regime where both the Born and Markov approximations are valid, and (b) the reduced system dynamics is markovian for all times, even for correlated SR initial states.
翻訳日:2023-03-23 06:49:36 公開日:2022-08-10
# 超電導回路におけるフローケット工学による演算子展開

Probing Operator Spreading via Floquet Engineering in a Superconducting Circuit ( http://arxiv.org/abs/2108.01276v2 )

ライセンス: Link先を確認
S. K. Zhao, Zi-Yong Ge, Zhongcheng Xiang, G. M. Xue, H. S. Yan, Z. T. Wang, Zhan Wang, H. K. Xu, F. F. Su, Z. H. Yang, He Zhang, Yu-Ran Zhang, Xue-Yi Guo, Kai Xu, Ye Tian, H. F. Yu, D. N. Zheng, Heng Fan, and S. P. Zhao(参考訳) 演算子拡散は、しばしば時間外相関器(OTOC)によって特徴づけられる、量子多体物理学における中心的な概念の1つである。 しかしながら、システムの時間発展を反転させる必要性から、オトクの測定は実験的に困難である。 ここでは、超伝導10量子ビットチェーンにおける演算子拡散を調べるためにフロケット工学を適用する。 フロケット工学は、近くの量子ビット間の結合強度を調整する効果的な方法を提供し、量子ウォークを調整可能なカップリング、逆時間進化、OTOCの測定で示すために使われる。 複数の励起で透明な光円錐状作用素の伝播が観測され、単一粒子量子ウォークとほぼ等しい速度を持つ。 ジョルダン・ウィグナー変換の下で非局所(局所)なバタフライ作用素に対して、OTOCは、近可積分系でスクランブルする情報のシグネチャなしでは)異なる振る舞いを示す。

Operator spreading, often characterized by out-of-time-order correlators (OTOCs), is one of the central concepts in quantum many-body physics. However, measuring OTOCs is experimentally challenging due to the requirement of reversing the time evolution of systems. Here we apply Floquet engineering to investigate operator spreading in a superconducting 10-qubit chain. Floquet engineering provides an effective way to tune the coupling strength between nearby qubits, which is used to demonstrate quantum walks with tunable couplings, reversed time evolution, and the measurement of OTOCs. A clear light-cone-like operator propagation is observed in the system with multiple excitations, and has a nearly equal velocity as the single-particle quantum walk. For the butterfly operator that is nonlocal (local) under the Jordan-Wigner transformation, the OTOCs show distinct behaviors with (without) a signature of information scrambling in the near integrable system.
翻訳日:2023-03-20 01:02:56 公開日:2022-08-10
# マルコフ雑音下での適応量子力学の新しい境界

New bounds on adaptive quantum metrology under Markovian noise ( http://arxiv.org/abs/2108.11390v3 )

ライセンス: Link先を確認
Kianna Wan and Robert Lasenby(参考訳) マルコフ雑音を受ける量子系のハミルトニアンを制御するスカラーパラメータ$g$を推定する問題を解析する。 具体的には、リンドブラッド作用素とハミルトニアンの$H$の$g$デリバティブの観点から、$g$に対する量子フィッシャー情報の成長率に上限を置く。 我々の新しい境界は、文献のそれよりも一般的に適用される(例えば、時間依存ハミルトニアンやリンドブラッド作用素を持つ系や振動子のような無限次元の系にも適用される)だけでなく、以前の境界が適用される設定においてもより厳密である。 我々は系を記述する確率的マスター方程式から直接境界を導出し、その時間進化を識別する必要がない。 また, 時間依存性の異なる信号に対して, 単一検出システムがどの程度敏感であるかについても検討した。 感度帯域幅が$\partial H/\partial g$の量子揺らぎと関係していることを示し,「古典的でない」状態が,ピーク感度を上昇できない場合でも,システムに敏感な信号の範囲を拡大できることを示す。

We analyse the problem of estimating a scalar parameter $g$ that controls the Hamiltonian of a quantum system subject to Markovian noise. Specifically, we place bounds on the growth rate of the quantum Fisher information with respect to $g$, in terms of the Lindblad operators and the $g$-derivative of the Hamiltonian $H$. Our new bounds are not only more generally applicable than those in the literature -- for example, they apply to systems with time-dependent Hamiltonians and/or Lindblad operators, and to infinite-dimensional systems such as oscillators -- but are also tighter in the settings where previous bounds do apply. We derive our bounds directly from the stochastic master equation describing the system, without needing to discretise its time evolution. We also use our results to investigate how sensitive a single detection system can be to signals with different time dependences. We demonstrate that the sensitivity bandwidth is related to the quantum fluctuations of $\partial H/\partial g$, illustrating how 'non-classical' states can enhance the range of signals that a system is sensitive to, even when they cannot increase its peak sensitivity.
翻訳日:2023-03-17 05:12:21 公開日:2022-08-10
# フィボナッチ量子ローターにおける準局在ダイナミクス

Quasi-localization dynamics in a Fibonacci quantum rotor ( http://arxiv.org/abs/2109.02265v2 )

ライセンス: Link先を確認
Sourav Bhattacharjee, Souvik Bandyopadhyay, Amit Dutta(参考訳) 本研究では、2つの異なる駆動振幅の2値フィボナッチシーケンスで駆動される量子キックロータ(QKR)のダイナミクスを解析する。 低駆動周波数でのダイナミクスは拡散的であることが判明する一方で、長寿命のエルゴード前の状態がもう一方の限界に現れる。 さらに、この前エルゴード状態のダイナミクスは、通常のQKRで観察される動的局所化と同様に、動的準局在化の開始に関連付けられる。 この特異な挙動は、フィボナッチの瞬間における進化を駆動するおよそ保存された実効ハミルトニアン(英語版)の局所固有状態の存在によって生じる。 しかし、実効ハミルトニアン像は無限に持続せず、最終的には漸近的に長い時間をかけてエルゴードとなる。

We analyze the dynamics of a quantum kicked rotor (QKR) driven with a binary Fibonacci sequence of two distinct drive amplitudes. While the dynamics at low drive frequencies is found to be diffusive, a long-lived pre-ergodic regime emerges in the other limit. Further, the dynamics in this pre-ergodic regime can be associated with the onset of a dynamical quasi-localization, similar to the dynamical localization observed in a regular QKR. We establish that this peculiar behavior arises due to the presence of localized eigenstates of an approximately conserved effective Hamiltonian, which drives the evolution at Fibonacci instants. However, the effective Hamiltonian picture does not persist indefinitely and the dynamics eventually becomes ergodic after asymptotically long times.
翻訳日:2023-03-16 01:09:32 公開日:2022-08-10
# 相互作用画像における量子シミュレーションのハイブリッド化手法

Hybridized Methods for Quantum Simulation in the Interaction Picture ( http://arxiv.org/abs/2109.03308v3 )

ライセンス: Link先を確認
Abhishek Rajput, Alessandro Roggero, Nathan Wiebe(参考訳) 量子シミュレーションの従来の方法には、最適な特定の文脈に適用性を制限するトレードオフがある。 特に、相互作用画像シミュレーションは、いくつかのハミルトン派には相当な漸近的優位性をもたらすことが判明しているが、禁止的な定数因子を生じさせ、量子化のような方法と相容れない。 異なるシミュレーション手法をハイブリダイゼーションし、既知のアルゴリズム上でのインタラクション画像シミュレーションの性能を向上させるフレームワークを提供する。 これらの手法は, 個々の手法に対する漸近的な改善を示し, 近い将来, 相互作用画像シミュレーション手法を実用化する。 これらのハイブリッド化法の物理的応用は、電気カットオフの$\log^2 \Lambda$としてゲート複雑性のスケーリングをもたらし、シュウィンガー模型の$\Lambda$と集合ニュートリノ振動の電子密度とは独立であり、これらのパラメータで全ての現在のアルゴリズムのスケーリングよりも優れている。 力学的な制約を受けるハミルトンシミュレーションの一般的な問題に対して、これらの手法はペナルティパラメータである $\lambda$ に依存しない問合せ複雑性をもたらし、非物理的部分空間への時間発展にエネルギーコストを課す。

Conventional methods of quantum simulation involve trade-offs that limit their applicability to specific contexts where their use is optimal. In particular, the interaction picture simulation has been found to provide substantial asymptotic advantages for some Hamiltonians, but incurs prohibitive constant factors and is incompatible with methods like qubitization. We provide a framework that allows different simulation methods to be hybridized and thereby improve performance for interaction picture simulations over known algorithms. These approaches show asymptotic improvements over the individual methods that comprise them and further make interaction picture simulation methods practical in the near term. Physical applications of these hybridized methods yield a gate complexity scaling as $\log^2 \Lambda$ in the electric cutoff $\Lambda$ for the Schwinger Model and independent of the electron density for collective neutrino oscillations, outperforming the scaling for all current algorithms with these parameters. For the general problem of Hamiltonian simulation subject to dynamical constraints, these methods yield a query complexity independent of the penalty parameter $\lambda$ used to impose an energy cost on time-evolution into an unphysical subspace.
翻訳日:2023-03-15 22:34:10 公開日:2022-08-10
# 正規分散確率変数を用いたチャンス制約最適化問題に対する単目的・多目的進化アルゴリズムの実行時解析

Runtime Analysis of Single- and Multi-Objective Evolutionary Algorithms for Chance Constrained Optimization Problems with Normally Distributed Random Variables ( http://arxiv.org/abs/2109.05799v2 )

ライセンス: Link先を確認
Frank Neumann and Carsten Witt(参考訳) チャンス制約最適化問題により、確率的成分を含む制約が小さな確率でのみ破られるような問題をモデル化することができる。 このシナリオに進化的アルゴリズムを適用し、高品質な結果が得られることを示した。 本稿では,確率制約最適化のための進化アルゴリズムの理論的理解に寄与する。 我々は,独立かつ通常分布する確率的成分のシナリオについて検討する。 単純な単目的 (1+1)~EA を考えると、追加の一様制約を課すことで、非常に制限されたシナリオに対する局所最適化と指数最適化時間が得られる。 したがって、期待されるコストとその分散をトレードオフする問題の多目的定式化を導入する。 この定式化では,多目的進化アルゴリズムが極めて有効であることを示し,制約に課される任意の信頼度に対する最適解を含む解の集合を求める。 さらに, この手法は, 確率制約付き最小スパンディングツリー問題に対する最適解の組の計算にも利用できることを証明した。 多目的定式化における潜在的に指数関数的なトレードオフに対処するために,改良された凸多目的アプローチを提案し,分析する。 NPハード確率的最小重み決定セット問題の事例に関する実験的研究は、実際は多目的と改善された凸多目的アプローチの利点を裏付けるものである。

Chance constrained optimization problems allow to model problems where constraints involving stochastic components should only be violated with a small probability. Evolutionary algorithms have been applied to this scenario and shown to achieve high quality results. With this paper, we contribute to the theoretical understanding of evolutionary algorithms for chance constrained optimization. We study the scenario of stochastic components that are independent and Normally distributed. Considering the simple single-objective (1+1)~EA, we show that imposing an additional uniform constraint already leads to local optima for very restricted scenarios and an exponential optimization time. We therefore introduce a multi-objective formulation of the problem which trades off the expected cost and its variance. We show that multi-objective evolutionary algorithms are highly effective when using this formulation and obtain a set of solutions that contains an optimal solution for any possible confidence level imposed on the constraint. Furthermore, we prove that this approach can also be used to compute a set of optimal solutions for the chance constrained minimum spanning tree problem. In order to deal with potentially exponentially many trade-offs in the multi-objective formulation, we propose and analyze improved convex multi-objective approaches. Experimental investigations on instances of the NP-hard stochastic minimum weight dominating set problem confirm the benefit of the multi-objective and the improved convex multi-objective approach in practice.
翻訳日:2023-03-15 05:29:41 公開日:2022-08-10
# 絡み合い解析のための量子アルゴリズム

Near-term Efficient Quantum Algorithms for Entanglement Analysis ( http://arxiv.org/abs/2109.10785v2 )

ライセンス: Link先を確認
Ranyiliu Chen and Benchi Zhao and Xin Wang(参考訳) 絡み合いは量子物理学において重要な役割を果たし、量子情報処理の鍵となる資源である。 しかし,既存の手法が実用的でないため,絡み合い検出や定量化は困難であると考えられる。 本研究は、この困難に対処するために、ハイブリッド量子古典的手法を利用した3つの短期的効率的なアルゴリズムを提案する。 第一のアルゴリズムは、二成分純粋状態に対する絡み合いの性質と構造を分析する強力なツールであるシュミット分解を見つける。 シュミット分解から対数ネガティビティを計算することができるが、パラメータ化量子回路の幅をさらに小さくする二分極純状態に対する対数ネガティティティを推定する2番目のアルゴリズムを提案する。 最後に、混合状態に対する枠組みを一般化し、仮説に基づく還元基準を本質的に実装する絡み合い検出のための第3のアルゴリズムを導出する。 これら3つのアルゴリズムは、局所パラメータ化量子回路を用いてコスト関数を最大化し、既存の手法と比較してハードウェア効率と実用性を向上することで最適化を行う。 iop cas超伝導量子プロセッサを用いた量子リーフの実験的実装は、近距離量子デバイスにおける絡み合いの分析と定量化のための手法の有効性と実用性を示している。

Entanglement plays a crucial role in quantum physics and is the key resource in quantum information processing. However, entanglement detection and quantification are believed to be hard due to the operational impracticality of existing methods. This work proposes three near-term efficient algorithms exploiting the hybrid quantum-classical technique to address this difficulty. The first algorithm finds the Schmidt decomposition--a powerful tool to analyze the properties and structure of entanglement--for bipartite pure states. While the logarithm negativity can be calculated from the Schmidt decomposition, we propose the second algorithm to estimate the logarithm negativity for bipartite pure states, where the width of the parameterized quantum circuits is further reduced. Finally, we generalize our framework for mixed states, leading to our third algorithm for entanglement detection, which essentially implements the reduction criterion under hypothesis. All three algorithms share a similar framework where the optimizations are accomplished by maximizing a cost function utilizing local parameterized quantum circuits, with better hardware efficiency and practicality compared to existing methods. The experimental implementation on Quantum Leaf using the IoP CAS superconducting quantum processor exhibits the validity and practicality of our methods for analyzing and quantifying entanglement on near-term quantum devices.
翻訳日:2023-03-14 01:18:59 公開日:2022-08-10
# 連続フィードバック制御のための量子フォッカー・プランクマスター方程式

Quantum Fokker-Planck Master Equation for Continuous Feedback Control ( http://arxiv.org/abs/2110.09159v2 )

ライセンス: Link先を確認
Bj\"orn Annby-Andersson, Faraj Bakhshinezhad, Debankur Bhattacharyya, Guilherme De Sousa, Christopher Jarzynski, Peter Samuelsson, Patrick P. Potts(参考訳) 測定とフィードバック制御は量子科学の重要な特徴であり、量子技術プロトコルから量子熱力学における情報から作業への変換まで幅広い応用がある。 フィードバック制御の理論的な記述は、一般に数値解を必要とする確率方程式や線形フィードバックプロトコルに制限される。 ここでは、線形および非線形の連続的な量子測定とフィードバックの形式性を示す。 我々の主な結果は量子系と有限帯域の検出器のジョイントダイナミクスを記述する量子フォッカー・プランクマスター方程式である。 高速測定のために,解析処理に適したシステムのみに対するマルコフマスター方程式を導出する。 我々は、量子と古典の2つの基本的な情報エンジンを調査し、形式化を説明する。

Measurement and feedback control are essential features of quantum science, with applications ranging from quantum technology protocols to information-to-work conversion in quantum thermodynamics. Theoretical descriptions of feedback control are typically given in terms of stochastic equations requiring numerical solutions, or are limited to linear feedback protocols. Here we present a formalism for continuous quantum measurement and feedback, both linear and nonlinear. Our main result is a quantum Fokker-Planck master equation describing the joint dynamics of a quantum system and a detector with finite bandwidth. For fast measurements, we derive a Markovian master equation for the system alone, amenable to analytical treatment. We illustrate our formalism by investigating two basic information engines, one quantum and one classical.
翻訳日:2023-03-11 04:29:07 公開日:2022-08-10
# BPニューラルネットワークを用いたソフトバイオミメティックアクチュエータの逆運動学予測に関する研究

Research on the Inverse Kinematics Prediction of a Soft Biomimetic Actuator via BP Neural Network ( http://arxiv.org/abs/2110.13418v3 )

ライセンス: Link先を確認
Huichen Ma, Junjie Zhou, Jian Zhang and Lingyu Zhang(参考訳) 本研究では,3室駆動のソフトバイオミメティックアクチュエータの動作計画における逆運動論的問題に対処する。 ソフトバイオミメティックアクチュエータは本質的な柔らかさのために多くの用途に応用されている。 数学的モデルは、このアクチュエータの逆ダイナミクスを記述するために導出することができるが、材料とシステムの非線形性と不確かさを捉えることは、まだ正確ではない。 さらに、そのような複雑なモデルは時間を要するため、リアルタイム制御ユニットに適用するのは容易ではない。 したがって、この領域でモデルフリーなアプローチを開発することは、新しいアイデアかもしれない。 これらの本質的な問題を克服するために,3次元空間で動くソフトバイオミメティックアクチュエータの逆運動学を学習するバックプロパゲーション(bp)ニューラルネットワークを提案する。 サンプルデータを用いてトレーニングした後、BPニューラルネットワークモデルは、マニピュレータ先端位置とチャンバーに適用される圧力の関係を表現できる。 提案アルゴリズムは解析モデルよりも精度が高い。 その結果, 所望の端末位置は, 全アクチュエータ長に対する平均誤差の2.46%の精度で達成可能であることがわかった。

In this work, we address the inverse kinetics problem of motion planning of soft biomimetic actuators driven by three chambers. Soft biomimetic actuators have been applied in many applications owing to their intrinsic softness. Although a mathematical model can be derived to describe the inverse dynamics of this actuator, it is still not accurate to capture the nonlinearity and uncertainty of the material and the system. Besides, such a complex model is time-consuming, so it is not easy to apply in the real-time control unit. Therefore, developing a model-free approach in this area could be a new idea. To overcome these intrinsic problems, we propose a back-propagation (BP) neural network learning the inverse kinetics of the soft biomimetic actuator moving in three-dimensional space. After training with sample data, the BP neural network model can represent the relation between the manipulator tip position and the pressure applied to the chambers. The proposed algorithm is more precise than the analytical model. The results show that a desired terminal position can be achieved with a degree of accuracy of 2.46% relative average error with respect to the total actuator length.
翻訳日:2023-03-10 05:51:15 公開日:2022-08-10
# フェルミオン系の量子シミュレーションのための測定に基づく時間進化

Measurement-Based Time Evolution for Quantum Simulation of Fermionic Systems ( http://arxiv.org/abs/2110.14642v2 )

ライセンス: Link先を確認
Woo-Ram Lee, Zhangjie Qin, Robert Raussendorf, Eran Sela, V.W. Scarola(参考訳) 位相推定に基づく量子アルゴリズムにおける時間進化を用いた量子シミュレーションは、古典的に難解なモデルの偏りのない解が得られる。 しかし、長いランタイムはそのようなアルゴリズムをデコヒーレンスに開放する。 本稿では,量子ゲートを用いた実時間発展を用いた従来の回路ベースのアルゴリズムよりもランタイムに有利な時間発展を実現するために,計測に基づく量子シミュレーションが有効な時間発展をどのように利用するかを示す。 グラフ状態の測定のみを用いて,フェルミオンモデルにおけるエネルギー固有値を求めるハイブリッドアルゴリズムを構築した。 本アルゴリズムは, 北エフ鎖とハバード鎖に適用する。 リソース推定は、測定をゲートよりも速く行うことができ、グラフ状態のコンパクト化が完全に使用される場合、実行時の利点を示す。 本文では,量子シミュレーションを改善するために,測定精度の向上を実現するためのステージを設定した。

Quantum simulation using time evolution in phase estimation-based quantum algorithms can yield unbiased solutions of classically intractable models. However, long runtimes open such algorithms to decoherence. We show how measurement-based quantum simulation uses effective time evolution via measurement to allow runtime advantages over conventional circuit-based algorithms that use real-time evolution with quantum gates. We construct a hybrid algorithm to find energy eigenvalues in fermionic models using only measurements on graph states. We apply the algorithm to the Kitaev and Hubbard chains. Resource estimates show a runtime advantage if measurements can be performed faster than gates, and graph states compactification is fully used. In this letter, we set the stage to allow advances in measurement precision to improve quantum simulation.
翻訳日:2023-03-10 03:06:30 公開日:2022-08-10
# 非平衡量子熱力学における関節測定可能性

Joint measurability in nonequilibrium quantum thermodynamics ( http://arxiv.org/abs/2111.02854v2 )

ライセンス: Link先を確認
Konstantin Beyer, Roope Uola, Kimmo Luoma, and Walter T. Strunz(参考訳) 本稿では,量子ワークの概念とその測定可能性について,量子計測理論の観点から検討する。 しばしば、量子ワークとゆらぎ定理は射影的2点測定(TPM)スキームの枠組みで議論される。 よく知られているno-goの定理によれば、両方を満たすワークオブザーバブルは存在しない 一 平均労働条件及び (II)対角入力状態のTPM統計。 このような射影測度は、あらゆる可能な測度の中で制限的なクラスを表す。 理論的および実験的な観点から、適切に設計された非シャープ測定を含む一般的なケースにスキームを拡張することが望ましい。 これは、仕事に関する情報とその変動が、そのような一般化された測定から抽出できるかどうかという問題に焦点を移す。 我々は、TPMスキームの観測可能量が任意の中間ユニタリ進化に対して共同測定可能であれば、ノーゴー定理はもはや成り立たないことを示した。 我々は,非シャープエネルギー測定モデルを構築し,関節の可視性を確保するための境界を導出する。 このような非シャープなシナリオでは、正しい平均作業を決定し、ジャージンスキー等式の助けを借りて自由エネルギー差を得ることができる単一の作業測定装置を構築することができる。

In this Letter we investigate the concept of quantum work and its measurability from the viewpoint of quantum measurement theory. Very often, quantum work and fluctuation theorems are discussed in the framework of projective two-point measurement (TPM) schemes. According to a well known no-go theorem, there is no work observable which satisfies both (i) an average work condition and (ii) the TPM statistics for diagonal input states. Such projective measurements represent a restrictive class among all possible measurements. It is desirable, both from a theoretical and experimental point of view, to extend the scheme to the general case including suitably designed unsharp measurements. This shifts the focus to the question what information about work and its fluctuations one is able to extract from such generalized measurements. We show that the no-go theorem no longer holds if the observables in a TPM scheme are jointly measurable for any intermediate unitary evolution. We explicitly construct a model with unsharp energy measurements and derive bounds for the visibility that ensure joint measurability. In such an unsharp scenario a single work measurement apparatus can be constructed that allows us to determine the correct average work and to obtain free energy differences with the help of a Jarzynski equality.
翻訳日:2023-03-09 04:42:47 公開日:2022-08-10
# 基本的な異なるプロセス間の量子干渉は、形状入力波動関数によって実現される

Quantum interference between fundamentally different processes is enabled by shaped input wavefunctions ( http://arxiv.org/abs/2111.13317v2 )

ライセンス: Link先を確認
J. Lim, Y. S. Ang, L. K. Ang, L. J. Wong(参考訳) 本稿では、複数の異なるプロセス間の量子干渉(QI)に関する一般的な枠組みを提案する。 我々の枠組みは、QIを可能にするための形状の入力波動関数の重要性を明らかにし、自由電子、有界電子、光子の間の前例のない相互作用を予測する。 i) 電子のゼロロスピークが支配的である条件下で、形をした電子波束が光にぶつかるときの破壊的QIによるゼロロスピークの消滅 (ii)自由電子と原子(バウンド電子)の自発的放出過程の間のqiは、自由電子と原子が遠く離れている場合でも重要であり、電子と原子は互いに大きな影響を及ぼさなければならないという共通の考えを破る。 私たちの研究は、新しい量子波動測定技術が、光-物質相互作用や一般の量子プロセスにおけるより汎用性への扉を開くことを示しています。

We present a general framework for quantum interference (QI) between multiple, fundamentally different processes. Our framework reveals the importance of shaped input wavefunctions in enabling QI, and predicts unprecedented interactions between free electrons, bound electrons, and photons: (i) the vanishing of the zero-loss peak by destructive QI when a shaped electron wavepacket couples to light, under conditions where the electron's zero-loss peak otherwise dominates; (ii) QI between free electron and atomic (bound electron) spontaneous emission processes, which can be significant even when the free electron and atom are far apart, breaking the common notion that electron and atom must be close by to significantly affect each other's processes. Our work shows that emerging quantum waveshaping techniques unlock the door to greater versatility in light-matter interactions and other quantum processes in general.
翻訳日:2023-03-06 19:58:27 公開日:2022-08-10
# スターク単位からのSIC-POVM:素次元n^2+3

SIC-POVMs from Stark units: Prime dimensions n^2+3 ( http://arxiv.org/abs/2112.05552v2 )

ライセンス: Link先を確認
Marcus Appleby, Ingemar Bengtsson, Markus Grassl, Michael Harrison, Gary McConnell(参考訳) 本稿では、素次元$d=n^2+3$という形の複素ヒルベルト空間におけるsicフィドクシアルベクトルを構築するためのレシピを提案する。 このような構造は13の素次元に存在し、最も高いものは$p=19603$である。 そのような次元に付随する実二次基底体 $k$ は、基本単位 $u_k$ のノルム $-1$ を持つ。 $\mathbb{Z}_K$ を$K$ の整数環とすると、$p\mathbb{Z}_K$ は $\mathfrak{p}$ と $\mathfrak{p}'$ の2つのイデアルに分けられる。 fiducial の最初のエントリは、幾何学的スケーリング係数 $\xi$ の正方形 $\xi^2$ であり、これはフィールド $k(\sqrt{u_k})$ の1つにある。 驚くべきことに、fiducial vectorの他の$p-1$エントリは、それぞれ$\xi$の積とスターク単位の平方根である。 これらのスターク単位は、レイ類群の文字に付随する部分的$l$関数の最初の導関数の $s=0$ の値からスターク予想によって得られる: $\mathbb{z}_k$ with modulus $\mathfrak{p}\infty_1$, ここで $\infty_1$ は $k$ の実所の1つである。

We propose a recipe for constructing a SIC fiducial vector in complex Hilbert space of dimension of the form $d=n^2+3$, focussing on prime dimensions $d=p$. Such structures are shown to exist in thirteen prime dimensions of this kind, the highest being $p=19603$. The real quadratic base field $K$ (in the standard SIC terminology) attached to such dimensions has fundamental units $u_K$ of norm $-1$. Let $\mathbb{Z}_K$ denote the ring of integers of $K$, then $p\mathbb{Z}_K$ splits into two ideals $\mathfrak{p}$ and $\mathfrak{p}'$. The initial entry of the fiducial is the square $\xi^2$ of a geometric scaling factor $\xi$, which lies in one of the fields $K(\sqrt{u_K})$. Strikingly, the other $p-1$ entries of the fiducial vector are each the product of $\xi$ and the square root of a Stark unit. These Stark units are obtained via the Stark conjectures from the value at $s=0$ of the first derivatives of partial $L$ functions attached to the characters of the ray class group of $\mathbb{Z}_K$ with modulus $\mathfrak{p}\infty_1$, where $\infty_1$ is one of the real places of $K$.
翻訳日:2023-03-04 22:43:35 公開日:2022-08-10
# 3次元都市分析のための時空間可視化の比較

A Comparison of Spatiotemporal Visualizations for 3D Urban Analytics ( http://arxiv.org/abs/2208.05370v1 )

ライセンス: Link先を確認
Roberta Mota, Nivan Ferreira, Julio Daniel Silva, Marius Horga, Marcos Lage, Luis Ceferino, Usman Alim, Ehud Sharlin, Fabio Miranda(参考訳) 近年の技術革新により、影、騒音、太陽ポテンシャル、地震シミュレーションなどの3次元都市データの可用性が向上している。 これらの時空間データセットは、異なる領域のエキスパートが調査対象の都市空間の動的挙動を研究するために、新たな可視化を行う機会を生み出す。 しかし,3次元空間的都市ビジュアライゼーションの設計は,都市形状に関する時間変化データの解析を支援するために視覚的な戦略を必要とするため,難しい課題である。 3次元都市視覚分析では異なる視覚戦略が用いられてきたが、建物表面の時空間分析にこれらの視覚設計がどの程度効果的かという疑問はいまだに残されている。 そこで本稿では,まず3つの地域から実践者へのインタビューを行った結果,分析課題を提示する。 また,空間的ジャクサポレーション,時間的ジャクサポレーション,リンクビュー,組込みビューという,3次元時空間都市データの可視化に使用される4つの視覚的デザインの有効性を定量的に比較した。 参加者は一連のタスクを行い、時間とともに建物表面の極端な値を特定する必要があった。 タスクは空間と時間の両方で粒度が変化した。 その結果, 参加者はプロットに基づく可視化(リンクビュー, 組込みビュー)でより精度が高く, カラーコードによる可視化(空間ジャクサレーション, 時間ジャクサレーション)ではより高速であった。 また,タスクの複雑さが増大するにつれて,プロットに基づく可視化は,色付き視覚化に比べて効率(時間,精度)が向上することを示した。 本研究は, 研究者や実践者を対象に, 3次元時空間都市可視化のための設計レコメンデーションを提示する。

Recent technological innovations have led to an increase in the availability of 3D urban data, such as shadow, noise, solar potential, and earthquake simulations. These spatiotemporal datasets create opportunities for new visualizations to engage experts from different domains to study the dynamic behavior of urban spaces in this under explored dimension. However, designing 3D spatiotemporal urban visualizations is challenging, as it requires visual strategies to support analysis of time-varying data referent to the city geometry. Although different visual strategies have been used in 3D urban visual analytics, the question of how effective these visual designs are at supporting spatiotemporal analysis on building surfaces remains open. To investigate this, in this paper we first contribute a series of analytical tasks elicited after interviews with practitioners from three urban domains. We also contribute a quantitative user study comparing the effectiveness of four representative visual designs used to visualize 3D spatiotemporal urban data: spatial juxtaposition, temporal juxtaposition, linked view, and embedded view. Participants performed a series of tasks that required them to identify extreme values on building surfaces over time. Tasks varied in granularity for both space and time dimensions. Our results demonstrate that participants were more accurate using plot-based visualizations (linked view, embedded view) but faster using color-coded visualizations (spatial juxtaposition, temporal juxtaposition). Our results also show that, with increasing task complexity, plot-based visualizations perform better in preserving efficiency (time, accuracy) compared to color-coded visualizations. Based on our findings, we present a set of takeaways with design recommendations for 3D spatiotemporal urban visualizations for researchers and practitioners.
翻訳日:2023-02-19 10:30:31 公開日:2022-08-10
# 社会5.0への転換におけるオープンデータの役割 : SDG準拠のスマートリビングのためのリソースかツールか?

The role of open data in the transformation to Society 5.0: a resource or a tool for SDG-compliant Smart Living? ( http://arxiv.org/abs/2206.11784v2 )

ライセンス: Link先を確認
Anastasija Nikiforova, Miguel Angel Alor Flores and Miltiadis D. Lytras(参考訳) オープンデータは、多くの経済的、技術的、革新的、社会的利益によって特徴づけられる。 彼らは市のスマートシティへの転換に大きく貢献していると見られている。 これは、社会が社会5.0の境にいるとき、つまり情報社会から超スマートな社会や想像の社会へと移行するときに、さらに大きな意味を持つ。 しかし、オープンデータの専門家から常に聞かれる質問は、 約束の利益を達成するために、満たし満足すべき重要な要素は何か? オープンネスの現在の傾向は、オープンネスの原則がデータだけでなく、研究、教育、ソフトウェア、標準、ハードウェア等によって従わなければならないことを示唆している。 これにより、透明性の向上、不平等の排除、促進、持続可能な開発目標の達成が保証される。 したがって、現在では多くの議題が前提条件として開放性を持っている。 本章は、オープン(政府)データの概念と、その共通の目的を指摘するSociety 5.0を扱い、スマートシティにおけるオープンデータの使用やスマートシティへの都市転換の成功事例を提供し、それらをSociety 5.0の特徴にマッピングする。 我々はこの傾向が「オープンデータ駆動型社会」と呼ばれる新しい形態の社会を発達させると考えている。 この橋はSociety 4.0からSociety 5.0に架けられている。 本章では,人間中心のスマートソサエティ,スマートシティ,スマートリビングの促進におけるオープンネスの役割を明らかにする。

Open data are characterized by a number of economic, technological, innovative and social benefits. They are seen as a significant contributor to the city's transformation into Smart City. This is all the more so when the society is on the border of Society 5.0, i.e., shift from the information society to a super smart society or society of imagination takes place. However, the question constantly asked by open data experts is, what are the key factors to be met and satisfied in order to achieve promised benefits? The current trend of openness suggests that the principle of openness should be followed not only by data but also research, education, software, standard, hardware etc., it should become a philosophy to be followed at different levels, in different domains. This should ensure greater transparency, eliminating inequalities, promoting, and achieving sustainable development goals. Therefore, many agendas now have openness as a prerequisite. This chapter deals with concepts of open (government) data and Society 5.0 pointing to their common objectives, providing some success stories of open data use in smart cities or transformation of cities towards smart cities, mapping them to the features of the Society 5.0. We believe that this trend develops a new form of society, which we refer to as "open data-driven society". It forms a bridge from Society 4.0 to Society 5.0. This Chapter attempts to identify the role of openness in promoting human-centric Smart Society, Smart city, and Smart Living.
翻訳日:2023-02-19 09:25:12 公開日:2022-08-10
# シュミット分解法による量子熱力学

A Schmidt decomposition approach to quantum thermodynamics ( http://arxiv.org/abs/2205.06917v2 )

ライセンス: Link先を確認
Andr\'e Malavazi, Frederico Brito(参考訳) 量子系の自己整合熱力学理論の発展は、現代物理学の基本的な重要性である。 それでも、量子科学と技術において重要な役割を担っているにもかかわらず、一般的な自律量子系の熱力学を特徴づける統一的な形式は存在しない。 これらの線に沿って、現在のほとんどの取り組みとアプローチは、近似的記述や半古典的体制の特定のシナリオに分析を制限している。 本稿では、よく知られたシュミット分解に基づく任意の二部量子系の熱力学を記述する新しい手法を提案する。 この形式主義は、強い結合のような標準的な記述規則を超えたシナリオを含む相互作用するシステム間のエネルギーを表現するための、単純で正確で対称的なフレームワークを提供する。 本手法は,物理的局所内部エネルギーを特徴付けるのに適した局所実効作用素を簡易に同定できることを示す。 また、これらの量が通常の熱力学的なエネルギー添加率の概念を自然に満たすことを示した。

The development of a self-consistent thermodynamic theory of quantum systems is of fundamental importance for modern physics. Still, despite its essential role in quantum science and technology, there is no unifying formalism for characterizing the thermodynamics within general autonomous quantum systems, and many fundamental open questions remain unanswered. Along these lines, most current efforts and approaches restrict the analysis to particular scenarios of approximative descriptions and semi-classical regimes. Here we propose a novel approach to describe the thermodynamics of arbitrary bipartite autonomous quantum systems based on the well-known Schmidt decomposition. This formalism provides a simple, exact and symmetrical framework for expressing the energetics between interacting systems, including scenarios beyond the standard description regimes, such as strong coupling. We show that this procedure allows a straightforward identification of local effective operators suitable for characterizing the physical local internal energies. We also demonstrate that these quantities naturally satisfy the usual thermodynamic notion of energy additivity.
翻訳日:2023-02-13 06:41:49 公開日:2022-08-10
# トンネル重力測定

Tunneling Gravimetry ( http://arxiv.org/abs/2205.09413v2 )

ライセンス: Link先を確認
Patrik Schach, Alexander Friedrich, Jason R. Williams, Wolfgang P. Schleich, Enno Giese(参考訳) 慣性センシングのための物質波Fabry-P\'{e}rot干渉計の実用化の可能性を検討する。 本研究は,2つの形状における加速度測定のためのトンネル型センサについて検討する。 (a)初期波束がキャビティを介して送信される送信装置 b) キャビティ内の初期状態に古典的整合性を欠いた外形調合方式。 量子波パケットの完全なダイナミクスの数値シミュレーションを行い、リアルな光学ポテンシャルによって形成された物質波キャビティをトンネル化し、原子間の相互作用の影響を判定する。 その結果,両構成の慣性力に対する予測感度を推定し,慣性センサとして機能する可能性を示した。

We examine the prospects of utilizing matter-wave Fabry-P\'{e}rot interferometers for enhanced inertial sensing applications. Our study explores such tunneling-based sensors for the measurement of accelerations in two configurations: (a) a transmission setup, where the initial wave packet is transmitted through the cavity and (b) an out-tunneling scheme with intra-cavity generated initial states lacking a classical counterpart. We perform numerical simulations of the complete dynamics of the quantum wave packet, investigate the tunneling through a matter-wave cavity formed by realistic optical potentials and determine the impact of interactions between atoms. As a consequence we estimate the prospective sensitivities to inertial forces for both proposed configurations and show their feasibility for serving as inertial sensors.
翻訳日:2023-02-12 16:03:03 公開日:2022-08-10
# フェルミオンの壁を建設する費用

The cost of building a wall for a fermion ( http://arxiv.org/abs/2205.10853v2 )

ライセンス: Link先を確認
Wan Mohamad Husni Wan Mokhtar, Jorma Louko(参考訳) 1+1)次元ミンコフスキー時空における質量のないディラック場のための壁を造ったり壊したりするエネルギーコストと、生成した放射線に対するunruh-dewitt粒子検出器の応答を分析した。 滑らかに進行する壁の場合、場のエネルギー密度と検出器の応答は有限である。 急速壁の創造や解体の限界において、エネルギー密度はデルタ関数の2乗分岐を示す。 対照的に、一階摂動理論で評価されたunruh-dewitt検出器の応答は、壁の進化の間だけ対数的に発散する。 その結果,局所化物質系は,フィールドオブザーバブルの局所的期待値ほど高速壁生成に敏感ではない可能性が示唆された。 この格差は、量子情報保存シナリオに潜在的な関心を持つ。

We analyse the energy cost of building or demolishing a wall for a massless Dirac field in (1+1)-dimensional Minkowski spacetime and the response of an Unruh-DeWitt particle detector to the generated radiation. For any smoothly-evolving wall, both the field's energy density and the detector's response are finite. In the limit of rapid wall creation or demolition, the energy density displays a delta function squared divergence. By contrast, the response of an Unruh-DeWitt detector, evaluated within first-order perturbation theory, diverges only logarithmically in the duration of the wall evolution. The results add to the evidence that a localised matter system may not be as sensitive to the rapid wall creation as the local expectation values of field observables. This disparity has potential interest for quantum information preservation scenarios.
翻訳日:2023-02-12 03:09:24 公開日:2022-08-10
# 固体中のピエルス様ネスト性不安定性の抑制

Suppression of Peierls-like, nesting-based instabilities in solids ( http://arxiv.org/abs/2205.13691v3 )

ライセンス: Link先を確認
Nassim Derriche, Ilya Elfimov, George Sawatzky(参考訳) 格子不安定性の理解は物質科学において非常に重要である。 有名な例は、1次元の金属と2次元と3次元の強ネストフェルミ曲面に対するピエルス不安定性である。 バンド理論におけるH および Li 鎖の解析により、波動関数のブロッホ波の性質は、反対パリティ原子状態の強い k 依存のハイブリダイゼーションを含む場合、感受性ピークと関連する不安定性を強く抑制し、外部摂動に対する強い応答を持つ物質を探す際には不可欠である。

The understanding of lattice instabilities is of vast importance in material science. The famous example is the Peierls instability of one-dimensional metals and for strongly-nested Fermi surfaces in two and three dimensions. Through an analysis of H and Li chains in band theory, we find that the Bloch wave nature of the wavefunctions, if involving strong k-dependent hybridization of oppositeparity atomic states, strongly suppresses susceptibility peaks and associated instabilities and is thus essential to consider in searching for materials with strong responses to external perturbations.
翻訳日:2023-02-11 14:10:35 公開日:2022-08-10
# ユビキタスな長距離ホッピングをもつランダム2次元系の超拡散

Superdiffusion in random two dimensional system with ubiquitous long-range hopping ( http://arxiv.org/abs/2205.14715v2 )

ライセンス: Link先を確認
Xiaolong Deng, Ivan Khaymovich and Alexander L. Burin(参考訳) アンダーソンローカライゼーションは、d$が低ければ2ドル以下の全ての州に対して行われることが認識されているが、距離が遅くなるか、または、r^{-d}$となると、非局在化が期待されている一方で、d=2$のクロスオーバーレジームにおけるローカライゼーションの問題と、v(r) \propto r^{-2}$のホッピングはまだ解決されていない。 前述したように、2次元の異方性双極子-双極子相互作用によって決定されるホッピングには、弱い障害と強い障害の2つの区別可能な位相が存在する。 第1相はエルゴード力学と超拡散輸送により特徴づけられ、第2相は拡散輸送とフラクタル次元が2ドル未満の非局在固有状態によって特徴づけられる。 位相間の遷移は局所化のスケーリング理論の拡張を用いて解析的に解決し、正確な数値対角化を用いて検証する。

Although it is recognized that Anderson localization takes place for all states at a dimension $d$ less or equal $2$, while delocalization is expected for hopping $V(r)$ decreasing with the distance slower or as $r^{-d}$, the localization problem in the crossover regime for the dimension $d=2$ and hopping $V(r) \propto r^{-2}$ is not resolved yet. Following earlier suggestions we show that for the hopping determined by two-dimensional anisotropic dipole-dipole interactions there exist two distinguishable phases at weak and strong disorder. The first phase is characterized by ergodic dynamics and superdiffusive transport, while the second phase is characterized by diffusive transport and delocalized eigenstates with fractal dimension less than $2$. The transition between phases is resolved analytically using the extension of scaling theory of localization and verified using an exact numerical diagonalization.
翻訳日:2023-02-11 09:02:14 公開日:2022-08-10
# 曲面時空における局所非相対論的量子系:粒子検出器モデルの一般化

Localized non-relativistic quantum systems in curved spacetimes: a general characterization of particle detector models ( http://arxiv.org/abs/2206.01225v2 )

ライセンス: Link先を確認
T. Rick Perche(参考訳) この写本では、背景曲線時空における時間的軌道を経る局所非相対論的量子系を記述する一貫した方法を提供する。 すなわち、フェルミ正規座標を用いて、内積と正準共役位置と運動量作用素を、その固有時間の各値に対して軌道の剰余空間で定義される。 この枠組みは、非相対論的背景で定義される量子論を曲線時空における時間的軌道に関する理論にマッピングするためのレシピを提供する。 これは、位置演算子と運動量演算子を再解釈し、ハミルトニアンに局所的な赤方偏移因子を導入することによって行われ、時空の曲率と軌道の加速によって新たなダイナミクスをもたらす。 次に、非相対論的量子系が湾曲した背景の量子場に結合している場合、粒子検出器モデルにフォーマリズムを適用する。 これにより、文献で以前のモデルを復元できる粒子検出器モデルに対する一般的な定義を書くことができる。 また, 粒子検出器を用いて量子場を精密に探究できる条件を特徴付けることにより, モデルの有効性を推定する手法を提案する。

In this manuscript we provide a consistent way of describing a localized non-relativistic quantum system undergoing a timelike trajectory in a background curved spacetime. Namely, using Fermi normal coordinates, we identify an inner product and canonically conjugate position and momentum operators defined in the rest space of the trajectory for each value of its proper time. This framework then naturally provides a recipe for mapping a quantum theory defined in a non-relativistic background to a theory around a timelike trajectory in curved spacetimes. This is done by reinterpreting the position and momentum operators and by introducing a local redshift factor to the Hamiltonian, which gives rise to new dynamics due to the curvature of spacetime and the acceleration of the trajectory. We then apply our formalism to particle detector models, that is, to the case where the non-relativistic quantum system is coupled to a quantum field in a curved background. This allows one to write a general definition for particle detector models which is able to recover the previous models in the literature. Our framework also allows one to estimate the regime of validity of these models, characterizing the situations where particle detectors can be used to accurately probe quantum fields.
翻訳日:2023-02-10 22:38:06 公開日:2022-08-10
# Rayleigh-Ritz変分法について

On the Rayleigh-Ritz variational method ( http://arxiv.org/abs/2206.05122v2 )

ライセンス: Link先を確認
Francisco M. Fern\'andez(参考訳) レイリー・リッツ変分法によって提供される近似固有値が、より正確な値に対するより正確な上限であることを示す。 この目的のために、量子力学と量子化学の多くの教科書で言及されている変分原理と、単純な射影作用素のセットに頼る。 我々は、このアプローチは量子力学や量子化学の高度なコースに適していると考える。

We give a simple proof of the well known fact that the approximate eigenvalues provided by the Rayleigh-Ritz variational method are increasingly accurate upper bounds to the exact ones. To this end, we resort to the variational principle, mentioned in most textbooks on quantum mechanics and quantum chemistry, and to a simple set of projection operators. We think that present approach may be suitable for an advanced course on quantum mechanics or quantum chemistry.
翻訳日:2023-02-10 06:38:11 公開日:2022-08-10
# 地平線の二重の扉

The double doors of the horizon ( http://arxiv.org/abs/2206.11870v2 )

ライセンス: Link先を確認
Erik Aurell(参考訳) 統計力学におけるエントロピー(英: statistical mechanics entropy)とは、ボルツマンの式 $s=\log{\cal n}$ に従う障害の尺度である。 ブラックホールの熱力学では、エントロピーのベケンシュタイン・ホーキング$S_{BH}$に関連付けられる。 S_{BH}$は天体物理学的なブラックホールにとって非常に大きいことで知られており、ブラックホールに繋がる可能性のある物質の集合よりもはるかに大きい。 もし$s_{bh}$ がエントロピーなら、問題は対応する${\cal n}$ とは何を意味するのか、そしてなぜこの非常に大きな位相空間体積は重力崩壊によって宇宙にしか開けられず、別の視点では可能性の巨大な損失のように見えるのかである。 私は、エントロピーの非常に大きな増加は、おそらく古典的重力の影響として理解され、量子重力が作用すると最終的に底に落ちてしまうという仮説を推し進める。 私はこれらの質問に関する非常に豊かな文献を比較、議論します。

In statistical mechanics entropy is a measure of disorder obeying Boltzmann's formula $S=\log{\cal N}$, where ${\cal N}$ is the accessible phase space volume. In black hole thermodynamics one associates to a black hole an entropy Bekenstein-Hawking $S_{BH}$. It is well known that $S_{BH}$ is very large for astrophysical black holes, much larger than any collection of material objects that could have given rise to the black hole. If $S_{BH}$ is an entropy the question is thus what is the corresponding ${\cal N}$, and how come this very large phase space volume is only opened up to the universe by a gravitational collapse, which from another perspective looks like a massive loss of possibilities. I advance a hypothesis that the very large increase in entropy can perhaps be understood as an effect of classical gravity, which eventually bottoms out when quantum gravity comes into play. I compare and discuss a selection of the very rich literature around these questions.
翻訳日:2023-02-08 09:28:33 公開日:2022-08-10
# ランダムウォークへの写像による横場イジング鎖のエネルギーギャップの厳密な境界

Exact bounds on the energy gap of transverse-field Ising chains by mapping to random walks ( http://arxiv.org/abs/2206.11575v2 )

ライセンス: Link先を確認
R\'obert Juh\'asz(参考訳) Igl\'oi, Turban, Rieger [Phys]によって発見された連続時間ランダムウォークとの関係に基づく。 E {\displaystyle E} 59}, 1465 (1999)] では、開横場イジング鎖の最小エネルギーギャップの正確な下限と上限を導出する。 等質鎖と非相関パラメータを持つランダム鎖では、下界と上界の両方が強磁性相と臨界点で同じ有限サイズスケーリングを示し、これらの境界が臨界ギャップの正しい有限サイズスケーリングを推測する能力を示す。 結合場相関によるランダム横フィールドイジング連鎖への境界の適用は、断熱量子コンピューティングに関係のあるモデルであり、ギャップの有限サイズスケーリングは、独立確率変数の和の和と関係があることが示されている。 モデルの臨界動的指数を決定し,特殊点における対数補正の存在を明らかにする。

Based on a relationship with continuous-time random walks discovered by Igl\'oi, Turban, and Rieger [Phys. Rev. E {\bf 59}, 1465 (1999)], we derive exact lower and upper bounds on the lowest energy gap of open transverse-field Ising chains, which are explicit in the parameters and are generally valid for arbitrary sets of possibly random couplings and fields. In the homogeneous chain and in the random chain with uncorrelated parameters, both the lower and upper bounds are found to show the same finite-size scaling in the ferromagnetic phase and at the critical point, demonstrating the ability of these bounds to infer the correct finite-size scaling of the critical gap. Applying the bounds to random transverse-field Ising chains with coupling-field correlations, a model which is relevant for adiabatic quantum computing, the finite-size scaling of the gap is shown to be related to that of sums of independent random variables. We determine the critical dynamical exponent of the model and reveal the existence of logarithmic corrections at special points.
翻訳日:2023-02-08 07:13:08 公開日:2022-08-10
# 可積分性からカオスへのクリロフ複雑性

Krylov complexity from integrability to chaos ( http://arxiv.org/abs/2207.07701v2 )

ライセンス: Link先を確認
E. Rabinovici, A. S\'anchez-Garrido, R. Shir and J. Sonner(参考訳) 我々は「クリロフ複雑性」と呼ばれる量子複雑性の概念を適用し、システムの可積分性からカオスへの進化を研究する。 本研究では,可積分とカオスの相互作用を補間可能な可積分性破断変形を富む可積分性xxzスピンチェーンについて検討する。 k-複雑度は、可積分相で抑制され、カオス相に進むにつれて増加する後期飽和値を介して、基盤系の可積分またはカオス的性質のプローブとして作用することができる。 さらに,lanczosシークエンスに存在する障害量に結びついた遅延時間の(下)飽和を,複雑さの進化を補助的な外対角アンダーソンホッピングモデルにマッピングすることで記述する。 カオス相におけるk-複素の後期飽和をランダム行列アンサンブルのそれと比較し、カオス系が適切な対称性クラスにおけるrmt挙動に実際に接近していることを見いだす。 K-複素性の2つの重要な要素であるハミルトニアンの力学と時間依存が続く作用素の性質に対する結果の依存性について検討する。

We apply a notion of quantum complexity, called "Krylov complexity", to study the evolution of systems from integrability to chaos. For this purpose we investigate the integrable XXZ spin chain, enriched with an integrability breaking deformation that allows one to interpolate between integrable and chaotic behavior. K-complexity can act as a probe of the integrable or chaotic nature of the underlying system via its late-time saturation value that is suppressed in the integrable phase and increases as the system is driven to the chaotic phase. We furthermore ascribe the (under-)saturation of the late-time bound to the amount of disorder present in the Lanczos sequence, by mapping the complexity evolution to an auxiliary off-diagonal Anderson hopping model. We compare the late-time saturation of K-complexity in the chaotic phase with that of random matrix ensembles and find that the chaotic system indeed approaches the RMT behavior in the appropriate symmetry class. We investigate the dependence of the results on the two key ingredients of K-complexity: the dynamics of the Hamiltonian and the character of the operator whose time dependence is followed.
翻訳日:2023-02-04 22:41:58 公開日:2022-08-10
# 量子縮退気体中の多体化学反応

Many-body Chemical Reactions in a Quantum Degenerate Gas ( http://arxiv.org/abs/2207.08295v2 )

ライセンス: Link先を確認
Zhendong Zhang, Shu Nagata, Kaixuan Yao, and Cheng Chin(参考訳) 量子縮退状態における化学反応は物質波場の混合によって記述される。 量子コヒーレンスとボソニックエンハンスメントは、ボソニック反応と生成物を含む多体反応の2つの特徴である。 このような化学の集合反応は「スーパーケミカル」と呼ばれ、量子化学研究における解明の目標である。 本稿では,ボース凝縮原子とfeshbach共鳴近傍の分子とのコヒーレントおよび集団反応性カップリングの観察について報告する。 原子凝縮物から始めると、反応は分子の急速な形成から始まり、その後平衡過程において分子の集団の振動が起こる。 より速い振動は高密度の試料で観測され、ボソニックの増強を示す。 本稿では, 力学をうまく記述した量子場モデルを提案し, 3体組換えを支配的反応過程として同定する。 本研究は,高次量子多体化学を実証し,量子化学反応の制御に新たなパラダイムを提供する。

Chemical reactions in the quantum degenerate regime are described by mixing of matterwave fields. Quantum coherence and bosonic enhancement are two unique features of many-body reactions involving bosonic reactants and products. Such collective reactions of chemicals, dubbed "super-chemistry", is an elusive goal in quantum chemistry research. Here we report the observation of coherent and collective reactive coupling between Bose condensed atoms and molecules near a Feshbach resonance. Starting from an atomic condensate, the reaction begins with a rapid formation of molecules, followed by oscillations of their populations in the equilibration process. Faster oscillations are observed in samples with higher densities, indicating bosonic enhancement. We present a quantum field model which describes the dynamics well and identifies three-body recombination as the dominant reaction process. Our findings exemplify the highly sought-after quantum many-body chemistry and offer a new paradigm for the control of quantum chemical reactions.
翻訳日:2023-02-04 18:15:20 公開日:2022-08-10
# パッシブ量子測定:到着時間、量子ゼノ効果、ギャンブラーの誤り

Passive quantum measurement: Arrival time, quantum Zeno effect and gambler's fallacy ( http://arxiv.org/abs/2207.09140v2 )

ライセンス: Link先を確認
Tajron Juri\'c, Hrvoje Nikoli\'c(参考訳) 古典的な測定は、測定されたシステムの物理的性質に影響を与えないという意味で、受動的である。 通常、量子測定はその意味で受動的ではない。 しかし、無限次元ヒルベルト空間において、量子射影計測は有限次元ヒルベルト空間では不可能であるような方法でパッシブであることが分かる。 具体的には、エルミート・ハミルトニアンの期待値は無限次元ヒルベルト空間の虚部を持つことができ、そのような虚部は量子ゼノ効果を避ける可能性を示唆しており、量子到達実験で物理的に実現することができる。 量子ゼノ効果の回避は、ギャンブラーの誤りの量子バージョンを避けることも理解でき、物理的性質に影響を与えずに物理系に関する情報を更新するパッシブ量子測定の概念へと繋がる。 粒子の到達時間確率分布は、その確率電流のフラックスによって与えられる。 可能な負のフラックスは、全く到着しない状態に対応し、物理的には粒子が到着するよりも出発する状態として理解される。

Classical measurements are passive, in the sense that they do not affect the physical properties of the measured system. Normally, quantum measurements are not passive in that sense. In the infinite dimensional Hilbert space, however, we find that quantum projective measurement can be passive in a way which is impossible in finite dimensional Hilbert spaces. Specifically, we find that expectation value of a hermitian Hamiltonian can have an imaginary part in the infinite dimensional Hilbert space and that such an imaginary part implies a possibility to avoid quantum Zeno effect, which can physically be realized in quantum arrival experiments. The avoidance of quantum Zeno effect can also be understood as avoidance of a quantum version of gambler's fallacy, leading to the notion of passive quantum measurement that updates information about the physical system without affecting its physical properties. The arrival time probability distribution of a particle is found to be given by the flux of the probability current. Possible negative fluxes correspond to regimes at which there is no arrival at all, physically understood as regimes at which the particle departs rather than arrives.
翻訳日:2023-02-04 13:09:04 公開日:2022-08-10
# 開量子系におけるクリロフ複雑性

Krylov Complexity in Open Quantum Systems ( http://arxiv.org/abs/2207.13603v2 )

ライセンス: Link先を確認
Chang Liu, Haifeng Tang and Hui Zhai(参考訳) クリロフ複雑性(Krylov complexity)は、普遍的な振る舞いを示し、多くの他の測度を束縛する作用素複雑性の新しい尺度である。 この書簡では、クリロフの複雑性を閉系からマルコフ浴場に結合した開系に一般化し、リンドブラジアン進化がハミルトニアン進化に取って代わる。 開系におけるクリロフ複雑性は半無限鎖の非エルミート強結合モデルに写像できることを示す。 非エルミート項の性質について議論し、非エルミート項の強みがクリロフ基底指数$n$の増加とともに直線的に増加することを示す。 このような非エルミート的密結合モデルは、クリロフ複雑性の長期的挙動を決定する局所化されたエッジモードを示すことができる。 したがって、クリロフ複雑性の成長は散逸によって抑制され、長い間、クリロフ複雑性は、同じハミトニアンを持つ閉じた系よりもずっと小さい有限の値で飽和する。 我々の結論は、Sachdev-Ye-Kitaevモデルや相互作用するフェルミオンモデルなど、いくつかのモデルの数値結果によって裏付けられている。 私たちの研究は、オープン量子システムの複雑さ、カオス、ホログラフィーについて議論するための洞察を提供する。

Krylov complexity is a novel measure of operator complexity that exhibits universal behavior and bounds a large class of other measures. In this letter, we generalize Krylov complexity from a closed system to an open system coupled to a Markovian bath, where Lindbladian evolution replaces Hamiltonian evolution. We show that Krylov complexity in open systems can be mapped to a non-hermitian tight-binding model in a half-infinite chain. We discuss the properties of the non-hermitian terms and show that the strengths of the non-hermitian terms increase linearly with the increase of the Krylov basis index $n$. Such a non-hermitian tight-binding model can exhibit localized edge modes that determine the long-time behavior of Krylov complexity. Hence, the growth of Krylov complexity is suppressed by dissipation, and at long-time, Krylov complexity saturates at a finite value much smaller than that of a closed system with the same Hamitonian. Our conclusions are supported by numerical results on several models, such as the Sachdev-Ye-Kitaev model and the interacting fermion model. Our work provides insights for discussing complexity, chaos, and holography for open quantum systems.
翻訳日:2023-02-03 07:49:01 公開日:2022-08-10
# 変分ハイブリッド量子古典アルゴリズムの熱伝導方程式への応用

Application of a variational hybrid quantum-classical algorithm to heat conduction equation ( http://arxiv.org/abs/2207.14630v3 )

ライセンス: Link先を確認
Yangyang Liu, Zhen Chen, Chang Shu, Siou Chye Chew, Boo Cheong Khoo, Xiang Zhao(参考訳) 量子コンピューティング(QC)のためのハードウェアとアルゴリズムの開発は、様々な分野における科学計算のパラダイムシフトを促す可能性がある。 QCの活発なトピックとして、変分量子アルゴリズム(VQA)は、ノイズ中間スケール量子(NISQ)デバイス上の偏微分方程式を解くための有望な方向を導いた。 特定の数学的・物理的問題に対する古典的計算技術よりもqcの利点についての明確な視点は存在するが、実用的流れ問題を解決するための計算流体力学におけるqcの応用は、まだ開発の初期段階にある。 流れ問題の実用的なシミュレーションにおいてqcを探求するために、ラプラシアン作用素の有限差分離散化を通じて熱伝導方程式を解くために、変分ハイブリッド量子古典アルゴリズム、すなわち変分量子線形解法(vqls)を適用する。 VQLSの実装の詳細は、線形システムの様々なテストインスタンスによって議論されている。 最後に, 1次元および2次元における熱伝導方程式の状態ベクトルシミュレーションが成功し, 概念実証による本アルゴリズムの有効性が示された。 さらに、熱伝導問題に対するヒューリスティックなスケーリングは、現在のアプローチの時間複雑性が精度 {\epsilon} に対数的に依存し、キュービット数 n に線形に依存することを示している。

The prosperous development of both hardware and algorithms for quantum computing (QC) potentially prompts a paradigm shift in scientific computing in various fields. As an increasingly active topic in QC, the variational quantum algorithm (VQA) leads a promising direction for solving partial differential equations on Noisy Intermediate Scale Quantum (NISQ) devices. Although a clear perspective on the advantages of QC over classical computing techniques for specific mathematical and physical problems exists, applications of QC in computational fluid dynamics to solve practical flow problems, though promising, are still in an early stage of development. To explore QC in practical simulation of flow problems, this work applies a variational hybrid quantum-classical algorithm, namely the variational quantum linear solver (VQLS), to resolve the heat conduction equation through finite difference discretization of the Laplacian operator. Details of VQLS implementation are discussed by various test instances of linear systems. Finally, the successful statevector simulations of the heat conduction equation in one and two dimensions demonstrate the validity of the present algorithm by proof-of-concept results. In addition, the heuristic scaling for the heat conduction problem indicates that the time complexity of the present approach is logarithmically dependent on the precision {\epsilon} and linearly dependent on the number of qubits n.
翻訳日:2023-02-03 02:27:16 公開日:2022-08-10
# 一般量子計測におけるコヒーレンスの検出

Detecting coherence with respect to general quantum measurements ( http://arxiv.org/abs/2208.05133v1 )

ライセンス: Link先を確認
Yu-Cheng Chen, Jiong Cheng, Wen-Zhao Zhang, Cheng-Jie Zhang(参考訳) 量子コヒーレンス(quantum coherence)は、量子資源理論における重要な資源である。 先行研究は主に完全直交基準に基づく標準コヒーレンスに着目した。 標準コヒーレンスは最近、ブロックコヒーレンスを特別なケースとして含む一般正値測度(POVM)ベースのコヒーレンスに拡張されている。 したがって、ブロックコヒーレンスとPOVMベースのコヒーレンス証人を構築して検出する必要がある。 本稿では,ブロックコヒーレンスおよびpovmベースのコヒーレンスに対する証人を示し,任意のブロックコヒーレンスおよびpovmベースのコヒーレンス証人に必要な十分条件を得る。 また,実験におけるブロックコヒーレンスとPOVMに基づくコヒーレンスビクターの実現の可能性についても論じ,実実験データに基づくブロックコヒーレンスビクターの測定例を示す。 さらに、量子パラメータ推定タスクにおいてブロックコヒーレンス証人の応用が提案されており、入力状態がブロックコヒーレントであれば、ブロックコヒーレンス証人の計測によって未知のパラメータを推定することができる。 遅くとも重要なことは、任意のブロック不整合状態の量子フィッシャー情報がゼロに等しいことであり、ブロック不整合証人の測定結果と一致することである。

Quantum coherence is a crucial resource in quantum resource theory. Previous study mainly focused on standard coherence under a complete orthogonal reference basis. The standard coherence has recently been extended to general positive-operator-valued measure (POVM)-based coherence, including block coherence as a special case. Therefore, it is necessary to construct block coherence and POVM-based coherence witnesses to detect them. In this work, we present witnesses for block coherence and POVM-based coherence, and obtain the necessary and sufficient conditions for arbitrary block coherence and POVM-based coherence witnesses. We also discuss possible realizations of some block coherence and POVM-based coherence witnesses in experiments, and present examples of measuring block coherence witnesses based on real experimental data. Furthermore, an application of block coherence witnesses has been presented in a quantum parameter estimation task with a degenerate Hamiltonian, and one can estimate the unknown parameter by measuring our block coherence witnesses if the input state is block coherent. Lase but not least, we prove that the quantum Fisher information of any block incoherent state is equal to zero, which coincides with the result from measuring block coherence witnesses.
翻訳日:2023-02-01 13:03:40 公開日:2022-08-10
# すべての絡み合った状態は、アンシラ支援量子プロセストモグラフィーに有用ではない

Not all entangled states are useful for ancilla-assisted quantum process tomography ( http://arxiv.org/abs/2208.05132v1 )

ライセンス: Link先を確認
Guo-Dong Lu, Zhou Zhang, Yue Dai, Yu-Li Dong, Cheng-Jie Zhang(参考訳) 標準量子過程トモグラフィーやancilla-assisted quantum process tomography(aaqpt)など、未知の量子チャネルの全ての情報を量子プロセストモグラフィーによって抽出できることはよく知られている。 さらに、AAQPTには絡み合いは必要ないことが示され、それにも役立つ分離可能な状態が存在する。 驚くべきことに、この研究では、すべての絡み合った状態がAAQPTに有用であるだけでなく、無意味な絡み合った状態も存在する。 絡み込み検出に使用される配向操作は、AAQPTに二部体状態が有用かどうかの問題に関連付けられる。 我々は,それらの関係を導出し,未知のチャネルの完全情報を認識操作により抽出する過程を示す。 この関係に基づいて, 2量子の絡み合い状態と2量子の束縛された絡み合い状態の例を示す。 これら2つの例は絡み合っているが、AAQPTには使用できない。 最後に、IBMプラットフォーム上での実験的な検証も行われている。

It is well known that one can extract all the information of an unknown quantum channel by means of quantum process tomography, such as standard quantum-process tomography and ancilla-assisted quantum process tomography (AAQPT). Furthermore, it has been shown that entanglement is not necessary for AAQPT, there exist separable states which are also useful for it. Surprisingly, in this work we find that not all entangled states are useful for AAQPT, there also exist some entangled states which are useless. The realignment operation used in entanglement detection can be related to the question whether a bipartite state is useful for AAQPT. We derive the relationship between them and show the process of extracting the complete information of an unknown channel by the realignment operation. Based on this relationship, we present examples of a two-qutrit entangled state and a two-qutrit bound entangled state. Both of these two examples are entangled but they cannot be used for AAQPT. Last but not least, experimental verification has also been performed on the IBM platform.
翻訳日:2023-02-01 13:03:15 公開日:2022-08-10
# 光格子を用いた分散量子センシング

Distributed quantum sensing with optical lattices ( http://arxiv.org/abs/2208.05128v1 )

ライセンス: Link先を確認
Jose Carlos Pelayo, Karol Gietka, and Thomas Busch(参考訳) 分散量子センシングでは、一般的にフォトニック系の複数のモード間の相関を利用して未知のパラメータの測定精度を高める。 本研究は,多モード傾斜型ボース・ハッバード系のメトロジカルポテンシャルについて検討し,粒子数として$N$,モード数に$M$,測定時間に$T$,ハイゼンベルク極限で$(N(M-1)T)^{2}$のパラメータ推定が可能であることを示す。 モード数に対する二次依存は、2つの原子モードのみを持つ典型的なメトロロジカルシステムに比べて精度を高めるために使用され、異なるモード間の相関は必要ない。 この限界は、第1位と最終位を占める全ての原子の重ね合わせとして与えられる最適化初期状態を用いて達成できることを示す。 その後、より現実的な実験装置で、M$のFisher情報に対する二次的依存を得られる戦略を提案する。

In distributed quantum sensing the correlations between multiple modes, typically of a photonic system, are utilized to enhance the measurement precision of an unknown parameter. In this work we investigate the metrological potential of a multi-mode, tilted Bose-Hubbard system and show that it can allow for parameter estimation at the Heisenberg limit of $(N(M-1)T)^{2}$, where $N$ is the number of particles, $M$ is the number of modes, and $T$ is the measurement time. The quadratic dependence on the number of modes can be used to increase the precision compared to typical metrological systems with two atomic modes only, and does not require correlations between different modes. We show that the limit can be reached by using an optimized initial state given as the superposition of all the atoms occupying the first and the last site. Subsequently, we present strategies that would allow to obtain quadratic dependence on $M$ of the Fisher information in a more realistic experimental setup.
翻訳日:2023-02-01 13:02:58 公開日:2022-08-10
# アーベルケイリーグラフ上の分数復元

Fractional revival on abelian Cayley graphs ( http://arxiv.org/abs/2208.05107v1 )

ライセンス: Link先を確認
Xiwang Cao, Gaojun Luo(参考訳) 量子輸送現象として知られるフラクショナルリバイバルは、量子スピンネットワークにおける絡み合い生成に不可欠である。 分数再生の概念は、グラフ上の完全状態移動と周期性の一般化である。 本稿では,二つの異なる頂点間の分数的再帰を持つアーベルケイリーグラフに対して,十分かつ必要な条件を提案する。 この特徴付けにより、分数再生を持つアーベルケイリーグラフの2つの一般的な構成が提示される。 一方,分数回復を認めるアーベル・ケイリーグラフの新たな族をいくつか確立した。

Fractional revival, known as a quantum transport phenomenon, is essential for entanglement generation in quantum spin networks. The concept of fractional revival is a generalization of perfect state transfer and periodicity on graphs. In this paper, we propose a sufficient and necessary condition for abelian Cayley graphs having fractional revival between any two distinct vertices. With this characterization, two general constructions of abelian Cayley graphs having fractional revival is presented. Meanwhile, we establish several new families of abelian Cayley graphs admitting fractional revival.
翻訳日:2023-02-01 13:02:41 公開日:2022-08-10
# スケーラブル量子情報応用のためのシリコンフォトニックデバイス

Silicon photonic devices for scalable quantum information applications ( http://arxiv.org/abs/2208.05104v1 )

ライセンス: Link先を確認
Lantian Feng, Ming Zhang, Jianwei Wang, Xiaoqi Zhou, Xiaogang Qiang, Guangcan Guo, Xifeng Ren(参考訳) 高集積密度と優れた光学特性を持つシリコンフォトニクスは、完全統合と大規模光学量子情報処理のための有望なプラットフォームになりつつある。 スケーラブルな量子情報アプリケーションは、同じチップ上で光子生成と検出を行う必要があり、この目的のためにシリコンフォトニックチップ上の様々なデバイスが開発されている。 本稿では,シリコンフォトニックチップを用いたスケーラブル量子応用のための研究成果と最新技術について概説する。 欠点にもかかわらず、一部のコンポーネントのプロパティは、さらなる拡張の要件をすでに満たしている。 さらに,オンチップ・スケーラブルな量子情報アプリケーションの課題と今後の研究方向性を指摘する。

With high integration density and excellent optical properties, silicon photonics is becoming a promising platform for complete integration and large-scale optical quantum information processing. Scalable quantum information applications need photon generation and detection to be integrated on the same chip, and we have seen that various devices on the silicon photonic chip have been developed for this goal. This paper reviews the relevant research results and state-of-the-art technologies on the silicon photonic chip for scalable quantum applications. Despite the shortcomings, properties of some components have already met the requirements for further expansion. Furthermore, we point out the challenges ahead and further research directions for on-chip scalable quantum information applications.
翻訳日:2023-02-01 13:02:35 公開日:2022-08-10
# 光合成周波数格子におけるボソニック輸送のプログラム可能な大規模シミュレーション

Programmable large-scale simulation of bosonic transport in optical synthetic frequency lattices ( http://arxiv.org/abs/2208.05088v1 )

ライセンス: Link先を確認
Alen Senanian, Logan G. Wright, Peter F. Wade, Hannah K. Doyle, Peter L. McMahon(参考訳) 合成周波数次元を用いたフォトニックシミュレータは、実空間で観測できない現象を実現するために、凝縮物質系の柔軟な実験アナログを可能にした。 しかし、これまでこのようなフォトニックシミュレータは有限サイズ効果に苦しむ小さなシステムに限られてきた。 本稿では,大きな2次元格子と3次元格子をシミュレートできるアナログシミュレータと,量子重力の玩具モデルとして機能する木格子を含む非平面接続格子について述べる。 我々の実証はフォトニクスの広帯域化によって実現され、シミュレーターは10万以上の格子サイトを持つ格子を実現できる。 任意の状態を励起する新しい手法を用いて、これらの大きな格子を、これまでアクセス不能であった幅広い状況下で探索する。 本研究は,光領域における合成周波数次元に基づくプログラマブルシミュレータのスケーラビリティと柔軟性を確立する。 我々は、このプラットフォームの将来の拡張が、高帯域幅光電子工学の進歩を利用して、数百万の格子サイト規模での動的、非平衡相のシミュレーションと、高次相互作用を持つモデルをシミュレートするkerr- frequency-comb技術をサポートすることを期待している。

Photonic simulators using synthetic frequency dimensions have enabled flexible experimental analogues of condensed-matter systems, realizing phenomena that are impractical to observe in real-space systems. However, to date such photonic simulators have been limited to small systems suffering from finite-size effects. Here, we present an analog simulator capable of simulating large 2D and 3D lattices, as well as lattices with non-planar connectivity, including a tree lattice that serves as a toy model in quantum gravity. Our demonstration is enabled by the broad bandwidth achievable in photonics, allowing our simulator to realize lattices with over 100,000 lattice sites. We explore these large lattices in a wide range of previously inaccessible regimes by using a novel method to excite arbitrary states. Our work establishes the scalability and flexibility of programmable simulators based on synthetic frequency dimensions in the optical domain. We anticipate that future extensions of this platform will leverage advances in high-bandwidth optoelectronics to support simulations of dynamic, non-equilibrium phases at the scale of millions of lattice sites, and Kerr-frequency-comb technology to simulate models with higher-order interactions, ultimately in regimes and at scales inaccessible to both digital computers and realizable materials.
翻訳日:2023-02-01 13:02:27 公開日:2022-08-10
# 無線チャネル割り当て問題に対する量子ビット削減と量子スピードアップ

Qubit Reduction and Quantum Speedup for Wireless Channel Assignment Problem ( http://arxiv.org/abs/2208.05181v1 )

ライセンス: Link先を確認
Yuki Sano, Masaya Norimoto, Naoki Ishikawa(参考訳) 本稿では、Grover Adaptive Search(GAS)を用いて、NP-hard無線チャネル割り当て問題を高次非制約バイナリ最適化(HUBO)として定式化する方法を提案する。 従来の方法はチャネルインデックスの1ホット符号化に依存しており、二次的な定式化をもたらす。 対照的に、チャネルインデックスの昇降と下降のバイナリエンコーディングを考案し、特定の量子回路を構築し、GASが要求するキュービットとゲートの正確な数を導出する。 提案手法は,従来の2次定式化に比べて,キュービット数とクエリの複雑さを有意に低減することを示す。 この利点は量子ゲート数の増加のコストで達成でき、提案する下降バイナリエンコーディングによって削減できることを実証する。

In this paper, we propose a novel method of formulating an NP-hard wireless channel assignment problem as a higher order unconstrained binary optimization (HUBO), where the Grover adaptive search (GAS) is used to provide a quadratic speedup for solving the problem. The conventional method relies on a one-hot encoding of the channel indices, resulting in a quadratic formulation. By contrast, we conceive ascending and descending binary encodings of the channel indices, construct a specific quantum circuit, and derive the exact numbers of qubits and gates required by GAS. Our analysis clarifies that the proposed HUBO formulation significantly reduces the number of qubits and the query complexity compared with the conventional quadratic formulation. This advantage is achieved at the cost of an increased number of quantum gates, which we demonstrate can be reduced by our proposed descending binary encoding.
翻訳日:2023-02-01 12:57:23 公開日:2022-08-10
# 2つの結合したフィボナッチ鎖のスペクトル特性

Spectral Properties of Two Coupled Fibonacci Chains ( http://arxiv.org/abs/2208.05178v1 )

ライセンス: Link先を確認
Anouar Moustaj, Malte R\"ontgen, Christian V. Morfonios, Peter Schmelcher and Cristiane Morais Smith(参考訳) フィボナッチ連鎖(fibonacci chain)、すなわち結合および/またはオンサイトポテンシャルがフィボナッチ語に従って分布する2つの異なる値のみを取ることのできる強結合モデルは、一次元準結晶の古典的な例である。 フラクタル固有値スペクトルのような多くの興味深い性質を持つフィボナッチ鎖は、3次元準結晶で起こる多くの効果を調べるための豊富なプラットフォームを提供する。 本研究では、2つの同一のフィボナッチ鎖の固有値と固有状態について異なる方法で結合した。 この設定によって、さまざまな効果が得られます。 使用する結合方式, 結果系に依存して i) 単一のフィボナッチ連鎖のスペクトルと比較してよりリッチな階層構造を特徴とする固有値スペクトルを有する。 (二)ブロッホ及び臨界固有状態の共存を示す、又は (iii) は多数の退化固有状態を持ち、それぞれがシステムの4箇所のみに完全に局在している。 さらに、系が無限に拡張されると、完全局所化された固有状態のマクロ数は完全平坦な準バンドを誘導する。 特に第2のケースはアプリケーションの観点から興味深い。なぜなら、Blochの固有状態や重要な特性を持つ固有状態は、ほとんど異なる輸送特性を持つからである。 同時に,エバネッセント結合導波路を用いた実験や,金属基板上にadatomによる反格子をパターニングすることにより,実験的な実現を可能にする。

The Fibonacci chain, i.e., a tight-binding model where couplings and/or on-site potentials can take only two different values distributed according to the Fibonacci word, is a classical example of a one-dimensional quasicrystal. With its many intriguing properties, such as a fractal eigenvalue spectrum, the Fibonacci chain offers a rich platform to investigate many of the effects that occur in three-dimensional quasicrystals. In this work, we study the eigenvalues and eigenstates of two identical Fibonacci chains coupled to each other in different ways. We find that this setup allows for a rich variety of effects. Depending on the coupling scheme used, the resulting system (i) possesses an eigenvalue spectrum featuring a richer hierarchical structure compared to the spectrum of a single Fibonacci chain, (ii) shows a coexistence of Bloch and critical eigenstates, or (iii) possesses a large number of degenerate eigenstates, each of which is perfectly localized on only four sites of the system. If additionally, the system is infinitely extended, the macroscopic number of perfectly localized eigenstates induces a perfectly flat quasi band. Especially the second case is interesting from an application perspective, since eigenstates that are of Bloch or of critical character feature largely different transport properties. At the same time, the proposed setup allows for an experimental realization, e.g., with evanescently coupled waveguides or by patterning an anti-lattice with adatoms on a metallic substrate.
翻訳日:2023-02-01 12:57:08 公開日:2022-08-10
# 量子線追跡のための改良量子スーパーサンプリング

Improved Quantum Supersampling for Quantum Ray Tracing ( http://arxiv.org/abs/2208.05171v1 )

ライセンス: Link先を確認
Xi Lu and Hongwei Lin(参考訳) レイトレーシングアルゴリズム(ray tracing algorithm)は、大量の光線の物理的動きをシミュレーションし、それらのエネルギーを計算することによってピクセルの色を計算するレンダリングアルゴリズムのカテゴリであり、並列に実装することができる。 一方、重ね合わせと絡み合いの性質は、量子コンピューティングを並列タスクに自然に適合させる。 レイトレーシング問題は高次元数値積分問題と見なすことができる。 n$クエリが使用されると仮定すると、古典的なモンテカルロ法ではエラー収束は$o(1/\sqrt{n})$であり、量子スーパーサンプリングアルゴリズムでは約$o(1/n)$となる。 しかし、量子スーパーサンプリングの原点の出力は、長い尾を持つ確率分布に従うため、画像上の孤立した異常な点が多く現れる。 本稿では,量子スーパーサンプリングにおけるqftに基づく位相推定を,ロバストな量子カウントスキームであるqftに基づく適応ベイズ位相推定に置き換えることで,量子スーパーサンプリングを改善する。 異なる量子カウント方式の性能を定量的に研究し比較する。 最後に,量子スーパーサンプリングを改良した量子線追跡が,従来の経路追跡アルゴリズムや量子スーパーサンプリングの原型よりも優れた性能を発揮することを示すためにシミュレーション実験を行う。

Ray tracing algorithm is a category of rendering algorithms that calculate the color of pixels by simulating the physical movements of a huge amount of rays and calculating their energies, which can be implemented in parallel. Meanwhile, the superposition and entanglement property make quantum computing a natural fit for parallel tasks.Here comes an interesting question, is the inherently parallel quantum computing able to speed up the inherently parallel ray tracing algorithm? The ray tracing problem can be regarded as a high-dimensional numerical integration problem. Suppose $N$ queries are used, classical Monte Carlo approaches has an error convergence of $O(1/\sqrt{N})$, while the quantum supersampling algorithm can achieve an error convergence of approximately $O(1/N)$. However, the outputs of the origin form of quantum supersampling obeys a probability distribution that has a long tail, which shows up as many detached abnormal noisy dots on images. In this paper, we improve quantum supersampling by replacing the QFT-based phase estimation in quantum supersampling with a robust quantum counting scheme, the QFT-based adaptive Bayesian phase estimation. We quantitatively study and compare the performances of different quantum counting schemes. Finally, we do simulation experiments to show that the quantum ray tracing with improved quantum supersampling does perform better than classical path tracing algorithm as well as the original form of quantum supersampling.
翻訳日:2023-02-01 12:56:44 公開日:2022-08-10
# 量子メトロロジーの熱力学原理に関するノート

Notes on Thermodynamic Principle for Quantum Metrology ( http://arxiv.org/abs/2208.05167v1 )

ライセンス: Link先を確認
Yaoming Chu and Jianming Cai(参考訳) 近年,量子メソロジーのエネルギー消費の物理的限界を見いだし,最高の測定精度を決定する量子フィッシャー情報(qfi)の消去から生じることを実証した。 ここでは、この原理の本質をさらに詳しく述べるために、さらなる詳細を述べる。

Recently, we find a physical limit on energy consumption of quantum metrology, and demonstrate that it essentially arises from the erasure of quantum Fisher information (QFI) which determines the best achievable measurement precision. Here, we provide more details in order to further elaborate the essence of this principle.
翻訳日:2023-02-01 12:56:22 公開日:2022-08-10
# 開量子系における動的相転移

Dynamical phase transition in an open quantum system ( http://arxiv.org/abs/2208.05164v1 )

ライセンス: Link先を確認
Ling-Na Wu, Jens Nettersheim, Julian Fe\ss, Alexander Schnell, Sabrina Burgardt, Silvia Hiebel, Daniel Adam, Andr\'e Eckardt and Artur Widera(参考訳) 相転移は、温度や外部磁場のような連続的な制御パラメータに対応する物理系の特異な挙動に対応する。 相関長の発散に伴う連続相転移付近で, 微視的系詳細に依存しない臨界指数を持つ普遍的パワーロースケーリング挙動が見いだされる。 近年、動的量子相転移と普遍的スケーリングが予測され、クエンチ後の孤立量子系の非平衡力学でも観察され、制御パラメーターの役割は時間とともに果たされた。 しかし、そのような動的相転移のシグネチャは、そのダイナミクスが環境への散逸的な接触によって駆動されるが、非常に不可解である。 ここでは、時間に関する動的相転移が混合状態によって記述されたオープン量子系でも起こりうることを示す。 ルビジウム原子の超低温ボースガスへのスピン交換による散逸結合によって誘導される個々のセシウム原子の大きな原子スピンの緩和ダイナミクスを実験的に測定した。 初期状態が平衡から遠い場合、スピン状態のエントロピーは時間内にピークに達し、その最大値に過渡的に近づき、最終的にその低い平衡値に緩和される。 この効果は、初期状態の詳細に関するシステムのメモリの事前熱的損失と関係している。 さらに,数値シミュレーションに基づく有限次元スケーリング解析により,大きな系の大きさの限界における散逸系の動的相転移に対応することを示した。 以上の結果から, 開量子系の散逸進化において, 動的相転移は孤立系に限らず, 驚くべきことに起こりうることが示唆された。

Phase transitions correspond to the singular behavior of physical systems in response to continuous control parameters like temperature or external fields. Near continuous phase transitions, associated with the divergence of a correlation length, universal power-law scaling behavior with critical exponents independent of microscopic system details is found. Recently, dynamical quantum phase transitions and universal scaling have been predicted and also observed in the non-equilibrium dynamics of isolated quantum systems after a quench, with time playing the role of the control parameter. However, signatures of such dynamical phase transition in open systems, whose dynamics is driven by the dissipative contact to an environment, were so far elusive. Here, we demonstrate that dynamical phase transitions with respect to time can also occur in open quantum systems described by mixed states. We experimentally measure the relaxation dynamics of the large atomic spin of individual Caesium atoms induced by the dissipative coupling via spin-exchange processes to an ultracold Bose gas of Rubidium atoms. For initial states far from equilibrium, the entropy of the spin state is found to peak in time, transiently approaching its maximum possible value, before eventually relaxing to its lower equilibrium value. This effect is associated with a prethermal loss of the system's memory of the details of the initial state. Moreover, a finite-size scaling analysis based on numerical simulations shows that it corresponds to a dynamical phase transition of the dissipative system in the limit of large system sizes. Our results show that dynamical phase transitions are not restricted to occur in isolated systems, but, surprisingly, are possible also during the dissipative evolution of open quantum systems.
翻訳日:2023-02-01 12:56:16 公開日:2022-08-10
# 2つの平行なキラルプレート間の質量フェルミオン

Massive fermion between two parallel chiral plates ( http://arxiv.org/abs/2208.05150v1 )

ライセンス: Link先を確認
Ar Rohim, Apriadi Salim Adam, Kazuhiro Yamamoto(参考訳) 2つの平行平板の間に閉じ込められた巨大なフェルミオンの系について検討し, 両平板の特性をカイラルmit境界条件下で議論した。 一般運動量を持つ巨大フェルミオンに対するカシミールエネルギーにおけるカイラル角の影響について検討する。 キラル角の関数におけるカシミールエネルギーは一般に対称であり、キラルの場合の魅力的なカシミール力は非キラルの場合よりも強い。 さらに,光および重質量の場合のカシミールエネルギーの近似について検討した。 一般離散モーメントの挙動やスピン配向の変化についても論じる。

We study the system of a massive fermion confined between two parallel plates, where the properties of both plates are discussed under chiral MIT boundary conditions. We investigate the effects of the chiral angle in the Casimir energy for a massive fermion with the general momentum. We find that the Casimir energy in the function of the chiral angle is generally symmetrical, and the attractive Casimir force in the chiral case is stronger than that in the nonchiral case. In addition, we investigate the approximate Casimir energy in light and heavy mass cases. The general discrete momenta's behavior and changes of spin orientations are also discussed.
翻訳日:2023-02-01 12:55:16 公開日:2022-08-10
# Bloch発振を用いたフロックバンド工学

Floquet band engineering with Bloch oscillations ( http://arxiv.org/abs/2208.05260v1 )

ライセンス: Link先を確認
Xi Liu, Senmao Tan, Qing-hai Wang, Longwen Zhou, and Jiangbin Gong(参考訳) この研究は、周期的に駆動される格子系に傾きのある線形ポテンシャルを加えることで、ブロッホ振動によるフロッケバンドの工学への便利で強力な手段を提供する。 付加された線形場は、時間発展する波束の拡散を制限するだけでなく、ブロッホ振動周波数と周期駆動の変調周波数との比によって、バンドプロファイルとトポロジーを劇的に修飾する。 具体的には、線形場の存在下では、駆動 Aubry-Andr\e-Harper モデルを実例と考える。 周期駆動とブロッホ振動の相互作用によるチャーン数の大きいほぼ平坦なフロッケバンドまたはフロッケバンドを得ることができ、2つの競合周波数の比率を調整してバンド構造とトポロジーを広範囲に調整できる。 我々の発見を確認するため、我々は格子系において1つの相互作用するボソンと2つの相互作用するボソンのThoulessポンプを更に実行し、単一粒子と2粒子のフロケバンドの位相特性と関係性を確立する。

This work provides a convenient and powerful means towards the engineering of Floquet bands via Bloch oscillations, by adding a tilted linear potential to periodically driven lattice systems. The added linear field not only restricts the spreading of a time-evolving wavepacket but also, depending on the ratio between the Bloch oscillation frequency and the modulation frequency of the periodic driving, dramatically modifies the band profile and topology. Specifically, we consider a driven Aubry-Andr\'e-Harper model as a working example, in the presence of a linear field. Almost flat Floquet bands or Floquet bands with large Chern numbers due to the interplay between the periodic driving and Bloch oscillations can be obtained, with the band structure and topology extensively tunable by adjusting the ratio of two competing frequencies. To confirm our finding, we further execute the Thouless pumping of one and two interacting bosons in such a lattice system and establish its connection with the topological properties of single- and two-particle Floquet bands.
翻訳日:2023-02-01 12:46:44 公開日:2022-08-10
# パラメータ推定による宇宙弦時空探査

Probing cosmic string spacetime through parameter estimation ( http://arxiv.org/abs/2208.05351v1 )

ライセンス: Link先を確認
Ying Yang, Jiliang Jing, and Zehua Tian(参考訳) 量子計量学は量子戦略を用いて物理量の最終的な精度限界を研究する。 本稿では,宇宙弦時空の欠陥角パラメータを推定するための相対論的枠組みに量子メトロロジー技術を適用する。 電磁場に結合した2レベル原子をプローブとし、それをオープン量子系として扱うことにより、その動的進化を導出する。 我々は,その量子フィッシャー情報(qfi)を計算し,欠陥角パラメータを推定する。 量子フィッシャー情報は, 欠陥角, 進化時間, 検出器初期状態, 偏光方向, 位置に依存することがわかった。 次に、全ての関連するパラメータを通して量子フィッシャー情報を最大化し、したがって推定の精度を最適化する最適推定戦略を同定する。 以上の結果から,QFIには異なる挙動と大きさのオーダーがあり,宇宙線時空の探査に光が当たる可能性が示唆された。

Quantum metrology studies the ultimate precision limit of physical quantities by using quantum strategy. In this paper we apply the quantum metrology technologies to the relativistic framework for estimating the deficit angle parameter of cosmic string spacetime. We use a two-level atom coupled to electromagnetic fields as the probe and derive its dynamical evolution by treating it as an open quantum system. We estimate the deficit angle parameter by calculating its quantum Fisher information(QFI). It is found that the quantum Fisher information depends on the deficit angle, evolution time, detector initial state, polarization direction, and its position. We then identify the optimal estimation strategies, i.e., maximize the quantum Fisher information via all the associated parameters, and therefore optimize the precision of estimation. Our results show that for different polarization cases the QFIs have different behaviors and different orders of magnitude, which may shed light on the exploration of cosmic string spacetime.
翻訳日:2023-02-01 12:41:22 公開日:2022-08-10
# 環境への結合を工学化する量子アニーリングの改善

Improving quantum annealing by engineering the coupling to the environment ( http://arxiv.org/abs/2208.05270v1 )

ライセンス: Link先を確認
Mojdeh S. Najafabadi, Daniel Schumayer, Chee Kong Lee, Dieter Jaksch, and David A. W. Hutchinson(参考訳) 最適化問題の大きなクラスは、全ての詳細がスピンのカップリングで符号化されるイジングモデルにマッピングできる。 元の数学的最適化のタスクは、断熱定理に依存する量子アニーリングによって達成される対応するスピン系の基底状態を見つけることに等価である。 この手順の固有の欠点のいくつかは、確率的アプローチと外部環境との結合によって緩和または解決することができる。 個々のスピンレベルでのシステム・バスカップリングの綿密なエンジニアリングがアニーリングをさらに改善できることを示す。

A large class of optimisation problems can be mapped to the Ising model where all details are encoded in the coupling of spins. The task of the original mathematical optimisation is then equivalent to finding the ground state of the corresponding spin system which can be achieved via quantum annealing relying on the adiabatic theorem. Some of the inherent disadvantages of this procedure can be alleviated or resolved using a stochastic approach, and by coupling to the external environment. We show that careful engineering of the system-bath coupling at an individual spin level can further improve annealing.
翻訳日:2023-02-01 12:40:54 公開日:2022-08-10
# 量子宇宙の創発的構造としての分岐状態

Branching States as The Emergent Structure of a Quantum Universe ( http://arxiv.org/abs/2208.05497v1 )

ライセンス: Link先を確認
Akram Touil, Fabio Anza, Sebastian Deffner, James P. Crutchfield(参考訳) 量子ダーウィン主義は、量子宇宙における古典的な振る舞いの出現を説明するためにデコヒーレンス理論に基づいている。 量子力学の微分幾何学的基盤は、量子ダーウィンの検証に必要な相関構造に一意に情報的な窓を提供することを示した。 これにより、量子不協和の零点を中心に古典現象学の出現に関する2つの重要な知見が導かれる。 まず、システムと環境の結合状態のいわゆる分岐構造が、ゼロ不協和に適合する唯一のものであることを示す。 第二に、小さいがゼロでない不協和に対して、大域的に純粋な状態の構造は分岐形式に任意に近いことを証明する。 これらの結果は、量子ダーウィン論で記述されているように、この分岐状態のクラスが古典現象論の出現と互換性のある唯一のものであるという強い証拠を与える。

Quantum Darwinism builds on decoherence theory to explain the emergence of classical behavior within a quantum universe. We demonstrate that the differential geometric underpinnings of quantum mechanics provide a uniquely informative window into the structure of correlations needed to validate Quantum Darwinism. This leads us to two crucial insights about the emergence of classical phenomenology, centered around the nullity of quantum discord. First, we show that the so-called branching structure of the joint state of system and environment is the only one compatible with zero discord. Second, we prove that for small, but nonzero discord, the structure of the globally pure state is arbitrarily close to the branching form. These provide strong evidence that this class of branching states is the only one compatible with the emergence of classical phenomenology, as described in Quantum Darwinism.
翻訳日:2023-02-01 10:11:56 公開日:2022-08-10
# より強い量子スピード限界

Stronger Quantum Speed Limit ( http://arxiv.org/abs/2208.05469v1 )

ライセンス: Link先を確認
Dimpi Thakuria and Arun Kumar Pati(参考訳) 量子速度限界(quantum speed limit)は、量子系が初期状態と最終状態の間で進化する速度の基本的な制限を与える。 ユニタリ進化のために、マンデルスタム・タム境界(mt)は様々なシステムで広く研究されてきた。 ここでは、任意のユニタリ進化を行う全ての量子系に対して、より強い量子速度限界(SQSL)を証明し、MT境界が強い量子速度限界の特別な場合であることを示す。 我々は, 単一系および分離および絡み合い状態の複合系に対してこの結果を適用し, 新たな境界が真にタイトであることを示す。 より強力な量子速度制限は、量子制御、量子コンピューティング、量子情報処理において幅広い応用を持つ。

The quantum speed limit provides fundamental bound on how fast a quantum system can evolve between the initial and the final states. For the unitary evolution, the celebrated Mandelstam-Tamm (MT) bound has been widely studied for various systems. Here, we prove a stronger quantum speed limit (SQSL) for all quantum systems undergoing arbitrary unitary evolution and show that the MT bound is a special case of the stronger quantum speed limit. We apply our result for single system as well as for composite systems in separable and entangled states and show that the new bound is indeed tight. The stronger quantum speed limit will have wide range of applications in quantum control, quantum computing and quantum information processing.
翻訳日:2023-02-01 10:11:41 公開日:2022-08-10
# erasure qubits:超伝導回路における$t_1$制限を克服する

Erasure qubits: Overcoming the $T_1$ limit in superconducting circuits ( http://arxiv.org/abs/2208.05461v1 )

ライセンス: Link先を確認
Aleksander Kubica, Arbel Haim, Yotam Vaknin, Fernando Brand\~ao, Alex Retzker(参考訳) 振幅減衰時間である$t_1$は、超伝導回路における量子忠実性を制限する主要な要因であり、量子ビットの材料科学と設計に協力して、$t_1$の増加を目指した。 対照的に、dephasing time, $T_{\phi}$は、通常、$T_1$(例えば、動的デカップリング)を超えて、不確実性を制限しない点まで拡張することができる。 本稿では、振幅減衰誤差を検出し、消去誤差に変換する方法として、量子ビットを設計し、従来のT_1$制限を克服する手法を提案する。 標準の量子ビット実装と比較して、このスキームは、表面コードの回路ノイズシミュレーションによって数値的に示されるように、フォールトトレラントプロトコルの性能を向上させる。 超伝導回路を用いた2つの簡単な量子ビット実装について述べるとともに、振幅減衰誤差の検出、エンタングルゲートの実行、およびT_\phi$の拡張手順について議論する。 その結果,t_\phi$ と量子コヒーレント制御の質向上に工学的取り組みを集中させることが,フォールトトレラントプロトコルの性能の制限要因となることが示唆された。

The amplitude damping time, $T_1$, has long stood as the major factor limiting quantum fidelity in superconducting circuits, prompting concerted efforts in the material science and design of qubits aimed at increasing $T_1$. In contrast, the dephasing time, $T_{\phi}$, can usually be extended above $T_1$ (via, e.g., dynamical decoupling), to the point where it does not limit fidelity. In this article we propose a scheme for overcoming the conventional $T_1$ limit on fidelity by designing qubits in a way that amplitude damping errors can be detected and converted into erasure errors. Compared to standard qubit implementations our scheme improves the performance of fault-tolerant protocols, as numerically demonstrated by the circuit-noise simulations of the surface code. We describe two simple qubit implementations with superconducting circuits and discuss procedures for detecting amplitude damping errors, performing entangling gates, and extending $T_\phi$. Our results suggest that engineering efforts should focus on improving $T_\phi$ and the quality of quantum coherent control, as they effectively become the limiting factor on the performance of fault-tolerant protocols.
翻訳日:2023-02-01 10:11:29 公開日:2022-08-10
# ボソニック格子モデルにおける2光子駆動・散逸・相互作用の競合:厳密解

Competition between two-photon driving, dissipation and interactions in bosonic lattice models: an exact solution ( http://arxiv.org/abs/2208.05451v1 )

ライセンス: Link先を確認
David Roberts, Aashish Clerk(参考訳) 我々は、量子駆動散逸ボソニックモデルのクラスの定常状態に対する任意の次元における厳密な解を示し、モードの集合は任意の2光子駆動、単一光子損失、大域ハバード(あるいはケラー)様相互作用の対象となる。 我々の解は、散逸相転移の出現、非自明なモード競合物理、対称性の破れ、多体SU(1,1)$ペアコヒーレント状態の安定化など、多くの驚くべき現象を明らかにする。 我々の正確な解は空間的相関の記述を可能にし、従来の平均場と半古典的アプローチが崩壊する体制において完全に有効である。

We present an exact solution in arbitrary dimensions for the steady states of a class of quantum driven-dissipative bosonic models, where a set of modes is subject to arbitrary two-photon driving, single-photon loss and a global Hubbard (or Kerr)-like interaction. Our solutions reveal a wealth of striking phenomena, including the emergence of dissipative phase transitions, nontrivial mode competition physics and symmetry breaking, and the stabilization of many-body $SU(1,1)$ pair coherent states. Our exact solutions enable the description of spatial correlations, and are fully valid in regimes where traditional mean-field and semiclassical approaches break down.
翻訳日:2023-02-01 10:11:07 公開日:2022-08-10
# ${\bf 10^{-28}}$-Newton安定性を持つ2次元力の量子精度測定

Quantum precision measurement of two-dimensional forces with ${\bf 10^{-28}}$-Newton stability ( http://arxiv.org/abs/2208.05368v1 )

ライセンス: Link先を確認
Xinxin Guo, Zhongcheng Yu, Fansu Wei, Shengjie Jin, Xuzong Chen, Xiaopeng Li, Xibo Zhang, Xiaoji Zhou(参考訳) ベクトル力の高精度なセンシングは、真空ゆらぎの検証(casimir09rmp)やナノ構造の表面粗さの検出(revmodphys.89.035002)など、基礎研究と技術応用の両方に多大な影響を与えている。 近年、急速に進歩する量子技術のために、電磁力の交互検出に関する多くの進歩が見られ、原子センサーによる検出感度のオーダー・オブ・マグニチュードの改善が達成されている(cite{Schreppler1486,Shaniv2017,Gilmore673})。 ここでは、光学格子に閉じ込められた量子原子性物質波に基づいて、相互空間におけるコヒーレント波力学を撮像することにより、静電磁気力の精密測定を行う。 我々は2.30(8)\times 10^{-26}$ N/$\sqrt{\rm \bf Hz}$の最先端測定感度を実現する。 10^{-28}= N の順序の長期安定度は、力の2つの空間成分で観測され、原子のファンデルワールス力はミリメートル距離 \cite{NatureNanoScanning} で観測できる。 さらに、我々の原子センサーを用いて、実験で適用された交互電磁力の制御精度を校正する。 本手法の今後の発展は、前例のない原子ベースの量子力センシング技術の実現を約束する。

High-precision sensing of vectorial forces has broad impact on both fundamental research and technological applications such as the examination of vacuum fluctuations \cite{casimir09rmp} and the detection of surface roughness of nanostructures \cite{RevModPhys.89.035002}. Recent years have witnessed much progress on sensing alternating electromagnetic forces for the rapidly advancing quantum technology -- orders-of-magnitude improvement has been accomplished on the detection sensitivity with atomic sensors \cite{Schreppler1486,Shaniv2017,Gilmore673}, whereas precision measurement of static {electromagnetic} forces lags far behind with the corresponding long-term stability rarely demonstrated. Here, based on quantum atomic matter waves confined by an optical lattice, we perform precision measurement of static {electromagnetic} forces by imaging coherent wave mechanics in the reciprocal space. We achieve a state-of-the-art measurement sensitivity of $ 2.30(8)\times 10^{-26}$ N/$\sqrt{\rm \bf Hz}$. Long-term stabilities on the order of $10^{-28}$ N are observed in the two spatial components of a force, which allows probing atomic Van der Waals forces at a millimeter distance \cite{NatureNanoScanning}. As a further illustrative application, we use our atomic sensor to calibrate the control precision of an alternating electromagnetic force applied in the experiment. Future developments of our method hold promise for delivering unprecedented atom-based quantum force sensing technologies.
翻訳日:2023-02-01 10:10:18 公開日:2022-08-10
# 量子ドットによる暗黒物質直接検出

Dark Matter Direct Detection with Quantum Dots ( http://arxiv.org/abs/2208.05967v1 )

ライセンス: Link先を確認
Carlos Blanco, Rouven Essig, Marivi Fernandez-Serra, Harikrishnan Ramani, Oren Slone(参考訳) 我々は、量子ドットを新しいターゲットとして、サブgevダークマター-電子相互作用を調べることを提案する。 量子ドット(Quantum dots)は、半導電性材料のナノ結晶であり、市販されており、グラムスケールの量もリットルスケールの溶媒量で懸濁している。 量子ドットは、単光子量子収率に近い効率的なシンチレータとなり、そのバンドエッジ電子特性はその特性サイズによって決定され、正確に調整することができる。 例えば、鉛硫化鉛(pbs)や鉛セレニド(pbse)量子ドットは、サブev光ギャップを持つように調整できる。 ダークマター相互作用は1つ以上の電子-ホール対(エクシトン)を生成でき、マルチエクシトン状態は2つの光子の放出によって崩壊し、その効率は1光子量子収率の約10%である。 商業的に利用可能な量子ドットと、一致する2光子信号を検出する2つの光増倍管(pmts)を用いた実験的なセットアップは、既存の暗黒マッター境界に対して既に改善されている。

We propose using Quantum Dots as novel targets to probe sub-GeV dark matter-electron interactions. Quantum dots are nanocrystals of semiconducting material, which are commercially available, with gram-scale quantities suspended in liter-scale volumes of solvent. Quantum dots can be efficient scintillators, with near unity single-photon quantum yields, and their band-edge electronic properties are determined by their characteristic size, which can be precisely tuned. Examples include lead sulfide (PbS) and lead selenide (PbSe) quantum dots, which can be tuned to have sub-eV optical gaps. A dark-matter interaction can generate one or more electron-hole pairs (excitons), with the multi-exciton state decaying via the emission of two photons with an efficiency of about 10% of the single-photon quantum yield. An experimental setup using commercially available quantum dots and two photo-multiplier-tubes (PMTs) for detecting the coincident two-photon signal can already improve on existing dark-matter bounds, while using photodetectors with lower dark-count rates can improve on current constraints by orders of magnitude.
翻訳日:2023-02-01 10:02:57 公開日:2022-08-10
# 時変質量を持つ自由粒子に対するスクイーズドコヒーレント状態

Squeezed coherent states for a free particle with time-varying mass ( http://arxiv.org/abs/2208.05588v1 )

ライセンス: Link先を確認
A. S. Pereira, A. S. Lemos, F. A. Brito(参考訳) 我々は、指数的に時間変化の質量を持つ自由粒子に対する圧縮コヒーレント状態(SCS)を得る。 我々は、時間に依存しないフォック状態のスクイーズと変位パラメータの観点からこれらの状態を記述する。 そこで,SCSを半古典状態とみなすことができるような変位パラメータの条件を求める。 質量が時間とともに増加する限り、最小の不確かさを持つ自由粒子に対してコヒーレント状態(cs)を得ることができることを示す。 自由粒子SCSに対する時間非依存のFock状態に初期準備された系の遷移確率を解析した。

We obtain the squeezed coherent states (SCS) for a free particle with exponentially time-varying mass. We write these states in terms of the squeeze and displacement parameters on the time-independent Fock states. Thus, we find a condition on the displacement parameter such that the SCS can be considered semiclassical states. We show that it is possible to obtain the coherent states (CS) for a free particle with minimal uncertainty as long as the mass increases with the time. We analyze the transition probability of a system initially prepared in the time-independent Fock states to the free particle SCS.
翻訳日:2023-02-01 10:02:34 公開日:2022-08-10
# 2レベル系と導波路との相互作用を分離状態から超強結合状態まで仲介する波長可変結合器

Tunable Coupler for Mediating Interactions between a Two-Level System and a Waveguide from a Decoupled State to the Ultra-Strong Coupling Regime ( http://arxiv.org/abs/2208.05571v1 )

ライセンス: Link先を確認
N. Janzen, X. Dai, S. Ren, J. Shi, A. Lupascu(参考訳) 導波路に結合した2レベルシステム(TLS)は、光-物質相互作用と量子ネットワークの基本的なパラダイムである。 本稿では,超強結合状態近傍のtls遷移周波数のかなりの割合である結合強度に対して,フラックス量子ビットとして実装されたtlsとデカップリング状態から伝送線路導波路との相互作用をチューニングする手法を紹介し,実験的に実証する。 磁束によって制御されるカップリングは、正規化された結合強度$\alpha$によって記述され、これは6.2\times10^{-5}$から2.19\times10^{-2}$の範囲で測定され、デバイスの回路モデルにより到達可能な最大値よりも大きい。 このシステムは、スピンボーソンモデル、マイクロ波フォトニクス、相対論的量子情報のダイナミクスに関する将来の研究を可能にする。

Two-level systems (TLS) coupled to waveguides are a fundamental paradigm for light-matter interactions and quantum networks. We introduce and experimentally demonstrate a method to tune the interaction between a TLS, implemented as a flux qubit, and a transmission line waveguide from a decoupled state to a coupling strength that is a significant fraction of the TLS transition frequency, near the ultra-strong coupling regime. The coupling, controlled via magnetic flux, is described by a normalized coupling strength $\alpha$ that is measured to range between $6.2\times10^{-5}$ and $2.19\times10^{-2}$, with larger attainable maximum values predicted by a circuit model of the device. This system enables future investigations in the dynamics of the spin-boson model, microwave photonics, and relativistic quantum information.
翻訳日:2023-02-01 10:02:27 公開日:2022-08-10
# 超低温基底状態分子間の衝突におけるフェッシュバッハ共鳴

A Feshbach resonance in collisions between ultracold ground state molecules ( http://arxiv.org/abs/2208.05557v1 )

ライセンス: Link先を確認
Juliana J. Park, Yu-Kun Lu, Alan O. Jamison, Timur Tscherbul, Wolfgang Ketterle(参考訳) 衝突共鳴は、超低温気体の相互作用の修正、量子シミュレーションにおける新しいハミルトニアンの実現、原子ガスからの分子の生成、化学反応の制御に用いられている重要なツールである。 これまでのところ、原子-分子衝突、原子-分子衝突、非常に弱い結合を持つフェシュバッハ分子間の衝突に対してそのような共鳴が観測されている。 このような共鳴が超低温基底状態分子に存在しているかどうかは、状態の高密度化や共鳴錯体の急速な崩壊によって議論されている。 ここでは,2つの基底状態NaLi分子間の衝突におけるFeshbach共鳴について報告する。 この分子フェシュバッハ共鳴は2つの特別な特性を持つ。 第一に、衝突損失率は、強い化学反応性のため、$p$波の普遍値で飽和している背景損失率より2桁以上増大する。 第二に、共鳴は2つの開水路がほぼ縮退する磁場に位置する。 これは、中間錯体が主に第二開チャネルに崩壊することを意味する。 我々はfabry-p\erotキャビティに類似した結合モードを持つモデルを用いて共鳴損失特性を記述する。 反応障壁のない系においても, 長寿命コヒーレント中間錯体の存在が証明され, 化学反応のコヒーレント制御の可能性が高まった。

Collisional resonances are an important tool which has been used to modify interactions in ultracold gases, for realizing novel Hamiltonians in quantum simulations, for creating molecules from atomic gases and for controlling chemical reactions. So far, such resonances have been observed for atom-atom collisions, atom-molecule collisions and collisions between Feshbach molecules which are very weakly bound. Whether such resonances exist for ultracold ground state molecules has been debated due to the possibly high density of states and/or rapid decay of the resonant complex. Here we report a very pronounced and narrow (25 mG) Feshbach resonance in collisions between two ground state NaLi molecules. This molecular Feshbach resonance has two special characteristics. First, the collisional loss rate is enhanced by more than two orders of magnitude above the background loss rate which is saturated at the $p$-wave universal value, due to strong chemical reactivity. Second, the resonance is located at a magnetic field where two open channels become nearly degenerate. This implies the intermediate complex predominantly decays to the second open channel. We describe the resonant loss feature using a model with coupled modes which is analogous to a Fabry-P\'erot cavity. Our observations prove the existence of long-lived coherent intermediate complexes even in systems without reaction barriers and open up the possibility of coherent control of chemical reactions.
翻訳日:2023-02-01 10:02:09 公開日:2022-08-10
# 敵の存在下で制御された量子テレポーテーション

Controlled Quantum Teleportation in the Presence of an Adversary ( http://arxiv.org/abs/2208.05554v1 )

ライセンス: Link先を確認
Sayan Gangopadhyay, Tiejun Wang, Atefeh Mashatan, Shohini Ghose(参考訳) 本稿では,受信機を信頼しない制御量子テレポーテーションのデバイス独立解析を行う。 真の三部類非局所性の概念は、そのようなシナリオにおける制御力の証明を可能にすることを示す。 ノイズの偏極を特徴とするデバイス上での特定の敵攻撃戦略を考慮し、制御電力は真の三分極非局所性の単調に増大する機能であることを示す。 これらの結果は、実用的な量子通信ネットワークの構築と、多部量子情報処理における非局所性の役割に光を当てることに関係している。

We present a device independent analysis of controlled quantum teleportation where the receiver is not trusted. We show that the notion of genuine tripartite nonlocality allows us to certify control power in such a scenario. By considering a specific adversarial attack strategy on a device characterized by depolarizing noise, we find that control power is a monotonically increasing function of genuine tripartite nonlocality. These results are relevant for building practical quantum communication networks and also shed light on the role of nonlocality in multipartite quantum information processing.
翻訳日:2023-02-01 10:01:48 公開日:2022-08-10
# 物理画像における量子クラスター検出

Quantum-enhanced cluster detection in physical images ( http://arxiv.org/abs/2208.05522v1 )

ライセンス: Link先を確認
Jason L. Pereira, Leonardo Banchi, Stefano Pirandola(参考訳) データ内のクラスタを特定することは、多くの分野で重要なタスクです。 本稿では,データが物理的に存在する状況について考察するので,まずセンサを用いて画像の収集を行い,クラスタリングを行う。 量子エンタングルメントによって強化されたセンサを用いて、純粋に古典的な戦略よりも正確に表面を撮像することができる。 しかし、我々が得る利点がクラスタリングのようなデータ処理ステップに耐えられるほど堅牢かどうか、すぐには明らかではない。 従来,量子化センサを用いた画像認識とパターン認識は,教師付き学習タスクに有利であることが確認されており,この利点が教師なし学習タスク,すなわちクラスタリングにも有効であることを示す。

Identifying clusters in data is an important task in many fields. In this paper, we consider situations in which data live in a physical world, so we have to first collect the images using sensors before clustering them. Using sensors enhanced by quantum entanglement, we can image surfaces more accurately than using purely classical strategies. However, it is not immediately obvious if the advantage we gain is robust enough to survive data processing steps such as clustering. It has previously been found that using quantum-enhanced sensors for imaging and pattern recognition can give an advantage for supervised learning tasks, and here we demonstrate that this advantage also holds for an unsupervised learning task, namely clustering.
翻訳日:2023-02-01 10:01:28 公開日:2022-08-10
# 一次元における障害リーブ・ロビンソン境界

Disordered Lieb-Robinson bounds in one dimension ( http://arxiv.org/abs/2208.05509v1 )

ライセンス: Link先を確認
Christopher L. Baldwin, Adam Ehrenberg, Andrew Y. Guo, Alexey V. Gorshkov(参考訳) 従来のリーブ・ロビンソン境界を強固にすることで、翻訳不変性に欠けるシステムをうまく扱うことにより、乱れた一次元スピン鎖における「弱リンク」がオペレーターの成長を抑制する程度を決定する。 特に、結合強度$\mu(j)$ の分布が十分に重い尾を持つ場合、弾道的成長が不可能であることを証明し、代わりに使用する正しい動的指数を特定する。 さらに、カップリングが真にランダムで独立である特別な場合の詳細な分析を通じて、リーブ・ロビンソン境界の標準的な定式化は、ダイナミクスの複雑さを捉えるには不十分であることを見出します。 同様に、動的指数に対する我々の結果は厳密であり、反例によって、より小さな指数と結びついたリーブ・ロビンソンが存在しないことを証明する。 我々は、クエンチダイナミクスから基底状態の構造まで、多くの応用において、メジャーとマイナーの両方の結果が与える影響について論じて締めくくった。

By tightening the conventional Lieb-Robinson bounds to better handle systems which lack translation invariance, we determine the extent to which "weak links" suppress operator growth in disordered one-dimensional spin chains. In particular, we prove that ballistic growth is impossible when the distribution of coupling strengths $\mu(J)$ has a sufficiently heavy tail at small $J$, and identify the correct dynamical exponent to use instead. Furthermore, through a detailed analysis of the special case in which the couplings are genuinely random and independent, we find that the standard formulation of Lieb-Robinson bounds is insufficient to capture the complexity of the dynamics -- we must distinguish between bounds which hold for all sites of the chain and bounds which hold for a subsequence of sites, and we show by explicit example that these two can have dramatically different behaviors. All the same, our result for the dynamical exponent is tight, in that we prove by counterexample that there cannot exist any Lieb-Robinson bound with a smaller exponent. We close by discussing the implications of our results, both major and minor, for numerous applications ranging from quench dynamics to the structure of ground states.
翻訳日:2023-02-01 10:01:17 公開日:2022-08-10
# 量子メトロポリス法による重力波のパラメータ推定

Parameter Estimation of Gravitational Waves with a Quantum Metropolis Algorithm ( http://arxiv.org/abs/2208.05506v1 )

ライセンス: Link先を確認
Gabriel Escrig, Roberto Campos, Pablo A. M. Casares and M. A. Martin-Delgado(参考訳) 2015年に重力波が初めて観測された後、この宇宙を観察する革新的な方法によって達成された成功の数は増えなくなった。 しかし、このタイプの事象を分析する現在の技術は、高い計算能力を必要とするため深刻なボトルネックをもたらす。 本稿では,近年の量子アルゴリズムに基づく手法がこの障害を克服する方法について検討する。 そこで本研究では,メトロポリス・ハスティングス法に応用したよく知られた量子ウォークス法に基づいて,重力波パラメータの推算に用いる古典的アルゴリズムの量子化を提案する。 最後に、このアルゴリズムと最初のgwカタログgwtc-1の全てのイベントを比較して、複素数の増加を伴うパラメータの異なる集合の推定を行い、量子アルゴリズムの多項式長所を見いだし、将来のアルゴリズムの最初の出発点を設定する。

After the first detection of a gravitational wave in 2015, the number of successes achieved by this innovative way of looking through the universe has not stopped growing. However, the current techniques for analyzing this type of events present a serious bottleneck due to the high computational power they require. In this article we explore how recent techniques based on quantum algorithms could surpass this obstacle. For this purpose, we propose a quantization of the classical algorithms used in the literature for the inference of gravitational wave parameters based on the well-known Quantum Walks technique applied to a Metropolis-Hastings algorithm. Finally, we compare this algorithm with its classical counterpart for all the events of the first GW catalog GWTC-1 for the estimation of different sets of parameters with increasing complexities and we find a polynomial advantage in the quantum algorithms, thus setting a first starting point for future algorithms.
翻訳日:2023-02-01 10:00:55 公開日:2022-08-10
# ディープラーニングに基づく1人1人当たりの顔認識:調査

Deep Learning Based Single Sample Per Person Face Recognition: A Survey ( http://arxiv.org/abs/2006.11395v2 )

ライセンス: Link先を確認
Fan Liu, Delong Chen, Fei Wang, Zewen Li, Feng Xu(参考訳) 顔認識は人工知能の分野で、特に近年のディープラーニングの台頭以来、長い間活発な研究分野となっている。 実践的な状況では、各idにはトレーニング用に利用可能なサンプルが1つだけある。 この状況下での顔認識は、単一のサンプル顔認識と呼ばれ、深層モデルの効果的な訓練に重大な課題をもたらす。 そのため,近年,深層学習の可能性を高め,単一サンプル環境でのモデル認識性能の向上を試みている。 従来の単一顔認証手法に関する総合的な調査はいくつか行われているが、深層学習に基づく手法はこれらのレビューにはほとんど関与していない。 そこで本稿では,深層学習に基づく手法に着目し,それらを仮想サンプル法と汎用学習法に分類する。 前者のカテゴリでは、深層モデルのトレーニングに役立てるために、仮想イメージや仮想特徴が生成される。 後者では、追加のマルチサンプルジェネリックセットが使用される。 従来の手法と深い特徴を組み合わせること、損失関数を改善すること、ネットワーク構造を改善することの3つの方法がある。 さらに、単一サンプル顔認識モデルの評価に広く用いられている顔データセットをレビューし、異なる種類のモデルの結果を比較した。 さらに,仮想サンプル法におけるアイデンティティ情報保存,ジェネリック学習法におけるドメイン適応など,既存の単一サンプル顔認識手法の問題点について論じる。 さらに,教師なし手法の開発は今後の方向性として有望であると考え,さらに検討すべき重要な課題として意味的ギャップを指摘する。

Face recognition has long been an active research area in the field of artificial intelligence, particularly since the rise of deep learning in recent years. In some practical situations, each identity has only a single sample available for training. Face recognition under this situation is referred to as single sample face recognition and poses significant challenges to the effective training of deep models. Therefore, in recent years, researchers have attempted to unleash more potential of deep learning and improve the model recognition performance in the single sample situation. While several comprehensive surveys have been conducted on traditional single sample face recognition approaches, emerging deep learning based methods are rarely involved in these reviews. Accordingly, we focus on the deep learning-based methods in this paper, classifying them into virtual sample methods and generic learning methods. In the former category, virtual images or virtual features are generated to benefit the training of the deep model. In the latter one, additional multi-sample generic sets are used. There are three types of generic learning methods: combining traditional methods and deep features, improving the loss function, and improving network structure, all of which are covered in our analysis. Moreover, we review face datasets that have been commonly used for evaluating single sample face recognition models and go on to compare the results of different types of models. Additionally, we discuss problems with existing single sample face recognition methods, including identity information preservation in virtual sample methods, domain adaption in generic learning methods. Furthermore, we regard developing unsupervised methods is a promising future direction, and point out that the semantic gap as an important issue that needs to be further considered.
翻訳日:2022-11-23 14:55:54 公開日:2022-08-10
# 病理組織学的パッチの極端距離に基づくオフラインとオンライントリプルトマイニング

Offline versus Online Triplet Mining based on Extreme Distances of Histopathology Patches ( http://arxiv.org/abs/2007.02200v3 )

ライセンス: Link先を確認
Milad Sikaroudi, Benyamin Ghojogh, Amir Safarpoor, Fakhri Karray, Mark Crowley, H.R. Tizhoosh(参考訳) 10万のパッチを含む大腸癌(crc)組織病理データに対するオフラインおよびオンライントリプルトマイニングの効果について検討した。 我々は、オンラインとオフラインのマイニングにおいて、あるアンカーに対して最も遠く最も近いパッチを考える。 多くの研究はオンラインのトリプレットの選択にのみ焦点をあてているが、オフラインでトレーニングする前に、極端距離と隣接パッチの効果も研究している。 本研究では,オフラインマイニングとオンラインマイニングの組込み距離について,イージーポジティブ,バッチセミハード,バッチハードトリプレットマイニング,近傍成分分析損失,プロキシバージョン,距離重み付けサンプリングなど,極端なケースの影響を分析した。 また,極端距離に基づくオンラインアプローチを調査し,データパターンに基づくオフライン,オンラインマイニングのパフォーマンスを包括的に比較し,大規模ミニバッチサイズのオンラインマイニングを扱いやすい一般化としてオフラインマイニングを説明する。 また,極端距離で異なる大腸組織型との関係についても検討した。 この研究で、オフラインおよびオンラインマイニングアプローチは、ResNet-18のような特定のアーキテクチャに匹敵する性能を持つことがわかった。 さらに、特にオンラインアプローチにおいて、異なる極端距離を含む様々なケースが有望であることがわかった。

We analyze the effect of offline and online triplet mining for colorectal cancer (CRC) histopathology dataset containing 100,000 patches. We consider the extreme, i.e., farthest and nearest patches to a given anchor, both in online and offline mining. While many works focus solely on selecting the triplets online (batch-wise), we also study the effect of extreme distances and neighbor patches before training in an offline fashion. We analyze extreme cases' impacts in terms of embedding distance for offline versus online mining, including easy positive, batch semi-hard, batch hard triplet mining, neighborhood component analysis loss, its proxy version, and distance weighted sampling. We also investigate online approaches based on extreme distance and comprehensively compare offline, and online mining performance based on the data patterns and explain offline mining as a tractable generalization of the online mining with large mini-batch size. As well, we discuss the relations of different colorectal tissue types in terms of extreme distances. We found that offline and online mining approaches have comparable performances for a specific architecture, such as ResNet-18 in this study. Moreover, we found the assorted case, including different extreme distances, is promising, especially in the online approach.
翻訳日:2022-11-13 13:30:15 公開日:2022-08-10
# 潜在共変量混合物の分布的ロバスト損失

Distributionally Robust Losses for Latent Covariate Mixtures ( http://arxiv.org/abs/2007.13982v2 )

ライセンス: Link先を確認
John Duchi, Tatsunori Hashimoto, Hongseok Namkoong(参考訳) 現代の大規模なデータセットは、しばしば異質なサブ集団(例えば、複数の人口集団や複数のテキストコーパス)から構成されるが、平均損失を最小限にする標準的な慣習は、すべてのサブ集団全体での損失が均一に低いことを保証しない。 与えられたサイズの全てのサブポピュレーションに対して最悪のケース性能を制御する凸手順を提案する。 我々の手順は、最悪のサブ集団の有限サンプル(非パラメトリック)収束を保証する。 経験的に、我々の最悪の手順は、目に見えないサブポピュレーションに対してうまく動作するモデルを学習する、語彙的類似性、ワインの品質、および再分配予測タスクについて観察する。

While modern large-scale datasets often consist of heterogeneous subpopulations -- for example, multiple demographic groups or multiple text corpora -- the standard practice of minimizing average loss fails to guarantee uniformly low losses across all subpopulations. We propose a convex procedure that controls the worst-case performance over all subpopulations of a given size. Our procedure comes with finite-sample (nonparametric) convergence guarantees on the worst-off subpopulation. Empirically, we observe on lexical similarity, wine quality, and recidivism prediction tasks that our worst-case procedure learns models that do well against unseen subpopulations.
翻訳日:2022-11-06 01:34:58 公開日:2022-08-10
# 2060年:カルダシェフスケールにおける人類の文明、エネルギー、進歩

2060: Civilization, Energy, and Progression of Mankind on the Kardashev Scale ( http://arxiv.org/abs/2208.12617v1 )

ライセンス: Link先を確認
Antong Zhang, Jiani Yang, Yangcheng Luo, Siteng Fan(参考訳) エネルギーは数千年にわたって人類文明の発展を促し、人間と動物の力を超えてエネルギーを得る技術は継続的に進歩し、変化してきた。 1964年、カルダシェフスケールはエネルギー消費と文明の発展の関係を定量化するために提案された。 現在、人間文明はこの規模で0.7276型である。 将来のエネルギー消費を予測し、構成構造の変化を推定し、技術革命の影響を評価することは、文明発展の文脈において重要である。 本研究では、ランダムフォレスト(RF)と自己回帰統合移動平均(ARIMA)の2つの機械学習モデルを用いて、世界規模でのエネルギー消費をシミュレーションし予測する。 我々はさらに2060年にカルダシェフスケールで人類文明の位置づけを計画する。 その結果、世界のエネルギー消費は2060年に928-940 EJに達すると予想され、今後40年間で50%以上増加し、我々の文明は、タイプ1文明からまだ遠いカルダシェフスケールで0.7474に達することが期待されている。 さらに,2060年以前の潜在的エネルギー分断変化を議論し,核融合の到来が与える影響について述べる。

Energy has been propelling the development of human civilization for millennia, and technologies acquiring energy beyond human and animal power have been continuously advanced and transformed. In 1964, the Kardashev Scale was proposed to quantify the relationship between energy consumption and the development of civilizations. Human civilization presently stands at Type 0.7276 on this scale. Projecting the future energy consumption, estimating the change of its constituting structure, and evaluating the influence of possible technological revolutions are critical in the context of civilization development. In this study, we use two machine learning models, random forest (RF) and autoregressive integrated moving average (ARIMA), to simulate and predict energy consumption on a global scale. We further project the position of human civilization on the Kardashev Scale in 2060. The result shows that the global energy consumption is expected to reach 928-940 EJ in 2060, with a total growth of over 50% in the coming 40 years, and our civilization is expected to achieve Type 0.7474 on the Kardashev Scale, still far away from a Type 1 civilization. Additionally, we discuss the potential energy segmentation change before 2060 and present the influence of the advent of nuclear fusion in this context.
翻訳日:2022-09-04 02:13:06 公開日:2022-08-10
# 深層学習とeoを用いた日々の高分解能浸水観測に向けて

Towards Daily High-resolution Inundation Observations using Deep Learning and EO ( http://arxiv.org/abs/2208.09135v1 )

ライセンス: Link先を確認
Antara Dasgupta, Lasse Hybbeneth, Bj\"orn Waske(参考訳) 衛星リモートセンシングは相似的な洪水モニタリングのためのコスト効率のよいソリューションであり、衛星由来の洪水マップは従来の数値的な浸水モデルに代わる計算効率の良い代替手段を提供する。 衛星は、現在進行中の洪水イベントをカバーするときに、タイムリーな浸水情報を提供するが、様々なスケールで洪水の進化を動的に監視する能力において、時空間分解能によって制限される。 新たな衛星データソースへのアクセスとビッグデータ処理能力の改善は、この問題に対するデータ駆動ソリューションに関して、前例のないほど多くの可能性を解き放っている。 特に、空間的かつ低い時間的解像度を持つcopernicus sentinelsのような衛星からのデータの融合と、空間的かつ時間的解像度の低いnasaのsmapとgpmのミッションからのデータの融合は、日々のスケールで高分解能の洪水浸水を引き起こす可能性がある。 ここでは, コンボリューショナル・ニューラル・ネットワークが, セチネル-1 合成開口レーダと各種水文, 地形, 土地利用予測器から得られた洪水浸水マップを用いて, 洪水浸水の高分解能確率マップを初めて訓練する。 このタスクのためのUNetとSegNetモデルアーキテクチャの性能を評価し、95%の信頼区間でSentinel-1とSentinel-2から派生したフラッドマスクを用いて評価した。 Precision Recall Curve (PR-AUC) の曲線下地域(AUC)は,2次洪水マッピング問題におけるクラスの性質が本質的に不均衡であることから,PR-AUC が 0.85 である。

Satellite remote sensing presents a cost-effective solution for synoptic flood monitoring, and satellite-derived flood maps provide a computationally efficient alternative to numerical flood inundation models traditionally used. While satellites do offer timely inundation information when they happen to cover an ongoing flood event, they are limited by their spatiotemporal resolution in terms of their ability to dynamically monitor flood evolution at various scales. Constantly improving access to new satellite data sources as well as big data processing capabilities has unlocked an unprecedented number of possibilities in terms of data-driven solutions to this problem. Specifically, the fusion of data from satellites, such as the Copernicus Sentinels, which have high spatial and low temporal resolution, with data from NASA SMAP and GPM missions, which have low spatial but high temporal resolutions could yield high-resolution flood inundation at a daily scale. Here a Convolutional-Neural-Network is trained using flood inundation maps derived from Sentinel-1 Synthetic Aperture Radar and various hydrological, topographical, and land-use based predictors for the first time, to predict high-resolution probabilistic maps of flood inundation. The performance of UNet and SegNet model architectures for this task is evaluated, using flood masks derived from Sentinel-1 and Sentinel-2, separately with 95 percent-confidence intervals. The Area under the Curve (AUC) of the Precision Recall Curve (PR-AUC) is used as the main evaluation metric, due to the inherently imbalanced nature of classes in a binary flood mapping problem, with the best model delivering a PR-AUC of 0.85.
翻訳日:2022-08-28 22:18:55 公開日:2022-08-10
# CIAO! 非普遍的表情認識のためのコントラスト適応機構

CIAO! A Contrastive Adaptation Mechanism for Non-Universal Facial Expression Recognition ( http://arxiv.org/abs/2208.07221v1 )

ライセンス: Link先を確認
Pablo Barros, Alessandra Sciutti(参考訳) 現在の表情認識システムは、トレーニング対象と異なるシナリオにデプロイする際に、高価な再訓練ルーチンを要求する。 典型的なトランスファー学習法ではなく、特定の顔の特徴を学ぶことへのバイアスは、これらのシステムが様々なタスクで高いパフォーマンスを維持するのに役立ちますが、トレーニングの労力を減らします。 本稿では、顔エンコーダの最後の層に異なるデータセットの特定の感情特性を適応させるメカニズムであるContrastive Inhibitory Adaptati On (CIAO)を提案する。 CIAOは、6つの異なるデータセットに対して、特に最先端のモデルと比較して、非常に独特な感情表現を持つ顔認識性能を改善する。 議論では、学習した高レベルな顔特徴がどのように表現され、それぞれのデータセットの特徴にどのように寄与するかを詳細に分析した。 我々は,ciaoが非普遍的な表情知覚における最近の知見の範囲内に位置すること,およびその表情認識研究への影響について論じることにより,本研究を終える。

Current facial expression recognition systems demand an expensive re-training routine when deployed to different scenarios than they were trained for. Biasing them towards learning specific facial characteristics, instead of performing typical transfer learning methods, might help these systems to maintain high performance in different tasks, but with a reduced training effort. In this paper, we propose Contrastive Inhibitory Adaptati On (CIAO), a mechanism that adapts the last layer of facial encoders to depict specific affective characteristics on different datasets. CIAO presents an improvement in facial expression recognition performance over six different datasets with very unique affective representations, in particular when compared with state-of-the-art models. In our discussions, we make an in-depth analysis of how the learned high-level facial features are represented, and how they contribute to each individual dataset's characteristics. We finalize our study by discussing how CIAO positions itself within the range of recent findings on non-universal facial expressions perception, and its impact on facial expression recognition research.
翻訳日:2022-08-28 22:17:54 公開日:2022-08-10
# 非線形物理ネットワークにおけるマルチメカニズム学習

Frequency propagation: Multi-mechanism learning in nonlinear physical networks ( http://arxiv.org/abs/2208.08862v1 )

ライセンス: Link先を確認
Vidyesh Rao Anisetti, A. Kandala, B. Scellier, J. M. Schwarz(参考訳) 非線形物理ネットワークのための学習アルゴリズムである周波数伝播を提案する。 可変抵抗を有する抵抗電気回路において、ある周波数の入力ノードのセットに活性化電流を印加し、別の周波数の出力ノードのセットにエラー電流を印加する。 これらの境界電流に対する回路の電圧応答は、周波数領域の異なる周波数で係数を読み取ることができる「活性化信号」と「エラー信号」の重畳である。 各コンダクタンスは、2つの係数の積に比例して更新される。 学習規則は局所的であり、損失関数の勾配降下を実行することが証明された。 周波数伝搬は, 抵抗性, 弾性性, フローネットワークといった物理ネットワークのマルチメカニズム学習戦略の例である。 マルチメカニズム学習戦略は、訓練プロセスにおいてアクティベーションとエラー信号として機能するために、独立した物理メカニズムによって制御される可能性のある少なくとも2つの物理量を含む。 これら2つの信号に関するローカルに利用可能な情報は、トレーニング可能なパラメータを更新して勾配降下を実行するために使用される。 フローネットワークにおける化学シグナリングによる学習の初期の研究は、マルチメカニズム学習のルーリックに該当することを示した。

We introduce frequency propagation, a learning algorithm for nonlinear physical networks. In a resistive electrical circuit with variable resistors, an activation current is applied at a set of input nodes at one frequency, and an error current is applied at a set of output nodes at another frequency. The voltage response of the circuit to these boundary currents is the superposition of an `activation signal' and an `error signal' whose coefficients can be read in different frequencies of the frequency domain. Each conductance is updated proportionally to the product of the two coefficients. The learning rule is local and proved to perform gradient descent on a loss function. We argue that frequency propagation is an instance of a multi-mechanism learning strategy for physical networks, be it resistive, elastic, or flow networks. Multi-mechanism learning strategies incorporate at least two physical quantities, potentially governed by independent physical mechanisms, to act as activation and error signals in the training process. Locally available information about these two signals is then used to update the trainable parameters to perform gradient descent. We demonstrate how earlier work implementing learning via chemical signaling in flow networks also falls under the rubric of multi-mechanism learning.
翻訳日:2022-08-28 22:10:52 公開日:2022-08-10
# パッチドロップアウト:パッチドロップアウトによる視覚トランスフォーマーの緩和

PatchDropout: Economizing Vision Transformers Using Patch Dropout ( http://arxiv.org/abs/2208.07220v1 )

ライセンス: Link先を確認
Yue Liu, Christos Matsoukas, Fredrik Strand, Hossein Azizpour, Kevin Smith(参考訳) 視覚トランスフォーマーは、様々な視覚タスクでcnnを上回る可能性を実証した。 しかし、これらのモデルの計算とメモリ要件は、多くのアプリケーション、特に医療画像分類のような高解像度画像に依存するアプリケーションでの使用を禁止している。 ViTをより効率的に訓練する努力は、過度に複雑で、アーキテクチャの変更や複雑なトレーニングスキームを必要とします。 本研究では,標準vitモデルをランダムに入力画像パッチを落として高分解能で効率的に訓練できることを示す。 この単純なアプローチであるpatchdropoutは、imagenetのような標準的な自然画像データセットにおいて、フロップとメモリを少なくとも50%削減し、画像サイズでしか節約できない。 高解像度の医療データセットであるCSAWでは、PatchDropoutを使用して計算とメモリの5倍の節約と性能の向上を観察する。 PatchDropoutは、固定された計算やメモリ予算を持つ実践者に対して、画像解像度、ハイパーパラメータ、モデルサイズを選択して、モデルから最高のパフォーマンスを得られるようにする。

Vision transformers have demonstrated the potential to outperform CNNs in a variety of vision tasks. But the computational and memory requirements of these models prohibit their use in many applications, especially those that depend on high-resolution images, such as medical image classification. Efforts to train ViTs more efficiently are overly complicated, necessitating architectural changes or intricate training schemes. In this work, we show that standard ViT models can be efficiently trained at high resolution by randomly dropping input image patches. This simple approach, PatchDropout, reduces FLOPs and memory by at least 50% in standard natural image datasets such as ImageNet, and those savings only increase with image size. On CSAW, a high-resolution medical dataset, we observe a 5 times savings in computation and memory using PatchDropout, along with a boost in performance. For practitioners with a fixed computational or memory budget, PatchDropout makes it possible to choose image resolution, hyperparameters, or model size to get the most performance out of their model.
翻訳日:2022-08-28 22:10:15 公開日:2022-08-10
# 多視点深層学習分類によるHEDPフォームの品質決定

Determining HEDP Foams' Quality with Multi-View Deep Learning Classification ( http://arxiv.org/abs/2208.07196v1 )

ライセンス: Link先を確認
Nadav Schneider, Matan Rusanovsky, Raz Gvishi and Gal Oren(参考訳) 高エネルギー密度物理(HEDP)実験は、一般的に低密度発泡体の内部を伝播する動的波面を包含する。 この効果は密度に影響し、透明性に影響を及ぼす。 発泡の一般的な問題は、欠陥のある発泡物の生成である。 泡の質を分類するには,その寸法と均一性に関する正確な情報が必要である。 したがって、これらのパラメータは3D計測レーザー共焦点顕微鏡を用いて特徴づけられる。 各発泡体について、上面と下面の発泡面を表す2D画像と3Dスキャンによる側面断面の3D画像の5つの画像が撮影される。 専門家は、画像セットを通して泡の質を手作業で分類し、実験で泡が使えるかどうかを判断する、複雑で厳しい、疲れた作業をしなければならない。 現在、品質は正常と欠陥の2つのバイナリレベルを持っています。 同時に、専門家は一般的に通常の欠陥のサブクラス、すなわち欠陥があるが必要な実験には十分かもしれない泡を分類する必要がある。 このサブクラスは、主に直感的な不確定な判断のために問題となる。 本研究では,フォームの品質分類を自動的に決定することで,物理学者の視点を模倣する,最先端の多視点深層学習分類モデルを提案する。 本モデルは, 上面および下面の発泡面において86\%, セット全体で82\%の精度を達成し, この問題に対する興味深いヒューリスティックスを示唆した。 この研究で重要な付加価値は、二項推論ではなく発泡質を後退させ、視覚的に決定を説明する能力である。 この研究で使われているソースコードと関連するソースは、https://github.com/scientific-computing-lab-nrcn/multi-view-foams.gitで入手できる。

High energy density physics (HEDP) experiments commonly involve a dynamic wave-front propagating inside a low-density foam. This effect affects its density and hence, its transparency. A common problem in foam production is the creation of defective foams. Accurate information on their dimension and homogeneity is required to classify the foams' quality. Therefore, those parameters are being characterized using a 3D-measuring laser confocal microscope. For each foam, five images are taken: two 2D images representing the top and bottom surface foam planes and three images of side cross-sections from 3D scannings. An expert has to do the complicated, harsh, and exhausting work of manually classifying the foam's quality through the image set and only then determine whether the foam can be used in experiments or not. Currently, quality has two binary levels of normal vs. defective. At the same time, experts are commonly required to classify a sub-class of normal-defective, i.e., foams that are defective but might be sufficient for the needed experiment. This sub-class is problematic due to inconclusive judgment that is primarily intuitive. In this work, we present a novel state-of-the-art multi-view deep learning classification model that mimics the physicist's perspective by automatically determining the foams' quality classification and thus aids the expert. Our model achieved 86\% accuracy on upper and lower surface foam planes and 82\% on the entire set, suggesting interesting heuristics to the problem. A significant added value in this work is the ability to regress the foam quality instead of binary deduction and even explain the decision visually. The source code used in this work, as well as other relevant sources, are available at: https://github.com/Scientific-Computing-Lab-NRCN/Multi-View-Foams.git
翻訳日:2022-08-28 22:09:27 公開日:2022-08-10
# 信頼できるレコメンデーションシステム

Trustworthy Recommender Systems ( http://arxiv.org/abs/2208.06265v1 )

ライセンス: Link先を確認
Shoujin Wang, Xiuzhen Zhang, Yan Wang, Huan Liu, Francesco Ricci(参考訳) recommender systems(rss)は、ユーザーが大きなカタログから興味のあるアイテムを効果的に取り出すのを支援する。 長い間、研究者や実践者は正確なrssの開発に注力してきた。 近年、rssに対する脅威が増加しており、攻撃、システム、ユーザー生成ノイズ、システムバイアスが原因となっている。 その結果,rs精度への厳密な注力が制限され,信頼性など他の重要な要因も検討する必要があることが明らかとなった。 エンドユーザーにとって、信頼できるRS(TRS)は正確であるだけでなく、透明で偏りがなく公正であり、ノイズや攻撃に対して堅牢であるべきである。 これらの観測は、精度指向のRSからRSへのRSの研究のパラダイムシフトにつながった。 しかし、研究者はtrssのこの新奇で急速な発展分野における文学の体系的な概要と議論を欠いている。 そこで本稿では,trssの動機と基本的な概念,trss構築における課題の提示,この分野の今後の方向性に関する展望など,trssの概要について述べる。 TRSの構築を支援するための新しい概念的枠組みも提供する。

Recommender systems (RSs) aim to help users to effectively retrieve items of their interests from a large catalogue. For a quite long period of time, researchers and practitioners have been focusing on developing accurate RSs. Recent years have witnessed an increasing number of threats to RSs, coming from attacks, system and user generated noise, system bias. As a result, it has become clear that a strict focus on RS accuracy is limited and the research must consider other important factors, e.g., trustworthiness. For end users, a trustworthy RS (TRS) should not only be accurate, but also transparent, unbiased and fair as well as robust to noise or attacks. These observations actually led to a paradigm shift of the research on RSs: from accuracy-oriented RSs to TRSs. However, researchers lack a systematic overview and discussion of the literature in this novel and fast developing field of TRSs. To this end, in this paper, we provide an overview of TRSs, including a discussion of the motivation and basic concepts of TRSs, a presentation of the challenges in building TRSs, and a perspective on the future directions in this area. We also provide a novel conceptual framework to support the construction of TRSs.
翻訳日:2022-08-15 13:52:37 公開日:2022-08-10
# cleora埋め込みによるソート最適化のための代替品および補完品の同定

Identifying Substitute and Complementary Products for Assortment Optimization with Cleora Embeddings ( http://arxiv.org/abs/2208.06262v1 )

ライセンス: Link先を確認
Sergiy Tkachuk, Anna Wr\'oblewska, Jacek D\k{a}browski, Szymon {\L}ukasik(参考訳) 近年、eコマース、オムニチャネルマーケティング、販売業界における機械学習アルゴリズムの適用への関心が高まっている。 アルゴリズムの進歩だけでなく、トランザクション、ユーザ、バックグラウンド製品情報を表現するデータ可用性にも関係しています。 代替品や補完品など、さまざまな方法で関連のある製品を見つけることは、ベンダーのサイトやベンダーにおけるユーザの推薦に不可欠であり、効率的なアソート最適化を行う。 本稿では,グラフ埋め込みcleoraアルゴリズムに基づく製品代替品と補完品の探索法を提案する。 また,現在最先端のShopperアルゴリズムに関する実験評価を行い,業界の専門家による調査による推薦の妥当性について検討した。 提案した新しいアプローチは推奨商品の適切な選択を提供し、最小限の追加情報を必要とすると結論付けている。 このアルゴリズムは様々な企業で利用でき、代替品と補完品の選択肢を効果的に特定できる。

Recent years brought an increasing interest in the application of machine learning algorithms in e-commerce, omnichannel marketing, and the sales industry. It is not only to the algorithmic advances but also to data availability, representing transactions, users, and background product information. Finding products related in different ways, i.e., substitutes and complements is essential for users' recommendations at the vendor's site and for the vendor - to perform efficient assortment optimization. The paper introduces a novel method for finding products' substitutes and complements based on the graph embedding Cleora algorithm. We also provide its experimental evaluation with regards to the state-of-the-art Shopper algorithm, studying the relevance of recommendations with surveys from industry experts. It is concluded that the new approach presented here offers suitable choices of recommended products, requiring a minimal amount of additional information. The algorithm can be used in various enterprises, effectively identifying substitute and complementary product options.
翻訳日:2022-08-15 13:46:46 公開日:2022-08-10
# スレートレコメンデーションを最適化するスケーラブルな確率モデル

A Scalable Probabilistic Model for Reward Optimizing Slate Recommendation ( http://arxiv.org/abs/2208.06263v1 )

ライセンス: Link先を確認
Imad Aouali, Achraf Ait Sidi Hammou, Sergey Ivanov, Otmane Sakhi, David Rohde, Flavian Vasile(参考訳) 本稿では,パーソナライズされたスレートレコメンデーションのためのスケーラブルな確率モデルであるPRR(Probabilistic Rank and Reward model)を紹介する。 本モデルでは,以下のユビキタスレコメンデーションシステムシナリオにおいて,ユーザの興味を最先端に推定することが可能である。 ユーザがスレートと対話する確率を最大化するために、最も関心のあるK項目を見つけることが推奨システムの目標である。 私たちの貢献は、スレートがクリックされたかどうかに関わらず報酬と、選択されたスレートの項目を組み合わせることで、推奨が成功する確率をより効果的に知ることができることを示しています。 本手法は報酬のみを使用するbanditメソッドやランクのみを使用するユーザ嗜好メソッドよりも効率的に学習する。 また、独立の逆確率スコア法と類似またはより良い推定性能を提供し、はるかにスケーラブルである。 提案手法は,最大100万項目の大規模データセット上での速度と精度の両面での最先端技術である。 最後に,提案手法により,最大内積探索(MIPS)を利用したレコメンデーションの迅速な配信が可能となり,計算広告などの極めて低レイテンシ領域に適合する。

We introduce Probabilistic Rank and Reward model (PRR), a scalable probabilistic model for personalized slate recommendation. Our model allows state-of-the-art estimation of user interests in the following ubiquitous recommender system scenario: A user is shown a slate of K recommendations and the user chooses at most one of these K items. It is the goal of the recommender system to find the K items of most interest to a user in order to maximize the probability that the user interacts with the slate. Our contribution is to show that we can learn more effectively the probability of the recommendations being successful by combining the reward - whether the slate was clicked or not - and the rank - the item on the slate that was selected. Our method learns more efficiently than bandit methods that use only the reward, and user preference methods that use only the rank. It also provides similar or better estimation performance to independent inverse-propensity-score methods and is far more scalable. Our method is state of the art in terms of both speed and accuracy on massive datasets with up to 1 million items. Finally, our method allows fast delivery of recommendations powered by maximum inner product search (MIPS), making it suitable in extremely low latency domains such as computational advertising.
翻訳日:2022-08-15 13:11:10 公開日:2022-08-10
# 言語と脳波のクロスドメインアライメントの実証的研究

An Empirical Exploration of Cross-domain Alignment between Language and Electroencephalogram ( http://arxiv.org/abs/2208.06348v1 )

ライセンス: Link先を確認
William Han, Jielin Qiu, Jiacheng Zhu, Mengdi Xu, Douglas Weber, Bo Li, Ding Zhao(参考訳) 脳波(eeg)と言語は多くの下流タスク(感情分析、関係検出など)に対して独立して研究されてきた。 どちらの領域も研究するマルチモーダルアプローチは十分に研究されていないが、近年ではマルチモーダル学習はそのユニモーダル学習よりも強力であると考えられている。 本研究では,脳波と言語の関係,すなわち一方のドメインが他方のドメインをどのように反映し,どのように表現するかを考察する。 表現レベルでの関係を研究するために,マルチモーダルトランスフォーマティブアライメントモデルであるmtamを導入し,2つのモダリティ間の協調表現を観察し,下流アプリケーションへの変換表現を用いた。 我々は、低レベル言語と脳波の特徴を高レベルに変換する損失関数として、Canonical correlation AnalysisやWasserstein Distanceなどの様々な関係アライメント探索手法を用いた。 ダウンストリームアプリケーション、感情分析、関係検出では、ZuCoとK-EmoConという2つのデータセットで、最先端の新たな結果を得た。 K-EmoConの感情分析では16.5%,ZuCoの感情分析では26.6%,ZuCoの関係検出では31.1%であった。 In addition, we provide interpretation of the performance improvement by: (1) visualizing the original feature distribution and the transformed feature distribution, showing the effectiveness of the alignment module for discovering and encoding the relationship between EEG and language; (2) visualizing word-level and sentence-level EEG-language alignment weights, showing the influence of different language semantics as well as EEG frequency features; and (3) visualizing brain topographical maps to provide an intuitive demonstration of the connectivity of EEG and language response in the brain regions.

Electroencephalography (EEG) and language have been widely explored independently for many downstream tasks (e.g., sentiment analysis, relation detection, etc.). Multimodal approaches that study both domains have not been well explored, even though in recent years, multimodal learning has been seen to be more powerful than its unimodal counterparts. In this study, we want to explore the relationship and dependency between EEG and language, i.e., how one domain reflects and represents the other. To study the relationship at the representation level, we introduced MTAM, a Multimodal Transformer Alignment Model, to observe coordinated representations between the two modalities, and thus employ the transformed representations for downstream applications. We used various relationship alignment-seeking techniques, such as Canonical Correlation Analysis and Wasserstein Distance, as loss functions to transfigure low-level language and EEG features to high-level transformed features. On downstream applications, sentiment analysis, and relation detection, we achieved new state-of-the-art results on two datasets, ZuCo and K-EmoCon. Our method achieved an F1-score improvement of 16.5% on sentiment analysis for K-EmoCon, 26.6% on sentiment analysis of ZuCo, and 31.1% on relation detection of ZuCo. In addition, we provide interpretation of the performance improvement by: (1) visualizing the original feature distribution and the transformed feature distribution, showing the effectiveness of the alignment module for discovering and encoding the relationship between EEG and language; (2) visualizing word-level and sentence-level EEG-language alignment weights, showing the influence of different language semantics as well as EEG frequency features; and (3) visualizing brain topographical maps to provide an intuitive demonstration of the connectivity of EEG and language response in the brain regions.
翻訳日:2022-08-15 12:56:24 公開日:2022-08-10
# 離散潜在変数を用いた一段階再合成のための異種化学反応のモデル化

Modeling Diverse Chemical Reactions for Single-step Retrosynthesis via Discrete Latent Variables ( http://arxiv.org/abs/2208.05482v1 )

ライセンス: Link先を確認
Huarui He, Jie Wang, Yunfei Liu, Feng Wu(参考訳) 単段階のレトロシンセシスはレトロシンセシス計画の基礎であり、コンピュータ支援薬物発見にとって重要な課題である。 単段階の逆合成の目標は、1回の反応で標的生成物の合成につながる可能性のある反応物質を特定することである。 有機分子を正弦として表現することにより、既存の配列に基づく逆合成法は、生成物から反応物への逆合成を配列から配列への翻訳問題として扱う。 しかし、これらの化合物の多くは、決定論的推論によって望ましい生成物に対する多様な化学反応を特定するのに苦慮しており、多くの化合物が異なる反応集合を持つ様々な反応型によって合成されるという事実と矛盾する。 本研究では, 反応の多様性を高め, 離散潜伏変数を用いて様々な反応物質を生成することを目的とする。 本稿では,条件付き変分オートエンコーダを単一ステップレトロシンセシスに組み込んで,離散的潜在変数と生成過程を関連付ける,新しいシーケンスベースアプローチ,retrodvcaeを提案する。 具体的には、RetroDVCAEはGumbel-Softmax分布を用いてポテンシャル反応上のカテゴリー分布を近似し、変分復号器で複数の反応物を生成する。 実験により、retrodvcaeはベンチマークデータセットと自家製データセットの両方で最先端のベースラインを上回ることが示されている。 定量的および定性的な結果から、レトロドvcaeは反応型に対するマルチモーダル分布をモデル化し、多様な反応候補を生成することができる。

Single-step retrosynthesis is the cornerstone of retrosynthesis planning, which is a crucial task for computer-aided drug discovery. The goal of single-step retrosynthesis is to identify the possible reactants that lead to the synthesis of the target product in one reaction. By representing organic molecules as canonical strings, existing sequence-based retrosynthetic methods treat the product-to-reactant retrosynthesis as a sequence-to-sequence translation problem. However, most of them struggle to identify diverse chemical reactions for a desired product due to the deterministic inference, which contradicts the fact that many compounds can be synthesized through various reaction types with different sets of reactants. In this work, we aim to increase reaction diversity and generate various reactants using discrete latent variables. We propose a novel sequence-based approach, namely RetroDVCAE, which incorporates conditional variational autoencoders into single-step retrosynthesis and associates discrete latent variables with the generation process. Specifically, RetroDVCAE uses the Gumbel-Softmax distribution to approximate the categorical distribution over potential reactions and generates multiple sets of reactants with the variational decoder. Experiments demonstrate that RetroDVCAE outperforms state-of-the-art baselines on both benchmark dataset and homemade dataset. Both quantitative and qualitative results show that RetroDVCAE can model the multi-modal distribution over reaction types and produce diverse reactant candidates.
翻訳日:2022-08-12 13:47:39 公開日:2022-08-10
# 神経埋め込み:物理データの多様体の埋め込みを学ぶ

Neural Embedding: Learning the Embedding of Manifold of Physics Data ( http://arxiv.org/abs/2208.05484v1 )

ライセンス: Link先を確認
Sang Eon Park, Philip Harris, Bryan Ostdiek(参考訳) 本稿では,測度構造を持つ物理データ多様体をユークリッド空間や双曲空間のような単純な測度を持つ低次元空間に埋め込む方法を提案する。 そして、多くのアプリケーションでデータ分析パイプラインの強力なステップになり得ることを実証します。 大型ハドロン衝突型加速器におけるより現実的な模擬衝突を用いて,この埋め込み手法が潜在構造を学習することを示す。 ユークリッド空間における体積の概念により、コライダー物理学におけるモデル非依存探索アルゴリズムの真の探索能力(すなわち異常検出)を定量化するための有効な解を初めて提供する。 最後に、複雑な高次元データセットの情報から物理的に意味のある表現を抽出する必要がある多くの課題を解決するために、本稿で提示されたアイデアをどのように活用できるかについて議論する。

In this paper, we present a method of embedding physics data manifolds with metric structure into lower dimensional spaces with simpler metrics, such as Euclidean and Hyperbolic spaces. We then demonstrate that it can be a powerful step in the data analysis pipeline for many applications. Using progressively more realistic simulated collisions at the Large Hadron Collider, we show that this embedding approach learns the underlying latent structure. With the notion of volume in Euclidean spaces, we provide for the first time a viable solution to quantifying the true search capability of model agnostic search algorithms in collider physics (i.e. anomaly detection). Finally, we discuss how the ideas presented in this paper can be employed to solve many practical challenges that require the extraction of physically meaningful representations from information in complex high dimensional datasets.
翻訳日:2022-08-12 13:47:13 公開日:2022-08-10
# 機能的隠れ動的統計モデルのための適応LASSO推定

Adaptive LASSO estimation for functional hidden dynamic geostatistical model ( http://arxiv.org/abs/2208.05528v1 )

ライセンス: Link先を確認
Paolo Maranzano, Philipp Otto, Alessandro Fass\`o(参考訳) 本稿では,関数型隠れ動的ジオ統計モデル (f-HDGM) のためのペナル化極大推定器 (PMLE) に基づく新しいモデル選択アルゴリズムを提案する。 これらのモデルは、機能領域で観測されるジオリファレンスデータをモデル化するために、埋め込まれた時空間ダイナミクスを持つ古典的な混合効果回帰構造を用いる。 したがって、興味のあるパラメータはこの領域全体の関数である。 アルゴリズムは、応答変数と共変量の間の固定効果関係をモデル化するために使用される関連するスプライン基底関数とレグレッサーを同時に選択する。 このようにすると、関数係数の無関係部分や無関係レグレッサーの全体的効果に自動的に縮小する。 このアルゴリズムは反復最適化に基づいており、適応最小限の収縮とセレクタ演算子(LASSO)ペナルティ関数を用いており、これは不給付f-HDGM最大線量推定器によって得られる。 最大化の計算負荷は、確率の局所二次近似によって劇的に軽減される。 モンテカルロシミュレーション研究により, 回帰器間の強い相関関係を含む, 異なるシナリオ下でのアルゴリズムの性能解析を行った。 検討したすべての症例において, ペナルティ付き推定器が非ペナルティ付き推定器よりも優れていた。 イタリアのロンバルディア地方における時給窒素濃度の記録を,いくつかの気象・土地被覆共変量を持つ機能的プロセスとしてモデル化した実例に,本アルゴリズムを適用した。

We propose a novel model selection algorithm based on a penalized maximum likelihood estimator (PMLE) for functional hidden dynamic geostatistical models (f-HDGM). These models employ a classic mixed-effect regression structure with embedded spatiotemporal dynamics to model georeferenced data observed in a functional domain. Thus, the parameters of interest are functions across this domain. The algorithm simultaneously selects the relevant spline basis functions and regressors that are used to model the fixed-effects relationship between the response variable and the covariates. In this way, it automatically shrinks to zero irrelevant parts of the functional coefficients or the entire effect of irrelevant regressors. The algorithm is based on iterative optimisation and uses an adaptive least absolute shrinkage and selector operator (LASSO) penalty function, wherein the weights are obtained by the unpenalised f-HDGM maximum-likelihood estimators. The computational burden of maximisation is drastically reduced by a local quadratic approximation of the likelihood. Through a Monte Carlo simulation study, we analysed the performance of the algorithm under different scenarios, including strong correlations among the regressors. We showed that the penalised estimator outperformed the unpenalised estimator in all the cases we considered. We applied the algorithm to a real case study in which the recording of the hourly nitrogen dioxide concentrations in the Lombardy region in Italy was modelled as a functional process with several weather and land cover covariates.
翻訳日:2022-08-12 13:42:49 公開日:2022-08-10
# ラベル分布摂動を用いたディープニューラルネットワークのためのカスタムウォーターマーキング

Customized Watermarking for Deep Neural Networks via Label Distribution Perturbation ( http://arxiv.org/abs/2208.05477v1 )

ライセンス: Link先を確認
Tzu-Yun Chien, Chih-Ya Shen(参考訳) 機械学習の応用価値が増大するにつれ、ディープニューラルネットワーク(DNN)の知的財産権(IP)の権利がますます注目されている。 以上の結果から,既存のDNN透かし方式は微調整や刈り取り攻撃に抵抗するが,蒸留攻撃は抵抗する。 これらの問題に対処するために,新しいDNN透かしフレームワークであるUnified Soft-label Perturbation (USP) と,モデル出力確率分布に摂動を加えることで透かしを埋め込むCustomized Soft-label Perturbation (CSP) を提案する。 実験結果から,本手法はすべての透かし除去攻撃に抵抗し,蒸留攻撃に勝ることがわかった。 また、主タスクと透かしのトレードオフも良好で、主タスクの精度に0.59%しか影響せず、98.68%の透かし精度が得られる。

With the increasing application value of machine learning, the intellectual property (IP) rights of deep neural networks (DNN) are getting more and more attention. With our analysis, most of the existing DNN watermarking methods can resist fine-tuning and pruning attack, but distillation attack. To address these problem, we propose a new DNN watermarking framework, Unified Soft-label Perturbation (USP), having a detector paired with the model to be watermarked, and Customized Soft-label Perturbation (CSP), embedding watermark via adding perturbation into the model output probability distribution. Experimental results show that our methods can resist all watermark removal attacks and outperform in distillation attack. Besides, we also have an excellent trade-off between the main task and watermarking that achieving 98.68% watermark accuracy while only affecting the main task accuracy by 0.59%.
翻訳日:2022-08-12 13:42:27 公開日:2022-08-10
# 屈折誤差診断における網膜鏡の自動化に向けて

Towards Automating Retinoscopy for Refractive Error Diagnosis ( http://arxiv.org/abs/2208.05552v1 )

ライセンス: Link先を確認
Aditya Aggarwal, Siddhartha Gairola, Uddeshya Upadhyay, Akshay P Vasishta, Diwakar Rao, Aditya Goyal, Kaushik Murali, Nipun Kwatra, Mohit Jain(参考訳) 屈折誤差は最も一般的な眼疾患であり、修正可能な視覚障害の背後にある主要な原因であり、米国では視覚障害の80%近くを占めている。 屈折率誤差は、主観的屈折率、網膜内視鏡、自己屈折率などの複数の方法を用いて診断することができる。 主観的屈折は金の標準であるが、患者との協力が必要であるため、幼児、幼児、発達遅延した成人には適さない。 網膜内視鏡は、患者からの入力を必要としない客観的屈折法である。 しかし、網膜内視鏡は、レンズキットと訓練された検査器を必要とし、質量スクリーニングの使用を制限する。 そこで本研究では,レチノスコープにスマートフォンを装着し,独自の紙フレームを装着した患者に対してレチノスコープ映像の撮影を行い,網膜内視鏡の自動化を行った。 そこで本研究では,retinoscopic videoを入力とした映像処理パイプラインを開発し,提案するretinoscopy mathematical modelの拡張に基づいてネット屈折率を推定する。 本システムは,レンズキットの必要性を軽減し,未訓練の検査者によって実施することができる。 185眼の臨床試験で屈折率91.0%の感度と74.0%の特異性を得た。 また, 本手法の平均絶対誤差は, 主観的屈折率測定と比較して0.75$\pm$0.67Dであった。 以上の結果から,本手法は現実の医療現場において網膜内視鏡に基づく屈折率判定ツールとして使用できる可能性が示唆された。

Refractive error is the most common eye disorder and is the key cause behind correctable visual impairment, responsible for nearly 80% of the visual impairment in the US. Refractive error can be diagnosed using multiple methods, including subjective refraction, retinoscopy, and autorefractors. Although subjective refraction is the gold standard, it requires cooperation from the patient and hence is not suitable for infants, young children, and developmentally delayed adults. Retinoscopy is an objective refraction method that does not require any input from the patient. However, retinoscopy requires a lens kit and a trained examiner, which limits its use for mass screening. In this work, we automate retinoscopy by attaching a smartphone to a retinoscope and recording retinoscopic videos with the patient wearing a custom pair of paper frames. We develop a video processing pipeline that takes retinoscopic videos as input and estimates the net refractive error based on our proposed extension of the retinoscopy mathematical model. Our system alleviates the need for a lens kit and can be performed by an untrained examiner. In a clinical trial with 185 eyes, we achieved a sensitivity of 91.0% and specificity of 74.0% on refractive error diagnosis. Moreover, the mean absolute error of our approach was 0.75$\pm$0.67D on net refractive error estimation compared to subjective refraction measurements. Our results indicate that our approach has the potential to be used as a retinoscopy-based refractive error screening tool in real-world medical settings.
翻訳日:2022-08-12 13:37:59 公開日:2022-08-10
# 合成糖尿病網膜症画像の評価

Evaluating Generatively Synthesized Diabetic Retinopathy Imagery ( http://arxiv.org/abs/2208.05593v1 )

ライセンス: Link先を確認
Cristina-Madalina Dragan and Ruairi O'Reilly(参考訳) 糖尿病網膜症分類器の訓練のための公開データは、不均衡である。 生成的敵ネットワークは網膜基底画像の合成に成功できる。 合成画像の利益を得るためには、画像は高品質で多様である必要がある。 現在,複数の評価指標を用いて,生成的敵対ネットワークから合成した画像の品質と多様性を評価する。 本研究は,糖尿病網膜症における網膜底部画像生成のための生成的逆ネットワークの評価のために文献で用いられる評価指標の適合性について,その最初の実証的評価に寄与する。 合成増殖糖尿病イメージの質と多様性を評価するためのfrechetインセプション距離,ピーク信号対雑音比,コサイン距離の能力について検討した。 分類器の訓練データセットを増強するために使用される合成画像を選択するための改良された方法論を可能にするために定量的解析を行う。 その結果、Frechet Inception Distanceは、合成画像の多様性を評価し、その画像がそのクラスラベルに対応する特徴を持っているかどうかを識別するのに適していることが示唆された。 Peak Signal-to-Noise Ratioは、合成画像が糖尿病網膜症に有効な病変を有し、その特徴がそのクラスラベルに対応するかどうかを示すのに適している。 これらの結果は,特に応用環境における利用が意図される生体医学領域の文脈において,このような経験的評価を行うことの重要性を示している。

Publicly available data for the training of diabetic retinopathy classifiers is unbalanced. Generative adversarial networks can successfully synthesize retinal fundus imagery. In order for synthetic imagery to be of benefit, images need to be of high quality and diverse. Presently, several evaluation metrics are used to evaluate the quality and diversity of imagery synthesized from generative adversarial networks. This work contributes, the first of its kind, empirical assessment for the suitability of evaluation metrics used in the literature for the evaluation of generative adversarial networks for generating retinal fundus images in the context of diabetic retinopathy. Frechet Inception Distance, Peak Signal-to-Noise Ratio and Cosine Distance's capacity to assess the quality and diversity of synthetic proliferative diabetic retionpathy imagery is investigated. A quantitative analysis is performed to enable an improved methodology for selecting the synthetic imagery to be used for augmenting a classifier's training dataset. Results indicate that Frechet Inception Distance is suitable for evaluating the diversity of synthetic imagery, and for identifying if the imagery has features corresponding to its class label. Peak Signal-to-Noise Ratio is suitable for indicating if the synthetic imagery has valid diabetic retinopathy lesions and if its features correspond to its class label. These results demonstrate the importance of performing such empirical evaluation, especially in the context of biomedical domains where utilisation in applied setting is intended.
翻訳日:2022-08-12 13:37:36 公開日:2022-08-10
# 衝突検出アルゴリズムの高精度シミュレーションのための拡張ドライバ挙動モデル

Augmented Driver Behavior Models for High-Fidelity Simulation Study of Crash Detection Algorithms ( http://arxiv.org/abs/2208.05540v1 )

ライセンス: Link先を確認
Ahura Jami, Mahdi Razzaghpour, Hussein Alnuweiri, Yaser P. Fallah(参考訳) Connected and Automated Vehicles(CAV)の安全性と効率性の開発には、大量のテストと評価が必要である。 これらのシステムのクリティカルかつ危険な状況における運用の必要性は、その評価の負担を非常に高く、潜在的に危険であり、時間を要する。 代替案として、研究者はシミュレーションプラットフォームを使ってアルゴリズムや設計を研究し、評価しようとする。 CAVや他の車両と相互作用するドライバーや人間の動作をモデル化することは、そのようなシミュレーションの主要な課題の1つである。 人間の行動に最適なモデルを開発することは困難な課題であり、オープンな問題である一方、ドライバの行動のシミュレーターで使われる現在のモデルの大幅な拡張を示す。 本稿では,人間駆動車と自動走行車の両方を含むハイブリッド輸送システムのシミュレーションプラットフォームを提案する。 さらに、人間の運転課題を分解し、大規模交通シナリオをシミュレーションするためのモジュール方式のアプローチを提供し、自動化およびアクティブな安全システムの徹底的な調査を可能にする。 インターコネクテッドモジュールによるこのような表現は、ドライバの異なるクラスを表現するように調整できる人間解釈システムを提供する。 さらに、大きな駆動データセットを分析し、異なる駆動特性を最もよく記述する表現的パラメータを抽出する。 最後に,シミュレータ内でも同様に密集した交通シナリオを再現し,交通ネットワークの性能と安全性に影響を及ぼすさまざまな人為的・システム固有の要因を網羅的に分析する。

Developing safety and efficiency applications for Connected and Automated Vehicles (CAVs) require a great deal of testing and evaluation. The need for the operation of these systems in critical and dangerous situations makes the burden of their evaluation very costly, possibly dangerous, and time-consuming. As an alternative, researchers attempt to study and evaluate their algorithms and designs using simulation platforms. Modeling the behavior of drivers or human operators in CAVs or other vehicles interacting with them is one of the main challenges of such simulations. While developing a perfect model for human behavior is a challenging task and an open problem, we present a significant augmentation of the current models used in simulators for driver behavior. In this paper, we present a simulation platform for a hybrid transportation system that includes both human-driven and automated vehicles. In addition, we decompose the human driving task and offer a modular approach to simulating a large-scale traffic scenario, allowing for a thorough investigation of automated and active safety systems. Such representation through Interconnected modules offers a human-interpretable system that can be tuned to represent different classes of drivers. Additionally, we analyze a large driving dataset to extract expressive parameters that would best describe different driving characteristics. Finally, we recreate a similarly dense traffic scenario within our simulator and conduct a thorough analysis of various human-specific and system-specific factors, studying their effect on traffic network performance and safety.
翻訳日:2022-08-12 13:36:08 公開日:2022-08-10
# グラフニューラルネットワークによるマルウェア家族解析のためのシーケンス特徴抽出

Sequence Feature Extraction for Malware Family Analysis via Graph Neural Network ( http://arxiv.org/abs/2208.05476v1 )

ライセンス: Link先を確認
S. W. Hsiao and P. Y. Chu(参考訳) 悪意のあるソフトウェア(マルウェア)は、デバイスや生命に大きな害をもたらします。 私たちは、マルウェアの行動とそれがもたらした脅威を理解したいと考えています。 マルウェアの記録ファイルのほとんどは、イベントログデータや動的解析プロファイルなど、タイムスタンプ付きの可変長とテキストベースのファイルである。 タイムスタンプを用いて、以下の分析のために、このようなデータをシーケンスベースのデータに分類することができる。 しかし、テキストベースのシーケンスを可変長で扱うことは困難である。 加えて、自然言語テキストデータとは異なり、情報セキュリティにおけるほとんどのシーケンシャルデータは、ループ、繰り返し呼び出し、ノイズなどの特定の特性と構造を持っている。 APIコールシーケンスをその構造で深く分析するために、グラフを使用してシーケンスを表現し、マルコフモデルのような情報や構造をさらに調査する。 そこで我々は,AWGCN (Attention Aware Graph Neural Network) を設計,実装し,API呼び出しシーケンスを解析する。 AWGCNにより、マルウェアの挙動を解析するためのシーケンス埋め込みが得られる。 さらに,awgcnはコールライクなデータセット内の他の分類器よりも優れており,組込みにより古典モデルの性能がさらに向上することを示す。

Malicious software (malware) causes much harm to our devices and life. We are eager to understand the malware behavior and the threat it made. Most of the record files of malware are variable length and text-based files with time stamps, such as event log data and dynamic analysis profiles. Using the time stamps, we can sort such data into sequence-based data for the following analysis. However, dealing with the text-based sequences with variable lengths is difficult. In addition, unlike natural language text data, most sequential data in information security have specific properties and structure, such as loop, repeated call, noise, etc. To deeply analyze the API call sequences with their structure, we use graphs to represent the sequences, which can further investigate the information and structure, such as the Markov model. Therefore, we design and implement an Attention Aware Graph Neural Network (AWGCN) to analyze the API call sequences. Through AWGCN, we can obtain the sequence embeddings to analyze the behavior of the malware. Moreover, the classification experiment result shows that AWGCN outperforms other classifiers in the call-like datasets, and the embedding can further improve the classic model's performance.
翻訳日:2022-08-12 13:29:38 公開日:2022-08-10
# あなたはどう思いますか。 運転中の適応車内相互作用に対するメンタルおよび知覚的負荷推定フレームワーク

What's on your mind? A Mental and Perceptual Load Estimation Framework towards Adaptive In-vehicle Interaction while Driving ( http://arxiv.org/abs/2208.05564v1 )

ライセンス: Link先を確認
Amr Gomaa, Alexandra Alles, Elena Meiser, Lydia Helene Rupp, Marco Molz and Guillermo Reyes(参考訳) 何人かの研究者は、運転中の車内相互作用に対する運転者の認知行動と精神負荷の研究に注力している。 精神的および知覚的負荷レベルによって異なる適応インターフェースは、事故の低減とドライバーエクスペリエンスの向上に役立つ。 本稿では,精神労働負荷と知覚負荷が心理生理学的次元に与える影響を分析し,車内相互作用の2つのタスクシナリオ(https://github.com/amrgomaaelhady/MWL-PL-estimator)において,メンタルおよび知覚負荷推定のための機械学習ベースのフレームワークを提供する。 車両のシステムに簡単に組み込める非侵入型センサーをオフザシェルフで使用しています。 統計的分析の結果,精神的な作業負荷は心理生理的次元に影響を及ぼすが,知覚的負荷は効果をほとんど示さないことが示された。 さらに、これらの測定の融合により、心的および知覚的負荷レベルを分類し、ユーザの行動や運転条件に合わせたリアルタイム適応車内インタフェースへと移行する。 我々は、最大89%のメンタルワークロード分類精度を報告し、リアルタイムに最小限のソリューションを提供する。

Several researchers have focused on studying driver cognitive behavior and mental load for in-vehicle interaction while driving. Adaptive interfaces that vary with mental and perceptual load levels could help in reducing accidents and enhancing the driver experience. In this paper, we analyze the effects of mental workload and perceptual load on psychophysiological dimensions and provide a machine learning-based framework for mental and perceptual load estimation in a dual task scenario for in-vehicle interaction (https://github.com/amrgomaaelhady/MWL-PL-estimator). We use off-the-shelf non-intrusive sensors that can be easily integrated into the vehicle's system. Our statistical analysis shows that while mental workload influences some psychophysiological dimensions, perceptual load shows little effect. Furthermore, we classify the mental and perceptual load levels through the fusion of these measurements, moving towards a real-time adaptive in-vehicle interface that is personalized to user behavior and driving conditions. We report up to 89% mental workload classification accuracy and provide a real-time minimally-intrusive solution.
翻訳日:2022-08-12 13:29:17 公開日:2022-08-10
# 意味的自己適応:単一サンプルによる一般化の強化

Semantic Self-adaptation: Enhancing Generalization with a Single Sample ( http://arxiv.org/abs/2208.05788v1 )

ライセンス: Link先を確認
Sherwin Bahmani, Oliver Hahn, Eduard Zamfir, Nikita Araslanov, Daniel Cremers and Stefan Roth(参考訳) 長年の研究にもかかわらず、ドメイン外一般化はセマンティックセグメンテーションのためのディープネットワークの重要な弱点である。 以前の研究では、静的モデルの仮定、すなわちトレーニングプロセスが完了すると、モデルパラメータはテスト時に固定される。 本研究では,各入力サンプルに対する推論プロセスを調整する意味セグメンテーションに対する自己適応的アプローチによって,この前提に挑戦する。 自己適応は2つのレベルで動作する。 まず、ネットワーク内の畳み込み層のパラメータを入力画像にカスタマイズする、自己教師付き損失を使用する。 第二に、バッチ正規化層では、自己適応は、使用不可能と仮定されたテストデータ全体の平均と分散に近似する。 単一のテストサンプルから得られた基準分布とトレーニングを補間することでこれを実現できる。 自己適応型推論戦略を実証的に分析するために,従来の作業の重大な制約に対処する厳密な評価プロトコルを開発し,それに従う。 標準的なトレーニング手順を用いることで、自己適応は強いベースラインを著しく上回り、マルチドメインベンチマークで新しい最先端の精度を新たに設定します。 本研究は,学習時間におけるモデル正規化の確立した実践を自己適応的推論が補完し,ドメイン外データへのディープネットワーク一般化を改善することを示唆する。

Despite years of research, out-of-domain generalization remains a critical weakness of deep networks for semantic segmentation. Previous studies relied on the assumption of a static model, i.e. once the training process is complete, model parameters remain fixed at test time. In this work, we challenge this premise with a self-adaptive approach for semantic segmentation that adjusts the inference process to each input sample. Self-adaptation operates on two levels. First, it employs a self-supervised loss that customizes the parameters of convolutional layers in the network to the input image. Second, in Batch Normalization layers, self-adaptation approximates the mean and the variance of the entire test data, which is assumed unavailable. It achieves this by interpolating between the training and the reference distribution derived from a single test sample. To empirically analyze our self-adaptive inference strategy, we develop and follow a rigorous evaluation protocol that addresses serious limitations of previous work. Our extensive analysis leads to a surprising conclusion: Using a standard training procedure, self-adaptation significantly outperforms strong baselines and sets new state-of-the-art accuracy on multi-domain benchmarks. Our study suggests that self-adaptive inference may complement the established practice of model regularization at training time for improving deep network generalization to out-of-domain data.
翻訳日:2022-08-12 13:26:23 公開日:2022-08-10
# 写真の美的視覚的質問応答

Aesthetic Visual Question Answering of Photographs ( http://arxiv.org/abs/2208.05798v1 )

ライセンス: Link先を確認
Xin Jin, Wu Zhou, Xinghui Zhou, Shuai Cui, Le Zhang, Jianwen Lv, Shu Zhao(参考訳) 画像の美的評価は、数値評価と言語評価の2つの主な形態に分類できる。 写真の美的キャプションは、対処された美的言語アセスメントの唯一のタスクである。 本稿では,画像の審美的視覚的質問と回答(avqa)という,審美的言語評価の新しいタスクを提案する。 画像美学の質問をすれば、モデルは答えを予測することができる。 画像は \textit{www.flickr.com} から。 目的QAペアは、提案した美的属性分析アルゴリズムによって生成される。 さらに,審美的数値ラベルから変換された主観的qaペアと,大規模事前学習モデルからの感情分析を紹介する。 72,168の高品質画像と324,756対の審美的質問を含む,最初の美的視覚的質問応答データセットであるAesVQAを構築した。 データ分布を調整する2つの方法が提案され、既存のモデルの精度が向上することが証明された。 これはどちらも美的VQAの課題に対処し、VQAタスクに主観性を導入する最初の作品である。 実験の結果,本手法は他のVQAモデルよりも優れていることがわかった。

Aesthetic assessment of images can be categorized into two main forms: numerical assessment and language assessment. Aesthetics caption of photographs is the only task of aesthetic language assessment that has been addressed. In this paper, we propose a new task of aesthetic language assessment: aesthetic visual question and answering (AVQA) of images. If we give a question of images aesthetics, model can predict the answer. We use images from \textit{www.flickr.com}. The objective QA pairs are generated by the proposed aesthetic attributes analysis algorithms. Moreover, we introduce subjective QA pairs that are converted from aesthetic numerical labels and sentiment analysis from large-scale pre-train models. We build the first aesthetic visual question answering dataset, AesVQA, that contains 72,168 high-quality images and 324,756 pairs of aesthetic questions. Two methods for adjusting the data distribution have been proposed and proved to improve the accuracy of existing models. This is the first work that both addresses the task of aesthetic VQA and introduces subjectiveness into VQA tasks. The experimental results reveal that our methods outperform other VQA models on this new task.
翻訳日:2022-08-12 13:26:01 公開日:2022-08-10
# ニューラルメッシュに基づくグラフィックス

Neural Mesh-Based Graphics ( http://arxiv.org/abs/2208.05785v1 )

ライセンス: Link先を確認
Shubhendu Jena, Franck Multon, Adnane Boukhayma(参考訳) NPBGは、ユビキタスな点特徴ニューラルレンダリングパラダイムを導入した、新しいビュー合成の一般的なアプローチである。 高速ビュー合成によるデータ効率のよい学習には特に関心があります。 我々は、前景/裏景のレンダリング分割に加えて、ビュー依存のメッシュベースの高密度点記述子ラスタ化によりこれを実現する。 1つのシーンのみをトレーニングすることで、ScanNetでトレーニングされたNABGを上回り、シーンを微調整しました。 また、DTUとタンクとテンプルの完全なデータセットで訓練された最先端のSVSに対して、より深いニューラルレンダラーにもかかわらず、微調整を施されたシーンに対して、競争的に実行します。

We revisit NPBG, the popular approach to novel view synthesis that introduced the ubiquitous point feature neural rendering paradigm. We are interested in particular in data-efficient learning with fast view synthesis. We achieve this through a view-dependent mesh-based denser point descriptor rasterization, in addition to a foreground/background scene rendering split, and an improved loss. By training solely on a single scene, we outperform NPBG, which has been trained on ScanNet and then scene finetuned. We also perform competitively with respect to the state-of-the-art method SVS, which has been trained on the full dataset (DTU and Tanks and Temples) and then scene finetuned, in spite of their deeper neural renderer.
翻訳日:2022-08-12 13:17:16 公開日:2022-08-10
# リサイクルパラメータ効率の良いプロンプトによるリトレーニングの削減

Reducing Retraining by Recycling Parameter-Efficient Prompts ( http://arxiv.org/abs/2208.05577v1 )

ライセンス: Link先を確認
Brian Lester and Joshua Yurtsever and Siamak Shakeri and Noah Constant(参考訳) パラメータ効率のよい手法は、単一の凍結事前学習された大言語モデル(LLM)を使用して、入力テキストに連結された場合のモデル動作を変調するタスク固有のソフトプロンプトを学習することで、多くのタスクを実行することができる。 しかし、これらの学習されたプロンプトは、与えられた凍結モデルに強く結合される - もしモデルが更新されたら、対応する新しいプロンプトを取得する必要がある。 そこで本研究では, 資源モデルに即効訓練を施したプロンプトを新たなターゲットモデルに適合させる「プロンプトリサイクル」の手法を提案し, 検討する。 我々の手法は、教師付きプロンプトのペア、タスク固有のデータ、あるいはターゲットモデルとのトレーニング更新には依存せず、ターゲットモデルでスクラッチから再チューニングするプロンプトと同じくらいコストがかかる。 モデル間のリサイクリングが可能であること(ベストセッティングは80.9 %のプロンプトのリサイクルに成功し、ベースラインを上回ったプロンプトを生成する)を示すが、重要なパフォーマンスヘッドルームは残っており、リサイクル技術の改善が必要である。

Parameter-efficient methods are able to use a single frozen pre-trained large language model (LLM) to perform many tasks by learning task-specific soft prompts that modulate model behavior when concatenated to the input text. However, these learned prompts are tightly coupled to a given frozen model -- if the model is updated, corresponding new prompts need to be obtained. In this work, we propose and investigate several approaches to "Prompt Recycling'" where a prompt trained on a source model is transformed to work with the new target model. Our methods do not rely on supervised pairs of prompts, task-specific data, or training updates with the target model, which would be just as costly as re-tuning prompts with the target model from scratch. We show that recycling between models is possible (our best settings are able to successfully recycle $88.9\%$ of prompts, producing a prompt that out-performs baselines), but significant performance headroom remains, requiring improved recycling techniques.
翻訳日:2022-08-12 13:14:22 公開日:2022-08-10
# スカラー入力と関数出力のためのニューラルネットワーク

Neural Networks for Scalar Input and Functional Output ( http://arxiv.org/abs/2208.05776v1 )

ライセンス: Link先を確認
Sidi Wu, C\'edric Beaulac and Jiguo Cao(参考訳) スカラー予測器の集合に対する機能的応答の回帰は、特に多くの予測器が存在する場合、これらの予測器は相互作用効果を持ち、あるいはそれらの予測器と応答の関係が非線形である場合、難しい課題である。 本研究では,この問題に対する解法を提案する。スカラー入力を用いて関数応答を予測するために設計されたフィードフォワードニューラルネットワーク(nn)である。 まず,関数応答を有限次元表現に変換し,その表現を出力するNNを構築する。 我々はNNを訓練するための異なる目的関数を提案した。 提案手法は周期的および不規則な空間データに適しており、予測曲線の滑らかさを制御するために粗さペナルティを適用する複数の方法を提供する。 両方の機能を実装することの難しさは、バックプロパゲーション可能な客観的関数の定義にある。 実験では,従来の関数・オン・スカラー回帰モデルを複数のシナリオで上回り,予測器の次元で計算的によくスケーリングできることを実証する。

The regression of a functional response on a set of scalar predictors can be a challenging task, especially if there is a large number of predictors, these predictors have interaction effects, or the relationship between those predictors and the response is nonlinear. In this work, we propose a solution to this problem: a feed-forward neural network (NN) designed to predict a functional response using scalar inputs. First, we transform the functional response to a finite-dimension representation and then we construct a NN that outputs this representation. We proposed different objective functions to train the NN. The proposed models are suited for both regularly and irregularly spaced data and also provide multiple ways to apply a roughness penalty to control the smoothness of the predicted curve. The difficulty in implementing both those features lies in the definition of objective functions that can be back-propagated. In our experiments, we demonstrate that our model outperforms the conventional function-on-scalar regression model in multiple scenarios while computationally scaling better with the dimension of the predictors.
翻訳日:2022-08-12 13:06:28 公開日:2022-08-10
# 加速度MRIのための高周波空間拡散モデル

High-Frequency Space Diffusion Models for Accelerated MRI ( http://arxiv.org/abs/2208.05481v1 )

ライセンス: Link先を確認
Chentao Cao, Zhuo-Xu Cui, Shaonan Liu, Dong Liang, Yanjie Zhu(参考訳) 拡散確率モデル(DDPM)はMRI再建において優れた性能を示した。 連続確率微分方程式(SDE)の観点からは、DDPMの逆過程は再構成されたMR画像のエネルギーを最大化し、SDE配列の発散をもたらすと考えられる。 そのため,MRI再建のための高周波DDPMモデルの修正が提案されている。 連続SDEの観点からは、HFS-SDE(英語版)と呼ばれるMR画像のエネルギー集中型低周波部分は増幅されず、拡散過程は高周波事前情報を取得することに重点を置いている。 拡散モデルの安定性を向上するだけでなく、高周波の詳細を回復する可能性も提供する。 HFS-SDEはDDPM駆動のVP-SDE, 教師付き深層学習法, 従来の並列画像法において, 安定性と再構成精度の点で優れていた。

Denoising diffusion probabilistic models (DDPMs) have been shown to have superior performances in MRI reconstruction. From the perspective of continuous stochastic differential equations (SDEs), the reverse process of DDPM can be seen as maximizing the energy of the reconstructed MR image, leading to SDE sequence divergence. For this reason, a modified high-frequency DDPM model is proposed for MRI reconstruction. From its continuous SDE viewpoint, termed high-frequency space SDE (HFS-SDE), the energy concentrated low-frequency part of the MR image is no longer amplified, and the diffusion process focuses more on acquiring high-frequency prior information. It not only improves the stability of the diffusion model but also provides the possibility of better recovery of high-frequency details. Experiments on the publicly fastMRI dataset show that our proposed HFS-SDE outperforms the DDPM-driven VP-SDE, supervised deep learning methods and traditional parallel imaging methods in terms of stability and reconstruction accuracy.
翻訳日:2022-08-12 13:05:57 公開日:2022-08-10
# KiPA22レポート:腎構造分割のための輪郭規則化U-Net

KiPA22 Report: U-Net with Contour Regularization for Renal Structures Segmentation ( http://arxiv.org/abs/2208.05772v1 )

ライセンス: Link先を確認
Kangqing Ye, Peng Liu, Qin Zhou, Guoyan Zheng(参考訳) 臨床的には3次元統合腎構造(IRS)セグメンテーションが重要である。 深層学習技術の進歩に伴い,医用画像のセグメンテーションに着目した強力なフレームワークが多数提案されている。 本研究では,医用画像分割のための最先端手法であるnnU-Netフレームワークを用いた。 腫瘍ラベルの異常予測を減少させるために,腫瘍ラベルの輪郭正規化(cr)損失とダイス損失とクロスエントロピー損失を組み合わせることにより,この現象を改善する。

Three-dimensional (3D) integrated renal structures (IRS) segmentation is important in clinical practice. With the advancement of deep learning techniques, many powerful frameworks focusing on medical image segmentation are proposed. In this challenge, we utilized the nnU-Net framework, which is the state-of-the-art method for medical image segmentation. To reduce the outlier prediction for the tumor label, we combine contour regularization (CR) loss of the tumor label with Dice loss and cross-entropy loss to improve this phenomenon.
翻訳日:2022-08-12 13:05:27 公開日:2022-08-10
# 品質の重要度:CLIPのデータセット設計とロバスト性との相互作用について

Quality Not Quantity: On the Interaction between Dataset Design and Robustness of CLIP ( http://arxiv.org/abs/2208.05516v1 )

ライセンス: Link先を確認
Thao Nguyen, Gabriel Ilharco, Mitchell Wortsman, Sewoong Oh, Ludwig Schmidt(参考訳) ウェブクローリングデータセットは、CLIP(Contrastive Language- Image Pre-training)やFlamingoといった最近の画像テキストモデルにおいて驚くべき一般化機能を実現しているが、データセット生成プロセスについてはほとんど知られていない。 本稿では,YFCC,LAION,Conceptual Captions,WIT,RedCaps,Shutterstockの6つの公開データソースを対象に,事前学習ディストリビューションがCLIPの堅牢性をいかに引き起こすかを検討する。 事前学習データの性能は分散シフトによって大きく異なり、単一のデータソースが支配的になることはない。 さらに、これらのデータソース間の相互作用を体系的に研究し、複数のソースを組み合わせることで必ずしもより良いモデルが得られるのではなく、最高の個々のデータソースの堅牢性を希薄化する。 実験結果と簡単な設定による理論的知見を補完し、トレーニングデータを組み合わせることで、希薄なロバスト性がもたらされる。 さらに,我々の理論モデルは,最近LAIONデータセットに採用されたCLIPベースのデータフィルタリング技術の成功の候補説明を提供する。 全体として、Webから大量のデータを集めることが、堅牢な一般化のためのトレーニング済みデータセットを構築する上で、最も効果的な方法ではないことが示されています。

Web-crawled datasets have enabled remarkable generalization capabilities in recent image-text models such as CLIP (Contrastive Language-Image pre-training) or Flamingo, but little is known about the dataset creation processes. In this work, we introduce a testbed of six publicly available data sources - YFCC, LAION, Conceptual Captions, WIT, RedCaps, Shutterstock - to investigate how pre-training distributions induce robustness in CLIP. We find that the performance of the pre-training data varies substantially across distribution shifts, with no single data source dominating. Moreover, we systematically study the interactions between these data sources and find that combining multiple sources does not necessarily yield better models, but rather dilutes the robustness of the best individual data source. We complement our empirical findings with theoretical insights from a simple setting, where combining the training data also results in diluted robustness. In addition, our theoretical model provides a candidate explanation for the success of the CLIP-based data filtering technique recently employed in the LAION dataset. Overall our results demonstrate that simply gathering a large amount of data from the web is not the most effective way to build a pre-training dataset for robust generalization, necessitating further study into dataset design.
翻訳日:2022-08-12 13:02:50 公開日:2022-08-10
# 3次元走査型歯科アーチからの半教師付き歯のセグメンテーション

Semi-supervised segmentation of tooth from 3D Scanned Dental Arches ( http://arxiv.org/abs/2208.05539v1 )

ライセンス: Link先を確認
Ammar Alsheghri, Farnoosh Ghadiri, Ying Zhang, Olivier Lessard, Julia Keren, Farida Cheriet, Francois Guibault(参考訳) 歯の分節は歯冠の生成、診断、治療計画に不可欠な歯の修復において重要なテーマである。 歯科領域では,入力データの変動性が高く,一般利用可能な3d歯列データセットは存在しない。 近年の3次元データにおける深層学習アーキテクチャの分野では改善が進んでいるが、アーチの欠損歯を適切に識別するといった問題も残っている。 本稿では,3次元アーチのセグメンテーションにおいて,スペクトルクラスタリングをニューラルネットワークの自己超越信号として用いることを提案する。 我々のアプローチは、K平均クラスタリングが人間の知覚に関連する限界線を捉える手がかりを提供するという観察に動機づけられている。 主なアイデアは、ラベルのない3dアーチを幾何学情報のみに依存するセグメントに分割することで、トレーニングデータを自動的に生成することだ。 ネットワークは、注釈付き入力の教師付き損失とラベルなし入力の自己監督型損失を組み合わせた共同損失を用いて訓練される。 収集したデータには、歯のないアーチを含むさまざまなアーチがあります。 実験の結果,半教師付き学習では,完全に教師付き状態のMeshSegNetよりも改善が見られた。 最後に、コードとデータセットをコントリビュートします。

Teeth segmentation is an important topic in dental restorations that is essential for crown generation, diagnosis, and treatment planning. In the dental field, the variability of input data is high and there are no publicly available 3D dental arch datasets. Although there has been improvement in the field provided by recent deep learning architectures on 3D data, there still exists some problems such as properly identifying missing teeth in an arch. We propose to use spectral clustering as a self-supervisory signal to joint-train neural networks for segmentation of 3D arches. Our approach is motivated by the observation that K-means clustering provides cues to capture margin lines related to human perception. The main idea is to automatically generate training data by decomposing unlabeled 3D arches into segments relying solely on geometric information. The network is then trained using a joint loss that combines a supervised loss of annotated input and a self-supervised loss of non-labeled input. Our collected data has a variety of arches including arches with missing teeth. Our experimental results show improvement over the fully supervised state-of-the-art MeshSegNet when using semi-supervised learning. Finally, we contribute code and a dataset.
翻訳日:2022-08-12 13:02:26 公開日:2022-08-10
# 重み補間による開語彙モデルのパッチング

Patching open-vocabulary models by interpolating weights ( http://arxiv.org/abs/2208.05592v1 )

ライセンス: Link先を確認
Gabriel Ilharco, Mitchell Wortsman, Samir Yitzhak Gadre, Shuran Song, Hannaneh Hajishirzi, Simon Kornblith, Ali Farhadi, Ludwig Schmidt(参考訳) CLIPのようなオープン語彙モデルは、多くの画像分類タスクで高い精度を達成する。 しかし、ゼロショットのパフォーマンスが最適には程遠い設定がある。 そこでは,すでに性能が十分であるタスクの精度を劣化させることなく,特定のタスクの精度を向上させることを目的とする。 この目標に向けて、我々は、微調整前のモデルの重みとパッチ対象のタスクの微調整後の重みとの補間を利用するパッチ手法であるPAINTを導入する。 ゼロショットCLIPが不十分な9つのタスクにおいて、PAINTは、ゼロショットモデルの1ポイント以内のImageNet上の精度を維持しながら、精度を15から60パーセント向上する。 PAINTはまた、単一のモデルを複数のタスクにパッチ適用し、モデルスケールで改善することを可能にする。 さらに,あるタスクにパッチを当てた場合,タスクが不一致なクラスであっても,他のタスクの精度が向上する。 最後に,クリップに対するタイポグラフィー攻撃の影響をカウントしたり減らすような,一般的なベンチマーク以上の応用について検討する。 本研究は,開語彙モデルがスクラッチから再学習することなく高い精度を達成できる課題の集合を拡張することができることを示した。

Open-vocabulary models like CLIP achieve high accuracy across many image classification tasks. However, there are still settings where their zero-shot performance is far from optimal. We study model patching, where the goal is to improve accuracy on specific tasks without degrading accuracy on tasks where performance is already adequate. Towards this goal, we introduce PAINT, a patching method that uses interpolations between the weights of a model before fine-tuning and the weights after fine-tuning on a task to be patched. On nine tasks where zero-shot CLIP performs poorly, PAINT increases accuracy by 15 to 60 percentage points while preserving accuracy on ImageNet within one percentage point of the zero-shot model. PAINT also allows a single model to be patched on multiple tasks and improves with model scale. Furthermore, we identify cases of broad transfer, where patching on one task increases accuracy on other tasks even when the tasks have disjoint classes. Finally, we investigate applications beyond common benchmarks such as counting or reducing the impact of typographic attacks on CLIP. Our findings demonstrate that it is possible to expand the set of tasks on which open-vocabulary models achieve high accuracy without re-training them from scratch.
翻訳日:2022-08-12 13:02:08 公開日:2022-08-10
# moral foundations redditコーパス

The Moral Foundations Reddit Corpus ( http://arxiv.org/abs/2208.05545v1 )

ライセンス: Link先を確認
Jackson Trager, Alireza S. Ziabari, Aida Mostafazadeh Davani, Preni Golazazian, Farzan Karimi-Malekabadi, Ali Omrani, Zhihe Li, Brendan Kennedy, Nils Karl Reimer, Melissa Reyes, Kelsey Cheng, Mellow Wei, Christina Merrifield, Arta Khosravi, Evans Alvarez, Morteza Dehghani(参考訳) モラルフレーミングと感情は、寄付、環境擁護活動、政治的関与、暴力的な抗議活動への参加など、様々なオンラインおよびオフラインの行動に影響を与える可能性がある。 自然言語処理(NLP)における様々な計算手法は、テキストデータから道徳的感情を検出するために用いられてきたが、そのような主観的なタスクにおいてより良いパフォーマンスを達成するためには、大量の手書き学習データが必要である。 道徳的感情に注釈を付けた以前のコーパスは、NLPと社会科学の両方に新たな洞察をもたらしてきたが、Twitterに限られている。 モラル・ファウンデーション・コーパス(moral foundations reddit corpus)は、12のサブredditから収集された16,123のredditコメントのコレクションで、更新されたモラル・ファウンデーション理論(moral foundations theory、mft)に基づいて、8つのモラル感情(注意、比例性、平等、純粋性、権威、薄いモラル、暗黙的/限定的モラル)のカテゴリについて、少なくとも3人の訓練された注釈者が手書きで注釈を付けている。 我々は,この新たなコーパス,例えばクロスドメイン分類や知識伝達のベースラインとなるモラル・センテンションの分類結果を提供するために,様々な手法を用いている。

Moral framing and sentiment can affect a variety of online and offline behaviors, including donation, pro-environmental action, political engagement, and even participation in violent protests. Various computational methods in Natural Language Processing (NLP) have been used to detect moral sentiment from textual data, but in order to achieve better performances in such subjective tasks, large sets of hand-annotated training data are needed. Previous corpora annotated for moral sentiment have proven valuable, and have generated new insights both within NLP and across the social sciences, but have been limited to Twitter. To facilitate improving our understanding of the role of moral rhetoric, we present the Moral Foundations Reddit Corpus, a collection of 16,123 Reddit comments that have been curated from 12 distinct subreddits, hand-annotated by at least three trained annotators for 8 categories of moral sentiment (i.e., Care, Proportionality, Equality, Purity, Authority, Loyalty, Thin Morality, Implicit/Explicit Morality) based on the updated Moral Foundations Theory (MFT) framework. We use a range of methodologies to provide baseline moral-sentiment classification results for this new corpus, e.g., cross-domain classification and knowledge transfer.
翻訳日:2022-08-12 12:59:57 公開日:2022-08-10
# エンド・ツー・エンドASRの新しいカリキュラム基準の比較と解析

Comparison and Analysis of New Curriculum Criteria for End-to-End ASR ( http://arxiv.org/abs/2208.05782v1 )

ライセンス: Link先を確認
Georgios Karakasidis, Tam\'as Gr\'osz, Mikko Kurimo(参考訳) トレーニングデータの量と品質が優れた機械学習モデルの作成に重要な役割を果たすことは、一般的な知識である。 本稿では,さらに一歩進めて,トレーニング例の配置方法も重要であることを実証する。 カリキュラム学習は、知識の組織化され構造化された同化が、より高速なトレーニングとより良い理解を可能にする能力を持つ観察に基づいて構築される。 人間が話すことを覚えると、まず基本的な電話を鳴らして、言葉や文のようなより複雑な構造に向かっていく。 この手法はカリキュラム学習(Curriculum Learning)と呼ばれ,音声認識の文脈で採用する。 我々は、難易度(すなわちカリキュラム)が増大する例からなる組織化されたトレーニングセットを提供することで、エンドツーエンドモデルがより良いパフォーマンスを達成することができると仮定する。 トレーニングセットに構造を課し,簡単な例の概念を定義するために,外部ニューラルネットワークからのフィードバックを使用したり,モデル自体からのフィードバックを取り入れたりする,複数のスコアリング関数について検討した。 実証的な結果は、異なるカリキュラムでトレーニング時間とネットワークのパフォーマンスのバランスをとることができることを示している。

It is common knowledge that the quantity and quality of the training data play a significant role in the creation of a good machine learning model. In this paper, we take it one step further and demonstrate that the way the training examples are arranged is also of crucial importance. Curriculum Learning is built on the observation that organized and structured assimilation of knowledge has the ability to enable faster training and better comprehension. When humans learn to speak, they first try to utter basic phones and then gradually move towards more complex structures such as words and sentences. This methodology is known as Curriculum Learning, and we employ it in the context of Automatic Speech Recognition. We hypothesize that end-to-end models can achieve better performance when provided with an organized training set consisting of examples that exhibit an increasing level of difficulty (i.e. a curriculum). To impose structure on the training set and to define the notion of an easy example, we explored multiple scoring functions that either use feedback from an external neural network or incorporate feedback from the model itself. Empirical results show that with different curriculums we can balance the training times and the network's performance.
翻訳日:2022-08-12 12:59:27 公開日:2022-08-10
# SSDBCODI:外部検出を内蔵した半スーパービジョン密度クラスタリング

SSDBCODI: Semi-Supervised Density-Based Clustering with Outliers Detection Integrated ( http://arxiv.org/abs/2208.05561v1 )

ライセンス: Link先を確認
Jiahao Deng and Eli T. Brown(参考訳) クラスタリング分析は、機械学習における重要なタスクの1つだ。 従来、クラスタ化は、異常検出とは別個の独立したタスクだった。 クラスタ化のパフォーマンスが異常値によって著しく損なわれる可能性があるため、少数のアルゴリズムが外れ値検出をクラスタリングのプロセスに組み込もうとしている。 しかし、これらのアルゴリズムのほとんどは、k-meansのような教師なし分割に基づくアルゴリズムに基づいている。 これらのアルゴリズムの性質を考えると、複雑な非凸形状のクラスターを扱うのに失敗することが多い。 そこで我々は,半教師付き密度ベースアルゴリズムであるSSDBCODIを提案する。 SSDBCODIは、複雑な形状のクラスタを扱うことができる密度ベースのアルゴリズムと、いくつかのユーザラベルに基づいてクラスタリング結果を調整する柔軟性を提供する半教師付き要素の利点を組み合わせたものだ。 異常検出コンポーネントをクラスタリングプロセスにマージすることも可能だ。 1) ラベル付き正規物体に対する点の到達密度を計測する到達可能性スコア、(2) 近接密度を計測する局所密度スコア、(3) 最寄りのラベル付き外れ値に対する点の近接度を測定する類似度スコアである。 次に、次のステップで、これらの3つのスコアに基づいて各データインスタンスのインスタンス重みを生成し、さらにクラスタリングと異常検出のために分類器を訓練する。 提案アルゴリズムの理解を深めるために,提案アルゴリズムを複数のデータセットにおける最先端手法に対して実行し,クラスタリングとは別に異常検出の結果を別途リストアップした。 この結果から,本アルゴリズムはラベルの少ない精度で優れた結果が得られることが示唆された。

Clustering analysis is one of the critical tasks in machine learning. Traditionally, clustering has been an independent task, separate from outlier detection. Due to the fact that the performance of clustering can be significantly eroded by outliers, a small number of algorithms try to incorporate outlier detection in the process of clustering. However, most of those algorithms are based on unsupervised partition-based algorithms such as k-means. Given the nature of those algorithms, they often fail to deal with clusters of complex, non-convex shapes. To tackle this challenge, we have proposed SSDBCODI, a semi-supervised density-based algorithm. SSDBCODI combines the advantage of density-based algorithms, which are capable of dealing with clusters of complex shapes, with the semi-supervised element, which offers flexibility to adjust the clustering results based on a few user labels. We also merge an outlier detection component with the clustering process. Potential outliers are detected based on three scores generated during the process: (1) reachability-score, which measures how density-reachable a point is to a labeled normal object, (2) local-density-score, which measures the neighboring density of data objects, and (3) similarity-score, which measures the closeness of a point to its nearest labeled outliers. Then in the following step, instance weights are generated for each data instance based on those three scores before being used to train a classifier for further clustering and outlier detection. To enhance the understanding of the proposed algorithm, for our evaluation, we have run our proposed algorithm against some of the state-of-art approaches on multiple datasets and separately listed the results of outlier detection apart from clustering. Our results indicate that our algorithm can achieve superior results with a small percentage of labels.
翻訳日:2022-08-12 12:56:40 公開日:2022-08-10
# リンク予測のためのパス対応シームズグラフニューラルネットワーク

Path-aware Siamese Graph Neural Network for Link Prediction ( http://arxiv.org/abs/2208.05781v1 )

ライセンス: Link先を確認
Jingsong Lv, Zhao Li, Hongyang Chen, Yao Qi, and Chunqi Wu(参考訳) 本稿では,リンク予測タスクのためのパスアウェアシアームグラフニューラルネットワーク(psg)のアルゴリズムを提案する。 第一に、psgは与えられた2つのノード、すなわちk-neighborhoodの構造情報とノードのリレーパス情報の両方のノードとエッジの特徴をキャプチャできる。 さらに、正のリンクと負のリンクである2つのコントラストリンクの表現学習に、psgによってシアムグラフニューラルネットワークを利用する。 我々は,Open Graph Benchmark (OGB), ogbl-ddiのリンク特性予測データセットを用いて,提案アルゴリズムのPSGを評価する。 PSGはogbl-ddiでトップ1のパフォーマンスを達成する。 実験結果はPSGの優位性を検証した。

In this paper, we propose an algorithm of Path-aware Siamese Graph neural network(PSG) for link prediction tasks. Firstly, PSG can capture both nodes and edge features for given two nodes, namely the structure information of k-neighborhoods and relay paths information of the nodes. Furthermore, siamese graph neural network is utilized by PSG for representation learning of two contrastive links, which are a positive link and a negative link. We evaluate the proposed algorithm PSG on a link property prediction dataset of Open Graph Benchmark (OGB), ogbl-ddi. PSG achieves top 1 performance on ogbl-ddi. The experimental results verify the superiority of PSG.
翻訳日:2022-08-12 12:55:22 公開日:2022-08-10
# 不均衡問題:神経崩壊幾何学の再考

Imbalance Trouble: Revisiting Neural-Collapse Geometry ( http://arxiv.org/abs/2208.05512v1 )

ライセンス: Link先を確認
Christos Thrampoulidis, Ganesh R. Kini, Vala Vakilian, Tina Behnia(参考訳) 神経崩壊(neural collapse)とは、クラス埋め込みとクラス化重みの幾何学を特徴付ける顕著な構造的性質を指す。 しかし、この特徴はバランスの取れたデータにのみ当てはまる。 そこで、クラス不均衡に不変であるかどうかを問う。 この目的に向けて,最近の神経崩壊研究のための理論モデルであるunconstrained-features model(ufm)を採用し,神経崩壊現象の不変なキャラクタリゼーションとしてsimplex-encoded-labels interpolation(seli)を導入した。 具体的には,クラス不均衡によらず,組込みと分類器が常に単純x符号化ラベル行列を補間し,それらの個々のジオメトリが同じラベル行列のSVD因子によって決定されることを示す。 次に,合成データと実データに関する広範な実験を行い,セリ幾何への収束を確認した。 しかし、収束は不均衡の増大とともに悪化する。 この発見を理論的には、マイノリティが存在する場合と異なり、リッジ規則化は幾何学の微調整において重要な役割を果たすことを示す。 これは新しい問題を定義し、一階法が漸近的に好まれる解に収束する速度にクラス不均衡が与える影響についてさらなる調査を動機付けている。

Neural Collapse refers to the remarkable structural properties characterizing the geometry of class embeddings and classifier weights, found by deep nets when trained beyond zero training error. However, this characterization only holds for balanced data. Here we thus ask whether it can be made invariant to class imbalances. Towards this end, we adopt the unconstrained-features model (UFM), a recent theoretical model for studying neural collapse, and introduce Simplex-Encoded-Labels Interpolation (SELI) as an invariant characterization of the neural collapse phenomenon. Specifically, we prove for the UFM with cross-entropy loss and vanishing regularization that, irrespective of class imbalances, the embeddings and classifiers always interpolate a simplex-encoded label matrix and that their individual geometries are determined by the SVD factors of this same label matrix. We then present extensive experiments on synthetic and real datasets that confirm convergence to the SELI geometry. However, we caution that convergence worsens with increasing imbalances. We theoretically support this finding by showing that unlike the balanced case, when minorities are present, ridge-regularization plays a critical role in tweaking the geometry. This defines new questions and motivates further investigations into the impact of class imbalances on the rates at which first-order methods converge to their asymptotically preferred solutions.
翻訳日:2022-08-12 12:54:45 公開日:2022-08-10
# 分散型社会制裁による分業の出現

The emergence of division of labor through decentralized social sanctioning ( http://arxiv.org/abs/2208.05568v1 )

ライセンス: Link先を確認
Anil Yaman, Joel Z. Leibo, Giovanni Iacca, Sang Wan Lee(参考訳) 人間の生態的成功は、協力的社会集団において柔軟に自己組織化する我々の特性的能力に依存している。 成功した集団は実質的な専門化と労働の分業を行っている。 他のほとんどの動物とは異なり、人間は人生の中で試行錯誤によってどのような役割を果たすかを学ぶ。 しかし、いくつかの重要な役割が他よりも魅力的であり、個人が自己関心を持つ場合、社会的ジレンマがある。 しかし、そのように行動し、重要な役割を果たさなければ、災害が発生する。 このような状況では最適な役割分布を学習することは不可能である。 その結果、基本的な質問は: 自己興味のある生涯学習者のグループにおいて、労働の分割はどのように現れるのか? ここでは、分散化社会制裁のパターンとみなす社会規範のモデルを導入することにより、利己的な個人集団が、すべての重要な役割を含む生産的な分業を学ぶことができることを示す。 このような社会的規範は、集団内で報酬を再分配し、反社会的役割を非活性化し、一方で、内在的に報酬を払わない親社会的役割を動機付ける。

Human ecological success relies on our characteristic ability to flexibly self-organize in cooperative social groups. Successful groups employ substantial specialization and division of labor. Unlike most other animals, humans learn by trial and error during their lives what role to take on. However, when some critical roles are more attractive than others, and individuals are self-interested, then there is a social dilemma: each individual would prefer others take on the critical-but-unremunerative roles so they may remain free to take one that pays better. But disaster occurs if all act thusly and a critical role goes unfilled. In such situations learning an optimum role distribution may not be possible. Consequently, a fundamental question is: how can division of labor emerge in groups of self-interested lifetime-learning individuals? Here we show that by introducing a model of social norms, which we regard as patterns of decentralized social sanctioning, it becomes possible for groups of self-interested individuals to learn a productive division of labor involving all critical roles. Such social norms work by redistributing rewards within the population to disincentivize antisocial roles while incentivizing prosocial roles that do not intrinsically pay as well as others.
翻訳日:2022-08-12 12:48:52 公開日:2022-08-10
# ニューラルネットワークのスペクトルバイアスの活性化関数依存性について

On the Activation Function Dependence of the Spectral Bias of Neural Networks ( http://arxiv.org/abs/2208.04924v2 )

ライセンス: Link先を確認
Qingguo Hong and Qinyang Tan and Jonathan W. Siegel and Jinchao Xu(参考訳) ニューラルネットワークは、劇的に過パラメータ化されているにもかかわらず、よく一般化することが知られている普遍関数近似器である。 我々は,ニューラルネットワークのスペクトルバイアスの観点からこの現象を研究する。 私たちの貢献は2倍です。 まず,有限要素法の理論との接続を利用して,reluニューラルネットワークのスペクトルバイアスの理論的な説明を行う。 第二に、この理論に基づいて、活性化関数を一方向に線形なB-スプライン、すなわちハット関数に切り替えると、このスペクトルバイアスを除去し、様々な設定で実験的に検証する。 また,ハット活性化関数を持つニューラルネットワークは,確率的勾配降下とadamを用いて有意に高速に学習できることを示した。 Hatアクティベーション関数が画像分類タスクの一般化精度も向上することを示す以前の研究と組み合わせて、Hatアクティベーションの使用は特定の問題においてReLUに対して大きな利点をもたらすことを示している。

Neural networks are universal function approximators which are known to generalize well despite being dramatically overparameterized. We study this phenomenon from the point of view of the spectral bias of neural networks. Our contributions are two-fold. First, we provide a theoretical explanation for the spectral bias of ReLU neural networks by leveraging connections with the theory of finite element methods. Second, based upon this theory we predict that switching the activation function to a piecewise linear B-spline, namely the Hat function, will remove this spectral bias, which we verify empirically in a variety of settings. Our empirical studies also show that neural networks with the Hat activation function are trained significantly faster using stochastic gradient descent and ADAM. Combined with previous work showing that the Hat activation function also improves generalization accuracy on image classification tasks, this indicates that using the Hat activation provides significant advantages over the ReLU on certain problems.
翻訳日:2022-08-12 11:09:21 公開日:2022-08-10
# D-BIAS:アルゴリズムバイアスに対処するための因果性に基づくHuman-in-the-Loopシステム

D-BIAS: A Causality-Based Human-in-the-Loop System for Tackling Algorithmic Bias ( http://arxiv.org/abs/2208.05126v1 )

ライセンス: Link先を確認
Bhavya Ghai and Klaus Mueller(参考訳) aiの台頭に伴い、アルゴリズムは、性別、人種などに基づく社会バイアスを含むトレーニングデータから基礎となるパターンを学習するようになる。 雇用、医療、法執行などドメインへのそのようなアルゴリズムの展開は、機械学習アルゴリズムにおける公正性、説明責任、信頼、解釈可能性に関する深刻な懸念を引き起こしている。 この問題を緩和するために,テーブル型データセットから社会バイアスを監査・緩和するための,ループ内aiアプローチを具現化するビジュアルインタラクティブツールd-biasを提案する。 グラフィカル因果モデルを使用して、データセット内のさまざまな特徴間の因果関係を表現し、ドメイン知識を注入する媒体として利用する。 ユーザは、因果ネットワーク内の不公平な因果関係を特定し、公正なメトリクスの配列を使用することで、例えば女性やサブグループ、例えば黒人女性に対するバイアスの存在を検出することができる。 その後、不公平な因果縁に作用してバイアスを軽減することができる。 各インタラクション、例えば偏りのある因果縁の弱化/削除では、システムは現在の因果モデルに基づいて新しい(偏りのある)データセットをシミュレートするために新しい方法を使用する。 ユーザは、異なる公平度メトリクス、ユーティリティメトリクス、データ歪み、および基礎となるデータ分散に対するインタラクションの影響を視覚的に評価することができる。 満足すれば、debiasedデータセットをダウンロードして、下流アプリケーションで使用して、より公平な予測を行うことができる。 D-BIASを3つのデータセットの実験および正式なユーザスタディにより評価した。 d-biasは,データ歪みが少なく,ユーティリティの損失が少なく,公平度指標の異なるベースラインデバイアスアプローチと比較して有意にバイアス軽減に寄与することがわかった。 さらに,本手法は,信頼,解釈可能性,説明責任に対する自動アプローチよりも優れている。

With the rise of AI, algorithms have become better at learning underlying patterns from the training data including ingrained social biases based on gender, race, etc. Deployment of such algorithms to domains such as hiring, healthcare, law enforcement, etc. has raised serious concerns about fairness, accountability, trust and interpretability in machine learning algorithms. To alleviate this problem, we propose D-BIAS, a visual interactive tool that embodies human-in-the-loop AI approach for auditing and mitigating social biases from tabular datasets. It uses a graphical causal model to represent causal relationships among different features in the dataset and as a medium to inject domain knowledge. A user can detect the presence of bias against a group, say females, or a subgroup, say black females, by identifying unfair causal relationships in the causal network and using an array of fairness metrics. Thereafter, the user can mitigate bias by acting on the unfair causal edges. For each interaction, say weakening/deleting a biased causal edge, the system uses a novel method to simulate a new (debiased) dataset based on the current causal model. Users can visually assess the impact of their interactions on different fairness metrics, utility metrics, data distortion, and the underlying data distribution. Once satisfied, they can download the debiased dataset and use it for any downstream application for fairer predictions. We evaluate D-BIAS by conducting experiments on 3 datasets and also a formal user study. We found that D-BIAS helps reduce bias significantly compared to the baseline debiasing approach across different fairness metrics while incurring little data distortion and a small loss in utility. Moreover, our human-in-the-loop based approach significantly outperforms an automated approach on trust, interpretability and accountability.
翻訳日:2022-08-11 13:30:43 公開日:2022-08-10
# モンテカルロ木探索によるシンボリック音楽生成における感情知覚の制御

Controlling Perceived Emotion in Symbolic Music Generation with Monte Carlo Tree Search ( http://arxiv.org/abs/2208.05162v1 )

ライセンス: Link先を確認
Lucas N. Ferreira, Lili Mou, Jim Whitehead, Levi H. S. Lelis(参考訳) 本論文ではモンテカルロ木探索を用いたシンボリック音楽生成における感情制御手法を提案する。 モンテカルロ木探索をデコード機構として用いて,言語モデルで学習した確率分布を与えられた感情に向けて制御する。 復号処理の各ステップでは,木(puct)に対する予測子上信頼度を用いて,感情分類器と判別器が与える感情の平均値と品質を最大化するシーケンスを探索する。 puctのポリシーとして言語モデルを使用し、感情分類器と判別器をその価値関数として組み合わせます。 楽曲中の次のトークンをデコードするために、検索中に生成されたノード訪問の分布からサンプルを作成する。 生成したサンプルから直接計算した客観的な測定値の集合を用いて, 生成したサンプルの品質を評価する。 また, 被験者が生成したサンプルの質や感情をどのように知覚するかを評価するために, ユーザ調査を行った。 PUCTとSBBS(Stochastic Bi-Objective Beam Search)とCS(Conditional Smpling)を比較した。 その結果,PUCTは音楽の質や感情の指標のほとんどすべてにおいて,SBBSやCSよりも優れていた。

This paper presents a new approach for controlling emotion in symbolic music generation with Monte Carlo Tree Search. We use Monte Carlo Tree Search as a decoding mechanism to steer the probability distribution learned by a language model towards a given emotion. At every step of the decoding process, we use Predictor Upper Confidence for Trees (PUCT) to search for sequences that maximize the average values of emotion and quality as given by an emotion classifier and a discriminator, respectively. We use a language model as PUCT's policy and a combination of the emotion classifier and the discriminator as its value function. To decode the next token in a piece of music, we sample from the distribution of node visits created during the search. We evaluate the quality of the generated samples with respect to human-composed pieces using a set of objective metrics computed directly from the generated samples. We also perform a user study to evaluate how human subjects perceive the generated samples' quality and emotion. We compare PUCT against Stochastic Bi-Objective Beam Search (SBBS) and Conditional Sampling (CS). Results suggest that PUCT outperforms SBBS and CS in almost all metrics of music quality and emotion.
翻訳日:2022-08-11 13:30:12 公開日:2022-08-10
# LDPCデコーダにおける学習量子化

Learning Quantization in LDPC Decoders ( http://arxiv.org/abs/2208.05186v1 )

ライセンス: Link先を確認
Marvin Geiselhart, Ahmed Elkelesh, Jannis Clausius, Fei Liang, Wen Xu, Jing Liang and Stephan ten Brink(参考訳) 最適なメッセージ量子化を見つけることは、低複雑性信念伝播(BP)デコーディングの鍵となる要件である。 そこで本研究では,振幅が学習可能な一様雑音の追加として量子化効果を模倣する浮動小数点サーロゲートモデルを提案する。 本研究では,提案手法が不動点実装の動作と密接に一致することを検証し,複雑度と誤差率性能のトレードオフを実現するための手作り損失関数を提案する。 次に、深層学習に基づく手法を適用し、メッセージビット幅を最適化する。 さらに,パラメータの共有は実装にやさしいソリューションを保証し,独立したパラメータよりも高速なトレーニング収束を実現することを示す。 平均メッセージ量子化ビット幅3.1ビットにおける浮動小数点復号における5G低密度パリティチェック(LDPC)符号のシミュレーション結果とエラー率を0.2dB以内で報告する。 さらに,学習したビット幅が他の符号レートやチャネルにも一般化することを示す。

Finding optimal message quantization is a key requirement for low complexity belief propagation (BP) decoding. To this end, we propose a floating-point surrogate model that imitates quantization effects as additions of uniform noise, whose amplitudes are trainable variables. We verify that the surrogate model closely matches the behavior of a fixed-point implementation and propose a hand-crafted loss function to realize a trade-off between complexity and error-rate performance. A deep learning-based method is then applied to optimize the message bitwidths. Moreover, we show that parameter sharing can both ensure implementation-friendly solutions and results in faster training convergence than independent parameters. We provide simulation results for 5G low-density parity-check (LDPC) codes and report an error-rate performance within 0.2 dB of floating-point decoding at an average message quantization bitwidth of 3.1 bits. In addition, we show that the learned bitwidths also generalize to other code rates and channels.
翻訳日:2022-08-11 13:29:53 公開日:2022-08-10
# 製造工程におけるヘルスインジケータ構築のためのデノージングオートエンコーダを用いたデータ駆動型モジュラーアーキテクチャ

A data-driven modular architecture with denoising autoencoders for health indicator construction in a manufacturing process ( http://arxiv.org/abs/2208.05208v1 )

ライセンス: Link先を確認
Emil Blixt Hansen, Helge Langseth, Nadeem Iftikhar, Simon B{\o}gh(参考訳) 予後と健康管理(PHM)の分野において、健康指標(HI)は生産を助け、例えばメンテナンスのスケジュールや失敗を避けるために用いられる。 しかし、HIは特定のプロセスにエンジニアリングされることが多く、通常セットアップには大量の履歴データを必要とする。 これは特に、PHMから得られる十分なリソースと知識が不足している中小企業にとっての課題である。 本稿では,歴史的データを持たないシステムにおけるHI構築におけるモジュール方式であるModularHIを提案する。 ModularHIでは、オペレータがどのセンサー入力が利用可能かを選択し、次にModularHIはバーンイン状態中に収集されたデータに基づいてベースラインモデルを計算する。 このベースラインモデルは、システムが時間とともに劣化し始めるかどうかを検出するために使用される。 CMAPSSとN-CMAPSSの2つのオープンデータセット上でModularHIをテストする。 前者のデータセットの結果は、劣化を検出するシステムの能力を示し、後者の結果は、領域内でさらなる研究を行うための方向を示す。 その結果,新しい手法では履歴データなしでシステムの劣化を検知できることがわかった。

Within the field of prognostics and health management (PHM), health indicators (HI) can be used to aid the production and, e.g. schedule maintenance and avoid failures. However, HI is often engineered to a specific process and typically requires large amounts of historical data for set-up. This is especially a challenge for SMEs, which often lack sufficient resources and knowledge to benefit from PHM. In this paper, we propose ModularHI, a modular approach in the construction of HI for a system without historical data. With ModularHI, the operator chooses which sensor inputs are available, and then ModularHI will compute a baseline model based on data collected during a burn-in state. This baseline model will then be used to detect if the system starts to degrade over time. We test the ModularHI on two open datasets, CMAPSS and N-CMAPSS. Results from the former dataset showcase our system's ability to detect degradation, while results from the latter point to directions for further research within the area. The results shows that our novel approach is able to detect system degradation without historical data.
翻訳日:2022-08-11 13:29:35 公開日:2022-08-10
# 逐次推定のための複数音源のアクティブサンプリング

Active Sampling of Multiple Sources for Sequential Estimation ( http://arxiv.org/abs/2208.05406v1 )

ライセンス: Link先を確認
Arpan Mukherjee, Ali Tajer, Pin-Yu Chen, Payel Das(参考訳) k$ プロセスを考え、それぞれが同一かつ独立な確率変数の列を生成する。 これらの過程の確率測度は、推定しなければならないランダムパラメータを持つ。 具体的には、すべての確率測度に共通するパラメータ$\theta$を共有する。 さらに、各プロセス $i\in\{1, \dots, K\}$ はプライベートパラメータ $\alpha_i$ を持つ。 最少サンプル数の共有パラメータとプライベートパラメータの信頼性の高い推定を行うために,これらのパラメータを逐次推定するアクティブサンプリングアルゴリズムを設計することが目的である。 このサンプリングアルゴリズムには3つの重要な要素がある。 i)~データ駆動型サンプリング決定。時間とともに動的にK$プロセスのどれをサンプリングに選択すべきかを指定する。 (ii) 蓄積したデータが信頼できる見積もりを形成し、サンプリングプロセスを終了するのに十分な時期を特定するプロセスの停止時間。 (iii)~共有パラメーターおよびプライベートパラメーターの推定子。 逐次的推定が解析可能であることが知られているため,本論文では<emph { Conditional} 推定コスト関数を導入し,最近,抽出可能な解析を行うための逐次的推定手法を提案する。 漸近的に最適な決定規則(サンプリング,停止,推定)を定式化し,提案手法の有効性と品質を比較する数値実験を行った。

Consider $K$ processes, each generating a sequence of identical and independent random variables. The probability measures of these processes have random parameters that must be estimated. Specifically, they share a parameter $\theta$ common to all probability measures. Additionally, each process $i\in\{1, \dots, K\}$ has a private parameter $\alpha_i$. The objective is to design an active sampling algorithm for sequentially estimating these parameters in order to form reliable estimates for all shared and private parameters with the fewest number of samples. This sampling algorithm has three key components: (i)~data-driven sampling decisions, which dynamically over time specifies which of the $K$ processes should be selected for sampling; (ii)~stopping time for the process, which specifies when the accumulated data is sufficient to form reliable estimates and terminate the sampling process; and (iii)~estimators for all shared and private parameters. Owing to the sequential estimation being known to be analytically intractable, this paper adopts \emph {conditional} estimation cost functions, leading to a sequential estimation approach that was recently shown to render tractable analysis. Asymptotically optimal decision rules (sampling, stopping, and estimation) are delineated, and numerical experiments are provided to compare the efficacy and quality of the proposed procedure with those of the relevant approaches.
翻訳日:2022-08-11 13:28:46 公開日:2022-08-10
# MIMOサブアレイハイブリッドビームフォーミングのための柔軟な教師なし学習

Flexible Unsupervised Learning for Massive MIMO Subarray Hybrid Beamforming ( http://arxiv.org/abs/2208.05443v1 )

ライセンス: Link先を確認
Hamed Hojatian, J\'er\'emy Nadal, Jean-Fran\c{c}ois Frigon, and Fran\c{c}ois Leduc-Primeau(参考訳) ハイブリッドビームフォーミングは、大規模なMIMOシステムのエネルギー効率を改善するための有望な技術である。 特に、サブアレイハイブリッドビームフォーミングは、位相シフト器の数を減らし、消費電力をさらに削減することができる。 しかし、ハイブリッドビームフォーミングベクトルの設計は、サブアレイ接続の離散的性質と位相シフト量による複雑な作業である。 rfチェーンとアンテナの最適な接続を見つけるには、大きな探索空間で非凸問題を解く必要がある。 加えて、従来のソリューションでは完全なCSIが利用可能であり、実際的なシステムではそうではない。 そこで本研究では,任意のサブアレイ構造に対するハイブリッドビームフォーミングの設計のための教師なし学習手法を提案する。 提案アーキテクチャの主な特徴の1つは、ビームフォーミングコードブックは不要であり、ニューラルネットワークは位相シフト器量子化を考慮するように訓練されていることである。 シミュレーションの結果,提案手法は既存の手法よりも高い総和率が得られることがわかった。

Hybrid beamforming is a promising technology to improve the energy efficiency of massive MIMO systems. In particular, subarray hybrid beamforming can further decrease power consumption by reducing the number of phase-shifters. However, designing the hybrid beamforming vectors is a complex task due to the discrete nature of the subarray connections and the phase-shift amounts. Finding the optimal connections between RF chains and antennas requires solving a non-convex problem in a large search space. In addition, conventional solutions assume that perfect CSI is available, which is not the case in practical systems. Therefore, we propose a novel unsupervised learning approach to design the hybrid beamforming for any subarray structure while supporting quantized phase-shifters and noisy CSI. One major feature of the proposed architecture is that no beamforming codebook is required, and the neural network is trained to take into account the phase-shifter quantization. Simulation results show that the proposed deep learning solutions can achieve higher sum-rates than existing methods.
翻訳日:2022-08-11 13:28:27 公開日:2022-08-10
# 活性学習による32.5M化合物化学空間の迅速探索 : 密度汎関数近似の無感性と合成アクセシブル遷移金属クロモフォアの発見

Rapid Exploration of a 32.5M Compound Chemical Space with Active Learning to Discover Density Functional Approximation Insensitive and Synthetically Accessible Transitional Metal Chromophores ( http://arxiv.org/abs/2208.05444v1 )

ライセンス: Link先を確認
Chenru Duan, Aditya Nandy, Gianmarco Terrones, David W. Kastner, and Heather J. Kulik(参考訳) 機械学習(ML)による化学発見を加速する2つの課題は、候補分子や物質の合成可能性と、MLモデルトレーニングで使用されるデータの忠実性である。 最初の挑戦に対処するために、32.5m遷移金属錯体(tmc)の仮定的な設計空間を構築し、構成断片(金属と配位子)と配位子対称性が合成的にアクセス可能である。 第2の課題に対処するために,jacob's ladder の複数のラングにまたがる23の密度関数近似の予測におけるコンセンサスを求める。 これら32.5MのTMCのスクリーニングを高速化するために,低吸収エネルギーと低静的相関を持つ低スピン色調候補のサンプリングに,効率的なグローバル最適化を用いる。 この大きな化学空間における潜在的な色調の不足 ($ 0.01 %) にもかかわらず、MLモデルがアクティブラーニング中に改善するにつれて、高い可能性 ($> 10 %) の遷移金属色調を同定する。 これは、年ではなく数日の発見に対応する発見において1000倍の加速を示す。 候補色相の分析では、Co(III) と、より結合飽和度の高い大きな強磁場配位子が好まれる。 時間依存密度汎関数理論計算によりパレート前面の有望な色相の吸収スペクトルを計算し、その3分の2が励起状態特性を所望していることを検証する。 これらの錯体の実験的研究は行われていないが、その構成リガンドは文学における興味深い光学的性質を示し、現実的なTMC設計空間の構築とアクティブラーニングアプローチの有効性を実証した。

Two outstanding challenges for machine learning (ML) accelerated chemical discovery are the synthesizability of candidate molecules or materials and the fidelity of the data used in ML model training. To address the first challenge, we construct a hypothetical design space of 32.5M transition metal complexes (TMCs), in which all of the constituent fragments (i.e., metals and ligands) and ligand symmetries are synthetically accessible. To address the second challenge, we search for consensus in predictions among 23 density functional approximations across multiple rungs of Jacob's ladder. To accelerate the screening of these 32.5M TMCs, we use efficient global optimization to sample candidate low-spin chromophores that simultaneously have low absorption energies and low static correlation. Despite the scarcity (i.e., $<$ 0.01\%) of potential chromophores in this large chemical space, we identify transition metal chromophores with high likelihood (i.e., $>$ 10\%) as the ML models improve during active learning. This represents a 1,000 fold acceleration in discovery corresponding to discoveries in days instead of years. Analyses of candidate chromophores reveal a preference for Co(III) and large, strong-field ligands with more bond saturation. We compute the absorption spectra of promising chromophores on the Pareto front by time-dependent density functional theory calculations and verify that two thirds of them have desired excited state properties. Although these complexes have never been experimentally explored, their constituent ligands demonstrated interesting optical properties in literature, exemplifying the effectiveness of our construction of realistic TMC design space and active learning approach.
翻訳日:2022-08-11 13:28:10 公開日:2022-08-10
# DBOSによる機械学習

Machine Learning with DBOS ( http://arxiv.org/abs/2208.05101v1 )

ライセンス: Link先を確認
Robert Redmond and Nathan W. Weckwerth and Brian S. Xia and Qian Li and Peter Kraft and Deeptaanshu Kumar and \c{C}a\u{g}atay Demiralp and Michael Stonebraker(参考訳) 我々は最近,DBMSを中心とした新しいクラスタオペレーティングシステムスタックDBOSを提案している。 DBOSは、ストアドプロシージャ内にMLコードをカプセル化し、アシラリーMLデータを集中化し、基盤となるDBMSに組み込まれたセキュリティを提供し、MLコードとデータを共同配置し、データとワークフローの出所を追跡することで、MLアプリケーションのユニークなサポートを可能にする。 ここでは、これらの利点のサブセットを2つのMLアプリケーションで示します。 まず、GPUを用いた画像分類とオブジェクト検出モデルがDBOSストアドプロシージャとして機能し、既存のシステムと競合する性能を持つことを示す。 次に、DBOSが支援するWebサービス上で、HTTPリクエストの異常を検知し、SOTA結果を達成するよう訓練された1D CNNを示す。 このモデルを用いて対話型異常検出システムを開発し,定性的なユーザフィードバックを通じて評価し,DBOS上に学習リアルタイムセキュリティサービスを開発するための概念実証としての有用性を示す。

We recently proposed a new cluster operating system stack, DBOS, centered on a DBMS. DBOS enables unique support for ML applications by encapsulating ML code within stored procedures, centralizing ancillary ML data, providing security built into the underlying DBMS, co-locating ML code and data, and tracking data and workflow provenance. Here we demonstrate a subset of these benefits around two ML applications. We first show that image classification and object detection models using GPUs can be served as DBOS stored procedures with performance competitive to existing systems. We then present a 1D CNN trained to detect anomalies in HTTP requests on DBOS-backed web services, achieving SOTA results. We use this model to develop an interactive anomaly detection system and evaluate it through qualitative user feedback, demonstrating its usefulness as a proof of concept for future work to develop learned real-time security services on top of DBOS.
翻訳日:2022-08-11 13:27:38 公開日:2022-08-10
# 教師なし機械学習による核酸アプタマーの多様化設計

Diversifying Design of Nucleic Acid Aptamers Using Unsupervised Machine Learning ( http://arxiv.org/abs/2208.05341v1 )

ライセンス: Link先を確認
Siba Moussa, Michael Kilgour, Clara Jans, Alex Hernandez-Garcia, Miroslava Cuperlovic-Culf, Yoshua Bengio, and Lena Simine(参考訳) 短い一本鎖RNAとDNA配列(アプタマー)の逆設計は、一連の望ましい基準を満たす配列を見つけるタスクである。 関連する基準は、例えば、特定の折りたたみモチーフの存在、分子配位子への結合、センシング特性などである。 アプタマー設計に対する最も実践的なアプローチは、高スループット実験(例えばselex)を用いて有望な候補列の小さなセットを特定し、経験的に発見された候補に小さな修正を加えるだけでパフォーマンスを最適化する。 望ましい性質を持つが化学組成が著しく異なる配列は探索空間に多様性を与え、有用な核酸アプタマーの発見を促進する。 体系的な多様化プロトコルが必要である。 本稿では,制御可能なシーケンスの多様性を持つ新しい有用なシーケンスを探索するために,ポッツモデルとして知られる教師なし機械学習モデルを用いることを提案する。 まず、共通の特徴によって統一された経験的特定シーケンスの小さなセット上で、最大エントロピー原理を用いてポッツモデルを訓練する。 多様性の制御可能な新しい候補系列を生成するために、モデルのスペクトル特性、すなわち、異なるトレーニングセットと類似した配列を分離するエネルギーバンドギャップを利用する。 サンプル化されたポッツエネルギー範囲を制御することで、トレーニングセットとは区別されるが、エンコードされた特徴を持つ可能性が高いシーケンスを生成する。 性能を示すために, 30-mer rnaおよびdnaアプタマーにおいて, 特定の二次構造モチーフを持つ配列の多種多様なプールを設計する。

Inverse design of short single-stranded RNA and DNA sequences (aptamers) is the task of finding sequences that satisfy a set of desired criteria. Relevant criteria may be, for example, the presence of specific folding motifs, binding to molecular ligands, sensing properties, etc. Most practical approaches to aptamer design identify a small set of promising candidate sequences using high-throughput experiments (e.g. SELEX), and then optimize performance by introducing only minor modifications to the empirically found candidates. Sequences that possess the desired properties but differ drastically in chemical composition will add diversity to the search space and facilitate the discovery of useful nucleic acid aptamers. Systematic diversification protocols are needed. Here we propose to use an unsupervised machine learning model known as the Potts model to discover new, useful sequences with controllable sequence diversity. We start by training a Potts model using the maximum entropy principle on a small set of empirically identified sequences unified by a common feature. To generate new candidate sequences with a controllable degree of diversity, we take advantage of the model's spectral feature: an energy bandgap separating sequences that are similar to the training set from those that are distinct. By controlling the Potts energy range that is sampled, we generate sequences that are distinct from the training set yet still likely to have the encoded features. To demonstrate performance, we apply our approach to design diverse pools of sequences with specified secondary structure motifs in 30-mer RNA and DNA aptamers.
翻訳日:2022-08-11 13:25:26 公開日:2022-08-10
# 発話レベル表現の非競合的自己教師付き学習

Non-Contrastive Self-Supervised Learning of Utterance-Level Speech Representations ( http://arxiv.org/abs/2208.05413v1 )

ライセンス: Link先を確認
Jaejin Cho, Raghavendra Pappagari, Piotr \.Zelasko, Laureano Moro-Velazquez, Jes\'us Villalba, Najim Dehak(参考訳) ラベルなし音声データの豊富さと高いラベル付けコストを考えると、教師なし学習法はシステム開発に不可欠である。 最も成功した方法の1つは、負のサンプリングを必要とするコントラスト的自己教師あり法である: 現在のサンプル(アンカー)と対照的に代替サンプルをサンプリングする。 しかし、全ての負のサンプルがラベルなしでアンカークラスとは異なるクラスに属していることを保証するのは難しい。 本稿では,ラベルなし音声コーパスに非連続的自己教師あり学習法を適用し,発話レベルの埋め込みを学習する。 コンピュータビジョンで提案したNOラベルを用いたDistillation(DINO)を音声領域に適用した。 対照的な方法とは異なり、DINOは負のサンプリングを必要としない。 これらの埋め込みは話者照合と感情認識で評価された。 話者による検証では、コサインスコアによる教師なしのDINO埋め込みはVoxCeleb1試験で4.38%のEERを与えた。 これはEERにおいて、最もコントラストの高い自己管理手法よりも40%優れています。 話者ラベルを必要としない反復的な擬似ラベルトレーニングパイプラインにより、EERはさらに1.89%向上した。 感情認識において、DINO埋め込みは、IEMOCAP、Crema-D、MSP-Podcastでそれぞれ60.87、79.21、56.98%のマイクロf1スコアを記録した。 この結果は、dino埋め込みを異なる音声応用に一般化することを暗示している。

Considering the abundance of unlabeled speech data and the high labeling costs, unsupervised learning methods can be essential for better system development. One of the most successful methods is contrastive self-supervised methods, which require negative sampling: sampling alternative samples to contrast with the current sample (anchor). However, it is hard to ensure if all the negative samples belong to classes different from the anchor class without labels. This paper applies a non-contrastive self-supervised learning method on an unlabeled speech corpus to learn utterance-level embeddings. We used DIstillation with NO labels (DINO), proposed in computer vision, and adapted it to the speech domain. Unlike the contrastive methods, DINO does not require negative sampling. These embeddings were evaluated on speaker verification and emotion recognition. In speaker verification, the unsupervised DINO embedding with cosine scoring provided 4.38% EER on the VoxCeleb1 test trial. This outperforms the best contrastive self-supervised method by 40% relative in EER. An iterative pseudo-labeling training pipeline, not requiring speaker labels, further improved the EER to 1.89%. In emotion recognition, the DINO embedding performed 60.87, 79.21, and 56.98% in micro-f1 score on IEMOCAP, Crema-D, and MSP-Podcast, respectively. The results imply the generality of the DINO embedding to different speech applications.
翻訳日:2022-08-11 13:24:57 公開日:2022-08-10
# CoditT5: ソースコードと自然言語編集の準備

CoditT5: Pretraining for Source Code and Natural Language Editing ( http://arxiv.org/abs/2208.05446v1 )

ライセンス: Link先を確認
Jiyang Zhang, Sheena Panthaplackel, Pengyu Nie, Junyi Jessy Li, Milos Gligoric(参考訳) 事前訓練された言語モデルは、多くのソフトウェア関連の生成タスクで有効であることが示されているが、編集を推論するように設計されていないため、編集タスクには適していない。 そこで本研究では,大量のソースコードと自然言語コメントを事前学習したソフトウェア関連編集タスクのための大規模言語モデルであるcoditt5を,編集を明示的にモデル化し,それを用いて構築する新しい事前学習目標を提案する。 コメント更新、バグ修正、自動コードレビューなど、さまざまなダウンストリーム編集タスクを微調整します。 純粋生成モデルよりも優れた性能を生かして,本手法の一般化可能性とタスクの編集性を示す。 また、純粋な生成モデルと編集ベースモデルが、単純なリグレード戦略によって相互に補完できることを示し、3つの下流編集タスクに対して最先端のパフォーマンスを実現する。

Pretrained language models have been shown to be effective in many software-related generation tasks; however, they are not well-suited for editing tasks as they are not designed to reason about edits. To address this, we propose a novel pretraining objective which explicitly models edits and use it to build CoditT5, a large language model for software-related editing tasks that is pretrained on large amounts of source code and natural language comments. We fine-tune it on various downstream editing tasks, including comment updating, bug fixing, and automated code review. By outperforming pure generation-based models, we demonstrate the generalizability of our approach and its suitability for editing tasks. We also show how a pure generation model and our edit-based model can complement one another through simple reranking strategies, with which we achieve state-of-the-art performance for the three downstream editing tasks.
翻訳日:2022-08-11 13:24:19 公開日:2022-08-10
# 適応実験による学生支援の迅速化

Using Adaptive Experiments to Rapidly Help Students ( http://arxiv.org/abs/2208.05092v1 )

ライセンス: Link先を確認
Angela Zavaleta-Bernuy, Qi Yin Zheng, Hammad Shaikh, Jacob Nogas, Anna Rafferty, Andrew Petersen, Joseph Jay Williams(参考訳) 適応実験は、現在の学生が指導的介入のフィールド実験からより良い結果を得る機会を高めることができる。 このような実験では、より多くのデータが収集されている間に学生を条件に割り当てる確率が変化し、学生はより良いパフォーマンスを示すであろう介入に割り当てることができる。 デジタル教育環境はこのような適応実験を行うための障壁を低くするが、それらは教育にはほとんど適用されない。 一つの理由は、研究者が特定の文脈でこれらの実験の利点とデメリットを示す実世界のケーススタディにほとんどアクセスできないからかもしれない。 学生における宿題メールリマインダーの効果を,トンプソンサンプリングアルゴリズムを用いた適応実験により評価し,従来の一様ランダム実験と比較した。 このような実験の実施方法に関するケーススタディとして,適応的ランダム化実験が多かれ少なかれ有用である可能性のある条件について,さまざまなオープンな疑問を提起する。

Adaptive experiments can increase the chance that current students obtain better outcomes from a field experiment of an instructional intervention. In such experiments, the probability of assigning students to conditions changes while more data is being collected, so students can be assigned to interventions that are likely to perform better. Digital educational environments lower the barrier to conducting such adaptive experiments, but they are rarely applied in education. One reason might be that researchers have access to few real-world case studies that illustrate the advantages and disadvantages of these experiments in a specific context. We evaluate the effect of homework email reminders in students by conducting an adaptive experiment using the Thompson Sampling algorithm and compare it to a traditional uniform random experiment. We present this as a case study on how to conduct such experiments, and we raise a range of open questions about the conditions under which adaptive randomized experiments may be more or less useful.
翻訳日:2022-08-11 13:22:21 公開日:2022-08-10
# マルチ武装バンディットによるメールリマインダーへの学生の関与拡大

Increasing Students' Engagement to Reminder Emails Through Multi-Armed Bandits ( http://arxiv.org/abs/2208.05090v1 )

ライセンス: Link先を確認
Fernando J. Yanez, Angela Zavaleta-Bernuy, Ziwen Han, Michael Liut, Anna Rafferty, Joseph Jay Williams(参考訳) 教育環境でランダムな実験を行うことは、教育介入を改善するために機械学習技術をどのように利用できるかという疑問を提起する。 適応実験でトンプソンサンプリング(ts)のようなマルチアームバンディット(mab)アルゴリズムを使用すると、介入が完了する前に最も最適な条件(arm)に割り当てる確率を増加させることで、生徒がより良い結果を得る確率を高めることができる。 これは、最適条件と非最適条件の両方に同じ数の学生を割り当てる従来のA/Bテストよりも有利である。 問題は探査と探査のトレードオフです。 適応的な政策は、より多くの学生を確実に武器に割り当てるための十分な情報を集めることを目的としているが、過去の研究は、腕の違いについて信頼できる結論を導き出すのに十分ではないことを示している。 したがって、実験全体を通して一様ランダム(UR)探索を行うことは興味深い。 本稿では,学生が週毎のメールリマインダーとどのように関わり,時間管理の習慣を構築するかを実世界の適応実験で示す。 私たちの関心の指標は、異なる主題ラインで表される腕を追跡するオープンメールレートです。 これらは、UR、TS、そして我々がTS{\dag}として特定したものの、事前を更新するためにTSとURの報酬を組み合わせた、異なるアロケーションアルゴリズムに従って配信される。 これらの適応アルゴリズム(大きな違いがない場合の腕の活用など)の問題を強調し、その原因と結果に対処する。 今後の方向性には、最適なアームの早期選択が理想的でない状況と、適応アルゴリズムがそれに対応する方法を研究することが含まれる。

Conducting randomized experiments in education settings raises the question of how we can use machine learning techniques to improve educational interventions. Using Multi-Armed Bandits (MAB) algorithms like Thompson Sampling (TS) in adaptive experiments can increase students' chances of obtaining better outcomes by increasing the probability of assignment to the most optimal condition (arm), even before an intervention completes. This is an advantage over traditional A/B testing, which may allocate an equal number of students to both optimal and non-optimal conditions. The problem is the exploration-exploitation trade-off. Even though adaptive policies aim to collect enough information to allocate more students to better arms reliably, past work shows that this may not be enough exploration to draw reliable conclusions about whether arms differ. Hence, it is of interest to provide additional uniform random (UR) exploration throughout the experiment. This paper shows a real-world adaptive experiment on how students engage with instructors' weekly email reminders to build their time management habits. Our metric of interest is open email rates which tracks the arms represented by different subject lines. These are delivered following different allocation algorithms: UR, TS, and what we identified as TS{\dag} - which combines both TS and UR rewards to update its priors. We highlight problems with these adaptive algorithms - such as possible exploitation of an arm when there is no significant difference - and address their causes and consequences. Future directions includes studying situations where the early choice of the optimal arm is not ideal and how adaptive algorithms can address them.
翻訳日:2022-08-11 13:18:56 公開日:2022-08-10
# クラス不均衡を考慮したオンラインサポートベクターマシン分類のためのデータ選択戦略を用いた分類器転送

Classifier Transfer with Data Selection Strategies for Online Support Vector Machine Classification with Class Imbalance ( http://arxiv.org/abs/2208.05112v1 )

ライセンス: Link先を確認
Mario Michael Krell, Nils Wilshusen, Anett Seeland, Su Kyoung Kim(参考訳) 目的: 分類子転送は通常、データセットシフトを伴う。 それらを克服するには、オンライン戦略を適用する必要がある。 実用化のためには、SVMのようなバッチ学習アルゴリズムの適応のための計算資源の制限を考慮する必要がある。 アプローチ: オンライン学習のためのいくつかの戦略とSVMを比較し,比較する。 私たちは、格納されたトレーニングデータのサイズを制限するデータ選択戦略に重点を置いています [...] 主な結果: 異なるデータシフトに対して、異なる基準が適しています。 合成データの場合、すべてのサンプルを検討対象のサンプルプールに追加すると、他の基準よりも著しく低下する。 特に、誤って分類されたサンプルのみを追加すると驚くべきほどうまくいった。 ここで、他の基準が適切に選択されなかったとき、バランスの基準は非常に重要であった。 移動装置については, 移動時のドリフト強度に最も優れた戦略が依存していることが示唆された。 古いサンプルを全て追加して削除することで、最高のパフォーマンスが得られるが、小さなドリフトの場合、svmの潜在的な新しいサポートベクターを追加するだけで、処理リソースを削減できる。 意義:脳波モデルに基づくBCIでは、校正セッション、以前の記録セッション、または1つまたは他の複数の被験者による記録セッションからのデータに基づいて訓練される。 この学習モデルの移行は、通常パフォーマンスを低下させるため、確立されたSVMのように分類器に適応するオンライン学習の恩恵を受けることができる。 データ選択基準を適切に組み合わせることで、分類器を適応させ、性能を大幅に向上させることができることを示す。 さらに、特別なサンプルのサブセットを更新し、分類器を訓練するためのサンプルの小さなサブセットを保持することで、処理を高速化し、計算を節約できる場合もある。

Objective: Classifier transfers usually come with dataset shifts. To overcome them, online strategies have to be applied. For practical applications, limitations in the computational resources for the adaptation of batch learning algorithms, like the SVM, have to be considered. Approach: We review and compare several strategies for online learning with SVMs. We focus on data selection strategies which limit the size of the stored training data [...] Main Results: For different data shifts, different criteria are appropriate. For the synthetic data, adding all samples to the pool of considered samples performs often significantly worse than other criteria. Especially, adding only misclassified samples performed astoundingly well. Here, balancing criteria were very important when the other criteria were not well chosen. For the transfer setups, the results show that the best strategy depends on the intensity of the drift during the transfer. Adding all and removing the oldest samples results in the best performance, whereas for smaller drifts, it can be sufficient to only add potential new support vectors of the SVM which reduces processing resources. Significance: For BCIs based on EEG models, trained on data from a calibration session, a previous recording session, or even from a recording session with one or several other subjects, are used. This transfer of the learned model usually decreases the performance and can therefore benefit from online learning which adapts the classifier like the established SVM. We show that by using the right combination of data selection criteria, it is possible to adapt the classifier and largely increase the performance. Furthermore, in some cases it is possible to speed up the processing and save computational by updating with a subset of special samples and keeping a small subset of samples for training the classifier.
翻訳日:2022-08-11 13:18:26 公開日:2022-08-10
# 分子特性予測のための半改良ジャンクションツリー変分オートエンコーダ

Semi-Supervised Junction Tree Variational Autoencoder for Molecular Property Prediction ( http://arxiv.org/abs/2208.05119v1 )

ライセンス: Link先を確認
Tongzhou Shen(参考訳) 近年の機械学習は化学特性の正確な予測を可能にしている。 しかしながら、この領域における教師付き機械学習手法は、化学特性を実験的にラベル付けするコストがかかるため、ラベル不足の問題に陥ることが多い。 本研究では, 化学特性予測における半教師付き学習を容易にするため, 最先端分子生成法であるJT-VAEを改良した。 さらに,一部の潜在変数に対して,この部分的監督を通じて毒性を表現するような,一貫性のある解釈可能な目的を強制する。 JT-VAEアーキテクチャを利用して、部分ラベル付きデータセットを用いて、分子特性予測から条件付き分子生成までのタスクに最適な解釈可能な表現を学習する。

Recent advances in machine learning have enabled accurate prediction of chemical properties. However, supervised machine learning methods in this domain often suffer from the label scarcity problem, due to the expensive nature of labeling chemical property experimentally. This research modifies state-of-the-art molecule generation method - Junction Tree Variational Autoencoder (JT-VAE) to facilitate semi-supervised learning on chemical property prediction. Furthermore, we force some latent variables to take on consistent and interpretable purposes such as representing toxicity via this partial supervision. We leverage JT-VAE architecture to learn an interpretable representation optimal for tasks ranging from molecule property prediction to conditional molecule generation, using a partially labelled dataset.
翻訳日:2022-08-11 13:18:00 公開日:2022-08-10
# FedOBD:フェデレーションラーニングによる大規模ニューラルネットワークの効率的なトレーニングのための機会論的ブロックドロップアウト

FedOBD: Opportunistic Block Dropout for Efficiently Training Large-scale Neural Networks through Federated Learning ( http://arxiv.org/abs/2208.05174v1 )

ライセンス: Link先を確認
Yuanyuan Chen, Zichen Chen, Pengcheng Wu, Han Yu(参考訳) 大規模ニューラルネットワークは相当な表現力を持っている。 工業アプリケーションにおける複雑な学習タスクに適している。 しかしながら、大規模モデルは、現在の連合学習(fl)パラダイムの下で、トレーニングに重大な課題をもたらす。 効率的なFLトレーニングのための既存のアプローチは、しばしばモデルパラメータのドロップアウトを利用する。 しかし、個々のモデルパラメータを操作することは、大規模FLモデルを訓練する際の通信オーバーヘッドを有意義に削減するだけでなく、最近の研究で示されているように、スケーリングの取り組みやモデル性能にも寄与する可能性がある。 これらの問題に対処するため,FedOBD(Federated Opportunistic Block Dropout)アプローチを提案する。 鍵となる新規性は、大規模モデルをセマンティックブロックに分解し、FL参加者が、モデルのトレーニングにおいて重要と思われる量子化されたブロックをFLサーバにアップロードして集約できるようにすることである。 複数の実世界のデータセットに基づく5つの最先端アプローチに対してFedOBDを評価する大規模な実験は、最高性能のベースラインアプローチと比較して全体の通信オーバーヘッドを70%以上削減し、高いテスト精度を実現していることを示している。 我々の知る限りでは、FedOBDは個々のパラメータレベルではなくブロックレベルでFLモデルのドロップアウトを実行するための最初のアプローチである。

Large-scale neural networks possess considerable expressive power. They are well-suited for complex learning tasks in industrial applications. However, large-scale models pose significant challenges for training under the current Federated Learning (FL) paradigm. Existing approaches for efficient FL training often leverage model parameter dropout. However, manipulating individual model parameters is not only inefficient in meaningfully reducing the communication overhead when training large-scale FL models, but may also be detrimental to the scaling efforts and model performance as shown by recent research. To address these issues, we propose the Federated Opportunistic Block Dropout (FedOBD) approach. The key novelty is that it decomposes large-scale models into semantic blocks so that FL participants can opportunistically upload quantized blocks, which are deemed to be significant towards training the model, to the FL server for aggregation. Extensive experiments evaluating FedOBD against five state-of-the-art approaches based on multiple real-world datasets show that it reduces the overall communication overhead by more than 70% compared to the best performing baseline approach, while achieving the highest test accuracy. To the best of our knowledge, FedOBD is the first approach to perform dropout on FL models at the block level rather than at the individual parameter level.
翻訳日:2022-08-11 13:17:47 公開日:2022-08-10
# フォーマルプロセスモデルによる機械学習における依存性のキャプチャ

Capturing Dependencies within Machine Learning via a Formal Process Model ( http://arxiv.org/abs/2208.05219v1 )

ライセンス: Link先を確認
Fabian Ritz, Thomy Phan, Andreas Sedlmeier, Philipp Altmann, Jan Wieghardt, Reiner Schmid, Horst Sauer, Cornel Klein, Claudia Linnhoff-Popien and Thomas Gabor(参考訳) 機械学習(ML)モデルの開発は、単なるソフトウェア開発(SD)の特殊なケースではない。 それでも、基礎となるプロセスは形式的に記述することができる。 文献に記述されているほとんどのタスクやアーティファクトを一貫した方法で包含する、MLのための包括的なSDプロセスモデルを定義する。 必要なアーティファクトの作成に加えて,仕様書の形式での適合記述の生成と検証にも重点を置いています。 初等訓練とテスト後においても,MLモデルをライフサイクル全体を通してさらに進化させることの重要性を強調した。 そこで我々は,MLがカプセル化されたタスクである標準SDプロセスに対して,様々なインタラクションポイントを提供する。 さらに,我々のSDプロセスモデルでは,MLを(メタ)最適化問題として定式化することができる。 厳格に自動化されれば、自己適応型自律システムを実現するために使用できる。 最後に、私たちのSDプロセスモデルには、ML開発プロセスの進捗を推論する時間の記述があります。 これはMLの分野における形式的手法のさらなる応用につながるかもしれない。

The development of Machine Learning (ML) models is more than just a special case of software development (SD): ML models acquire properties and fulfill requirements even without direct human interaction in a seemingly uncontrollable manner. Nonetheless, the underlying processes can be described in a formal way. We define a comprehensive SD process model for ML that encompasses most tasks and artifacts described in the literature in a consistent way. In addition to the production of the necessary artifacts, we also focus on generating and validating fitting descriptions in the form of specifications. We stress the importance of further evolving the ML model throughout its life-cycle even after initial training and testing. Thus, we provide various interaction points with standard SD processes in which ML often is an encapsulated task. Further, our SD process model allows to formulate ML as a (meta-) optimization problem. If automated rigorously, it can be used to realize self-adaptive autonomous systems. Finally, our SD process model features a description of time that allows to reason about the progress within ML development processes. This might lead to further applications of formal methods within the field of ML.
翻訳日:2022-08-11 13:17:25 公開日:2022-08-10
# DNSトラフィックデータから機械学習DGA検出器を説明する

Explaining Machine Learning DGA Detectors from DNS Traffic Data ( http://arxiv.org/abs/2208.05285v1 )

ライセンス: Link先を確認
Giorgio Piras, Maura Pintor, Luca Demetrio and Battista Biggio(参考訳) オンラインシステムの連続性の欠如の最も一般的な原因の1つは、distributed denial of service(ddos)として知られる広く普及したサイバー攻撃であり、攻撃者の命令によってサービスの計算能力を溢れさせるために感染したデバイス(botnet)のネットワークを利用する。 この攻撃は、疑わしいデータパターンを残したステルスな接続戦略であるドメイン生成アルゴリズム(DGA)を通じて、DNS(Domain Name System)技術を活用することで行われる。 このような脅威を検出するため、分析の進歩が見られた。 多くの場合、機械学習(ML)をソリューションとして見なしており、大量のデータを分析して分類するのに非常に効果的である。 性能は高いが、MLモデルは意思決定プロセスにおいてある程度不明瞭である。 この問題に対処するため、Explainable MLとして知られるMLのブランチは、分類器のブラックボックスの性質を分解し、解釈可能で可読性のあるものにしようとしている。 本研究は、ボットネットとDGA検出の文脈における説明可能なMLの問題に対処し、ボットネット/DGA検出のために考案されたML分類器の決定を具体的に分解し、グローバルおよびローカルな説明を提供する最初の方法である。

One of the most common causes of lack of continuity of online systems stems from a widely popular Cyber Attack known as Distributed Denial of Service (DDoS), in which a network of infected devices (botnet) gets exploited to flood the computational capacity of services through the commands of an attacker. This attack is made by leveraging the Domain Name System (DNS) technology through Domain Generation Algorithms (DGAs), a stealthy connection strategy that yet leaves suspicious data patterns. To detect such threats, advances in their analysis have been made. For the majority, they found Machine Learning (ML) as a solution, which can be highly effective in analyzing and classifying massive amounts of data. Although strongly performing, ML models have a certain degree of obscurity in their decision-making process. To cope with this problem, a branch of ML known as Explainable ML tries to break down the black-box nature of classifiers and make them interpretable and human-readable. This work addresses the problem of Explainable ML in the context of botnet and DGA detection, which at the best of our knowledge, is the first to concretely break down the decisions of ML classifiers when devised for botnet/DGA detection, therefore providing global and local explanations.
翻訳日:2022-08-11 13:17:11 公開日:2022-08-10
# 高速確率勾配法のための適応学習速度

Adaptive Learning Rates for Faster Stochastic Gradient Methods ( http://arxiv.org/abs/2208.05287v1 )

ライセンス: Link先を確認
Samuel Horv\'ath, Konstantin Mishchenko, Peter Richt\'arik(参考訳) 本研究では,いくつかの確率的勾配法を改良した適応ステップサイズ戦略を提案する。 第1の手法(StoPS)は古典的なPolyakのステップサイズ(Polyak, 1987)に基づいており、近年の確率最適化SPS(Loizou et al., 2021)の手法の拡張であり、第2の手法であるGraDSは「確率勾配の多様性」によってステップサイズを再スケールする。 本稿では, 強凸な滑らかな関数に対するこれらの手法の理論解析を行い, 確率勾配に拘わらず, 決定論的な傾向を示す。 さらに,2次目的に対する適応手法の理論的優位性を示す。 残念ながら、ストップとグレードは未知の量に依存しており、これは過剰パラメータモデルにしか適用できない。 これを改善するために、この望ましくない依存を排除し、StoPSとGraDSをそれぞれStoPとGraDに再定義する。 これらの新しい手法は、同じ仮定の下で最適解の近傍に線形収束することを示す。 最後に,実験的検証によって理論的主張を裏付けることにより,gradがディープラーニングの最適化に特に有用であることを示す。

In this work, we propose new adaptive step size strategies that improve several stochastic gradient methods. Our first method (StoPS) is based on the classical Polyak step size (Polyak, 1987) and is an extension of the recent development of this method for the stochastic optimization-SPS (Loizou et al., 2021), and our second method, denoted GraDS, rescales step size by "diversity of stochastic gradients". We provide a theoretical analysis of these methods for strongly convex smooth functions and show they enjoy deterministic-like rates despite stochastic gradients. Furthermore, we demonstrate the theoretical superiority of our adaptive methods on quadratic objectives. Unfortunately, both StoPS and GraDS depend on unknown quantities, which are only practical for the overparametrized models. To remedy this, we drop this undesired dependence and redefine StoPS and GraDS to StoP and GraD, respectively. We show that these new methods converge linearly to the neighbourhood of the optimal solution under the same assumptions. Finally, we corroborate our theoretical claims by experimental validation, which reveals that GraD is particularly useful for deep learning optimization.
翻訳日:2022-08-11 13:16:48 公開日:2022-08-10
# オーディオブックデータセットにおけるクロススピーカー読解スタイル転送に向けて

Towards Cross-speaker Reading Style Transfer on Audiobook Dataset ( http://arxiv.org/abs/2208.05359v1 )

ライセンス: Link先を確認
Xiang Li, Changhe Song, Xianhao Wei, Zhiyong Wu, Jia Jia, Helen Meng(参考訳) クロススピーカースタイル転送は、任意のターゲット話者の音色で再生可能な、与えられた参照音声の音声スタイルを抽出することを目的としている。 このトピックに関する既存の手法では、グローバルまたはローカルスケールのスタイル表現を介して、発話レベルのスタイルラベルを使用してスタイル転送を行う方法が検討されている。 しかし、オーディオブックのデータセットは通常、ローカルな韻律とグローバルなジャンルの両方が特徴であり、発話レベルのラベルが伴うことは稀である。 したがって、異なる話者間で読み書きスタイルを適切に転送することは難しい課題である。 本稿では,音声ブック音声におけるグローバルジャンルと局所的韻律を捉えるために,チャンクワイズ型マルチスケールクロススピーカーモデルを提案する。 また、提案する切り替え可能な逆分類器で話者の音色とスタイルを区別することにより、抽出された読みスタイルを異なる話者の音色に適応させることができる。 実験の結果、モデルが与えられた読みスタイルを新たなターゲットスピーカーに転送できることが確認された。 ローカルな韻律とグローバルなジャンルタイプ予測器のサポートにより、マルチスピーカーオーディオブック生成における提案手法の可能性がさらに明らかになった。

Cross-speaker style transfer aims to extract the speech style of the given reference speech, which can be reproduced in the timbre of arbitrary target speakers. Existing methods on this topic have explored utilizing utterance-level style labels to perform style transfer via either global or local scale style representations. However, audiobook datasets are typically characterized by both the local prosody and global genre, and are rarely accompanied by utterance-level style labels. Thus, properly transferring the reading style across different speakers remains a challenging task. This paper aims to introduce a chunk-wise multi-scale cross-speaker style model to capture both the global genre and the local prosody in audiobook speeches. Moreover, by disentangling speaker timbre and style with the proposed switchable adversarial classifiers, the extracted reading style is made adaptable to the timbre of different speakers. Experiment results confirm that the model manages to transfer a given reading style to new target speakers. With the support of local prosody and global genre type predictor, the potentiality of the proposed method in multi-speaker audiobook generation is further revealed.
翻訳日:2022-08-11 13:13:59 公開日:2022-08-10
# 超高精細協調記録システムによる自動カメラ制御と誘導

Automatic Camera Control and Directing with an Ultra-High-Definition Collaborative Recording System ( http://arxiv.org/abs/2208.05213v1 )

ライセンス: Link先を確認
Bram Vanherle, Tim Vervoort, Nick Michiels, Philippe Bekaert(参考訳) 複数のカメラアングルからイベントをキャプチャすることで、視聴者にイベントの最も完全かつ興味深い写真を与えることができる。 放送に適したためには、人間監督が各時点に何を表示するかを決定する必要がある。 これはカメラアングルの数が増えると面倒になる。 全方位カメラや広角カメラの導入により、イベントをもっと完全に捉えられるようになり、監督が良い撮影を選ぶことがさらに困難になった。 本稿では、イベントの複数の超高解像度ビデオストリームが与えられた場合、イベントの関連アクションを追跡する視覚的に楽しい一連のショットを生成できるシステムを提案する。 アルゴリズムは汎用的であるため、人間を特徴とするほとんどのシナリオに適用することができる。 提案手法は,リアルタイム放送が必要な場合のオンライン処理と,カメラ操作の品質が優先される場合のオフライン処理を実現する。 オブジェクト検出は、入力ストリームに注目する人間や他のオブジェクトを検出するために使用される。 検出された関心のある人は、撮影規則に基づく一連のルールとともに、どのビデオストリームを表示するか、そのストリームのどの部分が事実上フレーム化されているかを決定するために使用される。 ユーザーはこれらのルールがどのように解釈されるかを決定するいくつかの設定を提供することができる。 このシステムは、レンズの歪みを取り除くことで、様々な広角ビデオストリームからの入力を処理できる。 ユーザスタディを用いて,複数のシナリオにおいて,提案する自動監督装置は,映像構成の美しさと人間的なショット切替動作でイベントをキャプチャできることを示した。

Capturing an event from multiple camera angles can give a viewer the most complete and interesting picture of that event. To be suitable for broadcasting, a human director needs to decide what to show at each point in time. This can become cumbersome with an increasing number of camera angles. The introduction of omnidirectional or wide-angle cameras has allowed for events to be captured more completely, making it even more difficult for the director to pick a good shot. In this paper, a system is presented that, given multiple ultra-high resolution video streams of an event, can generate a visually pleasing sequence of shots that manages to follow the relevant action of an event. Due to the algorithm being general purpose, it can be applied to most scenarios that feature humans. The proposed method allows for online processing when real-time broadcasting is required, as well as offline processing when the quality of the camera operation is the priority. Object detection is used to detect humans and other objects of interest in the input streams. Detected persons of interest, along with a set of rules based on cinematic conventions, are used to determine which video stream to show and what part of that stream is virtually framed. The user can provide a number of settings that determine how these rules are interpreted. The system is able to handle input from different wide-angle video streams by removing lens distortions. Using a user study it is shown, for a number of different scenarios, that the proposed automated director is able to capture an event with aesthetically pleasing video compositions and human-like shot switching behavior.
翻訳日:2022-08-11 13:12:31 公開日:2022-08-10
# 腎癌治療における nn-UNet の多組織的セグメンテーション

Multi-structure segmentation for renal cancer treatment with modified nn-UNet ( http://arxiv.org/abs/2208.05241v1 )

ライセンス: Link先を確認
Zhenyu Bu(参考訳) 腎がんは世界で最も多いがんの1つである。 腎癌の臨床症状としては、血尿や腰痛などがあり、患者にとって非常に苦痛である。 人工知能とディープラーニングの急速な成長により、ここ数年で医療画像のセグメンテーションは劇的に進化してきた。 本稿では,腎多層構造分割のための改良nn-UNetを提案する。 我々のソリューションは、3Dフル解像度のU-netを使って繁栄するnn-UNetアーキテクチャに基づいています。 まず、このタスクのために様々なハイパーパラメータが修正される。 そして、3次元フル解像度nnUNetアーキテクチャのフィルタ数を2倍にすることで、より大きなネットワークを実現することができる。 最後に、デコーダに軸方向のアテンション機構を組み、デコーダの段階でグローバルな情報を取得し、局所的な知識の喪失を防止する。 修正したnn-UNetは,3D U-NetやMNetなどの従来の手法と比較して,KiPA2022データセットの最先端性能を実現している。

Renal cancer is one of the most prevalent cancers worldwide. Clinical signs of kidney cancer include hematuria and low back discomfort, which are quite distressing to the patient. Due to the rapid growth of artificial intelligence and deep learning, medical image segmentation has evolved dramatically over the past few years. In this paper, we propose modified nn-UNet for kidney multi-structure segmentation. Our solution is founded on the thriving nn-UNet architecture using 3D full resolution U-net. Firstly, various hyperparameters are modified for this particular task. Then, by doubling the number of filters in 3D full resolution nnUNet architecture to achieve a larger network, we may capture a greater receptive field. Finally, we include an axial attention mechanism in the decoder, which can obtain global information during the decoding stage to prevent the loss of local knowledge. Our modified nn-UNet achieves state-of-the-art performance on the KiPA2022 dataset when compared to conventional approaches such as 3D U-Net, MNet, etc.
翻訳日:2022-08-11 13:12:06 公開日:2022-08-10
# 1D畳み込みニューラルネットワークを用いたデジタルECGプリントアウトからのCOVID-19の検出

Detecting COVID-19 from digitized ECG printouts using 1D convolutional neural networks ( http://arxiv.org/abs/2208.05433v1 )

ライセンス: Link先を確認
Thao Nguyen, Hieu H. Pham, Huy Khiem Le, Anh Tu Nguyen, Ngoc Tien Thanh, Cuong Do(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは世界中の医療サービスの脆弱性を暴露し、迅速かつ費用対効果の高いスクリーニングと診断を提供する新しいツールを開発する必要性が高まっている。 臨床報告では、COVID-19感染は心臓障害を引き起こす可能性があり、心電図(ECG)は新型コロナウイルスの診断バイオマーカーとなる可能性がある。 本研究の目的は、ECG信号を用いて新型コロナウイルスを自動的に検出することである。 本稿では,心電図記録から心電図信号を抽出して1次元畳み込みニューラルネットワーク(1D-CNN)に入力し,疾患の学習と診断を行う手法を提案する。 デジタル信号の品質を評価するために、紙ベースのECG画像中のRピークをラベル付けする。 その後、各画像から算出したRR間隔を対応するデジタル信号のRR間隔と比較する。 Experiments on the COVID-19 ECG images dataset demonstrate that the proposed digitization method is able to capture correctly the original signals, with a mean absolute error of 28.11 ms. Our proposed 1D-CNN model, which is trained on the digitized ECG signals, allows identifying individuals with COVID-19 and other subjects accurately, with classification accuracies of 98.42%, 95.63%, and 98.50% for classifying COVID-19 vs. Normal, COVID-19 vs. Abnormal Heartbeats, and COVID-19 vs. other classes, respectively. さらに,提案手法は,マルチクラス化タスクのハイレベルな性能を実現する。 以上の結果から,デジタルECG信号を用いた深層学習システムが,新型コロナウイルスの診断に有効な可能性が示唆された。

The COVID-19 pandemic has exposed the vulnerability of healthcare services worldwide, raising the need to develop novel tools to provide rapid and cost-effective screening and diagnosis. Clinical reports indicated that COVID-19 infection may cause cardiac injury, and electrocardiograms (ECG) may serve as a diagnostic biomarker for COVID-19. This study aims to utilize ECG signals to detect COVID-19 automatically. We propose a novel method to extract ECG signals from ECG paper records, which are then fed into a one-dimensional convolution neural network (1D-CNN) to learn and diagnose the disease. To evaluate the quality of digitized signals, R peaks in the paper-based ECG images are labeled. Afterward, RR intervals calculated from each image are compared to RR intervals of the corresponding digitized signal. Experiments on the COVID-19 ECG images dataset demonstrate that the proposed digitization method is able to capture correctly the original signals, with a mean absolute error of 28.11 ms. Our proposed 1D-CNN model, which is trained on the digitized ECG signals, allows identifying individuals with COVID-19 and other subjects accurately, with classification accuracies of 98.42%, 95.63%, and 98.50% for classifying COVID-19 vs. Normal, COVID-19 vs. Abnormal Heartbeats, and COVID-19 vs. other classes, respectively. Furthermore, the proposed method also achieves a high-level of performance for the multi-classification task. Our findings indicate that a deep learning system trained on digitized ECG signals can serve as a potential tool for diagnosing COVID-19.
翻訳日:2022-08-11 13:11:50 公開日:2022-08-10
# 関節運動の存在下での自律的アトラス超音波取得に向けて

Towards Autonomous Atlas-based Ultrasound Acquisitions in Presence of Articulated Motion ( http://arxiv.org/abs/2208.05399v1 )

ライセンス: Link先を確認
Zhongliang Jiang, Yuan Gao, Le Xie, Nassir Navab(参考訳) ロボット超音波(US)イメージングは、米国のフリーハンド試験のいくつかの制限を克服することを目的としている。 しかし, 解剖学的, 生理的変化や解剖学的部分構造の相対的移動などにより, 特に関節構成時の解剖学的検討において, 最適な軌跡をしっかりと生成することは困難である。 この課題に対処するために,自律型ロボットUS手足スキャンを可能にする視覚ベースのアプローチを提案する。 この目的のために、アノテートされた血管構造を持つヒト腕のアトラスMRIテンプレートを使用して、トラジェクトリーを生成し、それらを患者の皮膚表面に登録し、ロボットUSの取得に投射する。 U-Net型ニューラルネットワークにチャネルアテンションモジュールを組み込むことにより,米国連続フレームにおける空間連続性を効果的にセグメント化し,正確に再構築する。 関節角度の異なる6人のボランティアを対象に, 自動軌跡生成法の評価を行った。 いずれの場合も、このシステムはボランティアの手足で計画された血管構造を取得することができる。 1人のボランティアにとってmriスキャンも利用可能であり、アメリカの画像からスキャンされた動脈の平均半径を評価できるため、mriの基底真理(1.2\pm0.04~mm$)に匹敵する半径推定(1.2\pm0.05~mm$)が得られた。

Robotic ultrasound (US) imaging aims at overcoming some of the limitations of free-hand US examinations, e.g. difficulty in guaranteeing intra- and inter-operator repeatability. However, due to anatomical and physiological variations between patients and relative movement of anatomical substructures, it is challenging to robustly generate optimal trajectories to examine the anatomies of interest, in particular, when they comprise articulated joints. To address this challenge, this paper proposes a vision-based approach allowing autonomous robotic US limb scanning. To this end, an atlas MRI template of a human arm with annotated vascular structures is used to generate trajectories and register and project them onto patients' skin surfaces for robotic US acquisition. To effectively segment and accurately reconstruct the targeted 3D vessel, we make use of spatial continuity in consecutive US frames by incorporating channel attention modules into a U-Net-type neural network. The automatic trajectory generation method is evaluated on six volunteers with various articulated joint angles. In all cases, the system can successfully acquire the planned vascular structure on volunteers' limbs. For one volunteer the MRI scan was also available, which allows the evaluation of the average radius of the scanned artery from US images, resulting in a radius estimation ($1.2\pm0.05~mm$) comparable to the MRI ground truth ($1.2\pm0.04~mm$).
翻訳日:2022-08-11 13:11:26 公開日:2022-08-10
# TSInterpret:時系列解釈のための統合フレームワーク

TSInterpret: A unified framework for time series interpretability ( http://arxiv.org/abs/2208.05280v1 )

ライセンス: Link先を確認
Jacqueline H\"ollig, Cedric Kulbach, Steffen Thoma(参考訳) ディープラーニングアルゴリズムの時系列分類への応用が増加し、特にハイテイクシナリオでは、それらのアルゴリズムの解釈が重要となる。 時系列解釈の研究は増加しているが、実践者のアクセシビリティは依然として障害となっている。 解釈可能性のアプローチとその視覚化は、統一されたAPIやフレームワークなしで利用できる。 このギャップを埋めるために,既存の解釈アプローチを1つの統一フレームワークに結合した時系列分類器の予測を解釈するための,容易に拡張可能なオープンソースのpythonライブラリtsinterpretを紹介する。 図書館の特徴 i)最先端の解釈可能性アルゴリズム (ii) ユーザによる説明の一貫性と提供が可能な統一APIを公開する (iii)各説明に適した可視化。

With the increasing application of deep learning algorithms to time series classification, especially in high-stake scenarios, the relevance of interpreting those algorithms becomes key. Although research in time series interpretability has grown, accessibility for practitioners is still an obstacle. Interpretability approaches and their visualizations are diverse in use without a unified API or framework. To close this gap, we introduce TSInterpret an easily extensible open-source Python library for interpreting predictions of time series classifiers that combines existing interpretation approaches into one unified framework. The library features (i) state-of-the-art interpretability algorithms, (ii) exposes a unified API enabling users to work with explanations consistently and provides (iii) suitable visualizations for each explanation.
翻訳日:2022-08-11 13:07:00 公開日:2022-08-10
# 部分線形逆訓練アルゴリズム

A Sublinear Adversarial Training Algorithm ( http://arxiv.org/abs/2208.05395v1 )

ライセンス: Link先を確認
Yeqi Gao, Lianke Qin, Zhao Song, Yitan Wang(参考訳) 敵のトレーニングは、敵の摂動に抵抗するニューラルネットワークを広く使われる戦略である。 幅$m$,$n$の入力トレーニングデータを$d$次元のニューラルネットワークの場合、前方および後方計算のトレーニングイテレーションあたりの時間コストは$\Omega(mnd)$である。 本稿では,reluアクティベーションがシフトした2層ニューラルネットワーク上での逆訓練手順の収束保証を分析し,各入力データに対してo(m)$ニューロンのみが活性化されることを示す。 さらに,半空間レポーティングデータ構造を適用することで,各イテレーションあたりo(m n d)$の時間コストで,逆行訓練のためのアルゴリズムを開発した。

Adversarial training is a widely used strategy for making neural networks resistant to adversarial perturbations. For a neural network of width $m$, $n$ input training data in $d$ dimension, it takes $\Omega(mnd)$ time cost per training iteration for the forward and backward computation. In this paper we analyze the convergence guarantee of adversarial training procedure on a two-layer neural network with shifted ReLU activation, and shows that only $o(m)$ neurons will be activated for each input data per iteration. Furthermore, we develop an algorithm for adversarial training with time cost $o(m n d)$ per iteration by applying half-space reporting data structure.
翻訳日:2022-08-11 13:06:21 公開日:2022-08-10
# 機械学習を用いたレストラン推薦に関する研究

Research on restaurant recommendation using machine learning ( http://arxiv.org/abs/2208.05113v1 )

ライセンス: Link先を確認
Junan Pan, Zhihao Zhao(参考訳) レコメンダシステムとは、ユーザが無関係な情報をフィルタリングし、履歴に基づいてユーザーの関心モデルを作成するシステムである。 インターネット情報の継続的な発展により、レコメンデーションシステムは業界で広く注目を集めている。 ユビキタスデータと情報の時代には、これらのデータの取得と分析が、多くの人々の研究トピックとなっている。 そこで本稿では,機械学習関連レコメンデーションシステムの概要について概説する。 機械学習がレコメンデーションシステムで使用する技術やアイデアを分析することで、ビッグデータと機械学習とは何なのかをより多くの人に理解させることができる。 最も重要なポイントは、機械学習が日々の生活に与える影響を誰もが理解できるようにすることです。

A recommender system is a system that helps users filter irrelevant information and create user interest models based on their historical records. With the continuous development of Internet information, recommendation systems have received widespread attention in the industry. In this era of ubiquitous data and information, how to obtain and analyze these data has become the research topic of many people. In view of this situation, this paper makes some brief overviews of machine learning-related recommendation systems. By analyzing some technologies and ideas used by machine learning in recommender systems, let more people understand what is Big data and what is machine learning. The most important point is to let everyone understand the profound impact of machine learning on our daily life.
翻訳日:2022-08-11 13:05:18 公開日:2022-08-10
# コード脆弱性識別のためのマルチビュー事前学習モデル

Multi-View Pre-Trained Model for Code Vulnerability Identification ( http://arxiv.org/abs/2208.05227v1 )

ライセンス: Link先を確認
Xuxiang Jiang, Yinhao Xiao, Jun Wang, Wei Zhang(参考訳) 脆弱性の特定は、ソフトウェア関連業界におけるサイバーセキュリティにとって不可欠である。 早期の識別方法は、機能の作成や脆弱性のあるコードの注釈付けにかなりの手作業を必要とする。 最近の事前訓練されたモデルはこの問題を軽減するが、コード自体に含まれる複数のリッチな構造情報を見落としている。 本稿では,ソースコードの逐次的および多型構造情報をエンコードし,コントラスト学習を用いてコード表現を強化する,新しいマルチビュー事前学習モデル(MV-PTM)を提案する。 2つの公開データセットで行った実験はmv-ptmの優位を示している。 特にMV-PTMは、F1スコアの平均でGraphCodeBERTを3.36倍改善している。

Vulnerability identification is crucial for cyber security in the software-related industry. Early identification methods require significant manual efforts in crafting features or annotating vulnerable code. Although the recent pre-trained models alleviate this issue, they overlook the multiple rich structural information contained in the code itself. In this paper, we propose a novel Multi-View Pre-Trained Model (MV-PTM) that encodes both sequential and multi-type structural information of the source code and uses contrastive learning to enhance code representations. The experiments conducted on two public datasets demonstrate the superiority of MV-PTM. In particular, MV-PTM improves GraphCodeBERT by 3.36\% on average in terms of F1 score.
翻訳日:2022-08-11 13:05:09 公開日:2022-08-10
# ストリームに基づく宣言的プロセスに対する監視と発見のアプローチ

A Monitoring and Discovery Approach for Declarative Processes Based on Streams ( http://arxiv.org/abs/2208.05364v1 )

ライセンス: Link先を確認
Andrea Burattin and Hugo A. L\'opez and Lasse Starklit(参考訳) プロセス発見は、データフットプリントからプロセスを理解するのに役立つテクニックのファミリーです。 しかし、プロセスが時間とともに変化するにつれて、対応するモデルが変更され、失敗すると、過度な振る舞いや過度な振る舞いをするモデルにつながります。 本稿では,イベントストリームから宣言過程を動的条件応答(DCR)グラフとして抽出する発見アルゴリズムを提案する。 ストリームはプロセスの時間表現を生成するために監視され、後に宣言モデルを生成するために処理される。 定量的および定性的な評価によって検証した。 定量的評価のために,宣言的環境でのプロセス変化を考慮した拡張Jaccard類似度尺度を採用した。 定性評価では,既存のプロセスの実際の変化に対応する技術によって識別される変化について述べる。 テストに使用されるテクニックとデータはオンラインで入手可能だ。

Process discovery is a family of techniques that helps to comprehend processes from their data footprints. Yet, as processes change over time so should their corresponding models, and failure to do so will lead to models that under- or over-approximate behavior. We present a discovery algorithm that extracts declarative processes as Dynamic Condition Response (DCR) graphs from event streams. Streams are monitored to generate temporal representations of the process, later processed to generate declarative models. We validated the technique via quantitative and qualitative evaluations. For the quantitative evaluation, we adopted an extended Jaccard similarity measure to account for process change in a declarative setting. For the qualitative evaluation, we showcase how changes identified by the technique correspond to real changes in an existing process. The technique and the data used for testing are available online.
翻訳日:2022-08-11 13:04:59 公開日:2022-08-10
# 音声と視覚のサリエンシー予測のためのデュアルドメイン・アドバーサル・ラーニング

Dual Domain-Adversarial Learning for Audio-Visual Saliency Prediction ( http://arxiv.org/abs/2208.05220v1 )

ライセンス: Link先を確認
Yingzi Fan, Longfei Han, Yue Zhang, Lechao Cheng, Chen Xia, Di Hu(参考訳) 視覚情報と聴覚情報の両方がビデオ内の健全な領域を決定するのに有用である。 ディープ畳み込みニューラルネットワーク(CNN)は、オーディオ-視覚的サリエンシ予測タスクに対処する能力を示す。 撮影シーンや天気などの様々な要因により、ソーストレーニングデータとターゲットテストデータの間には、適度な分布差がしばしば存在する。 ドメインの不一致は、CNNモデルのターゲットテストデータの性能劣化を引き起こす。 本稿では,教師なし領域適応問題に早期に取り組み,聴覚・視覚の正当性予測を行う。 本稿では、ソースデータとターゲットデータとのドメイン差を緩和する2つのドメイン対逆学習アルゴリズムを提案する。 まず、聴覚特徴分布を調整するために、特定のドメイン識別ブランチが構築される。 そして、これらの聴覚機能は、モーダルな自己認識モジュールを通じて視覚的特徴に融合する。 他の領域識別部は、融合した音声視覚特徴による視覚特徴と音声視覚相関の領域差を低減するために考案されている。 公開ベンチマーク実験により,提案手法はドメインの不一致による性能低下を緩和できることを示した。

Both visual and auditory information are valuable to determine the salient regions in videos. Deep convolution neural networks (CNN) showcase strong capacity in coping with the audio-visual saliency prediction task. Due to various factors such as shooting scenes and weather, there often exists moderate distribution discrepancy between source training data and target testing data. The domain discrepancy induces to performance degradation on target testing data for CNN models. This paper makes an early attempt to tackle the unsupervised domain adaptation problem for audio-visual saliency prediction. We propose a dual domain-adversarial learning algorithm to mitigate the domain discrepancy between source and target data. First, a specific domain discrimination branch is built up for aligning the auditory feature distributions. Then, those auditory features are fused into the visual features through a cross-modal self-attention module. The other domain discrimination branch is devised to reduce the domain discrepancy of visual features and audio-visual correlations implied by the fused audio-visual features. Experiments on public benchmarks demonstrate that our method can relieve the performance degradation caused by domain discrepancy.
翻訳日:2022-08-11 13:02:12 公開日:2022-08-10
# 画像の劣化に対する学習劣化表現

Learning Degradation Representations for Image Deblurring ( http://arxiv.org/abs/2208.05244v1 )

ライセンス: Link先を確認
Dasong Li, Yi Zhang, Ka Chun Cheung, Xiaogang Wang, Hongwei Qin, Hongsheng Li(参考訳) 画像分解や超解像などの学習に基づく画像復元作業では,分解過程をモデル化し,複雑な劣化パターンを扱うために,分解表現が広く用いられた。 しかし、実世界の挑戦的なケースではぼやけたカーネル推定がうまく機能しないため、学習ベースの画像デブラリングではより探索が容易である。 本稿では,ノイズパターンや高周波テクスチャよりもぼかしパターンの方が大きな変動を示すため,劣化表現をモデル化するためには画像デブラリングが特に必要であると主張する。 劣化表現の表現性を改善するために、新しい共同画像再生・復調学習プロセスを提案する。 学習した劣化表現をリブラーリングやデブラーリングに有効にするために,ニューラルネットワークに組み込むマルチスケール劣化注入ネットワーク(MSDI-Net)を提案する。 この統合により、msdi-netは様々な複雑なぼやけパターンを適応的に処理できる。 GoProとRealBlurのデータセットでの実験では、学習した劣化表現を用いたデブロアリングフレームワークが、最先端の手法よりも優れ、魅力的な改善を実現している。 コードはhttps://github.com/dasongli1/learning_degradationでリリースされている。

In various learning-based image restoration tasks, such as image denoising and image super-resolution, the degradation representations were widely used to model the degradation process and handle complicated degradation patterns. However, they are less explored in learning-based image deblurring as blur kernel estimation cannot perform well in real-world challenging cases. We argue that it is particularly necessary for image deblurring to model degradation representations since blurry patterns typically show much larger variations than noisy patterns or high-frequency textures.In this paper, we propose a framework to learn spatially adaptive degradation representations of blurry images. A novel joint image reblurring and deblurring learning process is presented to improve the expressiveness of degradation representations. To make learned degradation representations effective in reblurring and deblurring, we propose a Multi-Scale Degradation Injection Network (MSDI-Net) to integrate them into the neural networks. With the integration, MSDI-Net can handle various and complicated blurry patterns adaptively. Experiments on the GoPro and RealBlur datasets demonstrate that our proposed deblurring framework with the learned degradation representations outperforms state-of-the-art methods with appealing improvements. The code is released at https://github.com/dasongli1/Learning_degradation.
翻訳日:2022-08-11 13:01:57 公開日:2022-08-10
# 集団カウントのためのマルチスケール特徴集合

Multi-scale Feature Aggregation for Crowd Counting ( http://arxiv.org/abs/2208.05256v1 )

ライセンス: Link先を確認
Xiaoheng Jiang, Xinyi Wu, Hisham Cholakkal, Rao Muhammad Anwer, Jiale Cao Mingliang Xu, Bing Zhou, Yanwei Pang and Fahad Shahbaz Khan(参考訳) 畳み込みニューラルネットワーク(CNN)に基づく群集カウント手法は,ここ数年で有望な成果を上げてきた。 しかし、スケール変動問題は正確なカウント推定には依然として大きな課題である。 本稿では,この問題をある程度緩和できるマルチスケール機能集約ネットワーク(MSFANet)を提案する。 具体的には,ショートアグリゲーション(ShortAgg)とスキップアグリゲーション(SkipAgg)の2つの機能アグリゲーションモジュールからなる。 ShortAggモジュールは、隣接する畳み込みブロックの特徴を集約する。 その目的は、異なる受容野を持つ機能をネットワークの下部から上部へと徐々に融合させることである。 skipaggモジュールは、小さな受容フィールドを持つ機能を、より大きな受容フィールドを持つ機能に直接伝達する。 その目的は、小さくて大きな受容野との融合を促進することである。 特に、SkipAggモジュールは、Swin Transformerブロックからローカルな自己アテンション機能を導入し、豊富な空間情報を組み込む。 さらに,非一様群集分布を考慮した地域・地域別カウント損失を提案する。 挑戦的な4つのデータセット(shanghaitech dataset, ucf_cc_50 dataset, ucf-qnrf dataset, worldexpo'10 dataset)に関する広範な実験により、提案されている実装が容易なmsfanetは、これまでの最先端のアプローチと比較して有望な結果が得られることが示されている。

Convolutional Neural Network (CNN) based crowd counting methods have achieved promising results in the past few years. However, the scale variation problem is still a huge challenge for accurate count estimation. In this paper, we propose a multi-scale feature aggregation network (MSFANet) that can alleviate this problem to some extent. Specifically, our approach consists of two feature aggregation modules: the short aggregation (ShortAgg) and the skip aggregation (SkipAgg). The ShortAgg module aggregates the features of the adjacent convolution blocks. Its purpose is to make features with different receptive fields fused gradually from the bottom to the top of the network. The SkipAgg module directly propagates features with small receptive fields to features with much larger receptive fields. Its purpose is to promote the fusion of features with small and large receptive fields. Especially, the SkipAgg module introduces the local self-attention features from the Swin Transformer blocks to incorporate rich spatial information. Furthermore, we present a local-and-global based counting loss by considering the non-uniform crowd distribution. Extensive experiments on four challenging datasets (ShanghaiTech dataset, UCF_CC_50 dataset, UCF-QNRF Dataset, WorldExpo'10 dataset) demonstrate the proposed easy-to-implement MSFANet can achieve promising results when compared with the previous state-of-the-art approaches.
翻訳日:2022-08-11 13:01:41 公開日:2022-08-10
# 球状混合ガウス系による任意点雲のアップサンプリング

Arbitrary Point Cloud Upsampling with Spherical Mixture of Gaussians ( http://arxiv.org/abs/2208.05274v1 )

ライセンス: Link先を確認
Anthony Dell'Eva, Marco Orsingher, Massimo Bertozzi(参考訳) 希薄な生データから高密度点雲を生成することは、下流の3次元理解タスクに恩恵をもたらすが、既存のモデルは固定的なアップサンプリング比または短い整数値に制限される。 本稿では,Arbitrary Point Cloud Upsampling (APU) のための Transformer ベースのモデルである APU-SMOG を提案する。 スパース入力はまずガウス分布の球混合(SMOG)にマッピングされ、そこから任意の数の点をサンプリングすることができる。 その後、これらのサンプルはTransformerデコーダにクエリとして送信され、ターゲット表面にマップされる。 APU-SMOGは、非整数値を含む任意のスケーリング係数を1つのトレーニングモデルで効果的にアップサンプリングし、最先端の固定比法より優れていることを示す。 コードは利用可能になります。

Generating dense point clouds from sparse raw data benefits downstream 3D understanding tasks, but existing models are limited to a fixed upsampling ratio or to a short range of integer values. In this paper, we present APU-SMOG, a Transformer-based model for Arbitrary Point cloud Upsampling (APU). The sparse input is firstly mapped to a Spherical Mixture of Gaussians (SMOG) distribution, from which an arbitrary number of points can be sampled. Then, these samples are fed as queries to the Transformer decoder, which maps them back to the target surface. Extensive qualitative and quantitative evaluations show that APU-SMOG outperforms state-of-the-art fixed-ratio methods, while effectively enabling upsampling with any scaling factor, including non-integer values, with a single trained model. The code will be made available.
翻訳日:2022-08-11 13:01:19 公開日:2022-08-10
# MD-Net:局所特徴抽出のためのマルチ検出器

MD-Net: Multi-Detector for Local Feature Extraction ( http://arxiv.org/abs/2208.05350v1 )

ライセンス: Link先を確認
Emanuele Santellani (1), Christian Sormann (1), Mattia Rossi (2), Andreas Kuhn (2), Friedrich Fraundorfer (1) ((1) Graz University of Technology, (2) Sony Europe B.V.)(参考訳) 多くのコンピュータビジョンパイプラインでは、画像間のキーポイント応答のばらばらなセットを確立することが基本的なタスクである。 多くの場合、これは計算コストの高い近接探索に変換され、ある画像のすべてのキーポイント記述子を他の画像の全ての記述子と比較しなければならない。 マッチングフェーズの計算コストを下げるため,各画像における相補的なキーポイントの集合数を予め定義した数で検出できるディープ特徴抽出ネットワークを提案する。 同じ集合内の記述子のみを異なる画像間で比較する必要があるため、一致する位相計算の複雑さは集合の数によって減少する。 ネットワークをトレーニングしてキーポイントを予測し、対応するディスクリプタを共同で計算します。 特に、キーポイントの補完的な集合を学ぶために、異なる集合間の交点をペナライズする新しい教師なし損失を導入する。 さらに,非識別的記述子によるキーポイントの検出をペナルティ化する,新しい記述子に基づく重み付け手法を提案する。 広範な実験により,合成歪画像のみを訓練した特徴抽出ネットワークが,マッチング複雑性を低減した3次元再構成と再局所化タスクにおいて,競争力のある結果が得られることを示した。

Establishing a sparse set of keypoint correspon dences between images is a fundamental task in many computer vision pipelines. Often, this translates into a computationally expensive nearest neighbor search, where every keypoint descriptor at one image must be compared with all the descriptors at the others. In order to lower the computational cost of the matching phase, we propose a deep feature extraction network capable of detecting a predefined number of complementary sets of keypoints at each image. Since only the descriptors within the same set need to be compared across the different images, the matching phase computational complexity decreases with the number of sets. We train our network to predict the keypoints and compute the corresponding descriptors jointly. In particular, in order to learn complementary sets of keypoints, we introduce a novel unsupervised loss which penalizes intersections among the different sets. Additionally, we propose a novel descriptor-based weighting scheme meant to penalize the detection of keypoints with non-discriminative descriptors. With extensive experiments we show that our feature extraction network, trained only on synthetically warped images and in a fully unsupervised manner, achieves competitive results on 3D reconstruction and re-localization tasks at a reduced matching complexity.
翻訳日:2022-08-11 13:01:02 公開日:2022-08-10
# 視覚・生理的手がかりを用いた顎関節のスプーフィングと偽造検出

Benchmarking Joint Face Spoofing and Forgery Detection with Visual and Physiological Cues ( http://arxiv.org/abs/2208.05401v1 )

ライセンス: Link先を確認
Zitong Yu, Rizhao Cai, Zhi Li, Wenhan Yang, Jingang Shi, Alex C. Kot(参考訳) face anti-spoofing (fas) と face forgery detection (face forgery detection) は、プレゼンテーションアタック (pas) や悪質なデジタル操作 (例えばディープフェイク) から顔の生体認証システムを確保する上で重要な役割を果たす。 大規模データと強力な深層モデルの性能は高いが、既存のアプローチの一般化問題は依然として未解決の問題である。 最近のアプローチのほとんどは 1)単調な視覚的外観または生理学的(すなわち、遠隔フォトプレチモグラフィ(rppg))の手がかり 2)fasまたは顔偽造検出のための分離特徴表現。 片面では,高忠実な顔3Dマスクとビデオ再生攻撃に対して,一方向の外観とrPPGの特徴がそれぞれ脆弱であり,汎用的な顔攻撃検出のための信頼性の高いマルチモーダル融合機構を設計する必要がある。 一方、FASと顔偽造検出タスク(例えば、周期的なrPPGリズムやボナファイドのバニラ外観など)に共通する特徴が豊富にあり、複数タスクの学習方法で共同FASと顔偽造検出システムを設計するための確固たる証拠を提供する。 本稿では,視覚的外見と生理的rPPGを用いた第1回顔偽造検出ベンチマークを確立する。 rppgの周期性判定を強化するために,顔面時空間rppg信号マップと連続ウェーブレット変換を入力として,二次元生理ネットワークを設計する。 モーダリティバイアスを緩和し, 核融合効率を向上させるため, マルチモーダル核融合前に, 外観およびrPPGの特徴を加重バッチおよび層正規化する。 この2つのタスクを共同でトレーニングすることで,単目的(外観またはrPPG)モデルとマルチモーダル(外観+rPPG)モデルの一般化能力が明らかに向上できることが判明した。 この新しいベンチマークは、fasとdeepfake検出コミュニティの両方の将来的な研究を促進することを願っている。

Face anti-spoofing (FAS) and face forgery detection play vital roles in securing face biometric systems from presentation attacks (PAs) and vicious digital manipulation (e.g., deepfakes). Despite promising performance upon large-scale data and powerful deep models, the generalization problem of existing approaches is still an open issue. Most of recent approaches focus on 1) unimodal visual appearance or physiological (i.e., remote photoplethysmography (rPPG)) cues; and 2) separated feature representation for FAS or face forgery detection. On one side, unimodal appearance and rPPG features are respectively vulnerable to high-fidelity face 3D mask and video replay attacks, inspiring us to design reliable multi-modal fusion mechanisms for generalized face attack detection. On the other side, there are rich common features across FAS and face forgery detection tasks (e.g., periodic rPPG rhythms and vanilla appearance for bonafides), providing solid evidence to design a joint FAS and face forgery detection system in a multi-task learning fashion. In this paper, we establish the first joint face spoofing and forgery detection benchmark using both visual appearance and physiological rPPG cues. To enhance the rPPG periodicity discrimination, we design a two-branch physiological network using both facial spatio-temporal rPPG signal map and its continuous wavelet transformed counterpart as inputs. To mitigate the modality bias and improve the fusion efficacy, we conduct a weighted batch and layer normalization for both appearance and rPPG features before multi-modal fusion. We find that the generalization capacities of both unimodal (appearance or rPPG) and multi-modal (appearance+rPPG) models can be obviously improved via joint training on these two tasks. We hope this new benchmark will facilitate the future research of both FAS and deepfake detection communities.
翻訳日:2022-08-11 13:00:42 公開日:2022-08-10
# TagRec++: 質問分類のための階層的なラベル認識ネットワーク

TagRec++: Hierarchical Label Aware Attention Network for Question Categorization ( http://arxiv.org/abs/2208.05152v1 )

ライセンス: Link先を確認
Venktesh Viswanathan, Mukesh Mohania and Vikram Goyal(参考訳) オンライン学習システムは、テキスト、本、質問の形式で複数のデータリポジトリを持っている。 アクセスを容易にするため、このようなシステムは、階層的性質(主観的チャプタートピック)の明確に定義された分類に従ってコンテンツを整理する。 階層ラベルへの入力を分類するタスクは通常、フラットな多クラス分類問題として扱われる。 このようなアプローチは、入力の用語と階層的なラベルのトークンの間の意味的関連性を無視する。 リーフレベルのノードをラベルとしてのみ考える場合、代替アプローチもクラス不均衡に悩まされる。 この問題に取り組むために,タスクを密集した検索問題として定式化し,各コンテンツの適切な階層ラベルを取得する。 本稿では,質問の分類について述べる。 階層ラベルをトークンの合成としてモデル化し,効率的なクロスアテンション機構を用いて情報とコンテンツの用語表現を融合する。 また,トレーニングが進むにつれて,より優れた負をサンプリングする適応型バッチ型ハードネガティブサンプリング手法を提案する。 提案手法は,Recall@kで測定した質問データセットに対する既存の最先端アプローチよりも優れていることを示す。 さらに、 \textit{TagRec++} のゼロショット機能とラベル変更への適応性を実証する。

Online learning systems have multiple data repositories in the form of transcripts, books and questions. To enable ease of access, such systems organize the content according to a well defined taxonomy of hierarchical nature (subject-chapter-topic). The task of categorizing inputs to the hierarchical labels is usually cast as a flat multi-class classification problem. Such approaches ignore the semantic relatedness between the terms in the input and the tokens in the hierarchical labels. Alternate approaches also suffer from class imbalance when they only consider leaf level nodes as labels. To tackle the issues, we formulate the task as a dense retrieval problem to retrieve the appropriate hierarchical labels for each content. In this paper, we deal with categorizing questions. We model the hierarchical labels as a composition of their tokens and use an efficient cross-attention mechanism to fuse the information with the term representations of the content. We also propose an adaptive in-batch hard negative sampling approach which samples better negatives as the training progresses. We demonstrate that the proposed approach \textit{TagRec++} outperforms existing state-of-the-art approaches on question datasets as measured by Recall@k. In addition, we demonstrate zero-shot capabilities of \textit{TagRec++} and ability to adapt to label changes.
翻訳日:2022-08-11 13:00:05 公開日:2022-08-10
# 量子自然言語処理による代名詞分解

A Quantum Natural Language Processing Approach to Pronoun Resolution ( http://arxiv.org/abs/2208.05393v1 )

ライセンス: Link先を確認
Hadi Wazni, Kin Ian Lo, Lachlan McPheat, Mehrnoosh Sadrzadeh(参考訳) 我々は,anaphora や ellipsis などの談話関係のモデル化と推論に,ソフト・サブ指数モーダルを持つランベック計算を用いた。 この論理のセマンティクスは, これまでの研究で開発された truncated Fock 空間を用いて得られる。 我々はこれらの意味的計算を新しい文字列ダイアグラムで表現する。 Fock Spaceのセマンティクスは、その用語が機械学習を使って大量のデータから学習可能であり、主流の自然言語タスクで実験できるという利点がある。 さらに、ベクトル空間から量子回路への既存の変換のおかげで、量子コンピュータとそのシミュレータ、例えばIBMQの範囲でこれらの用語を学ぶこともできる。 既存の翻訳をフォック空間に拡張し、談話関係の量子回路セマンティクスを開発する。 次に,これらの回路のIBMQ AerSimulationsを定格代名詞分解タスクで実験し,アナフォラが解決されたとき,最も高い精度をモデルに記録した。

We use the Lambek Calculus with soft sub-exponential modalities to model and reason about discourse relations such as anaphora and ellipsis. A semantics for this logic is obtained by using truncated Fock spaces, developed in our previous work. We depict these semantic computations via a new string diagram. The Fock Space semantics has the advantage that its terms are learnable from large corpora of data using machine learning and they can be experimented with on mainstream natural language tasks. Further, and thanks to an existing translation from vector spaces to quantum circuits, we can also learn these terms on quantum computers and their simulators, such as the IBMQ range. We extend the existing translation to Fock spaces and develop quantum circuit semantics for discourse relations. We then experiment with the IBMQ AerSimulations of these circuits in a definite pronoun resolution task, where the highest accuracies were recorded for models when the anaphora was resolved.
翻訳日:2022-08-11 12:59:46 公開日:2022-08-10
# ロバストな連続テスト時間適応: インスタンス対応BNと予測バランスメモリ

Robust Continual Test-time Adaptation: Instance-aware BN and Prediction-balanced Memory ( http://arxiv.org/abs/2208.05117v1 )

ライセンス: Link先を確認
Taesik Gong, Jongheon Jeong, Taewon Kim, Yewon Kim, Jinwoo Shin, Sung-Ju Lee(参考訳) テスト時間適応(TTA)は、追加のデータ取得やラベル付けのコストなしで、トレーニングとテストフェーズ間の分散シフトに対処する新興パラダイムである。 以前のTTAのスキームでは、テストサンプルは独立であり、自律運転のようなアプリケーションシナリオにおいて時間的に相関(非-i.d.)があるにもかかわらず、同一に分散していると仮定していた。 既存のほとんどのTTAメソッドはそのようなシナリオで劇的に失敗する。 そこで本研究では,非I.d.テストデータストリームに対して堅牢な新しいテスト時間適応方式を提案する。 私たちの新規性は主に2倍です。 (a)分布外サンプルの正規化を補正するインスタンス対応バッチ正規化(iabn)、及び b) 予測均衡型貯水池サンプリング(PBRS)は,非i.d.ストリームからのデータストリームをクラスバランスでシミュレートする。 実世界の非i.d.ストリームを含む様々なデータセットによる評価は、提案された堅牢なTTAアルゴリズムが、非i.d.設定で最先端のTTAアルゴリズムを上回るだけでなく、i.i.d.仮定でそれらのアルゴリズムに匹敵する性能を達成することを示す。

Test-time adaptation (TTA) is an emerging paradigm that addresses distributional shifts between training and testing phases without additional data acquisition or labeling cost; only unlabeled test data streams are used for continual model adaptation. Previous TTA schemes assume that the test samples are independent and identically distributed (i.i.d.), even though they are often temporally correlated (non-i.i.d.) in application scenarios, e.g., autonomous driving. We discover that most existing TTA methods fail dramatically under such scenarios. Motivated by this, we present a new test-time adaptation scheme that is robust against non-i.i.d. test data streams. Our novelty is mainly two-fold: (a) Instance-Aware Batch Normalization (IABN) that corrects normalization for out-of-distribution samples, and (b) Prediction-balanced Reservoir Sampling (PBRS) that simulates i.i.d. data stream from non-i.i.d. stream in a class-balanced manner. Our evaluation with various datasets, including real-world non-i.i.d. streams, demonstrates that the proposed robust TTA not only outperforms state-of-the-art TTA algorithms in the non-i.i.d. setting, but also achieves comparable performance to those algorithms under the i.i.d. assumption.
翻訳日:2022-08-11 12:59:30 公開日:2022-08-10
# 空間的時間的アイデンティティ:多変量時系列予測のためのシンプルで効果的なベースライン

Spatial-Temporal Identity: A Simple yet Effective Baseline for Multivariate Time Series Forecasting ( http://arxiv.org/abs/2208.05233v1 )

ライセンス: Link先を確認
Zezhi Shao, Zhao Zhang, Fei Wang, Wei Wei, Yongjun Xu(参考訳) 多変量時系列(MTS)予測は、幅広いアプリケーションにおいて重要な役割を果たす。 近年,Spatial-Temporal Graph Neural Networks (STGNN) は最先端の性能のため,MSS予測手法として人気が高まっている。 しかし、近年の作品は性能改善によって洗練されつつある。 この現象は、MSS予測の重要な要素を探求し、STGNNほど強力だがより簡潔で効率的であるモデルの設計を動機付けます。 本稿では,空間的および時間的次元における試料の識別性の欠如を重要ボトルネックとし,単純多層パーセプトロン(mlps)に基づく最適性能と効率を同時に達成する空間的および時間的同一性情報(stid)を付加することにより,mts予測のための簡易かつ効果的なベースラインを提案する。 これらの結果から,STGNNに制限されることなく,サンプルの不明瞭さを解消できる限り,効率的かつ効率的なモデルを設計できることが示唆された。

Multivariate Time Series (MTS) forecasting plays a vital role in a wide range of applications. Recently, Spatial-Temporal Graph Neural Networks (STGNNs) have become increasingly popular MTS forecasting methods due to their state-of-the-art performance. However, recent works are becoming more sophisticated with limited performance improvements. This phenomenon motivates us to explore the critical factors of MTS forecasting and design a model that is as powerful as STGNNs, but more concise and efficient. In this paper, we identify the indistinguishability of samples in both spatial and temporal dimensions as a key bottleneck, and propose a simple yet effective baseline for MTS forecasting by attaching Spatial and Temporal IDentity information (STID), which achieves the best performance and efficiency simultaneously based on simple Multi-Layer Perceptrons (MLPs). These results suggest that we can design efficient and effective models as long as they solve the indistinguishability of samples, without being limited to STGNNs.
翻訳日:2022-08-11 12:58:56 公開日:2022-08-10
# ディープクラスタリングネットワークに基づく言語間セメム知識ベースの構築に関する分析

The Analysis about Building Cross-lingual Sememe Knowledge Base Based on Deep Clustering Network ( http://arxiv.org/abs/2208.05462v1 )

ライセンス: Link先を確認
Xiaoran Li and Toshiaki Takano(参考訳) セメムは人間の言語の最小意味単位として定義される。 sememe knowledge bases (kbs) はsememeでアノテートされた単語を含み、多くのnlpタスクにうまく適用されており、最小の意味単位を学習することで、コンピュータは人間の言語をより容易に理解できると信じている。 しかし、既存のセメムkbは手動アノテーションのみに基づいて構築されており、人間のアノテーションには個人的理解バイアスがあり、語彙の意味は時代とともに常に更新され変化し、人工的な手法は常に実用的ではない。 この問題に対処するため,我々は,sememe kbを構築するためのdeep clustering network (dcn) に基づく教師なし手法を提案する。 まず、多言語単語の分散表現を学習し、MUSEを用いて単一のベクトル空間に整列し、自己認識機構を通じて各単語の多層意味を学習し、DNCを用いてセメム特徴をクラスタ化する。 最後に,英語の10次元セム空間のみを用いて予測を完了した。 その結果、低次元空間は依然としてセメムの主特徴を保持することができることがわかった。

A sememe is defined as the minimum semantic unit of human languages. Sememe knowledge bases (KBs), which contain words annotated with sememes, have been successfully applied to many NLP tasks, and we believe that by learning the smallest unit of meaning, computers can more easily understand human language. However, Existing sememe KBs are built on only manual annotation, human annotations have personal understanding biases, and the meaning of vocabulary will be constantly updated and changed with the times, and artificial methods are not always practical. To address the issue, we propose an unsupervised method based on a deep clustering network (DCN) to build a sememe KB, and you can use any language to build a KB through this method. We first learn the distributed representation of multilingual words, use MUSE to align them in a single vector space, learn the multi-layer meaning of each word through the self-attention mechanism, and use a DNC to cluster sememe features. Finally, we completed the prediction using only the 10-dimensional sememe space in English. We found that the low-dimensional space can still retain the main feature of the sememes.
翻訳日:2022-08-11 12:57:00 公開日:2022-08-10
# メタバースxurllcサービスの注意対応リソース割り当てとqoe分析

Attention-aware Resource Allocation and QoE Analysis for Metaverse xURLLC Services ( http://arxiv.org/abs/2208.05438v1 )

ライセンス: Link先を確認
Hongyang Du, Jiazhen Liu, Dusit Niyato, Jiawen Kang, Zehui Xiong, Junshan Zhang, and Dong In Kim(参考訳) 現実世界と対話する仮想世界として,Metaverseは次世代インターネットへの期待をカプセル化し,新たなキーパフォーマンス指標(KPI)を提供する。 従来の超信頼性・低レイテンシ通信(URLLC)は,ほとんどの対象サービスKPIを満足するが,Metaverseサービスにおいてユーザに対してパーソナライズされたエクスペリエンスを提供するのは難しい。 クオリティ・オブ・エクスペリエンス(QoE)の向上はインペラティブなKPIと見なすことができるため、URLLCは次世代のURLLC(xURLLC)へと進化し、グラフィカル技術に基づいたMetaverseサービスをサポートする。 より多くのリソースをユーザがより興味を持つ仮想オブジェクトに割り当てることによって、より高いQoEを達成することができる。 本稿では,Metaverse xURLLCサービスを展開するために,Metaverseサービスプロバイダ(MSP)とネットワークインフラストラクチャプロバイダ(InP)のインタラクションを検討する。 最適なコントラクト設計フレームワークが提供される。 具体的には、メタバースユーザーのQoEの関数として定義されたMSPの効用を最大化し、InPのインセンティブを確実にする。 メタバースxurllcサービスのqoeをモデル化するために,ターゲットネットワークkpiとメタバースユーザの主観的感情の両方を組み込んだメタ没入という新しい指標を提案する。 ユーザ・オブジェクト・アテンション・レベル(uoal)データセットを用いて、注意対応レンダリング能力割当スキームの開発と検証を行い、qoeを改善する。 平均20.1%のQoE改善が xURLLC によって達成されることを示す。 qoeの改善率(例えば40%)は、総リソースが制限されたときに達成される。

As a virtual world interacting with the real world, Metaverse encapsulates our expectations of the next-generation Internet, while bringing new key performance indicators (KPIs). Conventional ultra-reliable and low-latency communications (URLLC) can satisfy the vast majority of objective service KPIs, but it is difficult to offer users a personalized experience in Metaverse services. Since increasing the quality of experience (QoE) can be regarded as an imperative KPI, the URLLC is evolved towards the next generation URLLC (xURLLC) to support Metaverse services based on graphical technology. By allocating more resources to virtual objects in which users are more interested, a higher QoE can be achieved. In this paper, we study the interaction between the Metaverse service provider (MSP) and the network infrastructure provider (InP) to deploy Metaverse xURLLC services. An optimal contract design framework is provided. Specifically, the utility of the MSP, defined as a function of Metaverse users' QoE, is to be maximized, while ensuring the incentives of the InP. To model the QoE of Metaverse xURLLC services, we propose a novel metric named Meta-Immersion that incorporates both the objective network KPIs and subjective feelings of Metaverse users. Using a user-object-attention level (UOAL) dataset, we develop and validate an attention-aware rendering capacity allocation scheme to improve QoE. It is shown that an average of 20.1% QoE improvement is achieved by the xURLLC compared to the conventional URLLC with the uniform allocation scheme. A higher percentage of QoE improvement, e.g., 40%, is achieved when the total resources are limited.
翻訳日:2022-08-11 12:56:02 公開日:2022-08-10
# RWSeg: 3Dインスタンスセグメンテーションにおいてランダムウォークと競合するクロスグラフ

RWSeg: Cross-graph Competing Random Walks for Weakly Supervised 3D Instance Segmentation ( http://arxiv.org/abs/2208.05110v1 )

ライセンス: Link先を確認
Shichao Dong, Ruibo Li, Jiacheng Wei, Fayao Liu, Guosheng Lin(参考訳) 3dポイントクラウド上のインスタンスセグメンテーションは、その幅広い応用、特にシーン理解領域によって、注目を集めている。 しかし、既存のほとんどの手法では、トレーニングデータを完全に注釈付けする必要がある。 地中ラベルをポイントレベルで手作業で準備するのは面倒で手間がかかります。 この問題に対処するため,我々は,一つのオブジェクトを一つのポイントでラベリングするだけでよい,新しい弱教師付きメソッドrwsegを提案する。 これらの疎弱なラベルを用いて,セマンティクス情報とインスタンス情報をそれぞれ未知の領域に伝達する2つのブランチによる統一フレームワークを導入する。 さらに、密配置されたオブジェクトのあいまいさを解消し、インスタンス割り当て時のパフォーマンスを改善するために、異なるインスタンスグラフ間の競合を促すクロスグラフ競合ランダムウォークス(CGCRW)アルゴリズムを提案する。 RWSegは定性的なインスタンスレベルの擬似ラベルを生成することができる。 ScanNet-v2およびS3DISデータセットによる実験結果から,本手法は完全教師付き手法と同等の性能を示し,従来の弱教師付き手法よりも大きなマージンで優れていた。 これは、この地域における弱者と完全な監督の間のギャップを埋める最初の仕事である。

Instance segmentation on 3D point clouds has been attracting increasing attention due to its wide applications, especially in scene understanding areas. However, most existing methods require training data to be fully annotated. Manually preparing ground-truth labels at point-level is very cumbersome and labor-intensive. To address this issue, we propose a novel weakly supervised method RWSeg that only requires labeling one object with one point. With these sparse weak labels, we introduce a unified framework with two branches to propagate semantic and instance information respectively to unknown regions, using self-attention and random walk. Furthermore, we propose a Cross-graph Competing Random Walks (CGCRW) algorithm which encourages competition among different instance graphs to resolve ambiguities in closely placed objects and improve the performance on instance assignment. RWSeg can generate qualitative instance-level pseudo labels. Experimental results on ScanNet-v2 and S3DIS datasets show that our approach achieves comparable performance with fully-supervised methods and outperforms previous weakly-supervised methods by large margins. This is the first work that bridges the gap between weak and full supervision in the area.
翻訳日:2022-08-11 12:55:32 公開日:2022-08-10
# コンテクスト対応トランスを用いたゴーストフリー高ダイナミックレンジイメージング

Ghost-free High Dynamic Range Imaging with Context-aware Transformer ( http://arxiv.org/abs/2208.05114v1 )

ライセンス: Link先を確認
Zhen Liu, Yinglong Wang, Bing Zeng, Shuaicheng Liu(参考訳) 高ダイナミックレンジ(HDR)デゴーストアルゴリズムは、ゴーストフリーのHDR画像を現実的な詳細で生成することを目的としている。 受容野の局所性によって制限され、既存のCNNベースの手法は、大きな動きと激しい飽和の存在下でゴーストのアーチファクトや強度の歪みを生み出す傾向にある。 本稿では,ゴーストフリー高ダイナミックレンジイメージングのための新しいコンテキスト認識型視覚変換器(CA-ViT)を提案する。 ca-vitはデュアルブランチアーキテクチャとして設計されており、共同でグローバルとローカルの両方の依存関係をキャプチャできる。 具体的には、ウィンドウベースのTransformerエンコーダを使用して、長距離物体の動きと強度の変化をモデル化し、ゴーストを解く。 ローカルブランチでは、短距離画像の特徴をキャプチャするローカルコンテキスト抽出器(LCE)を設計し、チャネルアテンション機構を用いて、抽出した特徴をまたいだ情報的ローカル詳細を選択することにより、グローバルブランチを補完する。 基本成分としてCA-ViTを組み込むことにより,高品質なゴーストフリーHDR画像を再構成する階層ネットワークであるHDR-Transformerをさらに構築する。 3つのベンチマークデータセットの大規模な実験により、我々の手法は定性的に定量的に計算予算を大幅に削減し、最先端の手法よりも優れていることが示された。 コードはhttps://github.com/megvii-research/HDR-Transformerで入手できる。

High dynamic range (HDR) deghosting algorithms aim to generate ghost-free HDR images with realistic details. Restricted by the locality of the receptive field, existing CNN-based methods are typically prone to producing ghosting artifacts and intensity distortions in the presence of large motion and severe saturation. In this paper, we propose a novel Context-Aware Vision Transformer (CA-ViT) for ghost-free high dynamic range imaging. The CA-ViT is designed as a dual-branch architecture, which can jointly capture both global and local dependencies. Specifically, the global branch employs a window-based Transformer encoder to model long-range object movements and intensity variations to solve ghosting. For the local branch, we design a local context extractor (LCE) to capture short-range image features and use the channel attention mechanism to select informative local details across the extracted features to complement the global branch. By incorporating the CA-ViT as basic components, we further build the HDR-Transformer, a hierarchical network to reconstruct high-quality ghost-free HDR images. Extensive experiments on three benchmark datasets show that our approach outperforms state-of-the-art methods qualitatively and quantitatively with considerably reduced computational budgets. Codes are available at https://github.com/megvii-research/HDR-Transformer
翻訳日:2022-08-11 12:55:10 公開日:2022-08-10
# EXTERN: Black-box Video Domain Adaptation における時間内正規化の活用

EXTERN: Leveraging Endo-Temporal Regularization for Black-box Video Domain Adaptation ( http://arxiv.org/abs/2208.05187v1 )

ライセンス: Link先を確認
Yuecong Xu, Jianfei Yang, Min Wu, Xiaoli Li, Lihua Xie, Zhenghua Chen(参考訳) 異なる環境におけるビデオタスク間でシームレスにビデオモデルを適用できるようにするために,ビデオモデルの堅牢性と転送性を改善するために,VUDA法が提案されている。 モデル堅牢性の改善にもかかわらず、これらのVUDAメソッドは、適応のためにソースデータとソースモデルパラメータの両方にアクセスする必要がある。 そこで本稿では,まず,ブラックボックス映像領域適応(bvda)を,ソース映像モデルをブラックボックス予測器としてのみ提供する,より現実的かつ挑戦的なシナリオとして定式化する。 画像領域ではブラックボックス・ドメイン適応(BDA)の手法がいくつか提案されているが、ビデオのモダリティがより複雑な時間的特徴を持つため、これらの手法はビデオ領域に適用できない。 そこで本研究では,bvdaに対応するために,黒ボックス予測器から得られた予測から知識を抽出しつつ,クリップとテンポラリの双方で,マスク・ツー・ミックス戦略と映像対応正規化(endo-temporal regularization and exo-temporal regularization)を適用することで,新たなendoおよびexo-temporal regularized network(extern)を提案する。 実験的な結果から,EXTERNの様々なクロスドメインクローズドセットおよび部分セット動作認識ベンチマークにおける性能が,ソースデータアクセシビリティを持つ既存のビデオドメイン適応手法を超越したことを示す。

To enable video models to be applied seamlessly across video tasks in different environments, various Video Unsupervised Domain Adaptation (VUDA) methods have been proposed to improve the robustness and transferability of video models. Despite improvements made in model robustness, these VUDA methods require access to both source data and source model parameters for adaptation, raising serious data privacy and model portability issues. To cope with the above concerns, this paper firstly formulates Black-box Video Domain Adaptation (BVDA) as a more realistic yet challenging scenario where the source video model is provided only as a black-box predictor. While a few methods for Black-box Domain Adaptation (BDA) are proposed in image domain, these methods cannot apply to video domain since video modality has more complicated temporal features that are harder to align. To address BVDA, we propose a novel Endo and eXo-TEmporal Regularized Network (EXTERN) by applying mask-to-mix strategies and video-tailored regularizations: endo-temporal regularization and exo-temporal regularization, performed across both clip and temporal features, while distilling knowledge from the predictions obtained from the black-box predictor. Empirical results demonstrate the state-of-the-art performance of EXTERN across various cross-domain closed-set and partial-set action recognition benchmarks, which even surpassed most existing video domain adaptation methods with source data accessibility.
翻訳日:2022-08-11 12:54:44 公開日:2022-08-10
# 畳み込みニューラルネットワークを用いたアフターマーケット・オートバイ制振システムのリアルタイム油漏れ検出

Real-Time Oil Leakage Detection on Aftermarket Motorcycle Damping System with Convolutional Neural Networks ( http://arxiv.org/abs/2208.05192v1 )

ライセンス: Link先を確認
Federico Bianchi, Stefano Speziali, Andrea Marini, Massimiliano Proietti, Lorenzo Menculini, Alberto Garinei, Gabriele Bellani, Marcello Marconi(参考訳) 本研究では,自動車用後流ダンピングシステムであるAirTenderシステムにおいて,Deep LearningとComputer Visionが障害事象の検出にどのように役立つかを詳細に述べる。 AirTenderの機能を監視する最も効果的な方法の1つは、表面の油の汚れを探すことだ。 リアルタイム画像から始めると、AirTenderはバイクのサスペンションシステムで最初に検出され、2進分類器がAirTenderがオイルをこぼしているかどうかを判定する。 検出はYolo5アーキテクチャの助けを借りて行われ、分類は適切な設計の畳み込みニューラルネットワークである OilNet40 の助けを借りて行われる。 油漏れをより明確に検出するために,約390nmの励起波長ピークを有する蛍光染料を用いて,エアテンダー中の油を希釈する。 AirTenderは適切な紫外線LEDで照らされる。 システム全体が低コストの検知装置を設計する試みである。 ミニコンピュータなどのオンボード装置はサスペンションシステムの近くに置かれ、エアテンダーをフレーミングするフルhdカメラに接続されている。 このオンボードデバイスは、ニューラルネットワークアルゴリズムにより、AirTenderを通常の機能(非リーク画像)または異常(リーク画像)としてローカライズし、分類することができる。

In this work, we describe in detail how Deep Learning and Computer Vision can help to detect fault events of the AirTender system, an aftermarket motorcycle damping system component. One of the most effective ways to monitor the AirTender functioning is to look for oil stains on its surface. Starting from real-time images, AirTender is first detected in the motorbike suspension system and then a binary classifier determines whether AirTender is spilling oil or not. The detection is made with the help of the Yolo5 architecture, whereas the classification is carried out with the help of a suitably designed Convolutional Neural Network, OilNet40. In order to detect oil leaks more clearly, we dilute the oil in AirTender with a fluorescent dye with excitation wavelength peak of approximately 390 nm. AirTender is then illuminated with suitable UV LEDs. The whole system is an attempt to design a low-cost detection setup. An on-board device, such as a mini-computer, is placed near the suspension system and connected to a full hd camera framing AirTender. The on-board device, through our Neural Network algorithm, is then able to localize and classify AirTender as normally functioning (non-leak image) or anomaly (leak image).
翻訳日:2022-08-11 12:53:44 公開日:2022-08-10
# ロバストハッシュを用いた時間操作映像の検出法

A Detection Method of Temporally Operated Videos Using Robust Hashing ( http://arxiv.org/abs/2208.05198v1 )

ライセンス: Link先を確認
Shoko Niwa, Miki Tanaka, Hitoshi Kiya(参考訳) SNSプロバイダは、アップロードされたビデオ/画像の再圧縮と再サイズを行うことが知られているが、従来のビデオ/画像の検出方法は、そのような操作に対して十分に堅牢ではない。 また,新しいフレームの挿入やフレームの置換など,従来の方法では検出が困難であった映像を時間的に操作する。 そこで本研究では,ビデオに縮小圧縮を適用した場合でも,時間的に操作されたビデオを検出する頑健なハッシュアルゴリズムを提案する。

SNS providers are known to carry out the recompression and resizing of uploaded videos/images, but most conventional methods for detecting tampered videos/images are not robust enough against such operations. In addition, videos are temporally operated such as the insertion of new frames and the permutation of frames, of which operations are difficult to be detected by using conventional methods. Accordingly, in this paper, we propose a novel method with a robust hashing algorithm for detecting temporally operated videos even when applying resizing and compression to the videos.
翻訳日:2022-08-11 12:53:24 公開日:2022-08-10
# 変圧器を用いた3次元クラウド物体追跡のための点BEV融合の探索

Exploring Point-BEV Fusion for 3D Point Cloud Object Tracking with Transformer ( http://arxiv.org/abs/2208.05216v1 )

ライセンス: Link先を確認
Zhipeng Luo, Changqing Zhou, Liang Pan, Gongjie Zhang, Tianrui Liu, Yueru Luo, Haiyu Zhao, Ziwei Liu, Shijian Lu(参考訳) 自動運転におけるLiDARセンサーの普及に伴い、3Dオブジェクトトラッキングは注目されている。 ポイントクラウドシーケンスでは、3dオブジェクト追跡は、オブジェクトテンプレートが与えられた連続フレームにおけるオブジェクトの位置と向きを予測することを目的としている。 変圧器の成功に動機づけられた点追尾変圧器(pttr)は,変圧器操作の助けを借りて,高品質な3d追尾結果を高精度に予測する。 PTTRは3つの新しいデザインで構成されている。 1) ランダムサンプリングの代わりに, サブサンプリング中のテンプレートに関連点を保持するリレーアウェアサンプリングを設計する。 2) テンプレートと検索領域間の効果的な特徴集約と特徴マッチングのための点関係変換器を提案する。 3) 粗い追跡結果に基づいて, 局所的な特徴プーリングによる最終改良予測を得るために, 新たな予測リファインメントモジュールを用いる。 さらに、物体の動きを捉えた点雲のBird's-Eye View(BEV)の好ましい特性を動機として、ポイントワイドビューとBEV表現の両方を組み込んだPTTR++というより高度なフレームワークを設計し、高品質なトラッキング結果を生成する際の相補的な効果を利用する。 PTTR++は計算オーバーヘッドの少ないPTTR上でのトラッキング性能を大幅に向上させる。 複数のデータセットにまたがる広範な実験により,提案手法が優れた3dトラッキング精度と効率を実現することを示した。

With the prevalence of LiDAR sensors in autonomous driving, 3D object tracking has received increasing attention. In a point cloud sequence, 3D object tracking aims to predict the location and orientation of an object in consecutive frames given an object template. Motivated by the success of transformers, we propose Point Tracking TRansformer (PTTR), which efficiently predicts high-quality 3D tracking results in a coarse-to-fine manner with the help of transformer operations. PTTR consists of three novel designs. 1) Instead of random sampling, we design Relation-Aware Sampling to preserve relevant points to the given template during subsampling. 2) We propose a Point Relation Transformer for effective feature aggregation and feature matching between the template and search region. 3) Based on the coarse tracking results, we employ a novel Prediction Refinement Module to obtain the final refined prediction through local feature pooling. In addition, motivated by the favorable properties of the Bird's-Eye View (BEV) of point clouds in capturing object motion, we further design a more advanced framework named PTTR++, which incorporates both the point-wise view and BEV representation to exploit their complementary effect in generating high-quality tracking results. PTTR++ substantially boosts the tracking performance on top of PTTR with low computational overhead. Extensive experiments over multiple datasets show that our proposed approaches achieve superior 3D tracking accuracy and efficiency.
翻訳日:2022-08-11 12:53:15 公開日:2022-08-10
# Auto-ViT-Acc:混合化学量子化を用いたビジョントランスのためのFPGA対応自動加速フレームワーク

Auto-ViT-Acc: An FPGA-Aware Automatic Acceleration Framework for Vision Transformer with Mixed-Scheme Quantization ( http://arxiv.org/abs/2208.05163v1 )

ライセンス: Link先を確認
Zhengang Li, Mengshu Sun, Alec Lu, Haoyu Ma, Geng Yuan, Yanyue Xie, Hao Tang, Yanyu Li, Miriam Leeser, Zhangyang Wang, Xue Lin, Zhenman Fang(参考訳) ビジョントランスフォーマー (vits) はコンピュータビジョンタスクの精度を大幅に向上させた。 しかし、その複雑なアーキテクチャと膨大な計算/ストレージ要求は、新しいハードウェアアクセラレータ設計方法論に緊急の要求を課す。 本研究は,提案した混合スキーム量子化に基づくFPGA対応自動ViT加速フレームワークを提案する。 我々の知る限りでは、モデル量子化を探求するFPGAベースのVT加速フレームワークとしてはこれが初めてである。 vit量子化(algorithmic approach only without hardware acceleration)は0.47%から1.36%の精度を同じビット幅で達成している。 32ビット浮動小数点FPGAアクセラレータと比較して、このアクセラレータはフレームレート(56.8 FPS vs. 10.0 FPS)が約5.6倍改善され、DeiTベース用のImageNetデータセットでは0.71%精度が低下する。

Vision transformers (ViTs) are emerging with significantly improved accuracy in computer vision tasks. However, their complex architecture and enormous computation/storage demand impose urgent needs for new hardware accelerator design methodology. This work proposes an FPGA-aware automatic ViT acceleration framework based on the proposed mixed-scheme quantization. To the best of our knowledge, this is the first FPGA-based ViT acceleration framework exploring model quantization. Compared with state-of-the-art ViT quantization work (algorithmic approach only without hardware acceleration), our quantization achieves 0.47% to 1.36% higher Top-1 accuracy under the same bit-width. Compared with the 32-bit floating-point baseline FPGA accelerator, our accelerator achieves around 5.6x improvement on the frame rate (i.e., 56.8 FPS vs. 10.0 FPS) with 0.71% accuracy drop on ImageNet dataset for DeiT-base.
翻訳日:2022-08-11 12:50:19 公開日:2022-08-10
# 臨床歩行分析における信頼できる視覚分析 : 脳性麻痺患者を事例として

Trustworthy Visual Analytics in Clinical Gait Analysis: A Case Study for Patients with Cerebral Palsy ( http://arxiv.org/abs/2208.05232v1 )

ライセンス: Link先を確認
Alexander Rind (1), Djordje Slijep\v{c}evi\'c (1), Matthias Zeppelzauer (1), Fabian Unglaube (2), Andreas Kranzl (2) and Brian Horsak (3) ((1) Institute of Creative\Media/Technologies, St. Poelten University of Applied Sciences, Austria, (2) Orthopaedic Hospital Vienna-Speising, Austria, (3) Institute of Health Sciences, St. Poelten University of Applied Sciences, Austria)(参考訳) 脳性麻痺(CP)患者に対する最適な治療介入の選択には3次元臨床歩行分析が不可欠であるが,大量の時系列データを生成する。 これらのデータの自動解析では、機械学習アプローチが有望な結果をもたらす。 しかし、そのブラックボックスの性質から、そのようなアプローチは臨床医によってしばしば不信されている。 本稿では,機械学習の分類法を説明するために,よく確立された説明可能な人工知能アルゴリズムであるGrad-CAMを統合した,CP関連歩行パターンの分類のための視覚分析手法であるgaitXplorerを提案する。 対話型視覚インタフェースでは,分類の関連性が高い領域が強調される。 このアプローチは、2つの臨床歩行専門家によるケーススタディで評価された。 彼らは、視覚インターフェイスを使用して8人の患者のサンプルについての説明を検査し、信頼に値する結果と疑わしい値を示した。 全体として、臨床医はアプローチに対して肯定的なフィードバックを与え、データのどの領域が分類に関連しているかをよりよく理解した。

Three-dimensional clinical gait analysis is essential for selecting optimal treatment interventions for patients with cerebral palsy (CP), but generates a large amount of time series data. For the automated analysis of these data, machine learning approaches yield promising results. However, due to their black-box nature, such approaches are often mistrusted by clinicians. We propose gaitXplorer, a visual analytics approach for the classification of CP-related gait patterns that integrates Grad-CAM, a well-established explainable artificial intelligence algorithm, for explanations of machine learning classifications. Regions of high relevance for classification are highlighted in the interactive visual interface. The approach is evaluated in a case study with two clinical gait experts. They inspected the explanations for a sample of eight patients using the visual interface and expressed which relevance scores they found trustworthy and which they found suspicious. Overall, the clinicians gave positive feedback on the approach as it allowed them a better understanding of which regions in the data were relevant for the classification.
翻訳日:2022-08-11 12:50:01 公開日:2022-08-10
# 遺伝子導入学習 : 胸部X線画像を用いたCovid-19分類

Generative Transfer Learning: Covid-19 Classification with a few Chest X-ray Images ( http://arxiv.org/abs/2208.05305v1 )

ライセンス: Link先を確認
Suvarna Kadam and Vinay G. Vaidya(参考訳) 非侵襲性のため、医用画像による疾患の検出が好ましい。 医療画像は、人間の体内を徹底的に素早く見ることができる複数のデータモダリティをサポートする。 しかし、画像データの解釈には時間がかかることが多く、人間の専門知識が必要となる。 深層学習モデルは解釈を迅速化し、人間の専門家の仕事を軽減することができる。 しかし、これらのモデルはデータ集約型であり、トレーニングにはかなりのラベル付き画像が必要である。 Covid-19のような新しい病気の流行では、特に流行の開始時に、必要なラベル付き画像データを持っていないことが多い。 例えば、vggnet, resnet, inception, densenetなどのいずれかの変種を特徴学習器として使用することで、より少ないサンプルからターゲットタスクを迅速に適応させることで、この問題に対処する。 事前訓練されたほとんどのモデルは、複雑なアーキテクチャで深い。 それらはimagenetのような大規模なマルチクラスデータセットでトレーニングされ、アーキテクチャ設計とハイパーパラメータチューニングにおいて重要な人的努力をしている。 我々は,既存の大規模事前学習モデルと同じくらい効果的に動作可能な,単一だが関連する概念に基づいて事前学習された簡易な生成源モデルを提案する。 本研究では,Covid-19バイナリ分類を用いたFSL(Few Shot Learning)において,計算とトレーニングの少ない生成的トランスファー学習の有用性を示す。 従来のディープトランスファー学習とアプローチを比較し,fslの結果を84,20,10のトレーニングサンプルの3つの設定で報告した。 Covid-19分類のための生成FSLのモデル実装はhttps://github.com/suvarnak/GenerativeFSLCovid.gitで公開されている。

Detection of diseases through medical imaging is preferred due to its non-invasive nature. Medical imaging supports multiple modalities of data that enable a thorough and quick look inside a human body. However, interpreting imaging data is often time-consuming and requires a great deal of human expertise. Deep learning models can expedite interpretation and alleviate the work of human experts. However, these models are data-intensive and require significant labeled images for training. During novel disease outbreaks such as Covid-19, we often do not have the required labeled imaging data, especially at the start of the epidemic. Deep Transfer Learning addresses this problem by using a pretrained model in the public domain, e.g. any variant of either VGGNet, ResNet, Inception, DenseNet, etc., as a feature learner to quickly adapt the target task from fewer samples. Most pretrained models are deep with complex architectures. They are trained with large multi-class datasets such as ImageNet, with significant human efforts in architecture design and hyper parameters tuning. We presented 1 a simpler generative source model, pretrained on a single but related concept, can perform as effectively as existing larger pretrained models. We demonstrate the usefulness of generative transfer learning that requires less compute and training data, for Few Shot Learning (FSL) with a Covid-19 binary classification use case. We compare classic deep transfer learning with our approach and also report FSL results with three settings of 84, 20, and 10 training samples. The model implementation of generative FSL for Covid-19 classification is available publicly at https://github.com/suvarnak/GenerativeFSLCovid.git.
翻訳日:2022-08-11 12:49:45 公開日:2022-08-10
# 限界確率の写像と統計物理学モデルへの応用

Mappings for Marginal Probabilities with Applications to Models in Statistical Physics ( http://arxiv.org/abs/2208.05333v1 )

ライセンス: Link先を確認
Mehdi Molkaraie(参考訳) 本稿では、その原始正規因子グラフで表される大域確率質量関数の辺縁確率と、その双対正規因子グラフにおける対応する辺縁確率とを関連付ける局所写像を提案する。 写像はモデルの局所因子のフーリエ変換に基づいている。 写像の詳細はイジングモデルに提供され、2次元近距離イジングモデルの位相遷移で不動点の局所的極値が得られることが証明される。 結果はさらにポッツモデル、時計モデル、ガウス・マルコフ確率場に拡張される。 この写像を用いることで、推定限界確率を双対領域から原始領域へ同時に変換することができる(逆もまた)。 特に重要な例は、正の外部磁場における強磁性イジングモデルである。 このモデルでは、モデルの双対正規因子グラフで構成を生成するために、急速に混合されたマルコフ連鎖(subgraphs--world process)が存在する。 数値実験により,提案手法は様々な場面において,大域的確率質量関数の限界確率をより正確に推定できることを示した。

We present local mappings that relate the marginal probabilities of a global probability mass function represented by its primal normal factor graph to the corresponding marginal probabilities in its dual normal factor graph. The mapping is based on the Fourier transform of the local factors of the models. Details of the mapping are provided for the Ising model, where it is proved that the local extrema of the fixed points are attained at the phase transition of the two-dimensional nearest-neighbor Ising model. The results are further extended to the Potts model, to the clock model, and to Gaussian Markov random fields. By employing the mapping, we can transform simultaneously all the estimated marginal probabilities from the dual domain to the primal domain (and vice versa), which is advantageous if estimating the marginals can be carried out more efficiently in the dual domain. An example of particular significance is the ferromagnetic Ising model in a positive external magnetic field. For this model, there exists a rapidly mixing Markov chain (called the subgraphs--world process) to generate configurations in the dual normal factor graph of the model. Our numerical experiments illustrate that the proposed procedure can provide more accurate estimates of marginal probabilities of a global probability mass function in various settings.
翻訳日:2022-08-11 12:49:20 公開日:2022-08-10
# 不確実性を考慮した固定記憶と対向領域適応による連続機械読解

Continual Machine Reading Comprehension via Uncertainty-aware Fixed Memory and Adversarial Domain Adaptation ( http://arxiv.org/abs/2208.05217v1 )

ライセンス: Link先を確認
Zhijing Wu, Hua Xu, Jingliang Fang and Kai Gao(参考訳) Continual Machine Reading Comprehensionは、実世界のMRCシステムの開発において不可欠である、前回見たデータにアクセスせずに、連続的なデータストリームから徐々に学習することを目的としている。 しかし、過去の知識を破滅的に忘れずに新しいドメインを段階的に学ぶことは大きな課題です。 本稿では,不確実性を考慮した固定メモリおよび逆数領域適応型連続MRCモデルMA-MRCを提案する。 MA-MRCでは、固定サイズのメモリは、前のドメインデータに少数のサンプルを格納し、新しいドメインデータが到着したときに不確実性を認識した更新戦略を記憶する。 逐次学習においては、MA-MRCはメモリと新しいドメインデータの両方を学習することで安定した理解を維持するだけでなく、敵対的な学習戦略によってドメイン適応関係を完全に活用する。 実験の結果,MA-MRCは強いベースラインよりも優れており,2つの連続MCC設定下で破滅的に忘れることなく,実質的な漸進学習能力を有することがわかった。

Continual Machine Reading Comprehension aims to incrementally learn from a continuous data stream across time without access the previous seen data, which is crucial for the development of real-world MRC systems. However, it is a great challenge to learn a new domain incrementally without catastrophically forgetting previous knowledge. In this paper, MA-MRC, a continual MRC model with uncertainty-aware fixed Memory and Adversarial domain adaptation, is proposed. In MA-MRC, a fixed size memory stores a small number of samples in previous domain data along with an uncertainty-aware updating strategy when new domain data arrives. For incremental learning, MA-MRC not only keeps a stable understanding by learning both memory and new domain data, but also makes full use of the domain adaptation relationship between them by adversarial learning strategy. The experimental results show that MA-MRC is superior to strong baselines and has a substantial incremental learning ability without catastrophically forgetting under two different continual MRC settings.
翻訳日:2022-08-11 12:48:12 公開日:2022-08-10
# ニューラルマシン翻訳における外語彙単語のバイトペアエンコーディングはどの程度有効か?

How Effective is Byte Pair Encoding for Out-Of-Vocabulary Words in Neural Machine Translation? ( http://arxiv.org/abs/2208.05225v1 )

ライセンス: Link先を確認
Ali Araabi, Christof Monz, Vlad Niculae(参考訳) ニューラルネットワーク翻訳(NMT)はオープン語彙問題である。 その結果、訓練中に発生しない単語(オーヴ語)を扱うことは、nmtシステムにとって長年の根本的な課題であった。 この問題に対処する主要な方法はByte Pair Encoding (BPE) であり、OOVワードを含む単語をサブワードセグメントに分割する。 BPEは、自動評価指標の観点から、幅広い翻訳タスクにおいて印象的な結果を得た。 BPEを用いて、NMTシステムはOOV語を処理できると仮定されることが多いが、OOV単語の翻訳におけるBPEの有効性は明らかにされていない。 本稿では,単語レベルでのOOV単語の翻訳にBPEがどの程度成功したかを検討する。 我々は,単語の種類,セグメント数,横断重み,および訓練データ中のセグメントn-gramの頻度に基づいて,OOV単語の翻訳品質を分析する。 実験の結果, 適切なBPE設定は, データセット間でのOOV単語の翻訳に極めて有用であることがわかったが, OOV単語のかなりの割合は正しく翻訳されていない。 さらに,名義語や関連言語が言語的に近接している場合など,特殊事例のOOV単語の翻訳におけるBPEの有効性も強調した。

Neural Machine Translation (NMT) is an open vocabulary problem. As a result, dealing with the words not occurring during training (a.k.a. out-of-vocabulary (OOV) words) have long been a fundamental challenge for NMT systems. The predominant method to tackle this problem is Byte Pair Encoding (BPE) which splits words, including OOV words, into sub-word segments. BPE has achieved impressive results for a wide range of translation tasks in terms of automatic evaluation metrics. While it is often assumed that by using BPE, NMT systems are capable of handling OOV words, the effectiveness of BPE in translating OOV words has not been explicitly measured. In this paper, we study to what extent BPE is successful in translating OOV words at the word-level. We analyze the translation quality of OOV words based on word type, number of segments, cross-attention weights, and the frequency of segment n-grams in the training data. Our experiments show that while careful BPE settings seem to be fairly useful in translating OOV words across datasets, a considerable percentage of OOV words are translated incorrectly. Furthermore, we highlight the slightly higher effectiveness of BPE in translating OOV words for special cases, such as named-entities and when the languages involved are linguistically close to each other.
翻訳日:2022-08-11 12:47:53 公開日:2022-08-10
# ベクトルに基づく意味論のエンドツーエンド構成モデル

Proceedings End-to-End Compositional Models of Vector-Based Semantics ( http://arxiv.org/abs/2208.05313v1 )

ライセンス: Link先を確認
Michael Moortgat (Utrecht University), Gijs Wijnholds (Utrecht University)(参考訳) 2022年8月15日と16日、NUI Galwayで、論理・言語・情報に関する第33回ヨーロッパ夏学校(ESSLLI 2022)の一部としてワークショップ「End-to-End Composal Models of Vector-Based Semantics」が開催された。 このワークショップは、研究プロジェクトの'a composition calculus for vector-based semantic modeling with a localization for dutch' (dutch research council 360-89-070, 2017-2022)によって後援された。 ワークショッププログラムは2つの部分で構成されており、第1部は前述のプロジェクトの結果を報告し、第2部は関連するアプローチに関する論文である。 本巻は、寄稿論文と招待講演の要約をまとめたものである。

The workshop End-to-End Compositional Models of Vector-Based Semantics was held at NUI Galway on 15 and 16 August 2022 as part of the 33rd European Summer School in Logic, Language and Information (ESSLLI 2022). The workshop was sponsored by the research project 'A composition calculus for vector-based semantic modelling with a localization for Dutch' (Dutch Research Council 360-89-070, 2017-2022). The workshop program was made up of two parts, the first part reporting on the results of the aforementioned project, the second part consisting of contributed papers on related approaches. The present volume collects the contributed papers and the abstracts of the invited talks.
翻訳日:2022-08-11 12:47:29 公開日:2022-08-10
# 単語レベルのパラフレーズ化, テキスト化, 意味的類似性

Paraphrasing, textual entailment, and semantic similarity above word level ( http://arxiv.org/abs/2208.05387v1 )

ライセンス: Link先を確認
Venelin Kovatchev(参考訳) この論文は、2つ以上の複雑な言語表現(フレーズ、節、文、段落)の間に保持できる意味関係の言語的および計算的側面を探求している。 特に、パラフレージング、テキストの包含、矛盾、意味的類似性に焦点を当てている。 パートI:「単語と句のレベルにおける類似性」では、分布仮説(DH)を研究し、単語と短いフレーズのレベルにおける意味的類似性の定量化のためのいくつかの異なる方法論を探求する。 第二部:「パラフレーズの類型とパラフレーズの同定」において、パラフレーズの意味と自動パラフレーズ識別(PI)の実証的課題に焦点を当てた。 第III部:「パラフレージング、テクスト・エンターメント、セマンティック・類似性」において、パラフレージング、テクスト・エンターメント、矛盾、意味的類似性に関する共同研究の結果、テキスト意味関係の研究における新たな方向性を示す。

This dissertation explores the linguistic and computational aspects of the meaning relations that can hold between two or more complex linguistic expressions (phrases, clauses, sentences, paragraphs). In particular, it focuses on Paraphrasing, Textual Entailment, Contradiction, and Semantic Similarity. In Part I: "Similarity at the Level of Words and Phrases", I study the Distributional Hypothesis (DH) and explore several different methodologies for quantifying semantic similarity at the levels of words and short phrases. In Part II: "Paraphrase Typology and Paraphrase Identification", I focus on the meaning relation of paraphrasing and the empirical task of automated Paraphrase Identification (PI). In Part III: "Paraphrasing, Textual Entailment, and Semantic Similarity", I present a novel direction in the research on textual meaning relations, resulting from joint research carried out on on paraphrasing, textual entailment, contradiction, and semantic similarity.
翻訳日:2022-08-11 12:47:19 公開日:2022-08-10
# cognitive-uavsにおけるアンチジャミングのための新しいリソース割り当て:アクティブ推論アプローチ

A Novel Resource Allocation for Anti-jamming in Cognitive-UAVs: an Active Inference Approach ( http://arxiv.org/abs/2208.05269v1 )

ライセンス: Link先を確認
Ali Krayani, Atm S. Alam, Lucio Marcenaro, Arumugam Nallanathan, Carlo Regazzoni(参考訳) 本研究では,アクティブ推論(\textit{ain}$)を用いたコグニティブ無線におけるアンチジャミングのための新しいリソース割り当て戦略を提案し,コグニティブuavをケーススタディとして用いる。 アクティブ一般化ベイズネットワーク(active-gdbn)は、物理信号のダイナミクスとスペクトル内のuavとジャマーの動的相互作用を共同で符号化する外部環境を表現するために提案されている。 オンライン学習において,予期せぬ状態(異常の最小化)を避けることで,ベイズ推論問題として行動と計画を行った。 シミュレーションの結果,異常(報酬の最大化)を最小化するための$\textit{AIn}$アプローチの有効性を検証し,従来の周波数ホッピングとQ-ラーニングを比較して高い収束速度を示した。

This work proposes a novel resource allocation strategy for anti-jamming in Cognitive Radio using Active Inference ($\textit{AIn}$), and a cognitive-UAV is employed as a case study. An Active Generalized Dynamic Bayesian Network (Active-GDBN) is proposed to represent the external environment that jointly encodes the physical signal dynamics and the dynamic interaction between UAV and jammer in the spectrum. We cast the action and planning as a Bayesian inference problem that can be solved by avoiding surprising states (minimizing abnormality) during online learning. Simulation results verify the effectiveness of the proposed $\textit{AIn}$ approach in minimizing abnormalities (maximizing rewards) and has a high convergence speed by comparing it with the conventional Frequency Hopping and Q-learning.
翻訳日:2022-08-11 12:43:57 公開日:2022-08-10
# 時間論理式の微分可能推論

Differentiable Inference of Temporal Logic Formulas ( http://arxiv.org/abs/2208.05440v1 )

ライセンス: Link先を確認
Nicole Fronda and Houssam Abbas(参考訳) 本稿では,信号時相論理式を学習するための最初の再帰的ニューラルネットワークアーキテクチャを実証し,公式推論法を体系的に比較する。 レガシシステムは、明示的に形式化されていない多くの専門知識を組み込んでいる。 そのようなシステムの理想的な振る舞いを特徴付ける形式的仕様、すなわちシステムの出力信号によって満たされる時相論理の公式を学ぶことには大きな関心がある。 このような仕様はシステムの振る舞いをよりよく理解し、次のイテレーションの設計を改善するために使用することができる。 以前の推論手法は、ある公式テンプレートを仮定するか、全ての可能なテンプレートをヒューリスティックに列挙した。 本研究は、勾配降下による公式構造を推定し、特定のテンプレートを付与する必要をなくすニューラルネットワークアーキテクチャを提案する。 公式構造とパラメータの学習を1つの最適化で組み合わせる。 体系的な比較により,この手法は列挙法や格子法よりも類似あるいはより良い誤分類率(MCR)が得られることを示す。 また, 時間論理推論の問題に対する下決定論を実証的に示すことにより, 異なる式が類似のMCRを達成可能であることも確認した。

We demonstrate the first Recurrent Neural Network architecture for learning Signal Temporal Logic formulas, and present the first systematic comparison of formula inference methods. Legacy systems embed much expert knowledge which is not explicitly formalized. There is great interest in learning formal specifications that characterize the ideal behavior of such systems -- that is, formulas in temporal logic that are satisfied by the system's output signals. Such specifications can be used to better understand the system's behavior and improve design of its next iteration. Previous inference methods either assumed certain formula templates, or did a heuristic enumeration of all possible templates. This work proposes a neural network architecture that infers the formula structure via gradient descent, eliminating the need for imposing any specific templates. It combines learning of formula structure and parameters in one optimization. Through systematic comparison, we demonstrate that this method achieves similar or better mis-classification rates (MCR) than enumerative and lattice methods. We also observe that different formulas can achieve similar MCR, empirically demonstrating the under-determinism of the problem of temporal logic inference.
翻訳日:2022-08-11 12:43:30 公開日:2022-08-10
# 発話レベル情報抽出のための非連続的自己教師付き学習

Non-Contrastive Self-supervised Learning for Utterance-Level Information Extraction from Speech ( http://arxiv.org/abs/2208.05445v1 )

ライセンス: Link先を確認
Jaejin Cho, Jes'us Villalba, Laureano Moro-Velazquez, Najim Dehak(参考訳) 近年の研究では、自己教師付き事前学習モデルは、伝達学習において教師付き事前学習モデルより優れている傾向にある。 特に、発話レベルの音声表現の自己教師付き学習(ssl)は、発話中の一貫した属性(話者、言語、感情、年齢)の識別表現を必要とする音声アプリケーションで使用できる。 既存のフレームレベルの自己教師付き音声表現(例えばwav2vec)は、プール付き発話レベルの表現として使用できるが、モデルは通常大きい。 発話レベルの表現を学ぶssl技術もある。 最も成功した方法の1つは、負のサンプリングを必要とする対照的な方法である: 現在のサンプル(アンカー)と対照的に代替サンプルを選択する。 しかし、これは全ての負のサンプルがラベルなしでアンカークラスとは異なるクラスに属していることを保証する。 本稿では,非コントラスト型自己教師手法を適用し,発話レベルの埋め込みを学習する。 我々はコンピュータビジョンから音声へ、NOラベル(DINO)でDistillationを適応した。 対照的な方法とは異なり、DINOは負のサンプリングを必要としない。 我々はDINOとx-vectorを指導的に訓練した。 下流タスク(話者検証、音声感情認識(SER)、アルツハイマー病検出)に移行すると、DINOはx-vectorより優れていた。 転校学習における諸側面の影響について検討し, 微調整過程をステップ, チャンク長, 強化に分割した。 微調整の間、最後に最後のアフィン層をチューニングし、次にネットワーク全体が同時に微調整を超えた。 より短いチャンク長を使用すると、より多様な入力が生成されるが、必ずしもパフォーマンスが向上するとは限らない。 増強はSERで有効であった。

In recent studies, self-supervised pre-trained models tend to outperform supervised pre-trained models in transfer learning. In particular, self-supervised learning (SSL) of utterance-level speech representation can be used in speech applications that require discriminative representation of consistent attributes within an utterance: speaker, language, emotion, and age. Existing frame-level self-supervised speech representation, e.g., wav2vec, can be used as utterance-level representation with pooling, but the models are usually large. There are also SSL techniques to learn utterance-level representation. One of the most successful is a contrastive method, which requires negative sampling: selecting alternative samples to contrast with the current sample (anchor). However, this does not ensure that all the negative samples belong to classes different from the anchor class without labels. This paper applies a non-contrastive self-supervised method to learn utterance-level embeddings. We adapted DIstillation with NO labels (DINO) from computer vision to speech. Unlike contrastive methods, DINO does not require negative sampling. We compared DINO to x-vector trained in a supervised manner. When transferred to down-stream tasks (speaker verification, speech emotion recognition (SER), and Alzheimer's disease detection), DINO outperformed x-vector. We studied the influence of several aspects during transfer learning such as dividing the fine-tuning process into steps, chunk lengths, or augmentation. During fine-tuning, tuning the last affine layers first and then the whole network surpassed fine-tuning all at once. Using shorter chunk lengths, although they generate more diverse inputs, did not necessarily improve performance, implying speech segments at least with a specific length are required for better performance per application. Augmentation was helpful in SER.
翻訳日:2022-08-11 12:43:14 公開日:2022-08-10
# 多様体仮説の下での消音拡散モデルの収束

Convergence of denoising diffusion models under the manifold hypothesis ( http://arxiv.org/abs/2208.05314v1 )

ライセンス: Link先を確認
Valentin De Bortoli(参考訳) 雑音拡散モデル(denoising diffusion model)は、画像および音声合成における最先端のパフォーマンスを示す最近の生成モデルである。 そのようなモデルは、目標分布から基準密度(通常ガウス的)へのフォワードノイズ過程の時間反転を近似する。 その強い経験的結果にもかかわらず、そのようなモデルの理論的解析は限定的である。 特に、全ての現在のアプローチは、目標密度がルベーグ測度の密度 w.r.t を持つことを決定的に仮定している。 これは、対象分布が低次元多様体上でサポートされたり、経験的分布によって与えられるような設定はカバーしない。 本稿では,拡散モデルに対する最初の収束結果を提供することにより,このギャップを橋渡しする。 特に,対象データ分布と拡散モデルの生成分布との間には,次数1のワッサーシュタイン距離の定量的な境界がある。

Denoising diffusion models are a recent class of generative models exhibiting state-of-the-art performance in image and audio synthesis. Such models approximate the time-reversal of a forward noising process from a target distribution to a reference density, which is usually Gaussian. Despite their strong empirical results, the theoretical analysis of such models remains limited. In particular, all current approaches crucially assume that the target density admits a density w.r.t. the Lebesgue measure. This does not cover settings where the target distribution is supported on a lower-dimensional manifold or is given by some empirical distribution. In this paper, we bridge this gap by providing the first convergence results for diffusion models in this more general setting. In particular, we provide quantitative bounds on the Wasserstein distance of order one between the target data distribution and the generative distribution of the diffusion model.
翻訳日:2022-08-11 12:42:28 公開日:2022-08-10
# KL分割に基づく離散時間モデルのための深層学習

KL-divergence Based Deep Learning for Discrete Time Model ( http://arxiv.org/abs/2208.05100v1 )

ライセンス: Link先を確認
Li Liu, Xiangeng Fang, Di Wang, Weijing Tang, Kevin He(参考訳) ニューラルネットワーク(Deep Learning)は、人工知能の現代モデルであり、Survival Analysisで活用されている。 これまでの研究でいくつかの改善が示されているが、優れたディープラーニングモデルのトレーニングには膨大なデータが必要になる。 この課題に対処するため,Kulback-Leibler-based Deep Learning(KL)法を開発し,新たに収集した時系列データと外部生存予測モデルを統合する。 時間依存KL識別情報を用いて、外部データと内部データとの差を測定する。 ディープラーニングのためのSurvival Analysisにおいて、事前情報を用いて短いデータ問題に対処することを検討する最初の作業である。 シミュレーションと実データの結果から,提案モデルが従来よりも優れた性能と高いロバスト性を実現することが示された。

Neural Network (Deep Learning) is a modern model in Artificial Intelligence and it has been exploited in Survival Analysis. Although several improvements have been shown by previous works, training an excellent deep learning model requires a huge amount of data, which may not hold in practice. To address this challenge, we develop a Kullback-Leibler-based (KL) deep learning procedure to integrate external survival prediction models with newly collected time-to-event data. Time-dependent KL discrimination information is utilized to measure the discrepancy between the external and internal data. This is the first work considering using prior information to deal with short data problem in Survival Analysis for deep learning. Simulation and real data results show that the proposed model achieves better performance and higher robustness compared with previous works.
翻訳日:2022-08-11 12:38:16 公開日:2022-08-10
# 機械学習による脳波アプリケーションと市場

Machine Learning-based EEG Applications and Markets ( http://arxiv.org/abs/2208.05144v1 )

ライセンス: Link先を確認
Weiqing Gu, Bohan Yang, Ryan Chang(参考訳) 本稿では、さまざまなEEGアプリケーションと、機械学習によって推進される現在のEEG市場エコシステムの両方に対処する。 eegを使用したオープン医療および健康データセットは、知識の発見と機械学習データサイエンスアルゴリズムの開発を通じて、患者ケアのための神経学を改善することを約束して、データ駆動研究を促進する。 この取り組みは様々な種類のEEG開発をもたらし、現在新しいEEG市場を形成しています。 本稿では,脳波市場の包括的調査を行い,脳波の診断・スクリーニング,薬物開発,ニューロマーケティング,日常生活,メタバース,年齢・障害支援の6つの重要な応用について紹介する。 この調査のハイライトは、研究分野とビジネス市場の比較と対比にある。 本調査は、脳波の現在の限界を指摘し、上記のすべての脳波アプリケーションに対する研究およびビジネスチャンスの今後の方向性を示すものである。 私たちの調査によると、マシンラーニングベースのEEGアプリケーションに関するさらなる研究は、より堅牢なEEG関連市場につながるでしょう。 より多くの企業がこの研究技術を実生活に応用する。 EEG関連の市場が拡大するにつれて、EEG関連のデバイスはより多くのEEGデータを収集し、研究者が研究で利用できるより多くのEEGデータを収集する。 市場分析によれば、上記の6つのアプリケーションにおける脳波データと機械学習の利用に関する研究は、脳波エコシステムと機械学習の世界の成長と発展の明確なトレンドに向かっている。

This paper addresses both the various EEG applications and the current EEG market ecosystem propelled by machine learning. Increasingly available open medical and health datasets using EEG encourage data-driven research with a promise of improving neurology for patient care through knowledge discovery and machine learning data science algorithm development. This effort leads to various kinds of EEG developments and currently forms a new EEG market. This paper attempts to do a comprehensive survey on the EEG market and covers the six significant applications of EEG, including diagnosis/screening, drug development, neuromarketing, daily health, metaverse, and age/disability assistance. The highlight of this survey is on the compare and contrast between the research field and the business market. Our survey points out the current limitations of EEG and indicates the future direction of research and business opportunity for every EEG application listed above. Based on our survey, more research on machine learning-based EEG applications will lead to a more robust EEG-related market. More companies will use the research technology and apply it to real-life settings. As the EEG-related market grows, the EEG-related devices will collect more EEG data, and there will be more EEG data available for researchers to use in their study, coming back as a virtuous cycle. Our market analysis indicates that research related to the use of EEG data and machine learning in the six applications listed above points toward a clear trend in the growth and development of the EEG ecosystem and machine learning world.
翻訳日:2022-08-11 12:38:02 公開日:2022-08-10
# 高次元線形学習のためのロバスト手法

Robust methods for high-dimensional linear learning ( http://arxiv.org/abs/2208.05447v1 )

ライセンス: Link先を確認
Ibrahim Merad and St\'ephane Ga\"iffas(参考訳) 高次元バッチ設定において統計的にロバストで計算効率の良い線形学習法を提案する。 一般学習環境では,損失関数が勾配リプシッツであるか否かに応じて2つのアルゴリズムを用いる。 次に,vanilla sparse,group-sparse,low-rank matrix recoveryなど,いくつかのアプリケーションでフレームワークをインスタンス化する。 これにより、各アプリケーションに対して、重み付き分布と外れ値の存在下で最適に近い推定率に達する効率的で堅牢な学習アルゴリズムが導かれる。 バニラ$sparsityの場合、非ロバストアナログと同等の計算コストで、ヘビーテールと\eta$-coruptionの下で$s\log (d)/n$レートに達することができる。 我々は,論文で提案されている他の手法との比較とともに,理論的な結果を確認する数値実験を行うことにより,オープンソース$\matht{Python}$ライブラリ$\mathtt{linlearn}$でアルゴリズムの効率的な実装を提供する。

We propose statistically robust and computationally efficient linear learning methods in the high-dimensional batch setting, where the number of features $d$ may exceed the sample size $n$. We employ, in a generic learning setting, two algorithms depending on whether the considered loss function is gradient-Lipschitz or not. Then, we instantiate our framework on several applications including vanilla sparse, group-sparse and low-rank matrix recovery. This leads, for each application, to efficient and robust learning algorithms, that reach near-optimal estimation rates under heavy-tailed distributions and the presence of outliers. For vanilla $s$-sparsity, we are able to reach the $s\log (d)/n$ rate under heavy-tails and $\eta$-corruption, at a computational cost comparable to that of non-robust analogs. We provide an efficient implementation of our algorithms in an open-source $\mathtt{Python}$ library called $\mathtt{linlearn}$, by means of which we carry out numerical experiments which confirm our theoretical findings together with a comparison to other recent approaches proposed in the literature.
翻訳日:2022-08-11 12:37:41 公開日:2022-08-10
# 時間的異常局所化のための一貫性に基づく自己教師付き学習

Consistency-based Self-supervised Learning for Temporal Anomaly Localization ( http://arxiv.org/abs/2208.05251v1 )

ライセンス: Link先を確認
Aniello Panariello and Angelo Porrello and Simone Calderara and Rita Cucchiara(参考訳) この研究は、Weakly Supervised Anomaly Detectionに取り組み、予測器は通常の例からだけでなく、トレーニング中に利用可能なラベル付き異常から学ぶことができる。 特に、ビデオストリーム内の異常なアクティビティのローカライズを扱う: これは非常に困難なシナリオであり、トレーニングの例にはビデオレベルのアノテーション(フレームレベルではなく)が付いている。 近年のいくつかの研究は、それに対処するために様々な正規化項を提案しており、弱められたフレームレベルの異常点に対してスパーシティと滑らかさの制約を課している。 本研究では,自己教師付き学習の分野における最近の進歩に触発され,同じ映像列の異なる増補に対して,同じスコアを得るようにモデルに依頼する。 このようなアライメントを強制することで,XD-Violence上でのモデルの性能が向上することを示す。

This work tackles Weakly Supervised Anomaly detection, in which a predictor is allowed to learn not only from normal examples but also from a few labeled anomalies made available during training. In particular, we deal with the localization of anomalous activities within the video stream: this is a very challenging scenario, as training examples come only with video-level annotations (and not frame-level). Several recent works have proposed various regularization terms to address it i.e. by enforcing sparsity and smoothness constraints over the weakly-learned frame-level anomaly scores. In this work, we get inspired by recent advances within the field of self-supervised learning and ask the model to yield the same scores for different augmentations of the same video sequence. We show that enforcing such an alignment improves the performance of the model on XD-Violence.
翻訳日:2022-08-11 12:37:19 公開日:2022-08-10
# 事前学習型トランスモデルのマルチタスク能動学習

Multi-task Active Learning for Pre-trained Transformer-based Models ( http://arxiv.org/abs/2208.05379v1 )

ライセンス: Link先を確認
Guy Rotman and Roi Reichart(参考訳) 複数のタスクがひとつのモデルで共同で学習されるマルチタスク学習では、NLPモデルは複数のアノテーションから情報を共有することができ、タスクが相互に関連している場合の予測がより容易になる。 しかし、このテクニックでは、コストと労力のかかる複数のアノテーションスキームで同じテキストに注釈を付ける必要がある。 アクティブラーニング(AL)は、NLPモデルに最も価値があるラベルなし例を反復的に選択することで、アノテーションプロセスの最適化を実証している。 しかし、マルチタスクアクティブラーニング(MT-AL)は、最先端の訓練済みトランスフォーマーベースのNLPモデルには適用されていない。 本稿は,このギャップを埋めることを目的とする。 我々は,3つの現実的なマルチタスクシナリオにおける様々なマルチタスク選択条件を検討し,参加タスク間の関係を反映し,シングルタスク選択と比較してマルチタスクの有効性を示す。 MT-ALはマルチタスクNLPモデルのアノテーション処理を最小化するために有効であることを示す。

Multi-task learning, in which several tasks are jointly learned by a single model, allows NLP models to share information from multiple annotations and may facilitate better predictions when the tasks are inter-related. This technique, however, requires annotating the same text with multiple annotation schemes which may be costly and laborious. Active learning (AL) has been demonstrated to optimize annotation processes by iteratively selecting unlabeled examples whose annotation is most valuable for the NLP model. Yet, multi-task active learning (MT-AL) has not been applied to state-of-the-art pre-trained Transformer-based NLP models. This paper aims to close this gap. We explore various multi-task selection criteria in three realistic multi-task scenarios, reflecting different relations between the participating tasks, and demonstrate the effectiveness of multi-task compared to single-task selection. Our results suggest that MT-AL can be effectively used in order to minimize annotation efforts for multi-task NLP models.
翻訳日:2022-08-11 12:36:46 公開日:2022-08-10
# 人口ベーストレーニングによる爆発性低減

Reducing Exploitability with Population Based Training ( http://arxiv.org/abs/2208.05083v1 )

ライセンス: Link先を確認
Pavel Czempin and Adam Gleave(参考訳) 自己プレイ強化学習は、様々なゼロサムゲームで最新かつしばしば超人的なパフォーマンスを達成している。 しかし、以前の研究によると、通常の敵に対して高い能力を持つ政策は、敵の政策に対して破滅的に失敗する可能性がある。 敵の訓練による以前の防衛は、被害者を特定の敵に対して堅牢にすることができたが、犠牲者は新しい敵に対して脆弱なままであった。 この制限は、トレーニング中に見られる敵の多様性の不足によるものだと推測する。 本研究は, 人口ベーストレーニングを用いて, 被害者を多様な相手と対戦させる防衛法を提案する。 2つの低次元環境における新たな敵に対する防御の堅牢性を評価する。 我々の防御は 敵に対する強固さを増す 被害者を搾取するための 攻撃者の訓練時間によって測定される さらに,頑健性は相手集団の大きさと相関することを示した。

Self-play reinforcement learning has achieved state-of-the-art, and often superhuman, performance in a variety of zero-sum games. Yet prior work has found that policies that are highly capable against regular opponents can fail catastrophically against adversarial policies: an opponent trained explicitly against the victim. Prior defenses using adversarial training were able to make the victim robust to a specific adversary, but the victim remained vulnerable to new ones. We conjecture this limitation was due to insufficient diversity of adversaries seen during training. We propose a defense using population based training to pit the victim against a diverse set of opponents. We evaluate this defense's robustness against new adversaries in two low-dimensional environments. Our defense increases robustness against adversaries, as measured by number of attacker training timesteps to exploit the victim. Furthermore, we show that robustness is correlated with the size of the opponent population.
翻訳日:2022-08-11 12:36:00 公開日:2022-08-10
# ポータブルアクセスポイントの公平性に基づくエネルギー効率3次元経路計画:深層強化学習アプローチ

Fairness Based Energy-Efficient 3D Path Planning of a Portable Access Point: A Deep Reinforcement Learning Approach ( http://arxiv.org/abs/2208.05265v1 )

ライセンス: Link先を確認
Nithin Babu, Igor Donevski, Alvaro Valcarce, Petar Popovski, Jimmy Jessen Nielsen, and Constantinos B. Papadias(参考訳) 本研究では,無人航空機(UAV)をベースとした携帯型アクセスポイント(PAP)の3次元軌道を最適化し,地上ノード(GN)に無線サービスを提供する。 さらに,peukert効果により,uavのバッテリに対する実用的非線形バッテリ放電について検討する。 したがって、公平性に基づくエネルギー効率測定の最大化を表す新しい方法でこの問題を定式化し、公正エネルギー効率(FEE)と命名する。 FEEメトリックは、ユーザ毎のサービスフェアネスとPAPのエネルギー効率の両方に重点を置くシステムを定義する。 定式化問題は、非拘束性制約を持つ非凸問題の形を取る。 解を得るためには、マルコフ決定過程(MDP)として、連続状態と作用空間を持つ問題を表す。 解空間の複雑さを考慮すると、システムのFEEを最大化する政策を学ぶために、ツイン遅延Deep Deterministic Policy gradient (TD3) のアクタークリティカルなDeep reinforcement Learning (DRL) フレームワークを使用する。 第1の(オフライン)アプローチは、学習段階を通してgnsの位置を同一に保つこと、第2のアプローチは、各訓練エピソードの後にgnsの位置を変更することにより、学習方針をngsの任意の配置に一般化することである。 数値評価の結果,peukert効果の無視はpapの気流を過大評価し,papの飛行速度を最適に選択することで対処できることがわかった。 さらに、ユーザフェアネス、エネルギ効率、したがってシステムのFEE値を、GNの上のPAPを効率よく移動させることで改善することができる。 その結果,郊外,都市,密集した都市環境において,ベースラインシナリオの88.31%,272.34%,および318.13%の大幅なFEE改善が見られた。

In this work, we optimize the 3D trajectory of an unmanned aerial vehicle (UAV)-based portable access point (PAP) that provides wireless services to a set of ground nodes (GNs). Moreover, as per the Peukert effect, we consider pragmatic non-linear battery discharge for the battery of the UAV. Thus, we formulate the problem in a novel manner that represents the maximization of a fairness-based energy efficiency metric and is named fair energy efficiency (FEE). The FEE metric defines a system that lays importance on both the per-user service fairness and the energy efficiency of the PAP. The formulated problem takes the form of a non-convex problem with non-tractable constraints. To obtain a solution, we represent the problem as a Markov Decision Process (MDP) with continuous state and action spaces. Considering the complexity of the solution space, we use the twin delayed deep deterministic policy gradient (TD3) actor-critic deep reinforcement learning (DRL) framework to learn a policy that maximizes the FEE of the system. We perform two types of RL training to exhibit the effectiveness of our approach: the first (offline) approach keeps the positions of the GNs the same throughout the training phase; the second approach generalizes the learned policy to any arrangement of GNs by changing the positions of GNs after each training episode. Numerical evaluations show that neglecting the Peukert effect overestimates the air-time of the PAP and can be addressed by optimally selecting the PAP's flying speed. Moreover, the user fairness, energy efficiency, and hence the FEE value of the system can be improved by efficiently moving the PAP above the GNs. As such, we notice massive FEE improvements over baseline scenarios of up to 88.31%, 272.34%, and 318.13% for suburban, urban, and dense urban environments, respectively.
翻訳日:2022-08-11 12:35:46 公開日:2022-08-10
# EvolveHypergraph:軌道予測のためのグループ対応動的関係推論

EvolveHypergraph: Group-Aware Dynamic Relational Reasoning for Trajectory Prediction ( http://arxiv.org/abs/2208.05470v1 )

ライセンス: Link先を確認
Jiachen Li and Chuanbo Hua and Jinkyoo Park and Hengbo Ma and Victoria Dax and Mykel J. Kochenderfer(参考訳) 対関係のモデリングはマルチエージェント相互作用系で広く研究されているが、より高レベルで大規模なグループ回りの活動を取り込む能力は限られている。 本稿では,動的に発展する関係構造を明示的に推論するグループ対応関係推論手法(evolvehypergraph)を提案する。 一対のノード間(すなわちエージェント)のエッジに加えて、複数のノードを適応的に接続するハイパーエッジを推論し、ハイパーエッジの数を固定することなく、グループ対応のリレーショナル推論を可能にする。 提案手法は、軌道予測器が将来の状態を得るために使用する関係の進化を捉えるために、時間とともに動的に発展する関係グラフとハイパーグラフを推定する。 さらに,推定グラフやハイパーグラフのスムーズさやスムーズさを規則化し,トレーニングの安定性を効果的に向上し,推定関係の説明可能性を高めることを提案する。 提案手法は人工群集シミュレーションと実世界のベンチマークデータセットの両方で検証される。 本手法は,説明可能で合理的なグループ認識関係を推定し,長期的な予測において最先端のパフォーマンスを実現する。

While the modeling of pair-wise relations has been widely studied in multi-agent interacting systems, its ability to capture higher-level and larger-scale group-wise activities is limited. In this paper, we propose a group-aware relational reasoning approach (named EvolveHypergraph) with explicit inference of the underlying dynamically evolving relational structures, and we demonstrate its effectiveness for multi-agent trajectory prediction. In addition to the edges between a pair of nodes (i.e., agents), we propose to infer hyperedges that adaptively connect multiple nodes to enable group-aware relational reasoning in an unsupervised manner without fixing the number of hyperedges. The proposed approach infers the dynamically evolving relation graphs and hypergraphs over time to capture the evolution of relations, which are used by the trajectory predictor to obtain future states. Moreover, we propose to regularize the smoothness of the relation evolution and the sparsity of the inferred graphs or hypergraphs, which effectively improves training stability and enhances the explainability of inferred relations. The proposed approach is validated on both synthetic crowd simulations and multiple real-world benchmark datasets. Our approach infers explainable, reasonable group-aware relations and achieves state-of-the-art performance in long-term prediction.
翻訳日:2022-08-11 12:32:30 公開日:2022-08-10
# ATLAS: メモリ保持のためのユニバーサル関数近似器

ATLAS: Universal Function Approximator for Memory Retention ( http://arxiv.org/abs/2208.05388v1 )

ライセンス: Link先を確認
Heinrich van Deventer, Anna Bosman(参考訳) 人工ニューラルネットワーク(ANN)はその普遍的な機能近似能力と実用的成功にもかかわらず、破滅的な忘れがちである。 破滅的な忘れは、新しいタスクが学習されると、以前のタスクの突然のアンラーニングを指す。 継続的な学習を妨げる創発的な現象である。 ANNの既存の普遍関数近似定理は、関数近似能力を保証するが、破滅的な忘れを予測しない。 本稿では,単変数関数と指数関数のみを用いた多変数関数に対する新しい普遍近似定理を提案する。 さらに,新たな定理に基づく新しいANNアーキテクチャであるATLASを提案する。 アトラスは記憶保持能力と連続学習能力を持つ普遍関数近似器であることが示された。 ATLASの記憶は不完全であり、連続的な学習の間にターゲット外の影響がいくつかある。 ATLASの効率的な実装を提供する。 atlasの関数近似とメモリ保持能力の両方を評価する実験を行った。

Artificial neural networks (ANNs), despite their universal function approximation capability and practical success, are subject to catastrophic forgetting. Catastrophic forgetting refers to the abrupt unlearning of a previous task when a new task is learned. It is an emergent phenomenon that hinders continual learning. Existing universal function approximation theorems for ANNs guarantee function approximation ability, but do not predict catastrophic forgetting. This paper presents a novel universal approximation theorem for multi-variable functions using only single-variable functions and exponential functions. Furthermore, we present ATLAS: a novel ANN architecture based on the new theorem. It is shown that ATLAS is a universal function approximator capable of some memory retention, and continual learning. The memory of ATLAS is imperfect, with some off-target effects during continual learning, but it is well-behaved and predictable. An efficient implementation of ATLAS is provided. Experiments are conducted to evaluate both the function approximation and memory retention capabilities of ATLAS.
翻訳日:2022-08-11 12:32:11 公開日:2022-08-10
# リアルタイム意味セグメンテーションのための解空間正規化を用いた効率的な共同次元探索

Efficient Joint-Dimensional Search with Solution Space Regularization for Real-Time Semantic Segmentation ( http://arxiv.org/abs/2208.05271v1 )

ライセンス: Link先を確認
Peng Ye, Baopu Li, Tao Chen, Jiayuan Fan, Zhen Mei, Chen Lin, Chongyan Zuo, Qinghua Chi, Wanli Ouyan(参考訳) セマンティックセグメンテーション(Semantic segmentation)は、コンピュータビジョンにおいて人気のある研究テーマであり、多くの研究成果が得られた。 本稿では,この問題に対して,リアルタイムに実行可能な最適なネットワーク構造を探索する。 この目的に向けて, 深さ, チャネル, 拡張率, 特徴空間分解能を共同で探索し, 探索空間は約2.78*10^324である。 このような大きな探索空間を扱うために,我々は差分アーキテクチャ探索法を利用する。 しかし、既存の差分法を用いて探索されたアーキテクチャパラメータを離散化する必要があるため、差分法で検出されたアーキテクチャパラメータと、アーキテクチャ探索の最終解として識別されたバージョンとの間の離散化ギャップが生じる。 したがって,解空間正則化のイノベーティブな視点から,離散化ギャップの問題を緩和する。 具体的には、新しい解空間規則化(SSR)損失が最初に提案され、スーパーネットが離散的に収束することを効果的に促す。 そして,新しい階層的・漸進的解空間縮小法を提案し,検索効率をさらに高める。 また,ssr損失の最適化はl_0ノルム正則化と同値であり,探索-評価ギャップが改善されることを理論的に示す。 包括的実験により,提案手法は,モデルサイズ (1 m) の小さいセグメンテーションの高速化 (175 fps) と同等の精度を維持しつつ,最適なネットワーク構造を効率的に見つけることができることを示した。

Semantic segmentation is a popular research topic in computer vision, and many efforts have been made on it with impressive results. In this paper, we intend to search an optimal network structure that can run in real-time for this problem. Towards this goal, we jointly search the depth, channel, dilation rate and feature spatial resolution, which results in a search space consisting of about 2.78*10^324 possible choices. To handle such a large search space, we leverage differential architecture search methods. However, the architecture parameters searched using existing differential methods need to be discretized, which causes the discretization gap between the architecture parameters found by the differential methods and their discretized version as the final solution for the architecture search. Hence, we relieve the problem of discretization gap from the innovative perspective of solution space regularization. Specifically, a novel Solution Space Regularization (SSR) loss is first proposed to effectively encourage the supernet to converge to its discrete one. Then, a new Hierarchical and Progressive Solution Space Shrinking method is presented to further achieve high efficiency of searching. In addition, we theoretically show that the optimization of SSR loss is equivalent to the L_0-norm regularization, which accounts for the improved search-evaluation gap. Comprehensive experiments show that the proposed search scheme can efficiently find an optimal network structure that yields an extremely fast speed (175 FPS) of segmentation with a small model size (1 M) while maintaining comparable accuracy.
翻訳日:2022-08-11 12:31:31 公開日:2022-08-10
# E Pluribus Unum 解釈可能な畳み込みニューラルネットワーク

E Pluribus Unum Interpretable Convolutional Neural Networks ( http://arxiv.org/abs/2208.05369v1 )

ライセンス: Link先を確認
George Dimas, Eirini Cholopoulou and Dimitris K. Iakovidis(参考訳) 高い領域における畳み込みニューラルネットワーク(CNN)モデルの導入は、意思決定における透明性に対する社会の要求を満たすことができないために妨げられている。 今のところ、設計によって解釈可能なcnnモデルを開発するための方法論が増えている。 しかし、そのようなモデルは、有能な性能を維持しつつ、人間の知覚に従って解釈を提供することができない。 本稿では,これらの課題を,E Pluribus Unum Interpretable CNN (EPU-CNN) という,本質的に解釈可能なCNNモデルをインスタンス化する,新しい汎用フレームワークで解決する。 EPU-CNNモデルはCNNサブネットワークで構成され、それぞれが色やテクスチャなどの知覚的特徴を表す入力画像の異なる表現を受信する。 EPU-CNNモデルの出力は、入力画像の異なる領域における知覚的特徴の相対的寄与の観点から、分類予測とその解釈からなる。 EPU-CNNモデルは、様々な公開データセットやコントリビュートベンチマークデータセットで広く評価されている。 医療データセットは、医療におけるリスクに敏感な決定にEPU-CNNが適用可能であることを示すために使用される。 実験結果から,EPU-CNNモデルは他のCNNアーキテクチャと同等あるいは優れた分類性能を達成でき,人間に知覚可能な解釈を提供することができた。

The adoption of Convolutional Neural Network (CNN) models in high-stake domains is hindered by their inability to meet society's demand for transparency in decision-making. So far, a growing number of methodologies have emerged for developing CNN models that are interpretable by design. However, such models are not capable of providing interpretations in accordance with human perception, while maintaining competent performance. In this paper, we tackle these challenges with a novel, general framework for instantiating inherently interpretable CNN models, named E Pluribus Unum Interpretable CNN (EPU-CNN). An EPU-CNN model consists of CNN sub-networks, each of which receives a different representation of an input image expressing a perceptual feature, such as color or texture. The output of an EPU-CNN model consists of the classification prediction and its interpretation, in terms of relative contributions of perceptual features in different regions of the input image. EPU-CNN models have been extensively evaluated on various publicly available datasets, as well as a contributed benchmark dataset. Medical datasets are used to demonstrate the applicability of EPU-CNN for risk-sensitive decisions in medicine. The experimental results indicate that EPU-CNN models can achieve a comparable or better classification performance than other CNN architectures while providing humanly perceivable interpretations.
翻訳日:2022-08-11 12:31:05 公開日:2022-08-10
# Ego4D自然言語クエリに対するアンカーベース検出の探索

Exploring Anchor-based Detection for Ego4D Natural Language Query ( http://arxiv.org/abs/2208.05375v1 )

ライセンス: Link先を確認
Sipeng Zheng, Qi Zhang, Bei Liu, Qin Jin, Jianlong Fu(参考訳) 本稿では, cvpr 2022 における ego4d 自然言語問合せ課題の技術報告を行う。 映像コンテンツの包括的理解の必要性から,自然言語クエリタスクは困難である。 これまでのほとんどの研究は、サードパーティのビューデータセットに基づいてこのタスクに対処するが、エゴ中心のビューには研究の関心がほとんどない。 しかし、これまでの研究は、例えばEgo4Dのようなエゴ中心のビューデータセットにうまく適応できないことに気づきました。 1) Ego4D のほとんどのクエリは、時間持続時間が極端に小さい(例:5秒未満)。 2)Ego4Dのクエリは、時間的順序のより複雑なビデオ理解に直面している。 そこで我々は,これらの課題を解決するために,この課題の解決法を提案する。

In this paper we provide the technique report of Ego4D natural language query challenge in CVPR 2022. Natural language query task is challenging due to the requirement of comprehensive understanding of video contents. Most previous works address this task based on third-person view datasets while few research interest has been placed in the ego-centric view by far. Great progress has been made though, we notice that previous works can not adapt well to ego-centric view datasets e.g., Ego4D mainly because of two reasons: 1) most queries in Ego4D have a excessively small temporal duration (e.g., less than 5 seconds); 2) queries in Ego4D are faced with much more complex video understanding of long-term temporal orders. Considering these, we propose our solution of this challenge to solve the above issues.
翻訳日:2022-08-11 12:30:43 公開日:2022-08-10
# ヘイスタックの針を探す:ニューラルマシン翻訳における幻覚の包括的研究

Looking for a Needle in a Haystack: A Comprehensive Study of Hallucinations in Neural Machine Translation ( http://arxiv.org/abs/2208.05309v1 )

ライセンス: Link先を確認
Nuno M. Guerreiro, Elena Voita, Andr\'e F.T. Martins(参考訳) ニューラルマシン翻訳(nmt)における幻覚の問題は注目されているが、この極めて病的現象の研究には根拠がない。 問題を増幅する人工的な設定をしばしば用い、いくつかの(一般的な)幻覚を無視し、検出ヒューリスティックの妥当性を検証しない。 本稿では,NMT幻覚研究の基礎を定めている。 まず、トレーニングでも推論でも、人工ノイズのないドメイン内データという自然な環境で作業する。 次に、異なる種類の批判的誤りと幻覚を示す3.4k以上の文のデータセットを注釈する。 次に, 従来使用されていた検出手法と再検討手法を両立させ, ガラス箱不確実性検出装置を用いて提案する。 全体としては、予防的設定のためです。 (i) 従来使用されていた手法はほとんど不十分である。 (ii)シーケンスログプロベイラビリティは、参照ベースのメソッドと同等の性能を発揮する。 最後に,テスト時に幻覚を緩和する簡単な方法として,幻覚率を大幅に低減するDeHallucinatorを提案する。 今後の研究を容易にするため、WMT18ドイツ語-英語データの注釈付きデータセットとモデル、トレーニングデータ、コードをリリースする。

Although the problem of hallucinations in neural machine translation (NMT) has received some attention, research on this highly pathological phenomenon lacks solid ground. Previous work has been limited in several ways: it often resorts to artificial settings where the problem is amplified, it disregards some (common) types of hallucinations, and it does not validate adequacy of detection heuristics. In this paper, we set foundations for the study of NMT hallucinations. First, we work in a natural setting, i.e., in-domain data without artificial noise neither in training nor in inference. Next, we annotate a dataset of over 3.4k sentences indicating different kinds of critical errors and hallucinations. Then, we turn to detection methods and both revisit methods used previously and propose using glass-box uncertainty-based detectors. Overall, we show that for preventive settings, (i) previously used methods are largely inadequate, (ii) sequence log-probability works best and performs on par with reference-based methods. Finally, we propose DeHallucinator, a simple method for alleviating hallucinations at test time that significantly reduces the hallucinatory rate. To ease future research, we release our annotated dataset for WMT18 German-English data, along with the model, training data, and code.
翻訳日:2022-08-11 12:30:32 公開日:2022-08-10
# ハイブリッドクライアント選択による高速不均一フェデレーション学習

Fast Heterogeneous Federated Learning with Hybrid Client Selection ( http://arxiv.org/abs/2208.05135v1 )

ライセンス: Link先を確認
Guangyuan Shen, Dehong Gao, DuanXiao Song, libin yang, Xukai Zhou, Shirui Pan, Wei Lou, Fang Zhou(参考訳) 近年のフェデレートラーニング(FL)におけるコミュニケーション効率の問題に対処するために,クライアント選択方式が広く採用されている。 しかし、ランダムに選択された非表現部分集合から集約されたモデル更新の大きなばらつきは、FL収束を直接遅くする。 本稿では,分散削減によるfl収束を加速するクラスタリングに基づく新しいクライアント選択方式を提案する。 単純な効果的なスキームはクラスタリング効果を改善し、効果変動を制御するために設計されており、サンプリングの特定の代表性を持つクライアントサブセットを生成する。 理論的には、分散還元における提案手法の改善を示す。 また,分散低減により,提案手法のより厳密な収束保証を提案する。 実験の結果,提案手法の効率は代替案に比べて高いことがわかった。

Client selection schemes are widely adopted to handle the communication-efficient problems in recent studies of Federated Learning (FL). However, the large variance of the model updates aggregated from the randomly-selected unrepresentative subsets directly slows the FL convergence. We present a novel clustering-based client selection scheme to accelerate the FL convergence by variance reduction. Simple yet effective schemes are designed to improve the clustering effect and control the effect fluctuation, therefore, generating the client subset with certain representativeness of sampling. Theoretically, we demonstrate the improvement of the proposed scheme in variance reduction. We also present the tighter convergence guarantee of the proposed method thanks to the variance reduction. Experimental results confirm the exceed efficiency of our scheme compared to alternatives.
翻訳日:2022-08-11 12:29:30 公開日:2022-08-10
# オフラインデータを用いたロバスト強化学習

Robust Reinforcement Learning using Offline Data ( http://arxiv.org/abs/2208.05129v1 )

ライセンス: Link先を確認
Kishan Panaganti, Zaiyan Xu, Dileep Kalathil, Mohammad Ghavamzadeh(参考訳) 頑健な強化学習(RL)の目的は、モデルパラメータの不確実性に対して堅牢な政策を学ぶことである。 パラメータの不確実性は、シミュレーションモデリングエラー、時間経過に伴う実世界のシステムダイナミクスの変化、および敵対的障害により、多くの実世界のRLアプリケーションでよく起こる。 ロバスト RL は一般に極小問題として定式化され、その目的は不確実集合にある最悪のモデルに対する価値を最大化するポリシーを学ぶことである。 本研究では,ロバストフィットQ-Iteration (RFQI) と呼ばれるロバストなRLアルゴリズムを提案する。 オフラインデータを持つロバストRLは、ロバストなベルマン作用素に存在する全てのモデルの最小化のため、非ロバストなRLよりもはるかに困難である。 これはオフラインデータ収集、モデルに対する最適化、偏りのない推定において課題となる。 本研究では,これらの課題を克服するための体系的アプローチを提案し,rfqiアルゴリズムを提案する。 RFQIは,標準仮定の下でほぼ最適に近いロバストポリシを学習し,標準ベンチマーク問題に対して優れた性能を示す。

The goal of robust reinforcement learning (RL) is to learn a policy that is robust against the uncertainty in model parameters. Parameter uncertainty commonly occurs in many real-world RL applications due to simulator modeling errors, changes in the real-world system dynamics over time, and adversarial disturbances. Robust RL is typically formulated as a max-min problem, where the objective is to learn the policy that maximizes the value against the worst possible models that lie in an uncertainty set. In this work, we propose a robust RL algorithm called Robust Fitted Q-Iteration (RFQI), which uses only an offline dataset to learn the optimal robust policy. Robust RL with offline data is significantly more challenging than its non-robust counterpart because of the minimization over all models present in the robust Bellman operator. This poses challenges in offline data collection, optimization over the models, and unbiased estimation. In this work, we propose a systematic approach to overcome these challenges, resulting in our RFQI algorithm. We prove that RFQI learns a near-optimal robust policy under standard assumptions and demonstrate its superior performance on standard benchmark problems.
翻訳日:2022-08-11 12:26:37 公開日:2022-08-10
# 医用画像による効果的な学習の代替的横断的視覚言語モデルとカリキュラムなしでの報告

Alternating Cross-attention Vision-Language Model for Efficient Learning with Medical Image and Report without Curation ( http://arxiv.org/abs/2208.05140v1 )

ライセンス: Link先を確認
Sangjoon Park, Eun Sun Lee, Jeong Eun Lee, and Jong Chul Ye(参考訳) 視覚言語プレトレーニングの最近の進歩は、様々な視覚言語タスクにおける驚くべきパフォーマンスを示し、人工知能研究における視覚的およびテキスト的概念の包括的理解という長年の問題に光を当てている。 しかし、現在の視覚言語モデルや写真画像やキャプションの学習戦略は、共同視覚言語の概念の学習に支障をきたすような量や多様性に乏しい医療データを処理するのに最適ではないため、医学領域での視覚言語事前学習の適用は限定的に成功している。 本研究では,医療領域における視覚言語事前学習のためのモデルMAX-VLを紹介する。 事前学習したMAX-VLモデルは、様々な視覚言語タスクにおいて、現在の最先端の視覚言語モデルよりも優れていることを実験的に実証した。 また,新たに出現した疾患の診断と人為的エラー検出のための臨床的有用性を提案し,異なるドメインデータにおけるモデルの適用可能性を示した。

Recent advances in vision-language pre-training have demonstrated astounding performances in diverse vision-language tasks, shedding a light on the long-standing problems of a comprehensive understanding of both visual and textual concepts in artificial intelligence research. However, there has been limited success in the application of vision-language pre-training in the medical domain, as the current vision-language models and learning strategies for photographic images and captions are not optimal to process the medical data which are usually insufficient in the amount and the diversity, which impedes successful learning of joint vision-language concepts. In this study, we introduce MAX-VL, a model tailored for efficient vision-language pre-training in the medical domain. We experimentally demonstrated that the pre-trained MAX-VL model outperforms the current state-of-the-art vision language models in various vision-language tasks. We also suggested the clinical utility for the diagnosis of newly emerging diseases and human error detection as well as showed the widespread applicability of the model in different domain data.
翻訳日:2022-08-11 12:26:00 公開日:2022-08-10
# CLEVR-Math: 合成言語、視覚および数学的推論のためのデータセット

CLEVR-Math: A Dataset for Compositional Language, Visual and Mathematical Reasoning ( http://arxiv.org/abs/2208.05358v1 )

ライセンス: Link先を確認
Adam Dahlgren Lindstr\"om, Savitha Sam Abraham(参考訳) 本稿では,追加/減算を含む単純な算術語問題からなる多変量数学語問題データセットであるclevr-mathについて紹介する。 テキストは、画像に描かれたシーンで実行されるアクションを記述する。 提案された問題は、画像中のシーンではなく、アクションが適用される前後のシーンの状態に関するものであるため、解決者はこれらのアクションによる状態変化を想像または想像する。 これらの単語問題を解決するには、言語、視覚、数学的推論の組み合わせが必要である。 我々はCLEVR-Math上での視覚質問応答に最先端のニューラルシンボリックモデルを適用し,その性能を実証的に評価した。 この結果は,どの手法も操作の連鎖に一般化しないことを示す。 マルチモーダル単語問題解決の課題に対処する際の2つの限界について論じる。

We introduce CLEVR-Math, a multi-modal math word problems dataset consisting of simple math word problems involving addition/subtraction, represented partly by a textual description and partly by an image illustrating the scenario. The text describes actions performed on the scene that is depicted in the image. Since the question posed may not be about the scene in the image, but about the state of the scene before or after the actions are applied, the solver envision or imagine the state changes due to these actions. Solving these word problems requires a combination of language, visual and mathematical reasoning. We apply state-of-the-art neural and neuro-symbolic models for visual question answering on CLEVR-Math and empirically evaluate their performances. Our results show how neither method generalise to chains of operations. We discuss the limitations of the two in addressing the task of multi-modal word problem solving.
翻訳日:2022-08-11 12:25:42 公開日:2022-08-10
# 骨格に基づく行動認識のための言語指導訓練

Language Supervised Training for Skeleton-based Action Recognition ( http://arxiv.org/abs/2208.05318v1 )

ライセンス: Link先を確認
Wangmeng Xiang, Chao Li, Yuxuan Zhou, Biao Wang, Lei Zhang(参考訳) スケルトンベースのアクション認識は、その計算効率と照明条件に対する堅牢性に多くの注目を集めている。 既存の骨格に基づく行動認識法は、通常、アクション間の意味的関係を完全に活用することなく、ワンホット分類タスクとして定式化される。 例えば、"make victory sign" と "thumb up" は、手のジェスチャーの2つのアクションであり、その大きな違いは手の動きにある。 この情報はアクションクラスのカテゴリ別の1-hotエンコーディングとは無関係であるが、アクションの言語記述で明らかにすることができる。 したがって、トレーニングにおけるアクション言語記述の利用は、表現学習に役立つ可能性がある。 本研究では,骨格に基づく行動認識のための言語指導訓練(LST)手法を提案する。 具体的には,大規模言語モデルを知識エンジンとして採用し,動作の身体部分の動きのテキスト記述を提供するとともに,テキストエンコーダを用いて様々な身体部分の特徴ベクトルを生成し,動作表現学習のためのスケルトンエンコーダを監督するマルチモーダルトレーニング手法を提案する。 提案手法は,計算コストを増すことなく,様々なベースラインモデルに対して顕著に改善できることを示す。 LSTは、NTU RGB+D、NTU RGB+D 120、NW-UCLAなど、人気のあるスケルトンベースのアクション認識ベンチマークにおいて、新しい最先端技術を実現している。 コードはhttps://github.com/MartinXM/LSTにある。

Skeleton-based action recognition has drawn a lot of attention for its computation efficiency and robustness to lighting conditions. Existing skeleton-based action recognition methods are typically formulated as a one-hot classification task without fully utilizing the semantic relations between actions. For example, "make victory sign" and "thumb up" are two actions of hand gestures, whose major difference lies in the movement of hands. This information is agnostic from the categorical one-hot encoding of action classes but could be unveiled in the language description of actions. Therefore, utilizing action language descriptions in training could potentially benefit representation learning. In this work, we propose a Language Supervised Training (LST) approach for skeleton-based action recognition. More specifically, we employ a large-scale language model as the knowledge engine to provide text descriptions for body parts movements of actions, and propose a multi-modal training scheme by utilizing the text encoder to generate feature vectors for different body parts and supervise the skeleton encoder for action representation learning. Experiments show that our proposed LST method achieves noticeable improvements over various baseline models without extra computation cost at inference. LST achieves new state-of-the-arts on popular skeleton-based action recognition benchmarks, including NTU RGB+D, NTU RGB+D 120 and NW-UCLA. The code can be found at https://github.com/MartinXM/LST.
翻訳日:2022-08-11 12:25:00 公開日:2022-08-10
# 2人混合マルコフゲームを学ぶ:カーネル関数近似と相関平衡

Learning Two-Player Mixture Markov Games: Kernel Function Approximation and Correlated Equilibrium ( http://arxiv.org/abs/2208.05363v1 )

ライセンス: Link先を確認
Chris Junchi Li, Dongruo Zhou, Quanquan Gu, Michael I. Jordan(参考訳) 非線形関数近似を用いた2プレイヤーゼロサムマルコフゲームにおけるナッシュ平衡の学習について検討し、そこでは、アクション値関数を再生ケルネルヒルベルト空間(RKHS)内の関数で近似する。 鍵となる課題は高次元関数空間での探索方法である。 双対性ギャップを最小化することでnash平衡を求める新しいオンライン学習アルゴリズムを提案する。 我々のアルゴリズムの中核は、不確実性に直面した楽観主義の原理に基づいて導出される上下の信頼境界である。 我々のアルゴリズムは、報酬関数とマルコフゲームの基礎となる力学に関する非常に穏やかな仮定の下で、多項式計算の複雑さで$O(\sqrt{T})$後悔を達成できることを示す。 我々はまた,より厳密な後悔境界を達成できるベルンシュタイン型ボーナス付きアルゴリズムや,ニューラル関数近似に適用可能なモデルミス特定のためのアルゴリズムなど,アルゴリズムの拡張についても提案する。

We consider learning Nash equilibria in two-player zero-sum Markov Games with nonlinear function approximation, where the action-value function is approximated by a function in a Reproducing Kernel Hilbert Space (RKHS). The key challenge is how to do exploration in the high-dimensional function space. We propose a novel online learning algorithm to find a Nash equilibrium by minimizing the duality gap. At the core of our algorithms are upper and lower confidence bounds that are derived based on the principle of optimism in the face of uncertainty. We prove that our algorithm is able to attain an $O(\sqrt{T})$ regret with polynomial computational complexity, under very mild assumptions on the reward function and the underlying dynamic of the Markov Games. We also propose several extensions of our algorithm, including an algorithm with Bernstein-type bonus that can achieve a tighter regret bound, and another algorithm for model misspecification that can be applied to neural function approximation.
翻訳日:2022-08-11 12:24:22 公開日:2022-08-10
# イスラム教徒と非暴力的行為を関連づけた大規模言語モデル

Debiased Large Language Models Still Associate Muslims with Uniquely Violent Acts ( http://arxiv.org/abs/2208.04417v2 )

ライセンス: Link先を確認
Babak Hemmatian, Lav R. Varshney(参考訳) 近年の研究では、キリスト教やヒンドゥー教と比較して、イスラム教徒に対して暴力的なテキスト完成を誘発するGPT-3モデルのバイアスが示されている。 2つの事前登録された複製試行は、1つは正確に1つは近似しており、より最近のGPT-3のインストラクトシリーズの最も弱いバイアスしか見つからなかった。 暴力的な完成は殆ど観測されなかった。 しかし、追加の登録済みの実験では、宗教に関連する一般的な名前を使って、暴力的な完成が著しく増加し、ムスリムに対する二階偏見が強まった。 非暴力的なドメインからのムスリムの有名人の名前は比較的暴力的な完成率を低下させ、個人化された情報へのアクセスはステレオタイプの使用からモデルを遠ざけることを示唆している。 それにもかかわらず、コンテンツ分析は、プロンプト形式に関係なく、非常に不快な考えを含む宗教特有の暴力的なテーマを明らかにした。 以上の結果から,高次スキーマやアソシエーションに対応するために,大規模言語モデルのさらなるデバイアスの必要性が示された。

Recent work demonstrates a bias in the GPT-3 model towards generating violent text completions when prompted about Muslims, compared with Christians and Hindus. Two pre-registered replication attempts, one exact and one approximate, found only the weakest bias in the more recent Instruct Series version of GPT-3, fine-tuned to eliminate biased and toxic outputs. Few violent completions were observed. Additional pre-registered experiments, however, showed that using common names associated with the religions in prompts yields a highly significant increase in violent completions, also revealing a stronger second-order bias against Muslims. Names of Muslim celebrities from non-violent domains resulted in relatively fewer violent completions, suggesting that access to individualized information can steer the model away from using stereotypes. Nonetheless, content analysis revealed religion-specific violent themes containing highly offensive ideas regardless of prompt format. Our results show the need for additional debiasing of large language models to address higher-order schemas and associations.
翻訳日:2022-08-11 10:48:33 公開日:2022-08-10
# skdcgn:cgansを用いた相反生成ネットワークのソースフリー知識蒸留

SKDCGN: Source-free Knowledge Distillation of Counterfactual Generative Networks using cGANs ( http://arxiv.org/abs/2208.04226v2 )

ライセンス: Link先を確認
Sameer Ambekar, Ankit Ankit, Diego van der Mast, Mark Alence, Matteo Tafuro, Christos Athanasiadis(参考訳) 適切な帰納バイアスを用いることで、CGN(Counterfactual Generative Networks)は、形状、テクスチャ、背景多様体のランダムな組み合わせから新しい画像を生成することができる。 これらの画像は不変分類器の訓練に利用することができ、意味のあるものよりもスプリアス相関を学ぶディープアーキテクチャの広範な問題を回避することができる。 その結果、ドメイン外ロバスト性が向上する。 しかし、CGNアーキテクチャは、BigGANとU2-Netという複数のパラメータ化されたネットワークで構成されている。 これらのネットワークのトレーニングには、適切なバックグラウンド知識と広範な計算が必要です。 事前訓練されたCGNに埋め込まれた知識は、アーキテクチャのコンポーネントへのブラックボックスアクセス(すなわち、事前訓練されたCGNモデルへのアクセスのみ)を前提として、低容量モデルのトレーニングに使用できますか? そこで本研究では,知識蒸留(KD)を用いて知識伝達を試みるSKDCGNという新しい作品を提案する。 提案アーキテクチャでは,各独立したメカニズム(形状,テクスチャ,背景)を,事前学習した教師「BigGAN」から学習した学生「TinyGAN」で表現する。 KDと適切な損失関数を用いて、ImageNetやMNISTのような最先端のデータセットを用いて提案手法の有効性を示す。 さらに,本論文では,CGNの合成機構に関する詳細な研究を行い,各機構が不変分類器の分類精度にどのように影響するかをよりよく理解する。 コード提供: https://github.com/ambekarsameer96/skdcgn

With the usage of appropriate inductive biases, Counterfactual Generative Networks (CGNs) can generate novel images from random combinations of shape, texture, and background manifolds. These images can be utilized to train an invariant classifier, avoiding the wide spread problem of deep architectures learning spurious correlations rather than meaningful ones. As a consequence, out-of-domain robustness is improved. However, the CGN architecture comprises multiple over parameterized networks, namely BigGAN and U2-Net. Training these networks requires appropriate background knowledge and extensive computation. Since one does not always have access to the precise training details, nor do they always possess the necessary knowledge of counterfactuals, our work addresses the following question: Can we use the knowledge embedded in pre-trained CGNs to train a lower-capacity model, assuming black-box access (i.e., only access to the pretrained CGN model) to the components of the architecture? In this direction, we propose a novel work named SKDCGN that attempts knowledge transfer using Knowledge Distillation (KD). In our proposed architecture, each independent mechanism (shape, texture, background) is represented by a student 'TinyGAN' that learns from the pretrained teacher 'BigGAN'. We demonstrate the efficacy of the proposed method using state-of-the-art datasets such as ImageNet, and MNIST by using KD and appropriate loss functions. Moreover, as an additional contribution, our paper conducts a thorough study on the composition mechanism of the CGNs, to gain a better understanding of how each mechanism influences the classification accuracy of an invariant classifier. Code available at: https://github.com/ambekarsameer96/SKDCGN
翻訳日:2022-08-11 10:48:16 公開日:2022-08-10
# リモートセンシング基礎モデルへのプレーンビジョントランスフォーマーの進歩

Advancing Plain Vision Transformer Towards Remote Sensing Foundation Model ( http://arxiv.org/abs/2208.03987v2 )

ライセンス: Link先を確認
Di Wang, Qiming Zhang, Yufei Xu, Jing Zhang, Bo Du, Dacheng Tao and Liangpei Zhang(参考訳) 大規模な視覚基礎モデルでは、視覚変換器が優れたスケーラビリティと表現能力の主要な選択肢である自然画像の視覚タスクが大幅に進歩している。 しかしながら、リモートセンシング(rs)コミュニティにおける大規模モデルの利用は、既存のモデルがまだ小規模で、パフォーマンスが制限されるような、未検討のままである。 本稿では,約1億パラメータのプレーンビジョントランスフォーマを使用して,rsタスク用にカスタマイズされた大型ビジョンモデルの提案と,そのような大規模モデルの実行方法について検討する。 具体的には,rs画像における様々な方向のオブジェクトと大きな画像サイズを扱うために,トランスフォーマの本来の注意を置き換えるために,回転する可変サイズのウィンドウアテンションを提案し,生成した多様ウィンドウからリッチなコンテキストを抽出することで,計算コストとメモリフットプリントを大幅に削減する。 検出タスクの実験は、dota-v1.0データセット上で81.16%のマップを達成し、最先端モデルよりも優れたモデルを示している。 下流分類およびセグメント化タスクにおける本モデルの結果は,既存の高度な手法と比較して,競合性能を示す。 さらに,計算複雑性と数発学習におけるモデルの利点を示す実験を行った。

Large-scale vision foundation models have made significant progress in visual tasks on natural images, where the vision transformers are the primary choice for their good scalability and representation ability. However, the utilization of large models in the remote sensing (RS) community remains under-explored where existing models are still at small-scale, which limits the performance. In this paper, we resort to plain vision transformers with about 100 million parameters and make the first attempt to propose large vision models customized for RS tasks and explore how such large models perform. Specifically, to handle the large image size and objects of various orientations in RS images, we propose a new rotated varied-size window attention to substitute the original full attention in transformers, which could significantly reduce the computational cost and memory footprint while learn better object representation by extracting rich context from the generated diverse windows. Experiments on detection tasks demonstrate the superiority of our model over all state-of-the-art models, achieving 81.16% mAP on the DOTA-V1.0 dataset. The results of our models on downstream classification and segmentation tasks also demonstrate competitive performance compared with the existing advanced methods. Further experiments show the advantages of our models on computational complexity and few-shot learning.
翻訳日:2022-08-11 10:47:50 公開日:2022-08-10
# CLIPガイド付きグループ最適化による識別画像のキャプション

Distincive Image Captioning via CLIP Guided Group Optimization ( http://arxiv.org/abs/2208.04254v2 )

ライセンス: Link先を確認
Youyuan Zhang, Jiuniu Wang, Hao Wu, Wenjia Xu(参考訳) 画像キャプションモデルは通常、人間の注釈付き接地木キャプションに基づいて訓練され、正確だが汎用的なキャプションを生成する。 本稿では,対象画像を他の類似画像と区別できる特徴的なキャプションを生成することに焦点を当てる。 キャプションの特異性を評価するために,大規模視覚言語事前学習モデルCLIPを用いて特徴度を定量化する一連の指標を提案する。 キャプションモデルの特異性をさらに向上するため,ターゲット画像と類似画像群を比較し,グループ埋め込みギャップを最適化することにより,モデルのトレーニングを行う簡易かつ効果的なトレーニング戦略を提案する。 様々なベースラインモデルを用いて,我々の戦略の広範な適用性,および測定結果と人的評価との整合性を示す実験を行った。 我々の最良のモデルのパフォーマンスを既存の最先端モデルと比較することで、我々のモデルは識別性目標に向けて新しい最先端モデルを達成していると主張する。

Image captioning models are usually trained according to human annotated ground-truth captions, which could generate accurate but generic captions. In this paper, we focus on generating the distinctive captions that can distinguish the target image from other similar images. To evaluate the distinctiveness of captions, we introduce a series of metrics that use large-scale vision-language pre-training model CLIP to quantify the distinctiveness. To further improve the distinctiveness of captioning models, we propose a simple and effective training strategy which trains the model by comparing target image with similar image group and optimizing the group embedding gap. Extensive experiments are conducted on various baseline models to demonstrate the wide applicability of our strategy and the consistency of metric results with human evaluation. By comparing the performance of our best model with existing state-of-the-art models, we claim that our model achieves new state-of-the-art towards distinctiveness objective.
翻訳日:2022-08-11 10:47:29 公開日:2022-08-10
# 変圧器の視線:エゴセントリックな視線推定のための大域的局所相関

In the Eye of Transformer: Global-Local Correlation for Egocentric Gaze Estimation ( http://arxiv.org/abs/2208.04464v2 )

ライセンス: Link先を確認
Bolin Lai, Miao Liu, Fiona Ryan, James M. Rehg(参考訳) 本稿では,エゴセントリックな視線推定の課題に対処するために,最初のトランスベースモデルを提案する。 エゴセントリックビデオフレームからの視線固定の局所化には,グローバルシーンコンテキストと局所視覚情報の関係が不可欠であると考えられる。 この目的のために,グローバルコンテクストを1つのビジュアルトークンとして組み込むトランスフォーマーエンコーダを設計し,グローバルトークンと各ローカルトークンの相関を明示的にモデル化する新しいグローバルローカル相関(GLC)モジュールを提案する。 egtea gaze+ と ego4d という2つのエゴセントリックなビデオデータセットでモデルを検証する。 詳細なアブレーション研究は,本手法の利点を実証するものである。 さらに、我々のアプローチは過去の最先端をはるかに上回っている。 また,エゴセントリックビデオから視線固定を予測するための重要な指標として,グローバルな局所的相関が重要であるという主張を支援するための可視化も提供する。 詳細は私たちのWebサイト(https://bolinlai.github.io/GLC-EgoGazeEst)で確認できます。

In this paper, we present the first transformer-based model to address the challenging problem of egocentric gaze estimation. We observe that the connection between the global scene context and local visual information is vital for localizing the gaze fixation from egocentric video frames. To this end, we design the transformer encoder to embed the global context as one additional visual token and further propose a novel Global-Local Correlation (GLC) module to explicitly model the correlation of the global token and each local token. We validate our model on two egocentric video datasets - EGTEA Gaze+ and Ego4D. Our detailed ablation studies demonstrate the benefits of our method. In addition, our approach exceeds previous state-of-the-arts by a large margin. We also provide additional visualizations to support our claim that global-local correlation serves a key representation for predicting gaze fixation from egocentric videos. More details can be found in our website (https://bolinlai.github.io/GLC-EgoGazeEst).
翻訳日:2022-08-11 10:47:11 公開日:2022-08-10
# ウェーブレットに基づく正規化流を伴う黒色腫の効率的な分布外検出

Efficient Out-of-Distribution Detection of Melanoma with Wavelet-based Normalizing Flows ( http://arxiv.org/abs/2208.04639v2 )

ライセンス: Link先を確認
M.M. Amaan Valiuddin, Christiaan G.A. Viviers, Ruud J.G. van Sloun, Peter H.N. de With and Fons van der Sommen(参考訳) メラノーマは皮膚がんの重篤な形態であり、後期に死亡率が高い。 早期発見時には悪性黒色腫の予後が良好であり,悪性黒色腫の発生率も比較的低い。 その結果、データセットは極めて不均衡であり、最先端の教師付きAIモデルのトレーニングが複雑になる。 本稿では, 生成モデルを用いて良性データ分布を学習し, 密度推定による悪性画像の検出を提案する。 正規化フロー(英: normalizing flow, nfs)は、正確な可能性を計算する能力があるため、ood検出の理想的な候補である。 それでも、意味的文脈よりも視覚的特徴に対する帰納的バイアスは、正確なOOD検出を妨げる。 本研究ではメラノーマの領域レベルの知識を用いてこれらのバイアスを用いて悪性画像のOOD検出の可能性を改善することを目的とする。 NFsを用いた悪性黒色腫のOOD検出の可能性を示した。 我々はwaveletベースのnfsを用いて受信機動作特性の曲線下領域を9%増加させる。 このモデルは、エッジデバイスにもっと適用できるように、推論のパラメータを著しく少なくする。 提案手法は,皮膚がん患者の診断に役立ち,生存率を継続的に向上させる。 さらに本研究は、同様のデータ不均衡問題を持つ腫瘍学の他の分野への道を開くものである。

Melanoma is a serious form of skin cancer with high mortality rate at later stages. Fortunately, when detected early, the prognosis of melanoma is promising and malignant melanoma incidence rates are relatively low. As a result, datasets are heavily imbalanced which complicates training current state-of-the-art supervised classification AI models. We propose to use generative models to learn the benign data distribution and detect Out-of-Distribution (OOD) malignant images through density estimation. Normalizing Flows (NFs) are ideal candidates for OOD detection due to their ability to compute exact likelihoods. Nevertheless, their inductive biases towards apparent graphical features rather than semantic context hamper accurate OOD detection. In this work, we aim at using these biases with domain-level knowledge of melanoma, to improve likelihood-based OOD detection of malignant images. Our encouraging results demonstrate potential for OOD detection of melanoma using NFs. We achieve a 9% increase in Area Under Curve of the Receiver Operating Characteristics by using wavelet-based NFs. This model requires significantly less parameters for inference making it more applicable on edge devices. The proposed methodology can aid medical experts with diagnosis of skin-cancer patients and continuously increase survival rates. Furthermore, this research paves the way for other areas in oncology with similar data imbalance issues.
翻訳日:2022-08-11 10:46:55 公開日:2022-08-10
# ブラフ体まわりの流れの大規模渦シミュレーションのための深層学習閉鎖モデル

Deep Learning Closure Models for Large-Eddy Simulation of Flows around Bluff Bodies ( http://arxiv.org/abs/2208.03498v2 )

ライセンス: Link先を確認
Justin Sirignano and Jonathan F. MacArt(参考訳) 大渦シミュレーション(LES)のための深層学習(DL)クロージャモデルを開発し,適度なレイノルズ数で矩形円筒まわりの非圧縮性流れについて評価した。 壁近傍流れのシミュレーションは空力モデリングの中心的な課題であり、分離された流れの予測はしばしば不正確であり、lesは制限的に小さい壁近傍のメッシュサイズを必要とする。 dl-lesモデルは随伴pde最適化法を用いて訓練され、可能な限り直接数値シミュレーション(dns)データにマッチする。 その後、トレーニングデータに含まれない新しいアスペクト比とレイノルズ数について、サンプル外評価を行い、標準のLESモデル(動的スマゴリンスキーモデル)と比較する。 DL-LESモデルは動的Smagorinskyよりも優れており、比較的粗いメッシュ上で正確なLES予測を達成することができる(各カルテシャン方向の4倍の因子でDNSグリッドからダウンサンプリングされる)。 抵抗係数,平均流れ,レイノルズ応力を予測するためのdl-lesモデルの精度について検討した。 例えば、時間平均平均平均速度 $\bar{u}(x) = \displaystyle \lim_{t \rightarrow \infty} \frac{1}{t} \int_0^t u(s,x) ds$ である。 したがって、定常流統計を計算するためには、DL-LES方程式をドメイン内の多数のフロー時間でシミュレートする必要がある; 関数型が深いニューラルネットワークによって定義される非定常な偏微分方程式モデルが$t \in [0, \infty)$で安定かつ正確であるかどうかという、非自明な問題である。 その結果,dl-lesモデルは大きな物理時間にわたって正確で安定であり,空力的応用に関連するブラフ体まわりの乱流の流速,ゆらぎ,抗力係数の定常統計量の推定が可能となった。

A deep learning (DL) closure model for large-eddy simulation (LES) is developed and evaluated for incompressible flows around a rectangular cylinder at moderate Reynolds numbers. Near-wall flow simulation remains a central challenge in aerodynamic modeling: RANS predictions of separated flows are often inaccurate, while LES can require prohibitively small near-wall mesh sizes. The DL-LES model is trained using adjoint PDE optimization methods to match, as closely as possible, direct numerical simulation (DNS) data. It is then evaluated out-of-sample (i.e., for new aspect ratios and Reynolds numbers not included in the training data) and compared against a standard LES model (the dynamic Smagorinsky model). The DL-LES model outperforms dynamic Smagorinsky and is able to achieve accurate LES predictions on a relatively coarse mesh (downsampled from the DNS grid by a factor of four in each Cartesian direction). We study the accuracy of the DL-LES model for predicting the drag coefficient, mean flow, and Reynolds stress. A crucial challenge is that the LES quantities of interest are the steady-state flow statistics; for example, the time-averaged mean velocity $\bar{u}(x) = \displaystyle \lim_{t \rightarrow \infty} \frac{1}{t} \int_0^t u(s,x) ds$. Calculating the steady-state flow statistics therefore requires simulating the DL-LES equations over a large number of flow times through the domain; it is a non-trivial question whether an unsteady partial differential equation model whose functional form is defined by a deep neural network can remain stable and accurate on $t \in [0, \infty)$. Our results demonstrate that the DL-LES model is accurate and stable over large physical time spans, enabling the estimation of the steady-state statistics for the velocity, fluctuations, and drag coefficient of turbulent flows around bluff bodies relevant to aerodynamic applications.
翻訳日:2022-08-11 10:46:36 公開日:2022-08-10
# 感情に影響を及ぼすオープンドメインチャットボット開発のためのポジティブな感情対話コーパス

Positively transitioned sentiment dialogue corpus for developing emotion-affective open-domain chatbots ( http://arxiv.org/abs/2208.04565v2 )

ライセンス: Link先を確認
Weixuan Wang, Wei Peng, Chong Hsuan Huang, Haoran Wang(参考訳) 本稿では,感情に敏感なオープンドメインチャットボットであるemilyを開発するためのデータ拡張手法について述べる。 提案手法は,マルチターン対話からのポジティブ遷移(pt)感情データを明示的にモデル化することに基づいている。 PT感情データを用いた対話コーパスを構築し,公開のために公開する。 PT強調対話を用いて事前学習した対話モデルを微調整することにより,感情影響のあるオープンドメインチャットボットの開発が可能となる。 我々は,いくつかの最先端(SOTA)オープンドメインチャットボットに対してエミリーを評価し,提案手法の有効性を示す。 コーパスは公開されています。

In this paper, we describe a data enhancement method for developing Emily, an emotion-affective open-domain chatbot. The proposed method is based on explicitly modeling positively transitioned (PT) sentiment data from multi-turn dialogues. We construct a dialogue corpus with PT sentiment data and will release it for public use. By fine-tuning a pretrained dialogue model using the produced PT-enhanced dialogues, we are able to develop an emotion-affective open-domain chatbot exhibiting close-to-human performance in various emotion-affective metrics. We evaluate Emily against a few state-of-the-art (SOTA) open-domain chatbots and show the effectiveness of the proposed approach. The corpus is made publicly available.
翻訳日:2022-08-11 09:11:52 公開日:2022-08-10
# レコメンダシステムにおける長期ユーザ満足のための強化学習によるマルチタスクフュージョン

Multi-Task Fusion via Reinforcement Learning for Long-Term User Satisfaction in Recommender Systems ( http://arxiv.org/abs/2208.04560v2 )

ライセンス: Link先を確認
Qihua Zhang, Junning Liu, Yuzhuo Dai, Yiyan Qi, Yifan Yuan, Kunlun Zheng, Fan Huang, Xianfeng Tan(参考訳) recommender system(rs)は、毎日数十億のユーザーに影響を与える重要なオンラインアプリケーションである。 メインストリームのRSランキングフレームワークは、様々なユーザフィードバックを予測するMTL(Multi-Task Learning Model)と、マルチタスク出力をユーザ満足度に関する最終的なランキングスコアに組み合わせたMTF(Multi-Task Fusion Model)の2つの部分で構成されている。 融合モデルに関する多くの研究は行われていないが、最終勧告はランキングの最終決定的なプロセスとして大きな影響を与えている。 本稿では,MTFタスクを推薦セッションにおいてマルコフ決定プロセス(MDP)として定式化し,バッチRLフレームワークとオンライン探索を含むバッチ強化学習(RL)ベースのマルチタスクフュージョンフレームワーク(BatchRL-MTF)を提案する。 前者はBatch RLを利用して、長期ユーザー満足のためにオフラインで固定バッチデータから最適なレコメンデーションポリシーを学習し、後者はオンラインの高価値アクションを探索して、ローカルの最適ジレンマを突破する。 ユーザの行動に関する包括的調査により,ユーザ定着性とユーザ活動性の2つの側面から,ユーザ満足度報酬を微妙なヒューリスティックでモデル化する。 最後に、モデルの有効性を示すために、数十億サンプルレベルの実世界のデータセットを広範囲に実験する。 オフラインでモデルをテストするための保守的オフラインポリシー推定器(Conservative-OPEstimator)を提案する。 さらに,異なるモデルの性能を比較するために,オンライン実験を実際のレコメンデーション環境で実施する。 MTFタスクに適用された数少ないバッチRL研究の1つとして、当社のモデルは大規模産業用ショートビデオプラットフォームにもデプロイされ、数億人のユーザにサービスを提供しています。

Recommender System (RS) is an important online application that affects billions of users every day. The mainstream RS ranking framework is composed of two parts: a Multi-Task Learning model (MTL) that predicts various user feedback, i.e., clicks, likes, sharings, and a Multi-Task Fusion model (MTF) that combines the multi-task outputs into one final ranking score with respect to user satisfaction. There has not been much research on the fusion model while it has great impact on the final recommendation as the last crucial process of the ranking. To optimize long-term user satisfaction rather than obtain instant returns greedily, we formulate MTF task as Markov Decision Process (MDP) within a recommendation session and propose a Batch Reinforcement Learning (RL) based Multi-Task Fusion framework (BatchRL-MTF) that includes a Batch RL framework and an online exploration. The former exploits Batch RL to learn an optimal recommendation policy from the fixed batch data offline for long-term user satisfaction, while the latter explores potential high-value actions online to break through the local optimal dilemma. With a comprehensive investigation on user behaviors, we model the user satisfaction reward with subtle heuristics from two aspects of user stickiness and user activeness. Finally, we conduct extensive experiments on a billion-sample level real-world dataset to show the effectiveness of our model. We propose a conservative offline policy estimator (Conservative-OPEstimator) to test our model offline. Furthermore, we take online experiments in a real recommendation environment to compare performance of different models. As one of few Batch RL researches applied in MTF task successfully, our model has also been deployed on a large-scale industrial short video platform, serving hundreds of millions of users.
翻訳日:2022-08-11 09:11:39 公開日:2022-08-10
# 大規模コンテキストを用いたCTA画像からのキドニー多構造セグメンテーション

Using Large Context for Kidney Multi-Structure Segmentation from CTA Images ( http://arxiv.org/abs/2208.04525v2 )

ライセンス: Link先を確認
Weiwei Cao and Yuzhu Cao(参考訳) 手術ベースの腎癌治療(腹腔鏡下部分腎摘出術など)において, 3D CTAからの多施設(腎臓, 腎房, 動脈, 静脈など)の正確な自動分割が最も重要な課題である。 本稿は,MICCAI 2022 KIPA チャレンジにおける多構造セグメンテーション法の主な技術について概説する。 本論文の主な貢献は,大容量のコンテキスト情報処理機能を備えた3次元UNetを設計することである。 本手法は,MICCAI 2022 KIPA Chal-lengeオープンテストデータセットで8位,平均8.2。 私たちのコードとトレーニングされたモデルは、https://github.com/fengjiejiejiejie/kipa22_nnunetで公開されている。

Accurate and automated segmentation of multi-structure (i.e., kidneys, renal tu-mors, arteries, and veins) from 3D CTA is one of the most important tasks for surgery-based renal cancer treatment (e.g., laparoscopic partial nephrectomy). This paper briefly presents the main technique details of the multi-structure seg-mentation method in MICCAI 2022 KIPA challenge. The main contribution of this paper is that we design the 3D UNet with the large context information cap-turing capability. Our method ranked eighth on the MICCAI 2022 KIPA chal-lenge open testing dataset with a mean position of 8.2. Our code and trained models are publicly available at https://github.com/fengjiejiejiejie/kipa22_nnunet.
翻訳日:2022-08-11 09:11:07 公開日:2022-08-10
# 深部ニューラルネットワークを用いた多重画像に基づく反射除去アルゴリズムの改良

Improved Multiple-Image-Based Reflection Removal Algorithm Using Deep Neural Networks ( http://arxiv.org/abs/2208.04679v2 )

ライセンス: Link先を確認
Tingtian Li, Yuk-Hee Chan, Daniel P. K. Lun(参考訳) ガラスのような半反射媒質を通して撮影する場合、キャプチャー画像には別のシーンの反射がしばしば見られる。 画像の品質を劣化させ、その後の分析に影響を及ぼす。 本稿では,イメージングにおける反射問題を解くための新しいディープニューラルネットワーク手法を提案する。 従来のリフレクション除去法は、異なる最適化関数を解くのに長い計算時間を必要とするだけでなく、その性能も保証されない。 近年の撮像装置ではアレイカメラが容易に利用できるようになったため、まず畳み込みニューラルネットワーク(CNN)を用いた多重画像に基づく深度推定法を提案する。 提案するネットワークは、画像の反射による深度あいまいさの問題を避け、画像エッジに沿った深度を直接推定する。 その後、エッジを背景やリフレクションに属するものと分類するために使用される。 類似した深さ値のエッジは分類においてエラーを起こしやすいため、反射除去プロセスから除去される。 削除した背景エッジを再生するためにGAN(Generative Adversarial Network)を提案する。 最後に、推定された背景エッジマップを別のオートエンコーダネットワークに供給し、元の画像からの背景抽出を支援する。 実験の結果,提案手法は最先端手法と比較して定量的,質的にも優れた性能が得られることがわかった。 また,提案アルゴリズムは従来の最適化手法よりも高速であることを示す。

When imaging through a semi-reflective medium such as glass, the reflection of another scene can often be found in the captured images. It degrades the quality of the images and affects their subsequent analyses. In this paper, a novel deep neural network approach for solving the reflection problem in imaging is presented. Traditional reflection removal methods not only require long computation time for solving different optimization functions, their performance is also not guaranteed. As array cameras are readily available in nowadays imaging devices, we first suggest in this paper a multiple-image based depth estimation method using a convolutional neural network (CNN). The proposed network avoids the depth ambiguity problem due to the reflection in the image, and directly estimates the depths along the image edges. They are then used to classify the edges as belonging to the background or reflection. Since edges having similar depth values are error prone in the classification, they are removed from the reflection removal process. We suggest a generative adversarial network (GAN) to regenerate the removed background edges. Finally, the estimated background edge map is fed to another auto-encoder network to assist the extraction of the background from the original image. Experimental results show that the proposed reflection removal algorithm achieves superior performance both quantitatively and qualitatively as compared to the state-of-the-art methods. The proposed algorithm also shows much faster speed compared to the existing approaches using the traditional optimization methods.
翻訳日:2022-08-11 09:10:52 公開日:2022-08-10