このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221028となっている論文です。

PDF登録状況(公開日: 20221028)

TitleAuthorsAbstract論文公表日・翻訳日
# 多角光子状態量子照明による平均2乗距離遅延精度の向上

Enhancement in the mean square range delay accuracy by means of multiple entangled photon states quantum illumination ( http://arxiv.org/abs/2208.04691v2 )

ライセンス: Link先を確認
Ricardo Gallego Torrom\'e(参考訳) 近年、現在のレーダシステムと互換性のあるSNR領域で発生する平均値範囲遅延[1]の増加に量子照明がどのように用いられるかが議論されている。 しかし、実際的な応用の側面から [1] で説明されている利点は、統合時間が大きいことである。 このレターでは、複数の絡み合った光子量子照明が、距離遅延を評価する際の積分時間を短縮することを示す。 容易性のために、解析は3つの絡み合った光子状態の離散量子照明モデルの設定で伝達されるが、この結果は量子照明連続プロトコルに拡張できると論じられている。

Recently it has been discussed how quantum illumination can be used to increase the mean value range delay [1], that happens in the domain of SNR compatible with current radar systems. However, from side of practical applications, the advantage described in [1] requires of a large integration time. In this letter it is shown how multiple entangled photon quantum illumination helps to reduce the integration time when evaluating range delay. For easiness, the analysis is conveyed in the setting of three entangled photon states discrete quantum illumination models, but it is argued that our result can be extended to quantum illumination continuous protocols.
翻訳日:2023-02-02 23:49:37 公開日:2022-10-28
# 超伝導量子プロセッサ上のスルホニウムカチオンの基底および励起状態特性の量子化学シミュレーション

Quantum chemistry simulation of ground- and excited-state properties of the sulfonium cation on a superconducting quantum processor ( http://arxiv.org/abs/2208.02414v2 )

ライセンス: Link先を確認
Mario Motta, Gavin O. Jones, Julia E. Rice, Tanvi P. Gujarati, Rei Sakuma, Ieva Liepuoniute, Jeannette M. Garcia and Yu-ya Ohnishi(参考訳) 相関電子構造の計算的記述、特に多電子系の励起状態は、期待されている量子デバイスへの応用である。 重要な分岐は、光リソグラフィで使用されるスルホニウム系光酸発生器のような感光性化合物の光解離実験において支配的な分子断片化経路を決定することである。 ここでは、H$_3$S$^+$分子の静的および動的電子構造を、IBM Falconアーキテクチャの超伝導量子プロセッサ上で三重結合された硫黄カチオンの最小モデルとしてシミュレートする。 この目的のために, エンタングルメント鍛造 (entanglement forging, ef) または ef (a. eddins et al., phys. rev. x quantum, 2022, 3, 010309]) と呼ばれる, 現在, 基底状態エネルギーの評価に制限された量子ビット低減手法を分子特性の処理に一般化する。 従来の量子シミュレーションでは qubit はスピン軌道を表すが、ef a qubit は空間軌道を表し、必要な qubit の数を半分に減らす。 一般化されたef と量子部分空間展開 [w. colless et al, phys. rev. x, 2018, 8, 011021] を組み合わせることで、時間に依存しないシュロディンガー方程式を部分空間内の基底状態と励起状態に対して投影する。 このアルゴリズムワークフローを実験的に実証するために,エラー緩和手法のシーケンスをデプロイする。 基底および励起状態ポテンシャルエネルギー曲線に沿った双極子構造因子と部分原子電荷を計算し、ホモ・ヘテロ分解フラグメントの発生を明らかにした。 本研究は、近距離量子デバイスにおける光解離の計算的記述への重要な一歩であり、他の光解離プロセスに一般化でき、より現実的なシミュレーションを実現するために自然に異なる方法で拡張することができる。

The computational description of correlated electronic structure, and particularly of excited states of many-electron systems, is an anticipated application for quantum devices. An important ramification is to determine the dominant molecular fragmentation pathways in photo-dissociation experiments of light-sensitive compounds, like sulfonium-based photo-acid generators used in photolithography. Here we simulate the static and dynamical electronic structure of the H$_3$S$^+$ molecule, taken as a minimal model of a triply-bonded sulfur cation, on a superconducting quantum processor of the IBM Falcon architecture. To this end, we generalize a qubit reduction technique termed entanglement forging or EF [A. Eddins et al., Phys. Rev. X Quantum, 2022, 3, 010309], currently restricted to the evaluation of ground-state energies, to the treatment of molecular properties. While in a conventional quantum simulation a qubit represents a spin-orbital, within EF a qubit represents a spatial orbital, reducing the number of required qubits by half. We combine the generalized EF with quantum subspace expansion [W. Colless et al, Phys. Rev. X, 2018, 8, 011021], a technique used to project the time-independent Schrodinger equation for ground and excited states in a subspace. To enable experimental demonstration of this algorithmic workflow, we deploy a sequence of error-mitigation techniques. We compute dipole structure factors and partial atomic charges along the ground- and excited-state potential energy curves, revealing the occurrence of homo- and heterolytic fragmentation. This study is an important step towards the computational description of photo-dissociation on near-term quantum devices, as it can be generalized to other photodissociation processes and naturally extended in different ways to achieve more realistic simulations.
翻訳日:2023-02-02 07:30:29 公開日:2022-10-28
# 反対称ラビ分光法によるロバスト相互作用強化センシング

Robust Interaction-Enhanced Sensing via Antisymmetric Rabi Spectroscopy ( http://arxiv.org/abs/2208.03179v2 )

ライセンス: Link先を確認
Jiahao Huang, Sijie Chen, Min Zhuang, Chaohong Lee(参考訳) 周波数推定の必須ツールである原子スペクトロスコピーは、量子センシングで広く使われている。 原子-原子相互作用は量子強化センシングを達成するために絡み合いを生成するのに使うことができる。 しかし、原子と原子の相互作用は常に衝突シフトを引き起こし、共鳴周波数の決定に系統的な誤差をもたらす。 原子-原子相互作用の利用と衝突シフトの抑制の対比は一般に原子分光法に存在する。 本稿では,原子-原子相互作用の存在下での衝突シフトのない反対称ラビ分光プロトコルを提案する。 反対称点が共鳴周波数の決定に利用できることを解析的に見出した。 小さなラビ周波数の場合、原子-原子間相互作用の少ない反対称ラビ分光法は従来のラビ分光法よりも測定精度が良い。 強い原子-原子相互作用とラビ周波数により、スペクトル分解能は劇的に改善され、測定精度は標準量子限界を破ることもある。 さらに、スピンスクイーズによる量子エンハンスドラムゼー干渉法とは異なり、検出ノイズに対してロバストである。 我々の反対称ラビ分光プロトコルは、原子時計や原子磁気センサのような様々な実用的な量子センサーに有望な応用がある。

Atomic spectroscopy, an essential tool for frequency estimation, is widely used in quantum sensing. Atom-atom interaction can be used to generate entanglement for achieving quantum enhanced sensing. However, atom-atom interaction always induces collision shift, which brings systematic error in determining the resonance frequency. Contradiction between utilizing atom-atom interaction and suppressing collision shift generally exists in atomic spectroscopy. Here, we propose an antisymmetric Rabi spectroscopy protocol without collision shift in the presence of atom-atom interactions. We analytically find that the antisymmetric point can be used for determining the resonance frequency. For small Rabi frequency, our antisymmetric Rabi spectroscopy with slight atom-atom interaction can provide better measurement precision than the conventional Rabi spectroscopy. With stronger atom-atom interaction and Rabi frequency, the spectrum resolution can be dramatically improved and the measurement precision may even beat the standard quantum limit. Moreover, unlike the quantum-enhanced Ramsey interferometry via spin squeezing, our scheme is robust against detection noises. Our antisymmetric Rabi spectroscopy protocol has promising applications in various practical quantum sensors such as atomic clocks and atomic magnetometers.
翻訳日:2023-02-02 04:45:59 公開日:2022-10-28
# 古典多体系における局所熱状態の制御

Controlling local thermal states in classical many-body systems ( http://arxiv.org/abs/2208.09185v2 )

ライセンス: Link先を確認
Philippe Ben-Abdallah, Alejandro W. Rodriguez(参考訳) 多体系の熱化の過程は、サブシステムと周囲の環境との複雑な相互作用によって引き起こされる。 ここでは,任意の非相反系における局所熱状態の能動制御の理論的基礎を平衡状態に近いものに配置する。 特に我々はどうしたらいいのかを述べる。 (i)緩和過程(すなわち、熱ターゲティングプローブ)中の所定の法則に従って、系の一部が進化することを強制する。 二 システムの他の部分から一部の要素を絶縁する、又は (iii)緩和過程の間、その進化を同期させる。 また, 最小エネルギーコストで極小温度に緩和するか, 最小時間で所定の温度に緩和するか, システムが満たさなければならない一般的な条件を導出する。 最後に, 熱交換系における代表例について考察する。

The process of thermalization in many-body systems is driven by complex interactions among sub-systems and with the surrounding environment. Here we lay the theoretical foundations for the active control of local thermal states in arbitrary non-reciprocal systems close to their equilibrium state. In particular we describe how to (i) force some part of the system to evolve according to a prescribed law during the relaxation process (i.e. thermal targeting probem), (ii) insulate some elements from the rest of the system or (iii) synchronize their evolution during the relaxation process. We also derive the general conditions a system must fulfill in order that some parts relax toward a minimal temperature with a minimum energetic cost or relax toward a prescribed temperature with a minimum time. Finally, we consider several representative examples in the context of systems exchanging heat radiatively.
翻訳日:2023-01-30 12:17:27 公開日:2022-10-28
# 大型量子バッテリチャージャーモデルにおけるエネルギーと電力のスケーリング

Scaling of energy and power in a large quantum battery-charger model ( http://arxiv.org/abs/2208.10190v4 )

ライセンス: Link先を確認
Lei Gao, Chen Cheng, Wen-Bin He, Rubem Mondaini, Xi-Wen Guan and Hai-Qing Lin(参考訳) 超伝導量子ビットチップ上でのエミュレーションに焦点をあてたマルチキュービット量子バッテリ充電モデルについて検討する。 大きなスピン表現を用いて、まず、低エネルギー近似における反強磁性ホルスタイン・プリマコフ(afm-hp)変換を用いて、エネルギー $e_b(t)$,パワー $p_b(t)$ と、バッテリ部分の最大値 $e_b^{\rm max}$, $p_b^{\rm max}$ の解析形式を得る。 この場合、この結果は、$P_B^{\rm max}$ ensuesの超過大なスケーリング挙動を示す。 さらに、これらを精密対角化(ed)により得られたものと組み合わせることにより、1万キュービット以上のシステムサイズでバッテリと充電器部品の絡み合いを含む様々な物理量のダイナミクスを分類する。 最後に、充電器のキュービット数が増加する固定バッテリーサイズを含む多様なシステム構成をチェックすることにより、両方の部品が同時に増加する場合、システムサイズスケーリングの$e_b^{\rm max}$と$p_b^{\rm max}$を分類し、システムの絡み合いエントロピーと関連付ける。 また, 解析結果と一致して, $p_b^{\rm max}$ のロバストな超拡張挙動も観察される。 我々の研究は、超伝導量子ビットプラットフォームでエミュレートされた量子電池、特に長距離結合を示すものにおいて、期待される機能に関する全体的なガイドを提供する。

We investigate a multi-qubit quantum battery-charger model, focusing on its potential emulation on a superconducting qubit chip. Using a large-spin representation, we first obtain the analytical form of the energy $E_B(t)$, power $P_B(t)$ and their maximum values, $E_B^{\rm max}$ and $P_B^{\rm max}$, of the battery part by means of the antiferromagnetic Holstein-Primakoff (AFM-HP) transformation within the low-energy approximation. In this case, our results show that superextensive scaling behavior of $P_B^{\rm max}$ ensues. By further combining these with the ones obtained via exact diagonalization (ED), we classify the dynamics of various physical quantities, including the entanglement between the battery and charger parts for system sizes encompassing over 10,000 qubits. Finally, by checking a diverse set of system configurations, including either a fixed battery size with growing number of charger qubits, or when both parts simultaneously grow, we classify the system size scalings of $E_B^{\rm max}$ and $P_B^{\rm max}$, relating it with the entanglement entropy in the system. In agreement with the analytical results, robust superextensive behavior of $P_B^{\rm max}$ is also observed in this case. Our work provides an overall guide for expected features in experiments of quantum batteries emulated in superconducting qubit platforms, in particular ones that exhibit long-range couplings.
翻訳日:2023-01-30 04:59:53 公開日:2022-10-28
# コメント:「実効ハミルトニアンの特徴多項式について」

Comment on: "On the characteristic polynomial of an effective Hamiltonian" ( http://arxiv.org/abs/2209.10112v2 )

ライセンス: Link先を確認
Francisco M. Fern\'andez(参考訳) 最近提案された手法は、実効ハミルトニアンの特徴多項式に基づいて、他の著者によってより明確でより一般的な方法で数年前に開発された。 提案手法の両実装を概説し,おもちゃモデルの起源に最も近い例外点の計算により比較する。

We show that a method proposed recently, based on the characteristic polynomial of an effective Hamiltonian, had been developed several years earlier by other authors in a clearer and more general way. We outline both implementations of the approach and compare them by means of the calculation of the exceptional point closest to origin for a toy model.
翻訳日:2023-01-26 01:55:46 公開日:2022-10-28
# p進量子力学におけるトレースクラス作用素と状態

Trace class operators and states in p-adic quantum mechanics ( http://arxiv.org/abs/2210.01566v2 )

ライセンス: Link先を確認
Paolo Aniello, Stefano Mancini, Vincenzo Parisi(参考訳) p-進数の非アルキメデス場の二次拡大に関する量子力学の枠組みの中で、一般代数的アプローチと確率論のp-進モデルに依存する量子状態の定義を提供する。 標準的な複素数の場合と同様に、区別された物理状態の集合は、ある有界作用素のクラスに対するトレースの概念と関連しており、実際、非アルキメデス的な設定でもトレースクラス作用素の適切な空間を定義することができることを示す。 複素ヒルベルト空間における標準量子力学の場合の類似性だけでなく、いくつかの(非常に非自明な)相違も解析される。

Within the framework of quantum mechanics over a quadratic extension of the non-Archimedean field of p-adic numbers, we provide a definition of a quantum state relying on a general algebraic approach and on a p-adic model of probability theory. As in the standard complex case, a distinguished set of physical states are related to a notion of trace for a certain class of bounded operators and, in fact, we show that one can define a suitable space of trace class operators in the non-Archimedean setting, as well. The analogies, but also the several (highly non-trivial) differences, with respect to the case of standard quantum mechanics in a complex Hilbert space are analyzed.
翻訳日:2023-01-23 22:13:55 公開日:2022-10-28
# 量子イベント学習とゆるやかなランダム測定

Quantum Event Learning and Gentle Random Measurements ( http://arxiv.org/abs/2210.09155v2 )

ライセンス: Link先を確認
Adam Bene Watts and John Bostanci(参考訳) ランダムに順序づけられた二元射影計測の列によって量子系が引き起こされる期待外乱を、少なくとも1つの観測が受け入れる確率の平方根によって上界に証明する。 我々はこれをGentle Random Measurement Lemmaと呼んでいる。 また、この補題を証明するために使われるテクニックを拡張して、未知の状態である$\rho$ のサンプルアクセスを与えられた問題に対するプロトコルを開発し、一連の測定値 $\{m_1, m_2, ... , m_m\}$ の受け入れ確率のプロパティを推定するように求めた。 このような問題を量子イベント学習問題と呼ぶ。 特に、ランダムに順序付けられた射影計測が量子あるいは問題を解くことを示し、アーロンソンの公然の問いに答える。 また,非射影計測に係わる量子ORプロトコルを提案し,本論文で分析したランダム測定プロトコルとHarrow,Lin,Montanroのプロトコルとを比較検討した。 しかし、このプロトコルはより複雑な測定方法を必要としており、これをBlended Measurementと呼ぶ。 この論文で開発されたQuantum OR プロトコルは、不可能事象の総受理確率が有界である場合にも、$\text{Tr}[M_i \rho]$が大きければ$M_i$の測度を求めることができる。 我々は、そのような測定量子イベント発見の問題と呼ぶ。 最後に、Blended Measurementsは、未知の状態における測定セットの平均受入確率を推定することを目的とする、量子平均推定のためのサンプリング効率のよいプロトコルも提供することを示した。

We prove the expected disturbance caused to a quantum system by a sequence of randomly ordered two-outcome projective measurements is upper bounded by the square root of the probability that at least one measurement in the sequence accepts. We call this bound the Gentle Random Measurement Lemma. We also extend the techniques used to prove this lemma to develop protocols for problems in which we are given sample access to an unknown state $\rho$ and asked to estimate properties of the accepting probabilities $\text{Tr}[M_i \rho]$ of a set of measurements $\{M_1, M_2, ... , M_m\}$. We call these types of problems Quantum Event Learning Problems. In particular, we show randomly ordering projective measurements solves the Quantum OR problem, answering an open question of Aaronson. We also give a Quantum OR protocol which works on non-projective measurements and which outperforms both the random measurement protocol analyzed in this paper and the protocol of Harrow, Lin, and Montanaro. However, this protocol requires a more complicated type of measurement, which we call a Blended Measurement. When the total (summed) accepting probability of unlikely events is bounded, we show the random and blended measurement Quantum OR protocols developed in this paper can also be used to find a measurement $M_i$ such that $\text{Tr}[M_i \rho]$ is large. We call the problem of finding such a measurement Quantum Event Finding. Finally, we show Blended Measurements also give a sample-efficient protocol for Quantum Mean Estimation: a problem in which the goal is to estimate the average accepting probability of a set of measurements on an unknown state.
翻訳日:2023-01-22 06:58:14 公開日:2022-10-28
# テンソルネットワークを用いた量子ノイズの確率的シミュレーション

Stochastic Approach For Simulating Quantum Noise Using Tensor Networks ( http://arxiv.org/abs/2210.15874v1 )

ライセンス: Link先を確認
William Berquist, Danylo Lykov, Minzhao Liu, Yuri Alexeev(参考訳) ノイズの多い量子シミュレーションは、プロセスの確率的性質を考慮する必要があるため、難しい。 その支配方法は密度行列のアプローチである。 本稿では,本手法が比較的単純なシミュレーション手法に劣る条件を評価する。 提案手法は量子回路の確率的アンサンブルを用いており、ランダムなクラウス作用素を元の量子ゲートに適用して量子チャネルをモデル化するためのランダムなエラーを表現する。 我々は,多数の量子ビットに対して,確率的シミュレーション誤差が比較的低いことを示す。 このアプローチはQTensorパッケージの一部として実装しました。 平均ハードウェア上の通常の密度行列シミュレーションは、n>15$で難しいが、最大$n\lesssim 30$の場合、恥ずかしいほど並列なシミュレーションを$<1\%$エラーで実行することが可能である。 テンソルスライシング技術を用いることで、スーパーコンピュータを用いて100キュービットのQAOA回路を高深さでシミュレートできる。

Noisy quantum simulation is challenging since one has to take into account the stochastic nature of the process. The dominating method for it is the density matrix approach. In this paper, we evaluate conditions for which this method is inferior to a substantially simpler way of simulation. Our approach uses stochastic ensembles of quantum circuits, where random Kraus operators are applied to original quantum gates to represent random errors for modeling quantum channels. We show that our stochastic simulation error is relatively low, even for large numbers of qubits. We implemented this approach as a part of the QTensor package. While usual density matrix simulations on average hardware are challenging at $n>15$, we show that for up to $n\lesssim 30$, it is possible to run embarrassingly parallel simulations with $<1\%$ error. By using the tensor slicing technique, we can simulate up to 100 qubit QAOA circuits with high depth using supercomputers.
翻訳日:2023-01-21 05:43:40 公開日:2022-10-28
# フォールトトレラント量子計算の機会と課題

Opportunities and Challenges in Fault-Tolerant Quantum Computation ( http://arxiv.org/abs/2210.15844v1 )

ライセンス: Link先を確認
Daniel Gottesman(参考訳) フォールトトレラント量子計算理論における最も重要な将来の方向性について概観する。 特に、低密度のパリティチェックコードとハードウェア固有のフォールトトレランスに基づいて、フォールトトレランスで解決すべき主要な問題を簡潔に要約します。 次に、量子回路の時空間図に基づくフォールトトレラントプロトコルを設計するための新たなパラダイムについて議論する。

I will give an overview of what I see as some of the most important future directions in the theory of fault-tolerant quantum computation. In particular, I will give a brief summary of the major problems that need to be solved in fault tolerance based on low-density parity check codes and in hardware-specific fault tolerance. I will then conclude with a discussion of a possible new paradigm for designing fault-tolerant protocols based on a space-time picture of quantum circuits.
翻訳日:2023-01-21 05:43:18 公開日:2022-10-28
# 実量子演算と状態変換

Real quantum operations and state transformations ( http://arxiv.org/abs/2210.15820v1 )

ライセンス: Link先を確認
Tulja Varun Kondra, Chandan Datta and Alexander Streltsov(参考訳) 想像力の資源理論は、量子力学の定式化に不可欠な複素数の役割を数学的に厳密に理解するための有用な枠組みを提供する。 本研究では「実」(量子)演算の性質を研究し、実演算下での状態変換に必要な十分条件を提供する。 また,空間的に分離した二部構造における実動作の特性について検討し,LOCCモノトンとは独立な「実絡み合い」モノトンの存在を示す。 これは、実量子論における絡み合いが複素量子論の絡み合いと根本的に異なることを示している。 さらに, 純粋な初期状態から始めると, 単一コピー状態変換の問題を完全に解決し, 変換の最適忠実性, 与えられた変換確率, 逆もまた解析式を求める。 さらに、任意の初期状態と純粋最終状態を含む状態変換に対しては、与えられた変換の確率に対して最適な達成可能な忠実度を計算する半定値プログラムを提供する。

Resource theory of imaginarity provides a useful framework to understand the role of complex numbers, which are essential in the formulation of quantum mechanics, in a mathematically rigorous way. In this work, we study the properties of "real" (quantum) operations and provide necessary and sufficient conditions for state transformations under real operations. We also study the properties of real operations in spatially separated bipartite settings and show the existence of "real entanglement" monotones which are independent to the "LOCC monotones". This shows that entanglement in real quantum theory is fundamentally different to the entanglement in complex quantum theory. Furthermore, when starting from pure initial states, we completely solve the problem of single copy state transformation, finding an analytical expression for the optimal fidelity of transformation, for a given probability of transformation and vice versa. Moreover, for state transformations involving arbitrary initial states and pure final states, we provide a semidefinite program to compute the optimal achievable fidelity, for a given probability of transformation.
翻訳日:2023-01-21 05:42:53 公開日:2022-10-28
# 量子シミュレーションのための高次積公式の改良

Greatly improved higher-order product formulae for quantum simulation ( http://arxiv.org/abs/2210.15817v1 )

ライセンス: Link先を確認
Mauro E.S. Morales, Pedro C.S. Costa, Daniel K. Burgarth, Yuval R. Sanders, Dominic W. Berry(参考訳) ハミルトン進化のシミュレーションのための量子アルゴリズムは、しばしばトロッターのような積公式に基づいている。 スズキのフラクタル法は、任意に高階の積公式を見つける体系的な方法を与えるが、多くの指数関数をもたらす。 一方,6階および8階の指数式を最小限の指数式とする別の方法が吉田によって与えられる。 本研究では,吉田の手法を10次まで拡張しただけでなく,新たに数百個の8次製品式を発見した。 さらに, 吉田の最高の製品式より1,000ドル以上精度が高い第8次製品公式が発見された。

Quantum algorithms for simulation of Hamiltonian evolution are often based on product formulae like Trotter. The fractal method of Suzuki gives a systematic way to find arbitrarily high-order product formulae, but results in a large number of exponentials. On the other hand, an alternative way, with a minimum number of exponentials, for 6th and 8th order product formulae is given by Yoshida. In this work, we not only extended Yoshida's method to 10th order, but we also found hundreds of new 8th order product formulae. Moreover, we found an 8th order product formula that is over $1000$ times more accurate than the best product formula of Yoshida.
翻訳日:2023-01-21 05:42:37 公開日:2022-10-28
# 時間符号化格子法により最適化された新しいマジックステート蒸留工場

New magic state distillation factories optimized by temporally encoded lattice surgery ( http://arxiv.org/abs/2210.15814v1 )

ライセンス: Link先を確認
Prithviraj Prabhu, Christopher Chamberland(参考訳) トポロジカル符号を用いて誤り訂正を行うフォールトトレラント量子コンピュータは、普遍ゲートセットを実装するために格子手術プロトコルを必要とする可能性が高い。 格子手術プロトコル中の時間的障害は、アルゴリズムの実行中に論理的障害を引き起こす可能性がある。 量子ビットを誤差から保護するために使用される位相符号の空間的距離に加えて、格子手術プロトコルにおけるシンドローム計測ラウンドの数によって与えられる時間的距離もある。 そのため、時間的な距離の要求が大きくなると、アルゴリズムのランタイムが遅くなる。 格子手術の時間符号化(TELS)は、格子手術プロトコルで必要とされる症候群計測ラウンドの数を削減できる技術である。 これは、古典的な誤り訂正符号のコードワードを形成する、相互に可換なマルチキュービットパウリ演算子(並列化可能なパウリ集合と呼ばれる)の過完全集合を測ることによって行われる。 オーバーコンプリートされたパウリ測定の結果は、時間的な格子手術の失敗を検出し、おそらく正すのに利用できる。 本研究では,改良されたTELSプロトコルを導入し,低ウェイトな古典的誤りを訂正し,アルゴリズム実行時の高速化を実現する。 また、様々な並列化可能なパウリ集合サイズの古典的誤り訂正符号の大族についても検討する。 また,非対称表面符号に論理量子ビットを符号化するバイアスドノイズの文脈において,マジック状態蒸留プロトコルにもtelを適用する。 最適化されたレイアウトを用いて、従来のプロトコルと比較して、マジックステートファクトリの時空間コストの改善を示す。 このような改善はクリフォードフレームで実行される計算を用いて達成される。

Fault-tolerant quantum computers, with error correction implemented using topological codes, will most likely require lattice surgery protocols in order to implement a universal gate set. Timelike failures during lattice surgery protocols can result in logical failures during the execution of an algorithm. In addition to the spacelike distance of the topological code used to protect the qubits from errors, there is also the timelike distance which is given by the number of syndrome measurement rounds during a lattice surgery protocol. As such, a larger timelike distance requirement will result in the slowdown of an algorithm's runtime. Temporal encoding of lattice surgery (TELS) is a technique which can be used to reduce the number of syndrome measurement rounds that are required during a lattice surgery protocol. This is done by measuring an over-complete set of mutually commuting multi-qubit Pauli operators (referred to as a parallelizable Pauli set) which form codewords of a classical error correcting code. The results of the over-complete set of Pauli measurements can then be used to detect and possibly correct timelike lattice surgery failures. In this work, we introduce an improved TELS protocol and subsequently augment it with the ability to correct low-weight classical errors, resulting in greater speedups in algorithm runtimes. We also explore large families of classical error correcting codes for a wide range of parallelizable Pauli set sizes. We also apply TELS to magic state distillation protocols in the context of biased noise, where logical qubits are encoded in asymmetric surface codes. Using optimized layouts, we show improvements in the space-time cost of our magic state factories compared to previous protocols. Such improvements are achieved using computations performed in the Clifford frame.
翻訳日:2023-01-21 05:42:27 公開日:2022-10-28
# キャビティ支援全光スピンアクセスと高速コヒーレント駆動によるダイヤモンドの単一siv$^-$中心に基づく量子リピータプラットフォーム

A Quantum Repeater Platform based on Single SiV$^-$ Centers in Diamond with Cavity-Assisted, All-Optical Spin Access and Fast Coherent Driving ( http://arxiv.org/abs/2210.16157v1 )

ライセンス: Link先を確認
Gregor Bayer, Robert Berghaus, Selene Sachero, Andrea B. Filipovski, Lukas Antoniuk, Niklas Lettner, Richard Waltrich, Marco Klotz, Patrick Maier, Viatcheslav Agafonov and Alexander Kubanek(参考訳) 量子鍵分布は、量子力学の原理に基づくセキュアな通信を可能にする。 ファイバーベースの量子通信における距離は、信号減衰により約100kmに制限される。 したがって、量子リピータは大規模量子ネットワークを確立するために必要である。 理想的な量子リピータノードは、量子情報のキャリアである光子に効率的に接続される量子メモリを持っている。 ダイヤモンドのカラーセンター、特に負電荷のシリコン空孔センターは、そのようなノードを確立することを約束している。 主な障害は、色中心のスピンとファイバネットワークのガウス光学との非効率な接続である。 ここでは,効率的なスピン光子界面を提案する。 半球状ファブリ・ペロト微小キャビティのモードに結合したシリコン空孔は, 液体ヘリウム浴中においてPurcell-factorsが1より大きいことを示す。 我々は、ラビ周波数290\,\mathrm{mhz}$のコヒーレント光駆動と、強磁場中における電子スピンへの全光アクセスを最大3.2\,\mathrm{t}$で示す。 スピン初期化は、キャビティ内部に$80\,\%$と$350\,\mathrm{ns}$の忠実度を持つ$7\,\mathrm{ns}$である。 スピンフォトン界面は受動的に安定しており、半球状ファブリ・ピロトミラー構造にナノダイヤモンドを含む色中心を配置し、短い空洞長を選択することで可能となる。 そこで,本実験は量子リピータアプリケーションを実現するための方法を開く。

Quantum key distribution enables secure communication based on the principles of quantum mechanics. The distance in fiber-based quantum communication is limited to about a hundred kilometers due to signal attenuation. Thus, quantum repeaters are required to establish large-scale quantum networks. Ideal quantum repeater nodes possess a quantum memory which is efficiently connected to photons, the carrier of quantum information. Color centers in diamond and, in particular, the negatively-charged silicon-vacancy centers are promising candidates to establish such nodes. The major obstacle is an inefficient connection between the color centers spin to the Gaussian optics of fiber networks. Here, we present an efficient spin-photon interface. Individual silicon-vacancy centers coupled to the mode of a hemispherical Fabry-P\'erot microcavity show Purcell-factors larger than 1 when operated in a bath of liquid Helium. We demonstrate coherent optical driving with a Rabi frequency of $290\,\mathrm{MHz}$ and all-optical access to the electron spin in strong magnetic fields of up to $3.2\,\mathrm{T}$. Spin initialization within $67\,\mathrm{ns}$ with a fidelity of $80\,\%$ and a lifetime of $350\,\mathrm{ns}$ are reached inside the cavity. The spin-photon interface is passively stable, enabled by placing a color center containing nanodiamond in the hemispherical Fabry-P\'erot mirror structure and by choosing short cavity lengths. Therefore, our demonstration opens the way to realize quantum repeater applications.
翻訳日:2023-01-21 05:38:10 公開日:2022-10-28
# ダイオンの水素モデルのためのクライン-ゴルドン方程式の研究

Study of the Klein--Gordon equation for a hydrogenic model of dyons ( http://arxiv.org/abs/2210.16134v1 )

ライセンス: Link先を確認
Edison Fernando Garc\'ia Veloz and Clara Rojas(参考訳) 本稿では,クライン-ゴルドン方程式を用いた水素の相対論的原子モデルへのゼロスピン水素原子の一般化について述べる。相対運動粒子に対するクライン-ゴルドン方程式の導出について述べる。 さらに、この方程式の解析解はホイットテイカー関数とジャコビ重み付き多項式を用いて計算される。 エネルギーの離散スペクトルと軌道上のディオンの電荷密度が示される。 核内の正の磁気と電気の電荷と軌道上の粒子に対する負の電荷の系と、最初の許容値であるn$とl$を考慮すれば、ディオン原子は標準原子と比較して核の電荷と二次粒子の間の相互作用の大きい力で作用することが判明した。 陽イオン原子と相対論的ピオン原子との核と電荷密度濃度の距離を比較することで得られた。

This article presents the generalization of a zero spin hydrogen atom to a relativistic atomic model of hydrogen with dyons using the Klein--Gordon equation. The derivation of the Klein--Gordon equation for the particle of relative motion is shown. In addition, the analytical solutions of the equation are calculated in terms of Whittaker functions and Jacobi weighted polynomials. The discrete spectrum of energy, and the charge density of the orbiting dyon are presented. For a system of positive magnetic and electric charges in the nucleus and negative charges for the orbiting particle, and considering the first allowed values of $N$ and $l$, it was found that the dyon atom acts with a greater force of interaction between the charges of the nucleus and the secondary particle compared to the standard atom. It was obtained by comparing the distance between the nucleus and charge density concentrations from the dyon atom with the relativistic pionic atom.
翻訳日:2023-01-21 05:37:43 公開日:2022-10-28
# 局所電界によるトラップされたイオン量子のコヒーレント制御

Coherent Control of Trapped Ion Qubits with Localized Electric Fields ( http://arxiv.org/abs/2210.16129v1 )

ライセンス: Link先を確認
R. Srinivas, C. M. L\"oschnauer, M. Malinowski, A. C. Hughes, R. Nourshargh, V. Negnevitsky, D. T. C. Allcock, S. A. King, C. Matthiesen, T. P. Harty, C. J. Ballance(参考訳) 本稿では,電場とスピン依存勾配を同時に適用することにより,マルチゾーントラップの分離相互作用領域における捕捉イオン量子ビットのコヒーレント制御法を提案する。 有効1量子ビット回転の位相と振幅は電場に依存し、各ゾーンに局在することができる。 表面電極イオントラップにおけるレーザベースおよび磁場勾配を用いた単一イオン上でのこの相互作用を実証し、電界の局在を測定する。

We present a new method for coherent control of trapped ion qubits in separate interaction regions of a multi-zone trap by simultaneously applying an electric field and a spin-dependent gradient. Both the phase and amplitude of the effective single-qubit rotation depend on the electric field, which can be localised to each zone. We demonstrate this interaction on a single ion using both laser-based and magnetic field gradients in a surface-electrode ion trap, and measure the localisation of the electric field.
翻訳日:2023-01-21 05:37:27 公開日:2022-10-28
# 高速単一光子検出器とリアルタイムキー蒸留:高秘密鍵レートqkdシステムの実現

Fast Single Photon Detectors and real-time Key Distillation: Enabling High Secret Key Rate QKD Systems ( http://arxiv.org/abs/2210.16126v1 )

ライセンス: Link先を確認
Fadri Gr\"unenfelder (1), Alberto Boaron (1), Matthieu Perrenoud (1), Giovanni V. Resta (1), Davide Rusca (1), Claudio Barreiro (1), Rapha\"el Houlmann (1), Rebecka Sax (1), Lorenzo Stasi (1 and 2), Sylvain El-Khoury (2), Esther H\"anggi (3), Nico Bosshard (3), F\'elix Bussi\`eres (2) and Hugo Zbinden (1) ((1) Group of Applied Physics, Rue de l'Ecole-de-M\'edecine 20, CH-1211 Gen\`eve 4, Switzerland, (2) ID Quantique SA, Rue Eug\`ene-Marziano 25, CH-1227 Acacias - Gen\`eve Switzerland,(3) Lucerne School of Computer Science and Information Technology, Suurstoffi 1, CH-6343 Rotkreuz, Switzerland)(参考訳) 量子鍵分布は過去20年間連続して進歩し、現在市販されている。 しかし、秘密鍵レート(SKR)は依然として数Mbpsに制限されている。 そこで本研究では,マルチピクセル超伝導ナノワイヤ単光子検出器と高速取得およびリアルタイムキー蒸留回路を試作し,2つのロードブロックを除去し,skrを1桁以上増加させる。 単純な2.5ghzクロックタイムビン量子鍵分散システムと組み合わせることで、10.0kmの距離で64mbpsの速度で秘密鍵を生成し、102.4kmの距離で3.0mbpsの速度でリアルタイムのキー蒸留を行うことができる。

Quantum Key Distribution has made continuous progress over the last 20 years and is now commercially available. However, the secret key rates (SKR) are still limited to a few Mbps. Here, we present a custom multipixel superconducting nanowire single-photon detectors and fast acquisition and real-time key distillation electronics, removing two roadblocks and allowing an increase of the SKR of more than an order of magnitude. In combination with a simple 2.5 GHz clocked time-bin quantum key distribution system, we can generate secret keys at a rate of 64 Mbps over a distance of 10.0 km and at a rate of 3.0 Mbps over a distance of 102.4 km with real-time key distillation.
翻訳日:2023-01-21 05:37:19 公開日:2022-10-28
# ホログラフィック原理の物理的意味

The physical meaning of the holographic principle ( http://arxiv.org/abs/2210.16021v1 )

ライセンス: Link先を確認
Chris Fields, James F. Glazebrook, and Antonino Marciano(参考訳) 我々は,この教育的レビューにおいて,「それ自体を立証する物理学の明らかな法則」とは程遠いことを示している(r。 Bousso, Rev. Mod。 Phys 74 (2002), 825-874), ホログラフィック原理 (HP) は分離系における量子情報理論の直接的な結果である。 これは測定、時間、散乱の理論の基礎となる。 hpと等価な原理はコンピュータ科学と生命科学の両方に現れ、hpは物理学の基本的な原則ではなく、科学の全ての原則であることを示唆している。

We show in this pedagogical review that far from being "an apparent law of physics that stands by itself" (R. Bousso, Rev. Mod. Phys. 74 (2002), 825-874), the holographic principle (HP) is a straightforward consequence of the quantum information theory of separable systems. It provides a basis for the theories of measurement, time, and scattering. Principles equivalent to the HP appear in both computer science and the life sciences, suggesting that the HP is not just a fundamental principle of physics, but of all of science.
翻訳日:2023-01-21 05:37:04 公開日:2022-10-28
# 光子数分解型パラレル超伝導ナノワイヤ単光子検出器によるヘラルド単光子源の増強

Enhanced heralded single-photon source with a photon-number-resolving parallel superconducting nanowire single-photon detector ( http://arxiv.org/abs/2210.16005v1 )

ライセンス: Link先を確認
Lorenzo Stasi, Patrik Caspar, Tiff Brydges, Hugo Zbinden, F\'elix Bussi\`eres, Rob Thew(参考訳) シャーレド単光子源(HSPS)は本質的に多光子放出に悩まされ、ソースの品質とシーレドレートのトレードオフをもたらす。 この問題に対する解決策は、光子数分解(PNR)検出器を使用して、複数の光子対が生成されるシャーディングイベントをフィルタリングすることである。 本稿では,高効率PNR超伝導ナノワイヤ単光子検出器(SNSPD)をHSPSのシーディング検出器として用いることを実証する。 高次ヘラルド検出をフィルタリングすることで、固定されたポンプパワーに対して、ヘラルド単光子の$g^{(2)}(0)$を$(26.6 \pm 0.2)\,\%$、または、固定された$g^{(2)}(0)$に対して$.363 \pm 0.004$に減らすことができる。 さらに、検出器を用いて温度モードの光子数分布を直接測定し、未決定の$g^{(2)}(0)$を計算する。 我々は,複数のしきい値検出器を用いたより一般的な技術と一致して,1つのPNR検出器で$g^{(2)}(0)$測定を行う可能性を示す。 我々の研究は、効率的なPNR SNSPDはHSPSの性能を大幅に向上させ、それらを正確に特徴付けることができ、これらの検出器は幅広い光量子情報プロトコルに有用なツールであることを示している。

Heralded single-photon sources (HSPS) intrinsically suffer from multiphoton emission, leading to a trade-off between the source's quality and the heralding rate. A solution to this problem is to use photon-number-resolving (PNR) detectors to filter out the heralding events where more than one photon pair is created. Here, we demonstrate the use of a high-efficiency PNR superconducting nanowire single-photon detector (SNSPD) as a heralding detector for a HSPS. By filtering out higher-order heralding detections, we can reduce the $g^{(2)}(0)$ of the heralded single photon by $(26.6 \pm 0.2)\,\%$, or alternatively, for a fixed pump power, increasing the heralding rate by a factor of $1.363 \pm 0.004$ for a fixed $g^{(2)}(0)$. Additionally, we use the detector to directly measure the photon-number distribution of a thermal mode and calculate the unheralded $g^{(2)}(0)$. We show the possibility to perform $g^{(2)}(0)$ measurements with only one PNR detector, with the results in agreement with those obtained by more common-place techniques which use multiple threshold detectors. Our work shows that efficient PNR SNSPDs can significantly improve the performance of HSPSs and can precisely characterize them, making these detectors a useful tool for a wide range of optical quantum information protocols.
翻訳日:2023-01-21 05:36:39 公開日:2022-10-28
# P$-Wave Feshbach共鳴近傍の単一成分フェルミガス中の異常損失挙動

Anomalous loss behavior in a single-component Fermi gas close to a $p$-Wave Feshbach resonance ( http://arxiv.org/abs/2210.15981v1 )

ライセンス: Link先を確認
K. Welz, M. Gerken, B. Zhu, E. Lippi, M. Rautenberg, L. Chomaz, M. Weidem\"uller(参考訳) 相互作用する非単位系におけるフェシュバッハ共振器近傍の単一成分フェルミガスの3体損失について理論的に検討した。 waseemらによって導入されたカスケードモデルを拡張する。 ] 弾性および非弾性衝突過程を記述するために,99 052704 (2019) を改訂した。 損失挙動は, 弾性衝突率と非弾性衝突率の比がそれぞれ1より小さい場合, それぞれn^3$およびn^2$依存性を示すことがわかった。 エネルギー分布の対応する進化は、それぞれ低エネルギー非熱的定常状態への衝突冷却または進化を示す。 これらの知見は、フェルミオンリチウム原子の基底状態における超低温気体の原子損失とエネルギー進化を理解することに特に関係している。

We theoretically investigate three-body losses in a single-component Fermi gas near a $p$-wave Feshbach resonance in the interacting, non-unitary regime. We extend the cascade model introduced by Waseem et al. [Phys. Rev. A 99 052704 (2019)] to describe the elastic and inelastic collision processes. We find that the loss behavior exhibits a $n^3$ and an anomalous $n^2$ dependence for a ratio of elastic to inelastic collision rate larger and smaller than one, respectively. The corresponding evolutions of the energy distribution show collisional cooling or evolution toward low-energetic non-thermalized steady states, respectively. These findings are in particular relevant for understanding atom loss and energetic evolution of ultracold gases of fermionic lithium atoms in their ground state.
翻訳日:2023-01-21 05:36:09 公開日:2022-10-28
# 時間領域における普遍多モード線形光量子演算

Universal multi-mode linear optical quantum operation in the time domain ( http://arxiv.org/abs/2210.15931v1 )

ライセンス: Link先を確認
Kazuma Yonezu (1), Yutaro Enomoto (1), Takato Yoshida (1), Shuntaro Takeda (1) ((1) Department of Applied Physics, School of Engineering, The University of Tokyo)(参考訳) 普遍的マルチモード線形光学演算は、量子ビットと連続変数の両方の光学量子情報プロトコル(qips)において必須である。 これまでのところ、パスエンコードされた光学モードのための大型干渉計を含むフォトニックチップの開発を中心に大規模実装が進められている。 しかし、そのような符号化にはより大きな回路が必要であり、スケーラビリティが制限される可能性がある。 本稿では,時間領域で普遍的な3モード線形光学演算をプログラム可能なスケーラブルなデュアルループ光回路を実現する。 本回路のプログラム可能性,有効性,量子特性は,圧縮状態パルス上で9つの異なる3モード演算を行い,ホモダイン検出により出力状態を完全に特徴付けし,絡み合いを確認することで示される。 我々の回路は、外ループを長くすることで簡単にスケールアップでき、また測定系とフィードフォワード系を組み込むことで、普遍的な量子コンピュータにも拡張できる。 このように、我々の研究は量子優位性を示す大規模QIPへの道を開いた。

Universal multi-mode linear optical operations are essential for almost all optical quantum information protocols (QIPs) for both qubits and continuous variables. Thus far, large-scale implementation of such operations has been pursued mainly by developing photonic chips that contain large interferometers for path-encoded optical modes. However, such encoding requires larger circuits for larger-scale operations, possibly limiting scalability. Here, we realize a scalable dual-loop optical circuit that can programmably perform universal three-mode linear optical operations in the time domain. The programmability, validity, and quantum feature of our circuit are demonstrated by performing nine different three-mode operations on squeezed-state pulses, fully characterizing their output states via homodyne detection, and confirming their entanglement. Our circuit can be straightforwardly scaled up by making the outer loop longer and also extended to universal quantum computers by incorporating measurement and feedforward systems. Thus, our work paves the way to large-scale QIPs which exhibit quantum advantage.
翻訳日:2023-01-21 05:35:55 公開日:2022-10-28
# 相対論的場の量子論におけるクレーター・ホーネ・シモニー・ホルト不等式に関する考察

Remarks on the Clauser-Horne-Shimony-Holt inequality in relativistic quantum field theory ( http://arxiv.org/abs/2210.16372v1 )

ライセンス: Link先を確認
Giovani Peruzzo, Silvio Paolo Sorella(参考訳) 我々は、一対の自由質量スカラー場$(\varphi_A, \varphi_B)$で構築された相対論的量子場理論モデル内の$CHSH$不等式について調査する。 有界エルミート作用素の集合はワイル作用素を用いて導入された。 標準量子化法により,Fock真空中でのCHSH$型相関器の構築と評価を行う。 観測された$chsh$の不等式違反は、tsirelsonの量子力学の束縛と比較してかなり小さいことが判明したが、このモデルは、ゲージ理論のより物理的な場合におけるベルの不等式の研究に利用することができる: ヒッグスモデル(英語版)は、質量ゲージボソンとヒッグス粒子の両方を記述する局所的な$brst$不変作用素が考案されたものである。 これらの演算子は自然に拡張することができ、不変な$brst$環境内でベルの不等式を分析するのに役立つweyl演算子の$brst$不変型となる。

We present an investigation of the $CHSH$ inequality within a relativistic quantum field theory model built up with a pair of free massive scalar fields $(\varphi_A, \varphi_B)$ where, as it is customary, the indices $(A,B)$ refer to Alice and Bob, respectively. A set of bounded Hermitian operators is introduced by making use of the Weyl operators. A $CHSH$ type correlator is constructed and evaluated in the Fock vacuum by means of the canonical quantization. Although the observed violation of the $CHSH$ inequality turns out to be rather small as compared to Tsirelson's bound of Quantum Mechanics, the model can be employed for the study of Bell's inequalities in the more physical case of gauge theories such as: the Higgs models, for which local $BRST$ invariant operators describing both the massive gauge boson as well as the Higgs particle have been devised. These operators can be naturally exponentiated, leading to $BRST$ invariant type of Weyl operators useful to analyze Bell's inequalities within an invariant $BRST$ environment.
翻訳日:2023-01-21 05:29:48 公開日:2022-10-28
# qudpy: 超高速非線形光学応答を計算するpythonベースのツール

QuDPy: A Python-Based Tool For Computing Ultrafast Non-linear Optical Responses ( http://arxiv.org/abs/2210.16355v1 )

ライセンス: Link先を確認
S. A. Shah and Hao Li and Eric R. Bittner and Carlos Silva and Andrei Piryatinski(参考訳) 非線形光学分光法は、化学、生物学、物理学を含む複数の分野を支援した理論および実験の進歩を持つ、よく発達した分野である。 しかし、モデルハミルトニアンに基づく正確な量子力学シミュレーションは、対応する多次元スペクトル信号を適切に解釈する必要がある。 本稿では,オープン量子システムを含むモデル系に基づく量子力学シミュレーションを行うための強固な数値プラットフォームの必要性に対処する,コードqudpy(quantum dynamics in python)の初期リリースについて述べる。 提案手法の重要な特徴は,両面のファインマン図形の高次光応答経路を,系の時間発展密度行列に作用するケケット側あるいはブラ面の光相互作用の時間秩序を記述した直感的な入力構文により特定できることである。 複素系のスペクトル応答をシミュレーションするためにqutipの量子ダイナミクス機能を使用し、モデルシステムのn次光応答を本質的に計算する。 このアプローチの有用性を説明するための一連の例計算を提供する。

Nonlinear Optical Spectroscopy is a well-developed field with theoretical and experimental advances that have aided multiple fields including chemistry, biology and physics. However, accurate quantum dynamical simulations based on model Hamiltonians are need to interpret the corresponding multi-dimensional spectral signals properly. In this article, we present the initial release of our code, QuDPy (quantum dynamics in python) which addresses the need for a robust numerical platform for performing quantum dynamics simulations based on model systems, including open quantum systems. An important feature of our approach is that one can specify various high-order optical response pathways in the form of double-sided Feynman diagrams via a straightforward input syntax that specifies the time-ordering of ket-sided or bra-sided optical interactions acting upon the time-evolving density matrix of the system. We use the quantum dynamics capabilities of QuTip for simulating the spectral response of complex systems to compute essentially any n-th-order optical response of the model system. We provide a series of example calculations to illustrate the utility of our approach.
翻訳日:2023-01-21 05:29:26 公開日:2022-10-28
# フェルミ表面対称性質量生成

Fermi Surface Symmetric Mass Generation ( http://arxiv.org/abs/2210.16304v1 )

ライセンス: Link先を確認
Da-Chuan Lu, Meng Zeng, Juven Wang, Yi-Zhuang You(参考訳) 対称質量生成は、非摂動相互作用によるギャップのないフェルミオンに質量ギャップを与える新しいメカニズムである。 対称質量生成に関するこれまでの研究は、自由フェルミ限界のフェルミ体積がゼロのディラック/ワイル/メジャーナフェルミオンに限られている。 本研究では,フェルミ体積が有限のフェルミ液体に対して対称質量生成の概念を一般化し,u(1)ループ群対称性を壊したり位相次数を発達させることなくフェルミ表面を相互作用によって分断する方法について議論する。 いくつかのフェルミ面が一緒にフェルミ面異常をキャンセルした場合、(1+1)Dおよび(2+1)Dフェルミ液体系のフェルミ面対称質量生成の例を示す。 しかしながら、これらの場合の U(1) ループ群対称性は、フェルミ面を埋める唯一の方法である非摂動的相互作用機構であるような全ての可能なフェルミオン双線型ギャップ項を排除できるほど制限的である。 この対称フェルミ表面再構成は、フェルミ表面を間隙する従来の対称性破壊機構とは対照的である。 1+1)d u(1)対称キラルフェルミオンモデル(例えば、3-4-5-0モデル)に対して、低エネルギーでの創発的u(1)対称性として格子変換対称性を利用することにより、プリスティーヌ1次元格子正規化を提供する。 これにより、鏡フェミオンをドメイン壁フェルミオン構造の下に導入することなく、それぞれの次元におけるカイラルフェルミオンの効率的な数値シミュレーションを行う機会が開ける。

Symmetric mass generation is a novel mechanism to give gapless fermions a mass gap by non-perturbative interactions without generating any fermion bilinear condensation. The previous studies of symmetric mass generation have been limited to Dirac/Weyl/Majorana fermions with zero Fermi volume in the free fermion limit. In this work, we generalize the concept of symmetric mass generation to Fermi liquid with a finite Fermi volume and discuss how to gap out the Fermi surfaces by interactions without breaking the U(1) loop group symmetry or developing topological orders. We provide examples of Fermi surface symmetric mass generation in both (1+1)D and (2+1)D Fermi liquid systems when several Fermi surfaces together cancel the Fermi surface anomaly. However, the U(1) loop group symmetry in these cases is still restrictive enough to rule out all possible fermion bilinear gapping terms, such that a non-perturbative interaction mechanism is the only way to gap out the Fermi surfaces. This symmetric Fermi surface reconstruction is in contrast to the conventional symmetry-breaking mechanism to gap the Fermi surfaces. As a side product, our model provides a pristine 1D lattice regularization for the (1+1)D U(1) symmetric chiral fermion model (e.g., the 3-4-5-0 model) by utilizing a lattice translation symmetry as an emergent U(1) symmetry at low energy. This opens up the opportunity for efficient numerical simulations of chiral fermions in their own dimensions without introducing mirror fermions under the domain wall fermion construction.
翻訳日:2023-01-21 05:28:45 公開日:2022-10-28
# 非線形ポンププローブ分光における分数統計の署名

Signatures of fractional statistics in nonlinear pump-probe spectroscopy ( http://arxiv.org/abs/2210.16249v1 )

ライセンス: Link先を確認
Max McGinley, Michele Fava, S. A. Parameswaran(参考訳) 二次元系の励起スペクトルにおけるオンの存在は非線形分光量から推測できることを示した。 特に,試料に2つの光パルスを照射し,その間に時間遅延を調節できるポンププローブ分光について考察した。 関連する応答係数は、第1パルスブレイドによって生成されたイオンが第2パルスブレイドによって生成されたときに得られる統計位相に由来する普遍的な形式を示す。 この挙動は、統計的相互作用や小さな有限温度を含む非ユニバーサル物理学によって質的に変化することが示されている。 磁気システムでは、現在利用可能なテラヘルツ領域プローブを用いて興味の信号を測定することができ、量子スピン液体の探索における非線形分光技術の有用性を強調している。

We show that the presence of anyons in the excitation spectrum of a two-dimensional system can be inferred from nonlinear spectroscopic quantities. In particular, we consider pump-probe spectroscopy, where a sample is irradiated by two light pulses with an adjustable time delay between them. The relevant response coefficient exhibits a universal form that originates from the statistical phase acquired when anyons created by the first pulse braid around those created by the second. This behaviour is shown to be qualitatively unchanged by non-universal physics including non-statistical interactions and small finite temperatures. In magnetic systems, the signal of interest can be measured using currently available terahertz-domain probes, highlighting the potential usefulness of nonlinear spectroscopic techniques in the search for quantum spin liquids.
翻訳日:2023-01-21 05:28:00 公開日:2022-10-28
# 時空間高非コヒーレント光で励起された自発パラメトリックダウンコンバージョンからの偏光絡みの実験的生成

Experimental generation of polarization entanglement from spontaneous parametric down-conversion pumped by spatiotemporally highly incoherent light ( http://arxiv.org/abs/2210.16229v1 )

ライセンス: Link先を確認
Cheng Li, Boris Braverman, Girish Kulkarni and Robert W. Boyd(参考訳) ポンプコヒーレンスが自然パラメトリックダウンコンバージョン(SPDC)の絡み合いに及ぼす影響は, 基本的観点からも, 絡み合い状態の生成制御の観点からも理解することが重要である。 この文脈では、ポストセレクションがない場合、所定の自由度(DOF)におけるポンプコヒーレンスは、同じDOFにおける生成された絡み合いに上限を課すことが知られている。 しかし、ポンプコヒーレンスが異なるDOFにおける発生した絡み合いに与える影響はよく理解されていない。 そこで本研究では, 時空間高共役発光ダイオード(STHI)ポンプがSPDCの偏光絡みに及ぼす影響を実験的に検討した。 マルチモード収集ファイバを用いた量子状態トモグラフィ測定により,選択後の影響を減少させるため,0.531+/-0.006の共起率と0.647+/-0.005の純度を持つ2量子ビット状態が得られた。 したがって、STHIポンプの使用により出力偏光2量子状態の絡み合いと純度が低下する一方、STHIポンプによるSPDCの生存性は2つの理由により重要である。 (i)shi源は、レーザーより広い波長範囲で、ユビキタスであり、利用可能である。 (ii) 生成したsthi偏光エンタングル2光子状態は、散乱に対する堅牢性のため、長距離量子通信において有用である可能性がある。

The influence of pump coherence on the entanglement produced in spontaneous parametric down-conversion (SPDC) is important to understand, both from a fundamental perspective, and from a practical standpoint for controlled generation of entangled states. In this context, it is known that in the absence of postselection, the pump coherence in a given degree of freedom (DOF) imposes an upper limit on the generated entanglement in the same DOF. However, the cross-influence of the pump coherence on the generated entanglement in a different DOF is not well-understood. Here, we experimentally investigate the effect of a spatiotemporally highly-incoherent (STHI) light-emitting diode (LED) pump on the polarization entanglement generated in SPDC. Our quantum state tomography measurements using multimode collection fibers to reduce the influence of postselection yield a two-qubit state with a concurrence of 0.531+/-0.006 and a purity of 0.647+/-0.005, in excellent agreement with our theoretically predicted concurrence of 0.536 and purity of 0.643. Therefore, while the use of an STHI pump causes reduction in the entanglement and purity of the output polarization two-qubit state, the viability of SPDC with STHI pumps is nevertheless important for two reasons: (i) STHI sources are ubiquitous and available at a wider range of wavelengths than lasers, and (ii) the generated STHI polarization-entangled two-photon states could potentially be useful in long-distance quantum communication schemes due to their robustness to scattering.
翻訳日:2023-01-21 05:27:47 公開日:2022-10-28
# cnot回路は、生成する任意のアダマールフリークリフォード変換を実装するのにほとんど助けを必要としない。

CNOT circuits need little help to implement arbitrary Hadamard-free Clifford transformations they generate ( http://arxiv.org/abs/2210.16195v1 )

ライセンス: Link先を確認
Dmitri Maslov and Willers Yang(参考訳) アダマール自由クリフォード変換は、量子相(P)、CZ、CNOTゲートからなる回路である。 このような回路は、3段階の計算として -P-CZ-CNOT と書けることが知られている。 本稿では, ゲートの絡み合いによる回路深度の最小化と, デコヒーレンスによるノイズ低減について検討する。 我々は、LNN(Linear Nearest Neighbor)とオールツーオールの2つの一般的な接続マップについて検討する。 まず,Adamard-free Clifford 演算を LNN 上,深さ 5n$,すなわち -CNOT 段のみの深さで実行可能であることを示す。 これは LNN 上の任意の Clifford 変換を 7n{+}2$ 以上の深さで実装でき、以前の 9n$ の最高上限を改善することを意味する。 第2に、平均的にランダムに分散した$n{>}6$ qubits上のアダマールフリークリフォード変換は、-cnot-stage単独でよく知られた奥行き最適化実装と比較して、全接続アーキテクチャに対して小さな加算定数のオーバーヘッドだけで実装できるというヒューリスティックな証拠を報告する。 これはクリフォード回路の深さを 2n\,{+}\,O(\log^2(n))$ から $1.5n\,{+}\,O(\log^2(n))$ に減らすことを示唆している。

A Hadamard-free Clifford transformation is a circuit composed of quantum Phase (P), CZ, and CNOT gates. It is known that such a circuit can be written as a three-stage computation, -P-CZ-CNOT-, where each stage consists only of gates of the specified type. In this paper, we focus on the minimization of circuit depth by entangling gates, corresponding to the important time-to-solution metric and the reduction of noise due to decoherence. We consider two popular connectivity maps: Linear Nearest Neighbor (LNN) and all-to-all. First, we show that a Hadamard-free Clifford operation can be implemented over LNN in depth $5n$, i.e., in the same depth as the -CNOT- stage alone. This implies the ability to implement arbitrary Clifford transformation over LNN in depth no more than $7n{+}2$, improving the best previous upper bound of $9n$. Second, we report heuristic evidence that on average a random uniformly distributed Hadamard-free Clifford transformation over $n{>}6$ qubits can be implemented with only a tiny additive constant overhead over all-to-all connected architecture compared to the best-known depth-optimized implementation of the -CNOT- stage alone. This suggests the reduction of the depth of Clifford circuits from $2n\,{+}\,O(\log^2(n))$ to $1.5n\,{+}\,O(\log^2(n))$ over unrestricted architectures.
翻訳日:2023-01-21 05:27:21 公開日:2022-10-28
# エンタングルメント強化光メカニカルセンシング

Entanglement-Enhanced Optomechanical Sensing ( http://arxiv.org/abs/2210.16180v1 )

ライセンス: Link先を確認
Yi Xia, Aman R. Agrawal, Christian M. Pluchar, Anthony J. Brady, Zhen Liu, Quntao Zhuang, Dalziel J. Wilson, Zheshen Zhang(参考訳) 光力学システムは、力、加速度、磁場の超感度測定に利用されている。 光機械センシングの基本的な限界は広く研究され、現在よく理解されている - ボソニック光学モードと機械モードの固有の不確かさ、および2つの相互作用から生じるバックアクションノイズと共に、標準量子限界(sql)を決定する。 非古典的プローブ、原位置のポンダーモチベーションによるスクイーズ光、そして個々の光機械センサのsqlを克服するバックアクションエバディング測定に基づく高度な技術が開発されている。 光学機械センシングを強化するための、概念的にも概念的にもより単純なアプローチは、複数のセンサーで測定されたジョイント測定によるものである。 この構成では、ジョイント測定の基本的な限界を克服するための経路は検討されていない。 ここでは,複数のオプティメカルセンサの絡み合ったプローブを用いて測定した関節力測定により,熱ノイズ支配体制の帯域幅やショットノイズ支配体制の感度が向上できることを実証する。 さらに, エンタングルドプローブの全体性能を感度帯域幅積で定量化し, 従来のプローブに比べて25%の増大を観測した。 エンタングルメントエンハンスド光機械センシングによって、慣性航法、音響イメージング、新しい物理学の探索に新たな能力が期待できる。

Optomechanical systems have been exploited in ultrasensitive measurements of force, acceleration, and magnetic fields. The fundamental limits for optomechanical sensing have been extensively studied and now well understood -- the intrinsic uncertainties of the bosonic optical and mechanical modes, together with the backaction noise arising from the interactions between the two, dictate the Standard Quantum Limit (SQL). Advanced techniques based on nonclassical probes, in-situ pondermotive squeezed light, and backaction-evading measurements have been developed to overcome the SQL for individual optomechanical sensors. An alternative, conceptually simpler approach to enhance optomechanical sensing rests upon joint measurements taken by multiple sensors. In this configuration, a pathway toward overcoming the fundamental limits in joint measurements has not been explored. Here, we demonstrate that joint force measurements taken with entangled probes on multiple optomechanical sensors can improve the bandwidth in the thermal-noise-dominant regime or the sensitivity in shot-noise-dominant regime. Moreover, we quantify the overall performance of entangled probes with the sensitivity-bandwidth product and observe a 25% increase compared to that of the classical probes. The demonstrated entanglement-enhanced optomechanical sensing could enable new capabilities for inertial navigation, acoustic imaging, and searches for new physics.
翻訳日:2023-01-21 05:26:34 公開日:2022-10-28
# ブラックホールの補間を解き放つ

Unpacking Black Hole Complementarity ( http://arxiv.org/abs/2211.15650v1 )

ライセンス: Link先を確認
Siddharth Muthukrishnan(参考訳) ブラックホール相補性(black hole complementarity)は、ブラックホール情報パラドックス(英語版)に反応して現れた、影響力のあるアイデアの集合に付随するラベルである。 しかし、多くの異なる主張が文献にそのラベルの下にあり、しばしば「ブラックホール相補性」へのアピールが何を意図しているかを混同することがある。 この文献を解いて、ブラックホール相補性は蒸発するブラックホールの量子特性の一貫性に関するものであると論じる。 これに焦点を当てるために、私はブラックホール相補性の2つの原則であるオペレーショナル相補性と記述的相補性という2つの一貫性の主張を記述します。 この2つの原則は、科学の背景哲学によって多かれ少なかれ魅力的である。 器楽主義者は操作的相補性に傾き、科学的実在主義者は記述的相補性に傾く。 器楽主義に抵抗する者(多くの者がそうしているように、正当な理由から)は、記述原理を採用して運用原則を拒絶する原始的なファシズムの理由を持つ。 しかし、ブラックホール相補性に関する物理学文献における一連の思考実験は、操作原理を採用する強い理由を与え、記述原理を拒絶する。 このことは、もし私たちが胃インストゥルメンタリズムができるなら、運用上の相補性はブラックホール情報のパラドックスを解決するのに十分であることを示している。

"Black hole complementarity" is a label attached to an influential set of ideas that have emerged in response to the black hole information paradoxes. However, many different claims come under that label in the literature, and it can often be confusing what an appeal to "black hole complementarity" is meant to do. Unpacking this literature, I argue that black hole complementarity is about the consistency of quantum characterizations of an evaporating black hole. To bring this into focus, I delineate two consistency claims -- i.e., two principles of black hole complementarity: operational complementarity and descriptive complementarity. These two principles are more or less attractive depending on one's background philosophy of science. Instrumentalists will lean towards operational complementarity while scientific realists will lean towards descriptive complementarity. If one resists instrumentalism (as many do, for good reason), one has a prima facie reason to adopt the descriptive principle and reject the operational principle. However, a series of thought experiments in the physics literature on black hole complementarity gives us strong reasons to adopt the operational principle and reject the descriptive principle. This shows that if we can stomach instrumentalism, then operational complementarity may suffice to resolve the black hole information paradox.
翻訳日:2023-01-21 05:20:23 公開日:2022-10-28
# 量子インスパイア最適化アルゴリズムを用いた部分和問題の解法と監査・財務データ分析への応用

Solving Subset Sum Problems using Quantum Inspired Optimization Algorithms with Applications in Auditing and Financial Data Analysis ( http://arxiv.org/abs/2211.02653v1 )

ライセンス: Link先を確認
David Biesner, Thore Gerlach, Christian Bauckhage, Bernd Kliem, Rafet Sifa(参考訳) 自動監査や財務文書の分析・整合性チェックにおける多くの応用は、部分的にはサブセットの和問題として定式化することができる。 問題はNPハードであり、古典的な解法アルゴリズムは多くの実アプリケーションで実用的ではない。 我々は、qubo(quadratic unconstrained binary optimization)問題としてこの問題に取り組み、ホップフィールドネットワーク上の勾配降下が、人工データと実データの両方の解を確実に見つける方法を示す。 量子アニーリングハードウェア上でのディジタルアニーリングおよび実験を行うための、断熱量子コンピュータ(量子アニーラー)および専用ハードウェア(フィールドプログラマブルゲートアレイ)によるこのアルゴリズムの適用方法について概説する。

Many applications in automated auditing and the analysis and consistency check of financial documents can be formulated in part as the subset sum problem: Given a set of numbers and a target sum, find the subset of numbers that sums up to the target. The problem is NP-hard and classical solving algorithms are therefore not practical to use in many real applications. We tackle the problem as a QUBO (quadratic unconstrained binary optimization) problem and show how gradient descent on Hopfield Networks reliably finds solutions for both artificial and real data. We outline how this algorithm can be applied by adiabatic quantum computers (quantum annealers) and specialized hardware (field programmable gate arrays) for digital annealing and run experiments on quantum annealing hardware.
翻訳日:2023-01-21 05:19:59 公開日:2022-10-28
# 半量子ランダム数生成

Semi-Quantum Random Number Generation ( http://arxiv.org/abs/2210.16427v1 )

ライセンス: Link先を確認
Julia Guskind and Walter O. Krawec(参考訳) 半量子暗号には、半量子または古典的な性質を持つ少なくとも1人のユーザーが含まれる。 そのようなユーザは、非常に制限された方法で量子チャネルとしかやりとりできない。 多くの半量子鍵分布プロトコルが開発され、いくつかは厳密なセキュリティ証明がある。 ここで、我々の知識に初めて、半量子環境において量子乱数生成が可能であることを示します。 また,チャネル内のノイズの関数として,プロトコルのランダムビット生成率のバウンドを導出して,セキュリティの厳密な証明を開発する。 我々のプロトコルと証明は、ユーザが能力に制限がある他の量子および半量子暗号シナリオにも広く適用できます。

Semi-quantum cryptography involves at least one user who is semi-quantum or "classical" in nature. Such a user can only interact with the quantum channel in a very restricted way. Many semi-quantum key distribution protocols have been developed, some with rigorous proofs of security. Here we show for the first time, to our knowledge, that quantum random number generation is possible in the semi-quantum setting. We also develop a rigorous proof of security, deriving a bound on the random bit generation rate of the protocol as a function of noise in the channel. Our protocol and proof may be broadly applicable to other quantum and semi-quantum cryptographic scenarios where users are limited in their capabilities.
翻訳日:2023-01-21 05:19:21 公開日:2022-10-28
# 変分ギブス状態形成のための熱的マルチスケールエンタングルメント再正規化アンサッツ

Thermal Multi-scale Entanglement Renormalization Ansatz for Variational Gibbs State Preparation ( http://arxiv.org/abs/2210.16419v1 )

ライセンス: Link先を確認
Troy J. Sewell, Christopher David White, Brian Swingle(参考訳) 多くのシミュレーションタスクでは、まずシステムのギブス状態を準備する必要がある。 本稿では, 量子コンピュータ上での熱ギブズ状態の変動生成のための量子回路群を, 熱多スケールエンタングルメント再正規化アンサッツ (TMERA) と呼ぶ。 TMERA回路は入力キュービットを様々な長さスケールにローカライズされたウェーブパレットモードに変換し、これらのモードの混合状態としてシステムギブズ状態を近似する。 TMERAはディープマルチスケールエンタングルメント再正規化アンサッツ(DMERA)に基づいており、TMERAは各入力キュービットを混合状態として準備することによって基底状態DMERA回路を変更する。 入力量子ビットの励起確率は、特定の温度ギブス状態をターゲットにするために使用される変動パラメータとして機能する。 TMERAは熱状態の製品スペクトルアンサッツの特殊な場合であるため、準備、分析、最適化が簡単である。 我々は、横フィールドIsingモデル上でTMERAを1次元でベンチマークし、D=6$の場合、全温度にわたって512サイトシステムに対して$\mathcal F > 0.4$のグローバルフィダリティを生成する。

Many simulation tasks require that one first prepare a system's Gibbs state. We present a family of quantum circuits for variational preparation of thermal Gibbs states on a quantum computer; we call them the thermal multi-scale entanglement renormalization ansatz (TMERA). TMERA circuits transform input qubits to wavepacket modes localized to varying length scales and approximate a systems Gibbs state as a mixed state of these modes. The TMERA is a based on the deep multi-scale entanglement renormalization ansatz (DMERA); a TMERA modifies a ground-state DMERA circuit by preparing each input qubit as a mixed state. The excitation probabilities for input qubits serve as variational parameters used to target particular temperature Gibbs states. Since a TMERA is a special case of the product spectrum ansatz for thermal states, it is simple to prepare, analyze, and optimize. We benchmark the TMERA on the transverse field Ising model in one dimension and find that for $D=6$ it produces global fidelities $\mathcal F > 0.4$ for 512-site systems across all temperatures.
翻訳日:2023-01-21 05:19:14 公開日:2022-10-28
# 合成薄膜銅酸化物中の高励起rydberg励起子

Highly-Excited Rydberg Excitons in Synthetic Thin-Film Cuprous Oxide ( http://arxiv.org/abs/2210.16416v1 )

ライセンス: Link先を確認
Jacob DeLange, Kinjol Barua, Val Zwiller, Stephan Steinhauer, Hadiseh Alaeian(参考訳) cuprous oxide (cu${}_2$o) は、大きな主量子数(n$)を持つ励起子ライドバーグ状態の有望な固体ホストとして最近提案されており、その大げさな波動関数サイズ(\propto n^2$)は巨大双極子双極子(\propto n^4$)とvan der waals(\propto n^{11}$)であり、固体量子技術にとって理想的な基礎となっている。 シンセティックで薄膜のCu${}_2$Oサンプルは、慎重に制御された製造によって欠陥のない状態にすることができ、原則として、ライドベルク封鎖による極度の単光子非線形性の観測に適しているため、特に興味深い。 ここでは, 透明基板上に成長したCu${}_2$O中のRydberg励起子の分光吸収および光ルミネッセンス研究を行い, 黄色エキシトン系列を$n = 7$まで報告する。 我々は、ライドバーグ級数を観測できる最高温度である2mwまでのパワーと150kまでの温度でこれらの研究を行う。 これらの結果は、スケーラブルで統合可能なrydbergベースの量子デバイスへの新しいポータルを開く。

Cuprous oxide (Cu${}_2$O) has recently been proposed as a promising solid-state host for excitonic Rydberg states with large principal quantum numbers ($n$), whose exaggerated wavefunction sizes ($\propto n^2)$ facilitate gigantic dipole-dipole ($\propto n^4$) and van der Waals ($\propto n^{11}$) interactions, making them an ideal basis for solid-state quantum technology. Synthetic, thin-film Cu${}_2$O samples are of particular interest because they can be made defect-free via carefully controlled fabrication and are, in principle, suitable for the observation of extreme single-photon nonlinearities caused by the Rydberg blockade. Here, we present spectroscopic absorption and photoluminescence studies of Rydberg excitons in synthetic Cu${}_2$O grown on a transparent substrate, reporting yellow exciton series up to $n = 7$. We perform these studies at powers up to 2 mW and temperatures up to 150 K, the highest temperature where Rydberg series can be observed. These results open a new portal to scalable and integrable on-chip Rydberg-based quantum devices.
翻訳日:2023-01-21 05:18:50 公開日:2022-10-28
# 半金属および半伝導性グラフェン-hBN多層膜

Semimetallic and semiconducting graphene-hBN multilayers with parallel or reverse stacking ( http://arxiv.org/abs/2210.16393v1 )

ライセンス: Link先を確認
Xi Chen, Christian Moulsdale, Vladimir I. Fal'ko, Angelika Knothe(参考訳) 異なる対称性を有する交互グラフェンおよびhbn層の3次元層状結晶を理論的に検討した。 グラフェン層間のホッピングパラメータによって、これらの合成3D材料は、半金属、ギャップ、またはワイル半金属相を特徴付けることができる。 以上の結果から, 個々の2次元材料から積み重ねた3次元結晶は, 成分とは異なる創発性を持つ新しい材料クラスであることがわかった。

We theoretically investigate 3D layered crystals of alternating graphene and hBN layers with different symmetries. Depending on the hopping parameters between the graphene layers, we find that these synthetic 3D materials can feature semimetallic, gapped, or Weyl semimetal phases. Our results demonstrate that 3D crystals stacked from individual 2D materials represent a new materials class with emergent properties different from their constituents.
翻訳日:2023-01-21 05:18:22 公開日:2022-10-28
# 部分空間の量子絡み合い認証のための線形システムの完全階層化

A Complete Hierarchy of Linear Systems for Certifying Quantum Entanglement of Subspaces ( http://arxiv.org/abs/2210.16389v1 )

ライセンス: Link先を確認
Nathaniel Johnston, Benjamin Lovitz, and Aravindan Vijayaraghavan(参考訳) 線形系の階層構造を導入し、純量子状態の与えられた部分空間が絡み合っていることを示す(すなわち、積状態は含まない)。 この階層は、既知のメソッドを1階で上回り、すべての絡み合った部分空間が階層のある種の有限レベルにおいてそうであることを示すという意味で完備である。 これは、より高次シュミット階数の場合と、完全かつ真に絡み合った部分空間の多重部分集合の場合とを簡単に一般化する。 これらの階層は、非常に大きな量子システムでも非常にうまく機能し、既知の階層が要求する半定義型プログラミング技術ではなく、初等線形代数技術によって実装できる。

We introduce a hierarchy of linear systems for showing that a given subspace of pure quantum states is entangled (i.e., contains no product states). This hierarchy outperforms known methods already at the first level, and it is complete in the sense that every entangled subspace is shown to be so at some finite level of the hierarchy. It generalizes straightforwardly to the case of higher Schmidt rank, as well as the multipartite cases of completely and genuinely entangled subspaces. These hierarchies work extremely well in practice even in very large quantum systems, as they can be implemented via elementary linear algebra techniques rather than the semidefinite programming techniques that are required by previously-known hierarchies.
翻訳日:2023-01-21 05:18:13 公開日:2022-10-28
# 量子力学的オントロジーの必須成分としての電磁真空場

The electromagnetic vacuum field as an essential ingredient of the quantum-mechanical ontology ( http://arxiv.org/abs/2210.16388v1 )

ライセンス: Link先を確認
Ana Mar\'ia Cetto, Luis de la Pe\~na(参考訳) 本稿では,無作為なゼロ点放射場(zpf)を量子力学系の特性を説明する上で必須のオントロジ成分として支援する要素について述べる。 古典粒子が zpf に連結されているとき、力学の劇的で質的な変化が起こり、最終的に量子力学に繋がることを示す。 特に、素粒子の標準変数の進化と並行して、基本交換子 \left[\hat{x},\hat{p}\right]=i\hbar を満たす量子作用素へと進化し、フィールドの標準変数も変換され、対応する生成および消滅演算子 \hat{a}^{\dagger},\hat{a} が生成され、\left[\hat{a},\hat{a}^{\dagger}\right]=1 を満たす。 これにより、量子ゆらぎ、定常状態、遷移などの量子的特徴を説明でき、(相対論的でない)量子電磁力学との自然な接触を確立することができる。

Abstract This paper provides elements in support of the random zero-point radiation field (zpf) as an essential ontological ingredient needed to explain distinctive properties of quantum-mechanical systems. We show that when an otherwise classical particle is connected to the zpf, a drastic, qualitative change in the dynamics takes place, leading eventually to the quantum dynamics. In particular, we demonstrate that in parallel with the evolution of the particle canonical variables into quantum operators satisfying the basic commutator \left[\hat{x},\hat{p}\right]=i\hbar, also the field canonical variables are transformed, giving rise to the corresponding creation and annihilation operators \hat{a}^{\dagger},\hat{a}, satisfying \left[\hat{a},\hat{a}^{\dagger}\right]=1. This allows for an explanation of quantum features such as quantum fluctuations, stationary states and transitions, and establishes a natural contact with (nonrelativistic) quantum electrodynamics.
翻訳日:2023-01-21 05:18:01 公開日:2022-10-28
# 高温で動作する位置制御型単光子エミッタ

Position-controlled Telecom Single Photon Emitters Operating at Elevated Temperatures ( http://arxiv.org/abs/2210.12833v2 )

ライセンス: Link先を確認
Patrick Laferri\`ere, Sofiane Haffouz, David B. Northeast, Philip J. Poole, Robin L. Williams and Dan Dalacu(参考訳) 単一光子エミッタはセキュアな通信に量子鍵分散プロトコルを実用化するための重要なコンポーネントである。 長距離光ネットワークでは、標準単一モードファイバー 1.31 {\mu}m と 1.55 {\mu}m と互換性のある波長で光子を使用することが不可欠である。 InAsP量子ドット・イン・ア・ロッド構造を含むInPフォトニック導波路ナノワイヤを用いて1.31 {\mu}mで高純度単一光子放射を示す。 4Kでは、検出されたファイバーのカウントレートは1.9mpsで、80MHzで、第1レンズでの光子収集効率は25%であった。 このカウントレートでは、多光子放出の確率は g(2)(0) = 0.021 である。 また,熱源の性能を温度関数として評価した。 多光子放出確率は、それぞれ77K、220K、300Kの0.11、0.34、0.57の値で温度とともに増加する。 これらの結果は、リラックスした冷却条件下で動作する通信用単一光子エミッタを確実に製造するための有望なステップである。

Single photon emitters are a key component for enabling the practical use of quantum key distribution protocols for secure communications. For long-haul optical networks it is imperative to use photons at wavelengths that are compatible with standard single mode fibers: 1.31 {\mu}m and 1.55 {\mu}m. We demonstrate high purity single photon emission at 1.31 {\mu}m using deterministically positioned InP photonic waveguide nanowires containing single InAsP quantum dot-in-a-rod structures. At 4 K the detected count rate in fiber was 1.9 Mcps under above-band pulsed laser excitation at 80 MHz corresponding to a single photon collection efficiency at the first lens of 25%. At this count rate, the probability of multiphoton emission is g(2)(0) = 0.021. We have also evaluated the performance of the source as a function of temperature. Multiphoton emission probability increases with temperature with values of 0.11, 0.34 and 0.57 at 77 K, 220 K and 300 K, respectively, which is attributed to an overlap of temperature-broadened excitonic emission lines. These results are a promising step towards scalably fabricating telecom single photon emitters that operate under relaxed cooling requirements.
翻訳日:2023-01-18 09:46:45 公開日:2022-10-28
# MAZE:ゼロ階勾配推定を用いたデータフリーモデルステアリング攻撃

MAZE: Data-Free Model Stealing Attack Using Zeroth-Order Gradient Estimation ( http://arxiv.org/abs/2005.03161v2 )

ライセンス: Link先を確認
Sanjay Kariyappa, Atul Prakash, Moinuddin Qureshi(参考訳) モデルステアリング(MS)攻撃により、機械学習モデルへのブラックボックスアクセスを持つ敵が機能を複製し、モデルの機密性を損なうことができる。 このような攻撃は、異なる入力に対するターゲットモデルの予測を用いてクローンモデルを訓練する。 このような攻撃の有効性は、ターゲットモデルへの問い合わせに必要なデータの可用性に大きく依存します。 既存の攻撃では、ターゲットモデルのデータセットに部分的にアクセスするか、セマンティックな類似性を持った代替データセットが利用可能になる。 本稿では,ゼロ階勾配推定を用いたデータフリーモデル盗難攻撃手法MAZEを提案する。 以前の研究とは対照的に、MAZEはいかなるデータも必要とせず、生成モデルを用いて合成データを生成する。 データフリーな知識蒸留(KD)における最近の研究に触発されて、我々は、クローンとターゲットモデルとの相違を最大化する入力を生成するために、不一致の目的を用いて生成モデルを訓練する。 しかしながら、グラデーション情報が利用可能なkdのホワイトボックス設定とは異なり、モデル盗用のためのジェネレータのトレーニングには、攻撃対象モデルにアクセスすることを伴うブラックボックス最適化を実行する必要がある。 MAZEはこの最適化を行うためにゼロ階勾配推定に依存しており、高精度なMS攻撃を可能にする。 4つのデータセットを用いた評価から,mazeは0.91xから0.99xの範囲で正規化されたクローン精度を提供し,部分的データ(jbda,クローン精度0.13xから0.69x)とサロゲートデータ(knockoffnets,クローン精度0.52xから0.97x)に依存する最近の攻撃よりも優れていた。 また、部分データ設定におけるMAZEの拡張について検討し、ターゲット分布に近い合成データを生成するMAZE-PDを開発した。 MAZE-PDはさらにクローン精度(0.97xから1.0x)を改善し、攻撃に必要なクエリを2x-24x削減する。

Model Stealing (MS) attacks allow an adversary with black-box access to a Machine Learning model to replicate its functionality, compromising the confidentiality of the model. Such attacks train a clone model by using the predictions of the target model for different inputs. The effectiveness of such attacks relies heavily on the availability of data necessary to query the target model. Existing attacks either assume partial access to the dataset of the target model or availability of an alternate dataset with semantic similarities. This paper proposes MAZE -- a data-free model stealing attack using zeroth-order gradient estimation. In contrast to prior works, MAZE does not require any data and instead creates synthetic data using a generative model. Inspired by recent works in data-free Knowledge Distillation (KD), we train the generative model using a disagreement objective to produce inputs that maximize disagreement between the clone and the target model. However, unlike the white-box setting of KD, where the gradient information is available, training a generator for model stealing requires performing black-box optimization, as it involves accessing the target model under attack. MAZE relies on zeroth-order gradient estimation to perform this optimization and enables a highly accurate MS attack. Our evaluation with four datasets shows that MAZE provides a normalized clone accuracy in the range of 0.91x to 0.99x, and outperforms even the recent attacks that rely on partial data (JBDA, clone accuracy 0.13x to 0.69x) and surrogate data (KnockoffNets, clone accuracy 0.52x to 0.97x). We also study an extension of MAZE in the partial-data setting and develop MAZE-PD, which generates synthetic data closer to the target distribution. MAZE-PD further improves the clone accuracy (0.97x to 1.0x) and reduces the query required for the attack by 2x-24x.
翻訳日:2022-12-06 05:06:45 公開日:2022-10-28
# ごく少数の試験例を用いた敵攻撃の普遍化

Universalization of any adversarial attack using very few test examples ( http://arxiv.org/abs/2005.08632v2 )

ライセンス: Link先を確認
Sandesh Kamath, Amit Deshpande, K V Subrahmanyam, Vineeth N Balasubramanian(参考訳) 深層学習モデルは、入力依存的敵攻撃だけでなく、入力非依存的または普遍的敵攻撃にも脆弱であることが知られている。 Dezfooliなど。 \cite{Dezfooli17,Dezfooli17anal} は、多数のトレーニングデータポイントとそれらの近傍の決定境界の幾何学を見て、与えられたモデルに対する普遍的な敵攻撃を構築する。 その後の作業 \cite{Khrulkov18} は、与えられたモデルのテスト例と中間層だけを見て普遍的な攻撃を構築する。 本稿では,任意の入力依存的敵意攻撃を取り込んで,ごく少数の敵意テスト例のみを見てユニバーサルアタックを構築するための簡易な普遍化手法を提案する。 与えられたモデルの詳細は必要とせず、普遍化のための計算オーバーヘッドも無視できる。 理論的には、多くの入力依存逆摂動に共通するスペクトル特性、例えば勾配、高速勾配符号法(FGSM)、ディープフールにより、普遍化手法を正当化する。 行列濃度の不等式とスペクトル摂動境界を用いて、小さなテストサンプル上の入力依存逆方向のトップ特異ベクトルが有効で単純な普遍逆攻撃を与えることを示す。 ImageNetでトレーニングされたVGG16およびVGG19モデルでは、64枚の画像の試験サンプルを用いたGradient、FGSM、DeepFool摂動の単純な普遍化は、摂動の合理的な規範に対して、最先端の普遍攻撃に匹敵する愚行率を与える。 コードはhttps://github.com/ksandeshk/svd-uap。

Deep learning models are known to be vulnerable not only to input-dependent adversarial attacks but also to input-agnostic or universal adversarial attacks. Dezfooli et al. \cite{Dezfooli17,Dezfooli17anal} construct universal adversarial attack on a given model by looking at a large number of training data points and the geometry of the decision boundary near them. Subsequent work \cite{Khrulkov18} constructs universal attack by looking only at test examples and intermediate layers of the given model. In this paper, we propose a simple universalization technique to take any input-dependent adversarial attack and construct a universal attack by only looking at very few adversarial test examples. We do not require details of the given model and have negligible computational overhead for universalization. We theoretically justify our universalization technique by a spectral property common to many input-dependent adversarial perturbations, e.g., gradients, Fast Gradient Sign Method (FGSM) and DeepFool. Using matrix concentration inequalities and spectral perturbation bounds, we show that the top singular vector of input-dependent adversarial directions on a small test sample gives an effective and simple universal adversarial attack. For VGG16 and VGG19 models trained on ImageNet, our simple universalization of Gradient, FGSM, and DeepFool perturbations using a test sample of 64 images gives fooling rates comparable to state-of-the-art universal attacks \cite{Dezfooli17,Khrulkov18} for reasonable norms of perturbation. Code available at https://github.com/ksandeshk/svd-uap .
翻訳日:2022-12-01 22:44:17 公開日:2022-10-28
# 畳み込みニューラルネットワークにおけるトポグラフィの導入

Introducing topography in convolutional neural networks ( http://arxiv.org/abs/2211.13152v1 )

ライセンス: Link先を確認
Maxime Poli, Emmanuel Dupoux, Rachid Riad(参考訳) 感覚タスクを担っている脳の一部が地形的に組織化され、近くのニューロンは入力信号の同じ特性に反応する。 そこで本研究では,神経科学の文献に着想を得て,畳み込みニューラルネットワーク(cnns)における新しい地形的帰納的バイアスを提案する。 そこで我々は,cnnの各畳み込み層をトポロジカルに整理する新しいトポロジカルロスと効率的な実装を導入した。 提案手法を4つのデータセットと3つのモデルの視覚および音声タスクでベンチマークし,すべてのベンチマークと同等の性能を示した。 また、CNNにおける異なる地形組織とどのように組み合わせられるかで、地形損失の一般化可能性を示した。 最後に,地形誘導バイアスを付加することにより,CNNのプルーニング耐性が向上することを示した。 提案手法は,精度を向上しつつ,よりメモリ効率の良いモデルを得るための新たな道筋を提供する。

Parts of the brain that carry sensory tasks are organized topographically: nearby neurons are responsive to the same properties of input signals. Thus, in this work, inspired by the neuroscience literature, we proposed a new topographic inductive bias in Convolutional Neural Networks (CNNs). To achieve this, we introduced a new topographic loss and an efficient implementation to topographically organize each convolutional layer of any CNN. We benchmarked our new method on 4 datasets and 3 models in vision and audio tasks and showed equivalent performance to all benchmarks. Besides, we also showcased the generalizability of our topographic loss with how it can be used with different topographic organizations in CNNs. Finally, we demonstrated that adding the topographic inductive bias made CNNs more resistant to pruning. Our approach provides a new avenue to obtain models that are more memory efficient while maintaining better accuracy.
翻訳日:2022-11-27 13:34:38 公開日:2022-10-28
# Federated Differentially Private Averagingのための正確でスケーラブルで検証可能なプロトコル

An Accurate, Scalable and Verifiable Protocol for Federated Differentially Private Averaging ( http://arxiv.org/abs/2006.07218v3 )

ライセンス: Link先を確認
C\'esar Sabater, Aur\'elien Bellet, Jan Ramon(参考訳) 複数の当事者が所有するデータから学ぶことは、連合学習のように、参加者に提供されるプライバシー保証と悪意のある当事者の存在下での計算の正確性に関する課題を提起する。 このような課題を分散平均化(distributed averaging)という,連合学習アルゴリズムの基本構成要素で解決する。 最初のコントリビューションは、参加者がネットワークグラフのエッジに沿って関連するガウスノイズを交換するスケーラブルなプロトコルである。 我々は,我々のプロトコルの差分プライバシー保証と,悪意ある関係者の衝突によるグラフトポロジの影響を分析し,各正直な当事者がランダムに選択した他の参加者の対数的な数だけと通信しても,信頼できるキュレーターモデルの実用性にほぼ一致することを示した。 これは、ローカルなプライバシモデル(ユーティリティが低い)やセキュアアグリゲーション(すべてのユーザのペアがメッセージを交換する必要がある)のプロトコルとは対照的です。 第2のコントリビューションでは,プロトコルの効率性とプライバシ保証を損なうことなく,計算の正確性を証明することができる。 我々の検証プロトコルは、コミットメントスキームやゼロ知識証明のような標準的な暗号プリミティブに依存しています。

Learning from data owned by several parties, as in federated learning, raises challenges regarding the privacy guarantees provided to participants and the correctness of the computation in the presence of malicious parties. We tackle these challenges in the context of distributed averaging, an essential building block of federated learning algorithms. Our first contribution is a scalable protocol in which participants exchange correlated Gaussian noise along the edges of a network graph, complemented by independent noise added by each party. We analyze the differential privacy guarantees of our protocol and the impact of the graph topology under colluding malicious parties, showing that we can nearly match the utility of the trusted curator model even when each honest party communicates with only a logarithmic number of other parties chosen at random. This is in contrast with protocols in the local model of privacy (with lower utility) or based on secure aggregation (where all pairs of users need to exchange messages). Our second contribution enables users to prove the correctness of their computations without compromising the efficiency and privacy guarantees of the protocol. Our verification protocol relies on standard cryptographic primitives like commitment schemes and zero knowledge proofs.
翻訳日:2022-11-22 03:43:24 公開日:2022-10-28
# 文変換器を用いた自動監査のためのゼロショットテキストマッチング

Zero-Shot Text Matching for Automated Auditing using Sentence Transformers ( http://arxiv.org/abs/2211.07716v1 )

ライセンス: Link先を確認
David Biesner, Maren Pielka, Rajkumar Ramamurthy, Tim Dilmaghani, Bernd Kliem, R\"udiger Loitz, Rafet Sifa(参考訳) 自然言語処理手法は、文書や通路分類、情報検索、質問応答などの自動監査にいくつかの応用がある。 しかし、そのようなモデルのトレーニングには、産業環境では不十分な大量の注釈付きデータが必要である。 同時に、ゼロショットや教師なし学習のようなテクニックは、一般的なドメインデータを使用して事前訓練されたモデルを、目に見えないドメインに適用することができる。 本研究では,トランスフォーマティブ・モデルであるtext-bertを用いた教師なしテキストマッチングの効率を,金融通路の意味的類似性に適用して検討する。 実験の結果,本モデルはドメイン内および外部データからの文書に対して堅牢であることがわかった。

Natural language processing methods have several applications in automated auditing, including document or passage classification, information retrieval, and question answering. However, training such models requires a large amount of annotated data which is scarce in industrial settings. At the same time, techniques like zero-shot and unsupervised learning allow for application of models pre-trained using general domain data to unseen domains. In this work, we study the efficiency of unsupervised text matching using Sentence-Bert, a transformer-based model, by applying it to the semantic similarity of financial passages. Experimental results show that this model is robust to documents from in- and out-of-domain data.
翻訳日:2022-11-20 13:59:54 公開日:2022-10-28
# ソーシャルメディアテキストによる臨床うつ病の深部時間的モデリング

Deep Temporal Modelling of Clinical Depression through Social Media Text ( http://arxiv.org/abs/2211.07717v1 )

ライセンス: Link先を確認
Nawshad Farruque, Randy Goebel, Sudhakar Sivapalan and Osmar R. Za\"iane(参考訳) 本稿では,ユーザの時間的ソーシャルメディア投稿に基づいて,ユーザレベルの臨床うつ病を検出するモデルの開発について述べる。 本モデルはうつ病症状検出(DSD:Depression Symptoms Detection)モデルを用いて,臨床症状に対する注釈付きツイートの最大のサンプルをトレーニングした。 その後,DSDモデルを用いて,うつ病スコアとその関連時間パターンの抽出や,ユーザの投稿行動パターンの定量化,例えば「活動なし」や「サイレンス」などの臨床的特徴を抽出する。 さらに,抽出された特徴の有効性を評価するために,既存の2つのベンチマークデータセットから,テストデータセットを含む3種類のデータセットを作成し,ユーザレベルの抑うつ検出を行う。 次に,複数の時間的粒度,データ分布,臨床抑うつ検出関連設定の異なるレベルにおいて,単一特徴量,ベースライン特徴量,特徴アブレーションテストに基づく精度測定を行い,これらの特徴が生成したデータセットにまたがる影響の全体像を明らかにした。 最後に、一般に、意味指向表現モデルのみがうまく機能することを示す。 しかし、トレーニングとテストの分布が似ており、ユーザのタイムラインにより多くのデータがあるため、臨床機能により全体的なパフォーマンスが向上する可能性がある。 さらに,より敏感なうつ病検出環境において,うつ病スコアの予測能力は有意に増加することが示された。

We describe the development of a model to detect user-level clinical depression based on a user's temporal social media posts. Our model uses a Depression Symptoms Detection (DSD) model, which is trained on the largest existing samples of clinician annotated tweets for clinical depression symptoms. We subsequently use our DSD model to extract clinically relevant features, e.g., depression scores and their consequent temporal patterns, as well as user posting activity patterns, e.g., quantifying their ``no activity'' or ``silence.'' Furthermore, to evaluate the efficacy of these extracted features, we create three kinds of datasets including a test dataset, from two existing well-known benchmark datasets for user-level depression detection. We then provide accuracy measures based on single features, baseline features and feature ablation tests, at several different levels of temporal granularity, data distributions, and clinical depression detection related settings to draw a complete picture of the impact of these features across our created datasets. Finally, we show that, in general, only semantic oriented representation models perform well. However, clinical features may enhance overall performance provided that the training and testing distribution is similar, and there is more data in a user's timeline. Further, we show that the predictive capability of depression scores increase significantly while used in a more sensitive clinical depression detection settings.
翻訳日:2022-11-20 13:59:42 公開日:2022-10-28
# 海馬表面多変量解析とスパース符号化によるβ-アミロイドおよびタウバーデンの予測の改善

Improved Prediction of Beta-Amyloid and Tau Burden Using Hippocampal Surface Multivariate Morphometry Statistics and Sparse Coding ( http://arxiv.org/abs/2211.05235v1 )

ライセンス: Link先を確認
Jianfeng Wu (1), Yi Su (2), Wenhui Zhu (1), Negar Jalili Mallak (1), Natasha Lepore (3), Eric M. Reiman (2), Richard J. Caselli (4), Paul M. Thompson (5), Kewei Chen (2), Yalin Wang (1) (for the Alzheimer's Disease Neuroimaging Initiative, (1) School of Computing and Augmented Intelligence, Arizona State University, Tempe, USA, (2) Banner Alzheimer's Institute, Phoenix, USA, (3) CIBORG Lab, Department of Radiology Children's Hospital Los Angeles, Los Angeles, USA, (4) Department of Neurology, Mayo Clinic Arizona, Scottsdale, USA, (5) Imaging Genetics Center, Stevens Neuroimaging and Informatics Institute, University of Southern California, Marina del Rey, USA)(参考訳) 背景: ベータアミロイド (A$\beta$) 脳のプラークとタウタンパク質のタングルは、アルツハイマー病 (AD) の「A」と「T」のマークであり、脳磁気共鳴画像 (MRI) で検出可能な構造萎縮とともに、ADの「ATNフレームワーク」を構成する神経変性 ('N') バイオマーカーの1つである。 現在、A$\beta$/tauの病態を検出する方法として、髄液(CSF; invasive)、ポジトロン断層撮影(PET; costly and not available)、血液ベースのバイオマーカー(BBBM; promising、主に開発中)がある。 目的:アミロイドとタウの測定を定量的に予測する非侵襲的で広く利用可能な構造的MRIベースのフレームワークを開発する。 方法: mri-based hippocampal multivariate morphometry statistics (mms) 機能を用いて,パッチ分析に基づく表面コレントロピーによるスパース符号化と最大プールモデル(pascs-mp)をリッジ回帰モデルと組み合わせ,個々のアミロイド/タウ測度予測に適用する。 結果: アルツハイマー病神経画像イニシアチブ(ADNI)のアミロイドPET/MRIおよびタウPET/MRIデータセットについて検討した。 各被験者は、PET画像とMRIスキャンからなる1対のペアをほぼ同時に収集する。 実験結果から,pascp-mp表現で予測されるアミロイド/タウ測定は,球面高調波(spharm)に基づく海馬表面積,体積,形状形態計測などの他の手法による測定値よりも実値に近いことが示唆された。 結論: MMSをベースとしたPASCP-MPは海馬萎縮をアミロイドとタウの病理で橋渡しし, 疾患の負担, 進行, 治療効果の評価に有効である。

Background: Beta-amyloid (A$\beta$) plaques and tau protein tangles in the brain are the defining 'A' and 'T' hallmarks of Alzheimer's disease (AD), and together with structural atrophy detectable on brain magnetic resonance imaging (MRI) scans as one of the neurodegenerative ('N') biomarkers comprise the ''ATN framework'' of AD. Current methods to detect A$\beta$/tau pathology include cerebrospinal fluid (CSF; invasive), positron emission tomography (PET; costly and not widely available), and blood-based biomarkers (BBBM; promising but mainly still in development). Objective: To develop a non-invasive and widely available structural MRI-based framework to quantitatively predict the amyloid and tau measurements. Methods: With MRI-based hippocampal multivariate morphometry statistics (MMS) features, we apply our Patch Analysis-based Surface Correntropy-induced Sparse coding and max-pooling (PASCS-MP) method combined with the ridge regression model to individual amyloid/tau measure prediction. Results: We evaluate our framework on amyloid PET/MRI and tau PET/MRI datasets from the Alzheimer's Disease Neuroimaging Initiative (ADNI). Each subject has one pair consisting of a PET image and MRI scan, collected at about the same time. Experimental results suggest that amyloid/tau measurements predicted with our PASCP-MP representations are closer to the real values than the measures derived from other approaches, such as hippocampal surface area, volume, and shape morphometry features based on spherical harmonics (SPHARM). Conclusion: The MMS-based PASCP-MP is an efficient tool that can bridge hippocampal atrophy with amyloid and tau pathology and thus help assess disease burden, progression, and treatment effects.
翻訳日:2022-11-13 23:57:39 公開日:2022-10-28
# 空間グラフ信号補間と様々な次元のBCIデータセットの融合への応用

Spatial Graph Signal Interpolation with an Application for Merging BCI Datasets with Various Dimensionalities ( http://arxiv.org/abs/2211.02624v1 )

ライセンス: Link先を確認
Yassine El Ouahidi, Lucas Drumetz, Giulia Lioi, Nicolas Farrugia, Bastien Pasdeloup and Vincent Gripon(参考訳) BCI Motor Imageryデータセットは通常小さく、電極の設定が異なる。 ディープニューラルネットワークをトレーニングする場合、利用可能なデータ量を増やすためにこれらのデータセットをすべて活用して、優れた一般化結果を得ることができる。 そこで本研究では,複数の電極を効率的に補間できる空間グラフ信号補間手法を提案する。 提案手法を球面スプライン補間と比較し,5つのbciモータ画像データセットを用いて実験を行った。 この研究は、電極を補間するためのグラフの活用方法や、複数のデータセットを均質化する方法について、新しいアイデアを提供すると考えている。

BCI Motor Imagery datasets usually are small and have different electrodes setups. When training a Deep Neural Network, one may want to capitalize on all these datasets to increase the amount of data available and hence obtain good generalization results. To this end, we introduce a spatial graph signal interpolation technique, that allows to interpolate efficiently multiple electrodes. We conduct a set of experiments with five BCI Motor Imagery datasets comparing the proposed interpolation with spherical splines interpolation. We believe that this work provides novel ideas on how to leverage graphs to interpolate electrodes and on how to homogenize multiple datasets.
翻訳日:2022-11-13 23:46:58 公開日:2022-10-28
# CNNとLSTMを用いた震度自動予測

Automatic Seizure Prediction using CNN and LSTM ( http://arxiv.org/abs/2211.02679v1 )

ライセンス: Link先を確認
Abhijeet Bhattacharya(参考訳) 脳波(EEG)は、脳内の出来事を理解し、身体の出来事をさらに理解するための最も重要な技術の一つである。 脳波信号による発作の自動予測は、医師や臨床専門家に役立ち、作業負荷を減らす。 本稿では,脳波データや特徴工学を重く前処理することなく,発作予測の面倒な作業を完全に自動化するエンドツーエンドのディープラーニングアルゴリズムを提案する。 提案するdeep learning networkは,脳波信号を用いた発作予測フレームワークを自動化する信号処理とディープラーニングパイプラインを組み合わせたものだ。 提案手法をオープンEEGデータセットCHB-MITを用いて評価した。 ネットワークの平均感度は97.746\text{\%} で、偽陽性率 (fpr) は1時間あたり 0.2373 である。

The electroencephalogram (EEG) is one of the most precious technologies to understand the happenings inside our brain and further understand our body's happenings. Automatic prediction of oncoming seizures using the EEG signals helps the doctors and clinical experts and reduces their workload. This paper proposes an end-to-end deep learning algorithm to fully automate seizure prediction's laborious task without any heavy pre-processing on the EEG data or feature engineering. The proposed deep learning network is a blend of signal processing and deep learning pipeline, which automates the seizure prediction framework using the EEG signals. This proposed model was evaluated on an open EEG dataset, CHB-MIT. The network achieved an average sensitivity of 97.746\text{\%} and a false positive rate (FPR) of 0.2373 per hour.
翻訳日:2022-11-13 23:45:34 公開日:2022-10-28
# 単語リストを超越する:科学文書の人間ライクな話題の抽象的話題ラベルに向けて

Moving beyond word lists: towards abstractive topic labels for human-like topics of scientific documents ( http://arxiv.org/abs/2211.05599v1 )

ライセンス: Link先を確認
Domenic Rosati(参考訳) トピックモデルは、文書のグループを単語のリスト(トピックラベル)として表現する。 この研究は、単語リストよりもトピックの自然言語記述に近いトピックラベリングへの代替アプローチを開発できるかどうかを問うものである。 そこで本研究では,抽象的マルチドキュメント要約(mds)を用いた人間ライクなトピックラベル生成手法を提案する。 我々はこのアプローチを探索的なケーススタディで検討する。 我々は,トピックラベリングのためのmdsを完全に運用するために,今後どのような研究が必要かを理解するために,引用文中のトピックをモデル化する。 本研究は,より人間的な話題に加えて,話題モデルの尺度ではなく,クラスタリングや要約を用いた評価の利点があることを示す。 しかし、トピックモデリングのためのMDSを十分に評価するためには、十分に力のある研究を設計する前には、いくつかの開発が必要であることがわかった。 すなわち、クラスタ凝集の改善、MDSの事実性と忠実性の向上、MDSがサポートする可能性のあるドキュメントの数の増加である。 我々は,これらをいかに取り組めばよいのか,多くのアイデアを提示するとともに,トピックモデリングがmds全般を改善する上でどのように役立つのか,いくつかの考察をまとめる。

Topic models represent groups of documents as a list of words (the topic labels). This work asks whether an alternative approach to topic labeling can be developed that is closer to a natural language description of a topic than a word list. To this end, we present an approach to generating human-like topic labels using abstractive multi-document summarization (MDS). We investigate our approach with an exploratory case study. We model topics in citation sentences in order to understand what further research needs to be done to fully operationalize MDS for topic labeling. Our case study shows that in addition to more human-like topics there are additional advantages to evaluation by using clustering and summarization measures instead of topic model measures. However, we find that there are several developments needed before we can design a well-powered study to evaluate MDS for topic modeling fully. Namely, improving cluster cohesion, improving the factuality and faithfulness of MDS, and increasing the number of documents that might be supported by MDS. We present a number of ideas on how these can be tackled and conclude with some thoughts on how topic modeling can also be used to improve MDS in general.
翻訳日:2022-11-13 23:36:47 公開日:2022-10-28
# UniASM: 微調整なしでバイナリコードの類似性検出

UniASM: Binary Code Similarity Detection without Fine-tuning ( http://arxiv.org/abs/2211.01144v1 )

ライセンス: Link先を確認
Yeming Gu, Hui Shu and Fan Hu(参考訳) bcsd(binary code similarity detection)は,脆弱性探索やマルウェア検出,クローン検出,パッチ解析など,さまざまなバイナリ解析タスクで広く使用されている。 近年の研究では、学習ベースのバイナリコード埋め込みモデルが従来の機能ベースアプローチよりも優れていることが示されている。 本論文では,バイナリ関数の表現を学習するために,UniASMと呼ばれるトランスフォーマーベースのバイナリコード埋め込みモデルを提案する。 生成したベクトルの空間分布をより均一にするため,我々は2つの新しい訓練タスクを設計した。 さらに,二項関数に対する新しいトークン化手法を提案し,語彙外問題(OOV)を緩和しながらトークンの意味情報を増加させた。 実験の結果,UniASMは評価データセットにおける最先端(SOTA)アプローチよりも優れていた。 クロスコンパイラ,クロス最適化レベル,クロスファンクションの平均スコアは0.72,0.63,0.77であり,既存のSOTAベースラインよりも高い。 既知の脆弱性検索の現実的なタスクでは、UniASMは現在のベースラインをすべて上回っている。

Binary code similarity detection (BCSD) is widely used in various binary analysis tasks such as vulnerability search, malware detection, clone detection, and patch analysis. Recent studies have shown that the learning-based binary code embedding models perform better than the traditional feature-based approaches. In this paper, we proposed a novel transformer-based binary code embedding model, named UniASM, to learn representations of the binary functions. We designed two new training tasks to make the spatial distribution of the generated vectors more uniform, which can be used directly in BCSD without any fine-tuning. In addition, we proposed a new tokenization approach for binary functions, increasing the token's semantic information while mitigating the out-of-vocabulary (OOV) problem. The experimental results show that UniASM outperforms state-of-the-art (SOTA) approaches on the evaluation dataset. We achieved the average scores of recall@1 on cross-compilers, cross-optimization-levels and cross-obfuscations are 0.72, 0.63, and 0.77, which is higher than existing SOTA baselines. In a real-world task of known vulnerability searching, UniASM outperforms all the current baselines.
翻訳日:2022-11-06 14:55:44 公開日:2022-10-28
# 周波数閾値を超える低頻度データに対する保守的類似度推定器

Conservative Likelihood Ratio Estimator for Infrequent Data Slightly above a Frequency Threshold ( http://arxiv.org/abs/2211.00545v1 )

ライセンス: Link先を確認
Masato Kikuchi, Yuhi Kusakabe, Tadachika Ozono(参考訳) 観測された事象の周波数を用いたナイーブ確率比(LR)推定は、頻度の低いデータに対してLRを過大評価することができる。 この問題を回避する一つのアプローチは、周波数閾値を使い、しきい値以下の周波数の見積もりをゼロに設定することである。 このアプローチはいくつかの推定値の計算を排除し、LRを用いた実用的なタスクをより効率的にする。 しかし、しきい値付近の低周波数でLRを過大評価している。 本研究は、低周波のしきい値よりわずかに高い保守的推定器を提案する。 実験では、LRを用いて、コーパスから名前付きエンティティの発生状況を予測する。 実験結果は,文脈予測タスクの効率を維持しつつ予測精度を向上させることを実証する。

A naive likelihood ratio (LR) estimation using the observed frequencies of events can overestimate LRs for infrequent data. One approach to avoid this problem is to use a frequency threshold and set the estimates to zero for frequencies below the threshold. This approach eliminates the computation of some estimates, thereby making practical tasks using LRs more efficient. However, it still overestimates LRs for low frequencies near the threshold. This study proposes a conservative estimator for low frequencies, slightly above the threshold. Our experiment used LRs to predict the occurrence contexts of named entities from a corpus. The experimental results demonstrate that our estimator improves the prediction accuracy while maintaining efficiency in the context prediction task.
翻訳日:2022-11-02 13:26:06 公開日:2022-10-28
# UNFIS:非構造ファジィ規則を用いた新しいニューロファジィ推論システム

UNFIS: A Novel Neuro-Fuzzy Inference System with Unstructured Fuzzy Rules for Classification ( http://arxiv.org/abs/2211.00599v1 )

ライセンス: Link先を確認
Armin Salimi-Badr(参考訳) ファジィ推論システム(FIS)の重要な制約は、全ての入力変数の評価に基づいて定義された規則である。 実際、すべてのファジィルールの長さと入力変数の数は等しい。 しかし、入力変数の限られたセットの条件を評価する多くの意思決定問題では、適切に決定するには十分である(非構造化ルール)。 したがって、この制約はFISの性能、一般化、解釈可能性を制限する。 そこで本研究では,各ファジィルールを構成するために,異なる入力変数を選択可能な分類用ニューロファジィ推論システムを提案する。 この機能を実現するために,各ファジィルールの先行部において入力変数を選択できる適応パラメータを持つ新しいファジィセレクタニューロンを提案する。 また,本論文では,入力変数の集合のみを考えるために,高木・菅野・江FISの連続部分も適切に変更する。 提案アーキテクチャのパラメータを学習するために,マルチクラス問題におけるクロスエントロピーを最小限に抑えるため,信頼領域に基づく学習手法(General quasi-Levenberg-Marquardt (GqLM))を提案する。 提案手法の性能は,いくつかの実世界の分類問題における先行手法と比較される。 これらの比較結果に基づき, 提案手法は非構造ファジィからなる擬似構造を用いて, より良く, 非常に近い性能を示す。

An important constraint of Fuzzy Inference Systems (FIS) is their structured rules defined based on evaluating all input variables. Indeed, the length of all fuzzy rules and the number of input variables are equal. However, in many decision-making problems evaluating some conditions on a limited set of input variables is sufficient to decide properly (unstructured rules). Therefore, this constraint limits the performance, generalization, and interpretability of the FIS. To address this issue, this paper presents a neuro-fuzzy inference system for classification applications that can select different sets of input variables for constructing each fuzzy rule. To realize this capability, a new fuzzy selector neuron with an adaptive parameter is proposed that can select input variables in the antecedent part of each fuzzy rule. Moreover, in this paper, the consequent part of the Takagi-Sugeno-Kang FIS is also changed properly to consider only the selected set of input variables. To learn the parameters of the proposed architecture, a trust-region-based learning method (General quasi-Levenberg-Marquardt (GqLM)) is proposed to minimize cross-entropy in multiclass problems. The performance of the proposed method is compared with some related previous approaches in some real-world classification problems. Based on these comparisons the proposed method has better or very close performance with a parsimonious structure consisting of unstructured fuzzy.
翻訳日:2022-11-02 13:15:25 公開日:2022-10-28
# ベイズ二次法によるリチウムイオン電池モデルのベイズモデル選択

Bayesian Model Selection of Lithium-Ion Battery Models via Bayesian Quadrature ( http://arxiv.org/abs/2210.17299v1 )

ライセンス: Link先を確認
Masaki Adachi, Yannick Kuhn, Birger Horstmann, Michael A. Osborne, David A. Howey(参考訳) 本稿では, リチウムイオン電池モデルの選択基準のベイズ二次解析と感度解析によるベイズモデル選択手法を提案する。 ベイズ模型の証拠は、occamのカミソリ原理に基づいて最も単純だが十分に記述されたモデルを選択できる計量として採用されている。 モデル証拠はパラメータ空間上の限定的な積分計算を必要とするが、ベイズ二次数はモデルベース推論によるサンプル効率の高い積分を提供し、バッテリモデル評価の数を最小化する。 電池モデルパラメータの後方分布は1回で副生成物として推定することもできるが、これはデジタルツインの生成にも有用である。 最も単純なリチウムイオン電池モデルは等価回路モデルであり、異なるデータセットとモデル構成で選択基準の感度を分析するために用いられた。 我々は,ルート平均二乗誤差やベイズ情報基準などの一般的な選択基準が,マルチモーダル後部ケースにおける正しいモデルの選択に失敗することを示した。 モデルエビデンスはそのような場合において真のモデルを見つけることができ、同時にエビデンス推論自体の分散を信頼の指標として与える。 ベイズ二次法は、一般的なMCMC解法よりも高速に証拠を計算することができる。

This paper presents a Bayesian model selection approach via Bayesian quadrature and sensitivity analysis of the selection criterion for a lithium-ion battery model. The Bayesian model evidence is adopted as the metric, which can select the simplest but well-describing model based on Occam's razor principle. While the model evidence requires prohibitive integral computations over parameter space, Bayesian quadrature offers sample-efficient integration via model-based inference to minimise the number of battery model evaluations. The posterior distribution of battery model parameters can also be inferred as a byproduct in one go, which is also beneficial in creating a digital twin. The simplest lithium-ion battery models, equivalent circuit models, were used to analyse the sensitivity of the selection criterion at given different datasets and model configurations. We show that popular selection criteria, such as root-mean-square error, and Bayesian information criterion, can fail to select a correct model in a multimodal posterior case. The model evidence can spot the true model in such cases, simultaneously providing the variance of evidence inference itself as an indication of confidence. Bayesian quadrature can compute the evidence faster than popular MCMC solvers.
翻訳日:2022-11-01 20:05:56 公開日:2022-10-28
# ラベル雑音下での学習におけるフィッシャー・ラオ損失

The Fisher-Rao Loss for Learning under Label Noise ( http://arxiv.org/abs/2210.16401v1 )

ライセンス: Link先を確認
Henrique K. Miyamoto, F\'abio C. C. Meneghetti, Sueli I. R. Costa(参考訳) 経験的リスク最小化による学習には,適切な損失関数の選択が不可欠である。 多くの場合、分類器の訓練に使用されるデータセットには誤ったラベルが含まれており、ノイズに本質的に堅牢な損失関数の使用に対する関心を喚起する。 本稿では,離散分布の統計多様体におけるフィッシャー・ラオ距離から生じるフィッシャー・ラオ損失関数について検討する。 ラベル雑音の存在下での性能劣化の上限を導出し,この損失の学習速度を解析した。 他のよく使われる損失と比較して、フィッシャー・ラオの損失はロバストネスとトレーニング力学の自然なトレードオフをもたらすと論じる。 合成およびMNISTデータセットによる数値実験はこの性能を示す。

Choosing a suitable loss function is essential when learning by empirical risk minimisation. In many practical cases, the datasets used for training a classifier may contain incorrect labels, which prompts the interest for using loss functions that are inherently robust to label noise. In this paper, we study the Fisher-Rao loss function, which emerges from the Fisher-Rao distance in the statistical manifold of discrete distributions. We derive an upper bound for the performance degradation in the presence of label noise, and analyse the learning speed of this loss. Comparing with other commonly used losses, we argue that the Fisher-Rao loss provides a natural trade-off between robustness and training dynamics. Numerical experiments with synthetic and MNIST datasets illustrate this performance.
翻訳日:2022-11-01 19:59:16 公開日:2022-10-28
# odnet:小惑星のオカルト検出のための畳み込みニューラルネットワーク

ODNet: A Convolutional Neural Network for Asteroid Occultation Detection ( http://arxiv.org/abs/2210.16440v1 )

ライセンス: Link先を確認
Dorian Cazeneuve, Franck Marchis, Guillaume Blaclard, Paul A. Dalba, Victor Martin, Jo\'e Asencioa(参考訳) 本稿では,コンボリューショナルニューラルネットワーク(CNN)とUnistellarネットワークからの観測を用いて,小惑星の捕獲を確実に検出するアルゴリズムの設計と構築を提案する。 ユニステラーネットワーク(Unistellar Network)は、市民科学者が所有する1万個以上のデジタル望遠鏡で構成され、定期的に小惑星の観測記録に使われている。 このネットワークが生み出す観測量の増大を処理するためには、卵子を素早くかつ信頼性の高い分析方法が必要である。 この問題を解決するために、我々は20種類の測光信号を持つ恒星の人工画像を用いてcnnを訓練した。 ネットワークへの入力は、恒星のスニペット画像の2つのスタックで構成されており、一つは恒星の周囲でオカルトされるはずで、もうひとつは比較に使用される基準星である。 大気条件の悪さによって引き起こされる真のオカルトとアーティファクトを区別するために、参照星が必要である。 当社のoccultation detection neural network(odnet)は、精度91\%、リコール87\%の3つの星列を毎秒分析することができる。 アルゴリズムは十分に高速で堅牢であるため、リアルタイムな結果を得るためにeVscopesを組み込むことを想定できる。 市民科学は、オカルテーションにおける将来の研究や発見にとって重要な機会であり、人工知能の応用によって、小惑星の分類にますます増加するデータを活用することができると結論付けている。

We propose to design and build an algorithm that will use a Convolutional Neural Network (CNN) and observations from the Unistellar network to reliably detect asteroid occultations. The Unistellar Network, made of more than 10,000 digital telescopes owned by citizen scientists, and is regularly used to record asteroid occultations. In order to process the increasing amount of observational produced by this network, we need a quick and reliable way to analyze occultations. In an effort to solve this problem, we trained a CNN with artificial images of stars with twenty different types of photometric signals. Inputs to the network consists of two stacks of snippet images of stars, one around the star that is supposed to be occulted and a reference star used for comparison. We need the reference star to distinguish between a true occultation and artefacts introduced by poor atmospheric condition. Our Occultation Detection Neural Network (ODNet), can analyze three sequence of stars per second with 91\% of precision and 87\% of recall. The algorithm is sufficiently fast and robust so we can envision incorporating onboard the eVscopes to deliver real-time results. We conclude that citizen science represents an important opportunity for the future studies and discoveries in the occultations, and that application of artificial intelligence will permit us to to take better advantage of the ever-growing quantity of data to categorize asteroids.
翻訳日:2022-11-01 19:59:04 公開日:2022-10-28
# 偏心FBGを用いた正確な形状計測における望ましくない物理的効果の秘密

The secret role of undesired physical effects in accurate shape sensing with eccentric FBGs ( http://arxiv.org/abs/2210.16316v1 )

ライセンス: Link先を確認
Samaneh Manavi Roodsari, Sara Freund, Martin Angelmahr, Georg Rauter, Azhar Zam, Wolfgang Schade, and Philippe C. Cattin(参考訳) 光ファイバー形状センサは、医療用ツールトラッキングから工業用アプリケーションまで、様々なナビゲーションタスクにおいて独自の進歩を実現している。 偏心ファイバブラッググレーティング(FBG)は安価でファブリケートな形状のセンサーであり、単純な設定でしばしば尋問される。 しかし、そのような強度に基づく準分散センサに対する低コストな尋問システムを用いることで、センサの信号にさらなる複雑さをもたらす。 したがって、偏心FBGは複雑な多面体形状を正確に推定することはできない。 本稿では,これらの限界を克服し,偏心型FBGセンサの正確な形状推定を行う新しい手法を提案する。 本研究は、高強度光ファイバセンサで通常除去される曲面光ファイバの曲げ誘起効果について検討する。 これらの効果は、より高い空間分解能を持つ形状変形情報を含み、深層学習技術を用いて抽出することができる。 我々は、センサのスペクトルから形状を予測するために訓練された畳み込みニューラルネットワークに基づくディープラーニングモデルを設計する。 また,形状予測において強度がより関連している波長要素を強調する視覚的な説明も提供する。 これらの結果は、深層学習技術が、複雑な方法で所望の信号に影響を与える曲げ誘起効果の恩恵を受けていることを示唆している。 これは安価で正確な繊維形状検出ソリューションへの第一歩です。

Fiber optic shape sensors have enabled unique advances in various navigation tasks, from medical tool tracking to industrial applications. Eccentric fiber Bragg gratings (FBG) are cheap and easy-to-fabricate shape sensors that are often interrogated with simple setups. However, using low-cost interrogation systems for such intensity-based quasi-distributed sensors introduces further complications to the sensor's signal. Therefore, eccentric FBGs have not been able to accurately estimate complex multi-bend shapes. Here, we present a novel technique to overcome these limitations and provide accurate and precise shape estimation in eccentric FBG sensors. We investigate the most important bending-induced effects in curved optical fibers that are usually eliminated in intensity-based fiber sensors. These effects contain shape deformation information with a higher spatial resolution that we are now able to extract using deep learning techniques. We design a deep learning model based on a convolutional neural network that is trained to predict shapes given the sensor's spectra. We also provide a visual explanation, highlighting wavelength elements whose intensities are more relevant in making shape predictions. These findings imply that deep learning techniques benefit from the bending-induced effects that impact the desired signal in a complex manner. This is the first step toward cheap yet accurate fiber shape sensing solutions.
翻訳日:2022-11-01 19:48:47 公開日:2022-10-28
# rna3次元構造予測のための物理アウェアグラフニューラルネットワーク

Physics-aware Graph Neural Network for Accurate RNA 3D Structure Prediction ( http://arxiv.org/abs/2210.16392v1 )

ライセンス: Link先を確認
Shuo Zhang, Yang Liu, Lei Xie(参考訳) RNAの生物学的機能は3次元構造によって決定される。 したがって、実験的に決定されたRNA構造の限られた数を考えると、RNA構造の予測はRNA機能の解明とRNAを標的とした薬物発見を促進するが、依然として難しい課題である。 本研究では,原子型のみを訓練したグラフニューラルネットワーク(gnn)ベースのスコアリング関数を提案し,rna3d構造を限定的に解決し,正確な構造モデルを識別する。 提案する物理アウェアマルチプレックスグラフニューラルネットワーク(paxnet)は、分子力学に触発された局所的相互作用と非局所的相互作用を別々にモデル化する。 さらに、PaxNetには、最終予測のために各インタラクションタイプの個々のコントリビューションを学習するアテンションベースの融合モジュールが含まれている。 2つのベンチマークでPaxNetの性能を厳格に評価し、最先端のベースラインと比較する。 その結果、paxnetは全体のベースラインを大きく上回り、rnaやその他のマクロ分子の3d構造モデリングを改善するためのpaxnetの可能性を実証した。

Biological functions of RNAs are determined by their three-dimensional (3D) structures. Thus, given the limited number of experimentally determined RNA structures, the prediction of RNA structures will facilitate elucidating RNA functions and RNA-targeted drug discovery, but remains a challenging task. In this work, we propose a Graph Neural Network (GNN)-based scoring function trained only with the atomic types and coordinates on limited solved RNA 3D structures for distinguishing accurate structural models. The proposed Physics-aware Multiplex Graph Neural Network (PaxNet) separately models the local and non-local interactions inspired by molecular mechanics. Furthermore, PaxNet contains an attention-based fusion module that learns the individual contribution of each interaction type for the final prediction. We rigorously evaluate the performance of PaxNet on two benchmarks and compare it with several state-of-the-art baselines. The results show that PaxNet significantly outperforms all the baselines overall, and demonstrate the potential of PaxNet for improving the 3D structure modeling of RNA and other macromolecules.
翻訳日:2022-11-01 19:48:24 公開日:2022-10-28
# SGDの最適高速化のためのフレッター高速スケーリングモーメント

Flatter, faster: scaling momentum for optimal speedup of SGD ( http://arxiv.org/abs/2210.16400v1 )

ライセンス: Link先を確認
Aditya Cowsik, Tankut Can and Paolo Glorioso(参考訳) 一般的な最適化アルゴリズムは、良い一般化と速い訓練時間の間のトレードオフを示すことが多い。 例えば、確率勾配降下(SGD)は良い一般化をする傾向があるが、適応勾配法はより優れた訓練時間を持つ。 モメンタムはSGDでのトレーニングを加速するのに役立つが、今のところ運動量ハイパーパラメータを選択するための原則的な方法はない。 本稿では,過パラメータニューラルネットワークの学習におけるラベル雑音と運動量との相互作用から生じる暗黙のバイアスについて検討する。 学習速度で1-\beta$の運動量ハイパーパラメータを最大2/3ドルのパワーにスケールすることは、一般化を犠牲にすることなく、トレーニングを最大加速する。 この結果を分析的に導出するため、我々はアーキテクチャ非依存の枠組みを開発し、大域的最小値の退化多様体の存在を主前提とした。 トレーニングダイナミクスは、ハイパーパラメータのジェネリック値によく分離された2つの特徴的なタイムスケールの出現を表示する。 これら2つのタイムスケールが一致すると、トレーニングの最大加速が達成され、その結果、我々が提案するスケーリング制限が決定される。 我々は,cifar10のマトリックスセンシングやresnetなどの実験を行い,その結果のロバスト性を示す証拠を提供する。

Commonly used optimization algorithms often show a trade-off between good generalization and fast training times. For instance, stochastic gradient descent (SGD) tends to have good generalization; however, adaptive gradient methods have superior training times. Momentum can help accelerate training with SGD, but so far there has been no principled way to select the momentum hyperparameter. Here we study implicit bias arising from the interplay between SGD with label noise and momentum in the training of overparametrized neural networks. We find that scaling the momentum hyperparameter $1-\beta$ with the learning rate to the power of $2/3$ maximally accelerates training, without sacrificing generalization. To analytically derive this result we develop an architecture-independent framework, where the main assumption is the existence of a degenerate manifold of global minimizers, as is natural in overparametrized models. Training dynamics display the emergence of two characteristic timescales that are well-separated for generic values of the hyperparameters. The maximum acceleration of training is reached when these two timescales meet, which in turn determines the scaling limit we propose. We perform experiments, including matrix sensing and ResNet on CIFAR10, which provide evidence for the robustness of these results.
翻訳日:2022-11-01 19:48:09 公開日:2022-10-28
# 付加製造業の品質保証のための強化学習に基づく欠陥軽減

Reinforcement Learning-based Defect Mitigation for Quality Assurance of Additive Manufacturing ( http://arxiv.org/abs/2210.17272v1 )

ライセンス: Link先を確認
Jihoon Chung, Bo Shen, Andrew Chung Chee Law, Zhenyu (James) Kong(参考訳) アダプティブ・マニュファクチャリング (AM) は, 様々な材料を用いた複雑な3次元ジオメトリーを層単位で製造する強力な技術である。 しかし、AMプロセス中の時間変化の可能な処理条件のため、AM業界では品質保証が主な課題である。 特に、印刷中に新しい欠陥が発生する可能性があり、既存の欠陥に焦点を当てたオフライン分析ツールによって緩和できない。 この課題は、印刷中の新たな欠陥に対処するオンライン学習ベースの手法を開発することの動機となっている。 本論文は,AMプロセスにおける新たな欠陥を軽減し,必要なサンプル数を最小化しつつ,オンライン学習ベースの戦略を構築することを目的としている。 提案手法はモデルレス強化学習(RL)に基づく。 AMプロセスに必要なトレーニングサンプルを減らすために、いくつかの事前知識のソースを転送するため、連続的なGラーニングと呼ばれている。 オフラインの知識は文学から、オンラインの知識は印刷中に学習される。 提案手法は,両知識源を用いた場合の最適欠陥軽減戦略を学習するための新しいアルゴリズムを開発した。 溶融フィラメント加工(FFF)プラットフォームにおける数値解析および実世界のケーススタディを行い,提案手法の有効性を実証した。

Additive Manufacturing (AM) is a powerful technology that produces complex 3D geometries using various materials in a layer-by-layer fashion. However, quality assurance is the main challenge in AM industry due to the possible time-varying processing conditions during AM process. Notably, new defects may occur during printing, which cannot be mitigated by offline analysis tools that focus on existing defects. This challenge motivates this work to develop online learning-based methods to deal with the new defects during printing. Since AM typically fabricates a small number of customized products, this paper aims to create an online learning-based strategy to mitigate the new defects in AM process while minimizing the number of samples needed. The proposed method is based on model-free Reinforcement Learning (RL). It is called Continual G-learning since it transfers several sources of prior knowledge to reduce the needed training samples in the AM process. Offline knowledge is obtained from literature, while online knowledge is learned during printing. The proposed method develops a new algorithm for learning the optimal defect mitigation strategies proven the best performance when utilizing both knowledge sources. Numerical and real-world case studies in a fused filament fabrication (FFF) platform are performed and demonstrate the effectiveness of the proposed method.
翻訳日:2022-11-01 19:40:57 公開日:2022-10-28
# 生成逆数ネットワークによる不均衡データ分類と付加製造プロセスにおける異常検出への応用

Imbalanced Data Classification via Generative Adversarial Network with Application to Anomaly Detection in Additive Manufacturing Process ( http://arxiv.org/abs/2210.17274v1 )

ライセンス: Link先を確認
Jihoon Chung, Bo Shen, and Zhenyu (James) Kong(参考訳) anomaly (defects) 検出のための添加物製造 (am) などの先進的製造プロセスの品質保証には, 教師あり分類法が広く利用されている。 しかし、製造工程における異常状態(欠陥のある)は、通常の状態(欠陥のない)よりもはるかに少ないので、正常状態から収集されたセンサデータサンプルの数は、異常状態よりはるかに多い。 この問題は、分類モデルの不均衡なトレーニングデータを引き起こすため、プロセスにおける異常な状態の検出性能が低下する。 異常状態に対する効果的な人工サンプルデータを生成し、よりバランスの取れたトレーニングセットを作成することは有益である。 そこで本稿では,この目的を達成するために,加算製造プロセス画像センサデータを用いた生成的逆ネットワーク(gan)に基づく新しいデータ拡張手法を提案する。 提案手法の新規性は,標準GANと分類器が標準GANの学習過程を安定化させる技術と共同最適化されていることである。 多様な高品質な生成サンプルは、分類器にバランスのとれたトレーニングデータを提供する。 GANと分類器の反復最適化は高性能分類器を提供する。 提案手法の有効性は, オープンソースデータと実世界のケーススタディの両方を用いて, ポリマーおよび金属AMプロセスで検証した。

Supervised classification methods have been widely utilized for the quality assurance of the advanced manufacturing process, such as additive manufacturing (AM) for anomaly (defects) detection. However, since abnormal states (with defects) occur much less frequently than normal ones (without defects) in the manufacturing process, the number of sensor data samples collected from a normal state outweighs that from an abnormal state. This issue causes imbalanced training data for classification models, thus deteriorating the performance of detecting abnormal states in the process. It is beneficial to generate effective artificial sample data for the abnormal states to make a more balanced training set. To achieve this goal, this paper proposes a novel data augmentation method based on a generative adversarial network (GAN) using additive manufacturing process image sensor data. The novelty of our approach is that a standard GAN and classifier are jointly optimized with techniques to stabilize the learning process of standard GAN. The diverse and high-quality generated samples provide balanced training data to the classifier. The iterative optimization between GAN and classifier provides the high-performance classifier. The effectiveness of the proposed method is validated by both open-source data and real-world case studies in polymer and metal AM processes.
翻訳日:2022-11-01 19:40:39 公開日:2022-10-28
# 移動可能共分散ニューラルネットワークによる脳年齢予測

Predicting Brain Age using Transferable coVariance Neural Networks ( http://arxiv.org/abs/2210.16363v1 )

ライセンス: Link先を確認
Saurabh Sihag, Gonzalo Mateos, Corey McMillan, Alejandro Ribeiro(参考訳) 年齢と生物学的年齢の偏差は認知的低下と神経変性にともなうバイオマーカーである。 加齢と病理による脳構造の変化は、様々な神経画像モダリティによって捉えられる。 これらのデータセットは高次元性やコリニアリティによって特徴づけられるため、ニューロイメージング研究におけるグラフニューラルネットワークの適用は、サンプル共分散行列をグラフとして常用する。 我々は最近,グラフ畳み込みネットワークから派生したアーキテクチャを用いてサンプル共分散行列を操作する共分散ニューラルネットワーク(vnn)の研究を行い,vnnが従来のデータ解析手法よりも大きなアドバンテージを享受することを示した。 本稿では,皮質厚みデータを用いた脳年齢推定におけるVNNの有用性を示す。 さらに,VNNは脳年齢を推定するためのマルチスケールおよびマルチサイト転送性を示した。 アルツハイマー病(ad)における脳年齢の文脈において、我々の実験は、 i)vnn出力は、vnnで予測される脳年齢と解釈可能であり、異なるデータセットの健常者に対するadは有意に上昇する。 ii)VNNは転送可能、すなわち、あるデータセットでトレーニングされたVNNは、脳年齢予測のために再トレーニングすることなく、異なる次元のデータセットに転送することができる。

The deviation between chronological age and biological age is a well-recognized biomarker associated with cognitive decline and neurodegeneration. Age-related and pathology-driven changes to brain structure are captured by various neuroimaging modalities. These datasets are characterized by high dimensionality as well as collinearity, hence applications of graph neural networks in neuroimaging research routinely use sample covariance matrices as graphs. We have recently studied covariance neural networks (VNNs) that operate on sample covariance matrices using the architecture derived from graph convolutional networks, and we showed VNNs enjoy significant advantages over traditional data analysis approaches. In this paper, we demonstrate the utility of VNNs in inferring brain age using cortical thickness data. Furthermore, our results show that VNNs exhibit multi-scale and multi-site transferability for inferring {brain age}. In the context of brain age in Alzheimer's disease (AD), our experiments show that i) VNN outputs are interpretable as brain age predicted using VNNs is significantly elevated for AD with respect to healthy subjects for different datasets; and ii) VNNs can be transferable, i.e., VNNs trained on one dataset can be transferred to another dataset with different dimensions without retraining for brain age prediction.
翻訳日:2022-11-01 19:14:36 公開日:2022-10-28
# より効率的かつ標的としたオンライン計測のための疫学的結果の連続的帰結

Continuous Attribution of Episodical Outcomes for More Efficient and Targeted Online Measurement ( http://arxiv.org/abs/2210.16373v1 )

ライセンス: Link先を確認
Alex Deng, Michelle Du, Anna Matlin(参考訳) オンライン実験プラットフォームは、低コストかつ大規模にユーザフィードバックを収集する。 一部のシステムは、リアルタイムまたはほぼリアルタイムのデータ処理をサポートし、メトリクスと統計を継続的に更新できる。 クリックやページビューなど、一般的に使用される多くのメトリクスは、遅延なく観察できる。 しかし、多くの重要な信号は数時間から数日後にしか観測できず、ノイズはエピソードの継続期間に増大する。 認識論的結果が複雑なユーザー-製品間相互作用の連続に従うと、どの相互作用が最終結果につながるかを理解することは困難である。 肯定的な結果や否定的な結果と、異なるタイミングで行った行動や選択を関連付ける明確な帰属論理はありません。 この属性論理は、より標的的で効率的な測定をより細かい粒度で解き放ち、最終的には強化学習の完全な能力に繋がる可能性がある。 本稿では,主観的指標を用いて長期的成果をモデル化し,最終結果への進捗を追跡する価値関数として適用し,様々なユーザ・製品間インタラクションステップに漸進的に属性付けする因果的サロガシーの考え方を借用する。 このアプローチをAirbnbのゲスト予約メトリックに適用すると、大きなばらつきが50%から85%減少すると同時に、予約メトリック自体とうまく一致している。 継続的属性により、各製品ページビューにユーティリティスコアを割り当てることができ、このスコアは、検索やリストなど、さまざまな関心ユニットに柔軟に集約することができます。 我々は、その汎用性を説明するために、複数の実世界のアトリビューションの応用を提供する。

Online experimentation platforms collect user feedback at low cost and large scale. Some systems even support real-time or near real-time data processing, and can update metrics and statistics continuously. Many commonly used metrics, such as clicks and page views, can be observed without much delay. However, many important signals can only be observed after several hours or days, with noise adding up over the duration of the episode. When episodical outcomes follow a complex sequence of user-product interactions, it is difficult to understand which interactions lead to the final outcome. There is no obvious attribution logic for us to associate a positive or negative outcome back to the actions and choices we made at different times. This attribution logic is critical to unlocking more targeted and efficient measurement at a finer granularity that could eventually lead to the full capability of reinforcement learning. In this paper, we borrow the idea of Causal Surrogacy to model a long-term outcome using leading indicators that are incrementally observed and apply it as the value function to track the progress towards the final outcome and attribute incrementally to various user-product interaction steps. Applying this approach to the guest booking metric at Airbnb resulted in significant variance reductions of 50% to 85%, while aligning well with the booking metric itself. Continuous attribution allows us to assign a utility score to each product page-view, and this score can be flexibly further aggregated to a variety of units of interest, such as searches and listings. We provide multiple real-world applications of attribution to illustrate its versatility.
翻訳日:2022-11-01 19:14:18 公開日:2022-10-28
# 自己回帰型時間構造をもつダイナミックバンド

Dynamic Bandits with an Auto-Regressive Temporal Structure ( http://arxiv.org/abs/2210.16386v1 )

ライセンス: Link先を確認
Qinyi Chen, Negin Golrezaei, Djallel Bouneffouf(参考訳) マルチアーム・バンディット(MAB)問題は、主に確率と逆数と呼ばれる2つの極端な条件下で研究されている。 しかし、これらの2つの設定は、検索エンジンやマーケティングや広告のような現実的な環境を捉えていない。 そこで我々は,各腕の期待報酬が自己回帰モデル(AR)によって支配される確率的時間構造を持つ動的MAB問題を紹介し,研究する。 報酬の動的な性質のため、単純な「発見とコミット」ポリシーは失敗する。 我々は、このことを、強い(ダイナミックな)ベンチマークに対して後悔を計測する、丸ごとの後悔の低い境界を特徴付けることで、形式化する。 次に、全周的後悔が我々の後悔の低い境界にほぼ一致するアルゴリズムを示す。 アルゴリズムは2つのメカニズムに依存しています 一 最近引き抜かれた腕と潜在的に無力な腕との交互 (ii)再開。 これらのメカニズムにより、アルゴリズムは変化に動的に適応し、不適切な過去の情報を適切な速度で破棄することができる。 数値解析では,異なるタイプの非定常条件下でのアルゴリズムの強みをさらに示す。

Multi-armed bandit (MAB) problems are mainly studied under two extreme settings known as stochastic and adversarial. These two settings, however, do not capture realistic environments such as search engines and marketing and advertising, in which rewards stochastically change in time. Motivated by that, we introduce and study a dynamic MAB problem with stochastic temporal structure, where the expected reward of each arm is governed by an auto-regressive (AR) model. Due to the dynamic nature of the rewards, simple "explore and commit" policies fail, as all arms have to be explored continuously over time. We formalize this by characterizing a per-round regret lower bound, where the regret is measured against a strong (dynamic) benchmark. We then present an algorithm whose per-round regret almost matches our regret lower bound. Our algorithm relies on two mechanisms: (i) alternating between recently pulled arms and unpulled arms with potential, and (ii) restarting. These mechanisms enable the algorithm to dynamically adapt to changes and discard irrelevant past information at a suitable rate. In numerical studies, we further demonstrate the strength of our algorithm under different types of non-stationary settings.
翻訳日:2022-11-01 19:13:42 公開日:2022-10-28
# gradskip:より良い計算複雑性を持つ通信促進局所勾配法

GradSkip: Communication-Accelerated Local Gradient Methods with Better Computational Complexity ( http://arxiv.org/abs/2210.16402v1 )

ライセンス: Link先を確認
Artavazd Maranjyan, Mher Safaryan, Peter Richt\'arik(参考訳) 本研究では,クライアントが各通信ラウンド毎に複数の局所勾配ステップを実行できるようにすることで,同期の通信コストを低減できる分散最適化アルゴリズムについて検討する。 近年、Mishchenkoら (2022) は、データ類似性のない通信複雑性を加速するProxSkipと呼ばれる新しいタイプのローカル手法を提案した。 しかし、それらの手法では全てのクライアントが同じ周波数で局所勾配オラクルを呼び出す必要がある。 統計的不均質性から, 局所的な問題のあるクライアントは, 局所的な勾配が低いクライアントに比べて, 局所的な勾配を計算すべきである。 最初のコントリビューションは、クライアントが各通信ラウンドで複数のローカルなグラデーションステップを実行することができるセットアップへのオリジナルのProxSkipメソッドの拡張です。 修正したGradSkipは依然として線形収束し,通信の高速化が同じであり,局所勾配計算に必要な周波数は局所条件数に比例することを示した。 次に,確率的交替のランダム性を任意の非バイアス圧縮作用素に拡張し,汎用的公理正規化子を考えることにより,本手法を一般化する。 この一般化であるgradskip+は、文献で関連するいくつかの方法を回復する。 最後に,我々の理論的主張を裏付ける実証的研究を行った。

In this work, we study distributed optimization algorithms that reduce the high communication costs of synchronization by allowing clients to perform multiple local gradient steps in each communication round. Recently, Mishchenko et al. (2022) proposed a new type of local method, called ProxSkip, that enjoys an accelerated communication complexity without any data similarity condition. However, their method requires all clients to call local gradient oracles with the same frequency. Because of statistical heterogeneity, we argue that clients with well-conditioned local problems should compute their local gradients less frequently than clients with ill-conditioned local problems. Our first contribution is the extension of the original ProxSkip method to the setup where clients are allowed to perform a different number of local gradient steps in each communication round. We prove that our modified method, GradSkip, still converges linearly, has the same accelerated communication complexity, and the required frequency for local gradient computations is proportional to the local condition number. Next, we generalize our method by extending the randomness of probabilistic alternations to arbitrary unbiased compression operators and considering a generic proximable regularizer. This generalization, GradSkip+, recovers several related methods in the literature. Finally, we present an empirical study to confirm our theoretical claims.
翻訳日:2022-11-01 19:13:15 公開日:2022-10-28
# フェデレーションクラスタの機械学習

Machine Unlearning of Federated Clusters ( http://arxiv.org/abs/2210.16424v1 )

ライセンス: Link先を確認
Chao Pan, Jin Sima, Saurav Prakash, Vishal Rana, Olgica Milenkovic(参考訳) フェデレーションクラスタリングは教師なしの学習問題であり、パーソナライズされたレコメンデータや医療システムなど、多くの実践的なアプリケーションで発生する。 近年の「忘れられる権利」を保障する法律が採用され、フェデレーションクラスタリング法における機械学習の未学習問題の重要性が高まっている。 この研究は、クライアントとサーバレベルでシンプルで、証明可能で効率的なデータ削除をサポートする、プライバシ基準付きフェデレーションクラスタリングのための、初めての未学習メカニズムを提案する。 このアプローチの要点は、特別な初期化手順と、サーバユニットで推定されるローカルクラスタ数をセキュアに集約できる量子化手法を組み合わせることです。 当社のプラットフォームの一部として、セキュアなスパースモデルアグリゲーションに独立した関心を持つ、セキュア圧縮マルチセットアグリゲーション(scma)を導入しました。 通信の複雑さと秘密共有プロトコルを同時に促進するために,新たなSCMAパイプラインに特別な評価点とリード・ソロモン符号化を組み込むことにより,スキームの異なるコンポーネントの時間と通信の複雑さを導出する。 削除要求毎にK-means++を完全にローカルかつグローバルに再トレーニングするのに比べ、約84倍のスピードアップが7つのデータセットで得られ、そのうち2つは、頻繁な未学習要求の対象となる生物学的および医学的情報を含んでいる。

Federated clustering is an unsupervised learning problem that arises in a number of practical applications, including personalized recommender and healthcare systems. With the adoption of recent laws ensuring the "right to be forgotten", the problem of machine unlearning for federated clustering methods has become of significant importance. This work proposes the first known unlearning mechanism for federated clustering with privacy criteria that support simple, provable, and efficient data removal at the client and server level. The gist of our approach is to combine special initialization procedures with quantization methods that allow for secure aggregation of estimated local cluster counts at the server unit. As part of our platform, we introduce secure compressed multiset aggregation (SCMA), which is of independent interest for secure sparse model aggregation. In order to simultaneously facilitate low communication complexity and secret sharing protocols, we integrate Reed-Solomon encoding with special evaluation points into the new SCMA pipeline and derive bounds on the time and communication complexity of different components of the scheme. Compared to completely retraining K-means++ locally and globally for each removal request, we obtain an average speed-up of roughly 84x across seven datasets, two of which contain biological and medical information that is subject to frequent unlearning requests.
翻訳日:2022-11-01 19:12:53 公開日:2022-10-28
# GowFed - 新たなフェデレーションネットワーク侵入検知システム

GowFed -- A novel Federated Network Intrusion Detection System ( http://arxiv.org/abs/2210.16441v1 )

ライセンス: Link先を確認
Aitor Belenguer, Jose A. Pascual, Javier Navaridas(参考訳) ネットワーク侵入検知システムは、環境内の異常を検索しながらデータ分析を行うインテリジェントシステムに進化している。 実際、ディープラーニング技術の開発は、より複雑で効果的な脅威検出モデルを構築するための道を開いた。 しかし、これらのモデルのトレーニングは、ほとんどのEdgeやIoTデバイスでは計算不可能である可能性がある。 現在のアプローチは、すべてのパーティからデータを受け取る強力な集中型サーバに依存している -- 基本的なプライバシの制約に違反し、通信のオーバーヘッドが大きいため、応答時間や運用コストに大きな影響を与えている。 これらの問題を緩和するため、フェデレートラーニングは有望なアプローチとして現れ、さまざまなエージェントが、他の人にトレーニングデータを公開したり、計算集約的なインフラストラクチャを必要とすることなく、共有モデルを共同でトレーニングする。 本研究は,gower dis similarity matricesとfederated averagingを組み合わせた新しいネットワーク脅威検出システムであるgowfedを提案する。 gowfedのアプローチは,(1)バニラ版,(2)注意機構を備えたバージョンという,最先端の知識に基づいて開発されてきた。 さらに、TensorFlow Federatedフレームワークが提供するシミュレーション指向のツールを使用して、各変種がテストされている。 同様に、フェデレーションシステムの中央集権的な類似開発が実施され、設計された実験/シナリオのセット間で、スケーラビリティとパフォーマンスの観点から、彼らの違いを探求する。 全体として、GowFedは、産業レベルのネットワークにおけるネットワーク脅威を検出するためのフェデレートラーニングとガウワーの相違行列の併用に向けた最初の一歩となる。

Network intrusion detection systems are evolving into intelligent systems that perform data analysis while searching for anomalies in their environment. Indeed, the development of deep learning techniques paved the way to build more complex and effective threat detection models. However, training those models may be computationally infeasible in most Edge or IoT devices. Current approaches rely on powerful centralized servers that receive data from all their parties -- violating basic privacy constraints and substantially affecting response times and operational costs due to the huge communication overheads. To mitigate these issues, Federated Learning emerged as a promising approach, where different agents collaboratively train a shared model, without exposing training data to others or requiring a compute-intensive centralized infrastructure. This work presents GowFed, a novel network threat detection system that combines the usage of Gower Dissimilarity matrices and Federated averaging. Different approaches of GowFed have been developed based on state-of the-art knowledge: (1) a vanilla version; and (2) a version instrumented with an attention mechanism. Furthermore, each variant has been tested using simulation oriented tools provided by TensorFlow Federated framework. In the same way, a centralized analogous development of the Federated systems is carried out to explore their differences in terms of scalability and performance -- across a set of designed experiments/scenarios. Overall, GowFed intends to be the first stepping stone towards the combined usage of Federated Learning and Gower Dissimilarity matrices to detect network threats in industrial-level networks.
翻訳日:2022-11-01 19:12:28 公開日:2022-10-28
# 適応型視聴覚注意による視覚認識音声キャプション

Visually-Aware Audio Captioning With Adaptive Audio-Visual Attention ( http://arxiv.org/abs/2210.16428v1 )

ライセンス: Link先を確認
Xubo Liu, Qiushi Huang, Xinhao Mei, Haohe Liu, Qiuqiang Kong, Jianyuan Sun, Shengchen Li, Tom Ko, Yu Zhang, Lilian H. Tang, Mark D. Plumbley, Volkan K{\i}l{\i}\c{c}, Wenwu Wang(参考訳) 音声キャプションは、音声クリップの内容を記述するキャプションを生成するタスクである。 現実世界では、多くの物体が同様の音を出す。 これらの不明瞭な音声イベントを音声情報のみにアクセスして識別することは困難である。 曖昧な音を正確に認識する方法は、音声キャプションシステムにとって大きな課題である。 本研究では,人間の音声・視覚的マルチモーダル知覚に触発された視覚情報を利用した視覚的音声キャプションを提案する。 具体的には,映像入力を処理し,抽出した視覚特徴を音声キャプションシステムに組み込む,市販のビジュアルエンコーダを導入する。 さらに,冗長な音声・映像ストリームからの補完的コンテキストをより活用するために,その信頼度に応じて音響・視覚情報を適応的に統合する音声・視覚注意機構を提案する。 公開音声キャプションデータセットであるaudiocapsにおける実験結果から,提案手法は,音声キャプションシステムの性能が向上し,最新の結果と同等であることが判明した。

Audio captioning is the task of generating captions that describe the content of audio clips. In the real world, many objects produce similar sounds. It is difficult to identify these auditory ambiguous sound events with access to audio information only. How to accurately recognize ambiguous sounds is a major challenge for audio captioning systems. In this work, inspired by the audio-visual multi-modal perception of human beings, we propose visually-aware audio captioning, which makes use of visual information to help the recognition of ambiguous sounding objects. Specifically, we introduce an off-the-shelf visual encoder to process the video inputs, and incorporate the extracted visual features into an audio captioning system. Furthermore, to better exploit complementary contexts from redundant audio-visual streams, we propose an audio-visual attention mechanism that integrates audio and visual information adaptively according to their confidence levels. Experimental results on AudioCaps, the largest publicly available audio captioning dataset, show that the proposed method achieves significant improvement over a strong baseline audio captioning system and is on par with the state-of-the-art result.
翻訳日:2022-11-01 19:05:52 公開日:2022-10-28
# ソフトバート:ソフトベイズ添加回帰木

SoftBart: Soft Bayesian Additive Regression Trees ( http://arxiv.org/abs/2210.16375v1 )

ライセンス: Link先を確認
Antonio R. Linero(参考訳) ベイズ加法回帰木(BART)モデルは近年,汎用的非パラメトリックモデリング技術として注目されている。 bartは、現代の機械学習技術の柔軟性とベイズ推論の原理的不確実性定量化を組み合わせることで、医学や社会科学など、科学の多くの領域で一般的に発生する高ノイズ問題に一意的に対応できることが示されている。 本稿では,Linero and Yang (2018)のSoft BARTアルゴリズムに適合するSoftBartパッケージを紹介する。 他のBARTパッケージの予測性能の改善に加えて、このパッケージの主な目標は、より大きなモデルへのBARTの導入を促進することであり、ベイズ統計学の研究者にとって理想的である。 非パラメトリックなプロビット回帰モデル、半パラメトリックな可変係数モデル、偏線形モデルを実装するために、SoftBartを用いて、このパッケージを一般的な予測タスクにどのように使うか、BARTモデルをより大きなモデルに組み込む方法について説明する。

Bayesian additive regression tree (BART) models have seen increased attention in recent years as a general-purpose nonparametric modeling technique. BART combines the flexibility of modern machine learning techniques with the principled uncertainty quantification of Bayesian inference, and it has been shown to be uniquely appropriate for addressing the high-noise problems that occur commonly in many areas of science, including medicine and the social sciences. This paper introduces the SoftBart package for fitting the Soft BART algorithm of Linero and Yang (2018). In addition to improving upon the predictive performance of other BART packages, a major goal of this package has been to facilitate the inclusion of BART in larger models, making it ideal for researchers in Bayesian statistics. I show both how to use this package for standard prediction tasks and how to embed BART models in larger models; I illustrate by using SoftBart to implement a nonparametric probit regression model, a semiparametric varying coefficient model, and a partial linear model.
翻訳日:2022-11-01 19:03:53 公開日:2022-10-28
# 弾性重み強化による自己教師あり学習法のロバスト性の向上

Elastic Weight Consolidation Improves the Robustness of Self-Supervised Learning Methods under Transfer ( http://arxiv.org/abs/2210.16365v1 )

ライセンス: Link先を確認
Andrius Ovsianas, Jason Ramapuram, Dan Busbridge, Eeshan Gunesh Dhekane, Russ Webb(参考訳) 自己教師付き表現学習(SSL)手法は、下流タスクの微調整に有効なラベルなし初期条件を提供する。 しかし、多くの現実的なシナリオでは、下流のタスクはターゲットラベルの分布に関してバイアスを受けることがある。 これにより、学習した微調整されたモデルを初期(ラベルなし)バイアスのない自己教師付きモデル後部から遠ざける。 本研究では,ベイジアン連続学習のレンズの下でSSLの微調整を再解釈し,弾性重み統合(EWC)フレームワークによる正規化を検討する。 初期SSLバックボーンに対する自己正規化は、VT-B/16アーキテクチャを使用する場合、ウォーターバードの最低サブグループ性能を5%改善し、Celeb-Aを2%向上させることを示した。 さらに、SSLでのEWCの使用を簡略化するために、DINOでトレーニングされたViT-B/16やResNet50など、大規模なSSLアーキテクチャで評価された1万のImageNet-1Kで評価されたFisher Information Matrix(FIM)を事前計算して公開する。

Self-supervised representation learning (SSL) methods provide an effective label-free initial condition for fine-tuning downstream tasks. However, in numerous realistic scenarios, the downstream task might be biased with respect to the target label distribution. This in turn moves the learned fine-tuned model posterior away from the initial (label) bias-free self-supervised model posterior. In this work, we re-interpret SSL fine-tuning under the lens of Bayesian continual learning and consider regularization through the Elastic Weight Consolidation (EWC) framework. We demonstrate that self-regularization against an initial SSL backbone improves worst sub-group performance in Waterbirds by 5% and Celeb-A by 2% when using the ViT-B/16 architecture. Furthermore, to help simplify the use of EWC with SSL, we pre-compute and publicly release the Fisher Information Matrix (FIM), evaluated with 10,000 ImageNet-1K variates evaluated on large modern SSL architectures including ViT-B/16 and ResNet50 trained with DINO.
翻訳日:2022-11-01 18:04:09 公開日:2022-10-28
# 画像分類クラウドサービスに対する分散ブラックボックス攻撃

Distributed Black-box Attack against Image Classification Cloud Services ( http://arxiv.org/abs/2210.16371v1 )

ライセンス: Link先を確認
Han Wu, Sareh Rowlands, Johan Wahlstrom(参考訳) ブラックボックスの敵攻撃は、モデル構造や重みへのアクセスを必要とせずに、画像分類器を誤分類する可能性がある。 最近提案されたブラックボックス攻撃は、1000クエリ未満の後に95\%以上の成功率を達成できる。 その疑問は、ブラックボックス攻撃が、画像分類を達成するためにクラウドAPIに依存するIoTデバイスに対する真の脅威になったかどうかである。 これに光を当てるために、以前の研究は主に成功率の向上と必要なクエリ数の減少に重点を置いてきたことに注意しよう。 しかし、クラウドAPIに対するブラックボックス攻撃のもうひとつの重要な要因は、攻撃の実行に必要な時間だ。 本稿では,ローカルモデルではなくクラウドapiに直接ブラックボックス攻撃を適用することにより,先行研究における複数の誤りを回避する。 さらに,局所探索法と勾配推定法の両方において,攻撃時間の約5倍削減が可能な分散ブラックボックス攻撃を実現するために,ロードバランシングを利用する。

Black-box adversarial attacks can fool image classifiers into misclassifying images without requiring access to model structure and weights. Recently proposed black-box attacks can achieve a success rate of more than 95\% after less than 1,000 queries. The question then arises of whether black-box attacks have become a real threat against IoT devices that rely on cloud APIs to achieve image classification. To shed some light on this, note that prior research has primarily focused on increasing the success rate and reducing the number of required queries. However, another crucial factor for black-box attacks against cloud APIs is the time required to perform the attack. This paper applies black-box attacks directly to cloud APIs rather than to local models, thereby avoiding multiple mistakes made in prior research. Further, we exploit load balancing to enable distributed black-box attacks that can reduce the attack time by a factor of about five for both local search and gradient estimation methods.
翻訳日:2022-11-01 18:03:50 公開日:2022-10-28
# カテゴリー生成モデルの評価 -実データと合成データのギャップの橋渡し-

Evaluation of Categorical Generative Models -- Bridging the Gap Between Real and Synthetic Data ( http://arxiv.org/abs/2210.16405v1 )

ライセンス: Link先を確認
Florence Regol, Anja Kroon, Mark Coates(参考訳) 機械学習コミュニティは主に、モデル適用可能性を示す説得力のある証拠を提供するため、実際のデータをベンチマークアルゴリズムに頼ってきた。 合成データセットの評価は、モデルの強み、弱み、全体的な能力をよりよく理解するための強力なツールになり得る。 これらの洞察を得ることは、対象量は完全に未知であるため、生成モデリングにおいて特に重要である。 生成モデルの評価に関する複数の問題が文献に報告されている。 これらの問題は根拠の真理に基づく評価によって回避できると主張する。 合成実験の一般的な批判は、それらがあまりに単純化され、現実的なシナリオを代表していないことである。 このように、我々の実験環境は現実的な生成タスクに適合する。 分類データに着目し,スケーラブルな評価手法を提案する。 本手法では,高次元環境における分布の学習を生成モデルに委ねる。 次に, 有意義な統計的テストが適用可能なより小さな確率空間を得るために, 大空間を連続的にビン化する。 我々は、ますます大きな確率空間を考える。これはますます難しいモデリングタスクに対応し、基底的真理から遠すぎると検出される前に到達できる最も高いタスク難易度に基づいて生成モデルを比較する。 我々は,合成生成モデルと最先端のカテゴリー生成モデルの両方を用いた合成実験による評価方法を検証する。

The machine learning community has mainly relied on real data to benchmark algorithms as it provides compelling evidence of model applicability. Evaluation on synthetic datasets can be a powerful tool to provide a better understanding of a model's strengths, weaknesses, and overall capabilities. Gaining these insights can be particularly important for generative modeling as the target quantity is completely unknown. Multiple issues related to the evaluation of generative models have been reported in the literature. We argue those problems can be avoided by an evaluation based on ground truth. General criticisms of synthetic experiments are that they are too simplified and not representative of practical scenarios. As such, our experimental setting is tailored to a realistic generative task. We focus on categorical data and introduce an appropriately scalable evaluation method. Our method involves tasking a generative model to learn a distribution in a high-dimensional setting. We then successively bin the large space to obtain smaller probability spaces where meaningful statistical tests can be applied. We consider increasingly large probability spaces, which correspond to increasingly difficult modeling tasks and compare the generative models based on the highest task difficulty they can reach before being detected as being too far from the ground truth. We validate our evaluation procedure with synthetic experiments on both synthetic generative models and current state-of-the-art categorical generative models.
翻訳日:2022-11-01 18:03:37 公開日:2022-10-28
# 繰り返し畳み込み型ディープニューラルネットワークによる時間分解ワイルドファイア拡散挙動のモデル化

Recurrent Convolutional Deep Neural Networks for Modeling Time-Resolved Wildfire Spread Behavior ( http://arxiv.org/abs/2210.16411v1 )

ライセンス: Link先を確認
John Burge, Matthew R. Bonanni, R. Lily Hu, Matthias Ihme(参考訳) 野火の発生率と深刻度の増加は、その行動を正確に予測する必要性を浮き彫りにしている。 first principlesから派生した高忠実度モデルは物理的精度を提供するが、リアルタイムの火災応答に使用するには計算コストが高すぎる。 低忠実度モデルは、経験的測定の統合によっていくつかの物理的精度と一般化性を犠牲にするが、実時間での火災応答のシミュレーションを可能にする。 機械学習技術は、計算スピードアップを達成しながら第一原理物理学を学習することで、これらの目的を橋渡しする能力を提供する。 深層学習のアプローチは、長期間にわたって山火事の伝播を予測する能力を示しているが、アクティブファイアマネージメントには、タイムリーな火災拡散予測が必要である。 本研究では,山火事の時間分解ダイナミクスを正確にモデル化する深層学習手法の能力を評価する。 畳み込み型リカレント深層学習モデルが15分以上にわたって山火事を伝播する予測を行う自己回帰的プロセスを用いる。 本研究では,同種燃料分布を持つフィールド火災と,米国のカリフォルニア地域から採取した実世界トポロジを含む,複雑さの増大をシミュレーションした3つのデータセットへの適用例を示す。 その結果, 火傷発生から24時間を超える自己回帰予測を100回行った場合においても, 火傷発生時のジャカードスコアは0.89~0.94と安定かつ現実的な伝播ダイナミクスが得られた。

The increasing incidence and severity of wildfires underscores the necessity of accurately predicting their behavior. While high-fidelity models derived from first principles offer physical accuracy, they are too computationally expensive for use in real-time fire response. Low-fidelity models sacrifice some physical accuracy and generalizability via the integration of empirical measurements, but enable real-time simulations for operational use in fire response. Machine learning techniques offer the ability to bridge these objectives by learning first-principles physics while achieving computational speedup. While deep learning approaches have demonstrated the ability to predict wildfire propagation over large time periods, time-resolved fire-spread predictions are needed for active fire management. In this work, we evaluate the ability of deep learning approaches in accurately modeling the time-resolved dynamics of wildfires. We use an autoregressive process in which a convolutional recurrent deep learning model makes predictions that propagate a wildfire over 15 minute increments. We demonstrate the model in application to three simulated datasets of increasing complexity, containing both field fires with homogeneous fuel distribution as well as real-world topologies sampled from the California region of the United States. We show that even after 100 autoregressive predictions representing more than 24 hours of simulated fire spread, the resulting models generate stable and realistic propagation dynamics, achieving a Jaccard score between 0.89 and 0.94 when predicting the resulting fire scar.
翻訳日:2022-11-01 18:03:18 公開日:2022-10-28
# mixupは学習表現における局所線形性を促進するか?

When does mixup promote local linearity in learned representations? ( http://arxiv.org/abs/2210.16413v1 )

ライセンス: Link先を確認
Arslan Chaudhry, Aditya Krishna Menon, Andreas Veit, Sadeep Jayasumana, Srikumar Ramalingam, Sanjiv Kumar(参考訳) Mixupは、元のトレーニングポイントの凸組み合わせを使って、新しいサンプルを人工的に生成する正規化技術である。 この単純な手法は、強い経験的性能を示しており、mixmatch~\citep{berthelot2019mixmatch} やinterpolation consistent training (ICT)~\citep{verma2019interpolation} といった半教師あり学習技術の一部として広く利用されている。 本稿では,半教師付き学習環境における「emph{representation learning}」レンズによるミックスアップについて検討する。 特に,学習ネットワーク表現における線形性の促進におけるMixupの役割について検討する。 そこで,(1)emph{last}ネットワーク層における線形性を強制するミックスアップ損失は,その線形性をemph{earlier}層に伝達するのだろうか? ; (2)2つ以上のデータポイントに対するより強い混合損失の実施は、トレーニングの収束にどのように影響しますか? CIFAR-10, CIFAR-100, SVHNなどの視覚データセット上でのMixupの特性を実験的に検討した。 以上の結果から,教師付きミックスアップトレーニングはネットワーク層を線形にしないことが明らかとなった。 しかし、Mixupを教師なしの損失として使用すると、全てのネットワーク層がより線形になり、より高速なトレーニング収束をもたらすことが観察される。

Mixup is a regularization technique that artificially produces new samples using convex combinations of original training points. This simple technique has shown strong empirical performance, and has been heavily used as part of semi-supervised learning techniques such as mixmatch~\citep{berthelot2019mixmatch} and interpolation consistent training (ICT)~\citep{verma2019interpolation}. In this paper, we look at Mixup through a \emph{representation learning} lens in a semi-supervised learning setup. In particular, we study the role of Mixup in promoting linearity in the learned network representations. Towards this, we study two questions: (1) how does the Mixup loss that enforces linearity in the \emph{last} network layer propagate the linearity to the \emph{earlier} layers?; and (2) how does the enforcement of stronger Mixup loss on more than two data points affect the convergence of training? We empirically investigate these properties of Mixup on vision datasets such as CIFAR-10, CIFAR-100 and SVHN. Our results show that supervised Mixup training does not make \emph{all} the network layers linear; in fact the \emph{intermediate layers} become more non-linear during Mixup training compared to a network that is trained \emph{without} Mixup. However, when Mixup is used as an unsupervised loss, we observe that all the network layers become more linear resulting in faster training convergence.
翻訳日:2022-11-01 18:02:52 公開日:2022-10-28
# 無線ネットワークにおける最適資源管理決定のための状態拡張アプローチ

A State-Augmented Approach for Learning Optimal Resource Management Decisions in Wireless Networks ( http://arxiv.org/abs/2210.16412v1 )

ライセンス: Link先を確認
Yi\u{g}it Berkay Uslu (1), Navid NaderiAlizadeh (1), Mark Eisen (2), Alejandro Riberio (1) ((1) University of Pennsylvania, (2) Intel Corporation)(参考訳) 本稿では,マルチユーザ無線ネットワークにおける無線リソース管理(RRM)の問題について考察する。 本稿では,ネットワーク状態と並行して,rrmポリシーが制約に対応する2変数の組を入力として使用する,rrmポリシーのパラメータ化を提案する。 本稿では,提案した状態拡張アルゴリズムによって生成されるRCM決定の有効性とほぼ最適性を理論的に正当化する。 グラフニューラルネットワーク (GNN) でパラメータ化された RRM ポリシーと二重降下力学からサンプリングされた双対変数に着目し,提案手法は平均, 最小, および 5 % のトレードオフ率において, ベースライン法よりも優れたトレードオフを実現することを数値的に示す。

We consider a radio resource management (RRM) problem in a multi-user wireless network, where the goal is to optimize a network-wide utility function subject to constraints on the ergodic average performance of users. We propose a state-augmented parameterization for the RRM policy, where alongside the instantaneous network states, the RRM policy takes as input the set of dual variables corresponding to the constraints. We provide theoretical justification for the feasibility and near-optimality of the RRM decisions generated by the proposed state-augmented algorithm. Focusing on the power allocation problem with RRM policies parameterized by a graph neural network (GNN) and dual variables sampled from the dual descent dynamics, we numerically demonstrate that the proposed approach achieves a superior trade-off between mean, minimum, and 5th percentile rates than baseline methods.
翻訳日:2022-11-01 16:53:10 公開日:2022-10-28
# ビジュアルリッチ文書抽出モデルにおけるラディカルなデータラベルコスト低減

Radically Lower Data-Labeling Costs for Visually Rich Document Extraction Models ( http://arxiv.org/abs/2210.16391v1 )

ライセンス: Link先を確認
Yichao Zhou, James B. Wendt, Navneet Potti, Jing Xie, Sandeep Tata(参考訳) 請求書のような視覚的にリッチな文書の自動抽出モデルを構築する上で重要なボトルネックは、モデルのトレーニングに必要な数千の高品質なラベル付き文書を取得するコストである。 部分的にラベル付けされた文書でトレーニングされたモデルによって予測される候補抽出のための"yes/no"ラベルを提供するため、ラベル付けタスクを簡略化する選択的ラベル付けを提案する。 これをカスタムのアクティブな学習戦略と組み合わせて、モデルが最も不確実な予測を見つけます。 3つの異なるドメインから抽出された文書タイプについて実験を行い,ラベル付きデータの取得コストを10\times$に削減し,精度を損なうことを示した。

A key bottleneck in building automatic extraction models for visually rich documents like invoices is the cost of acquiring the several thousand high-quality labeled documents that are needed to train a model with acceptable accuracy. We propose Selective Labeling to simplify the labeling task to provide "yes/no" labels for candidate extractions predicted by a model trained on partially labeled documents. We combine this with a custom active learning strategy to find the predictions that the model is most uncertain about. We show through experiments on document types drawn from 3 different domains that selective labeling can reduce the cost of acquiring labeled data by $10\times$ with a negligible loss in accuracy.
翻訳日:2022-11-01 16:51:34 公開日:2022-10-28
# Just-DREAM-about-it: DREAM-FLUTEを用いた図形言語理解

Just-DREAM-about-it: Figurative Language Understanding with DREAM-FLUTE ( http://arxiv.org/abs/2210.16407v1 )

ライセンス: Link先を確認
Yuling Gu, Yao Fu, Valentina Pyatkin, Ian Magnusson, Bhavana Dalvi Mishra and Peter Clark(参考訳) 形容詞的言語(例えば「風のように飛んだ」)は、表面形態だけから暗黙の情報を伝えることが困難であるため、理解するのが困難である。 我々は、このタスクをうまく実行するには、読者は言語の意味を識別するために説明されているシーンを精神的に精巧にする必要があると仮定する。 DREAM-FLUTEは、まず、前提と仮説で記述された状況の「メンタルモデル」を作成し、その後、係り受け/係り受け決定を行い、説明を生成するための図形言語理解システムである。 DREAM-FLUTEは既存のシーン編集モデルであるDREAMを使って「メンタルモデル」を構築している。 figlang2022の共有タスク評価では、dream-fluteが1位(acc@60=63.3%)を獲得し、アンサンブル技術によりさらにパフォーマンスが向上し、このアプローチの有効性が実証された。 より一般的に、この研究は、事前訓練された言語モデルにリフレクティブコンポーネントを追加することで、標準的な微調整(Acc@60では3.3%改善)以上のパフォーマンスを向上させることを示唆している。

Figurative language (e.g., "he flew like the wind") is challenging to understand, as it is hard to tell what implicit information is being conveyed from the surface form alone. We hypothesize that to perform this task well, the reader needs to mentally elaborate the scene being described to identify a sensible meaning of the language. We present DREAM-FLUTE, a figurative language understanding system that does this, first forming a "mental model" of situations described in a premise and hypothesis before making an entailment/contradiction decision and generating an explanation. DREAM-FLUTE uses an existing scene elaboration model, DREAM, for constructing its "mental model." In the FigLang2022 Shared Task evaluation, DREAM-FLUTE achieved (joint) first place (Acc@60=63.3%), and can perform even better with ensemble techniques, demonstrating the effectiveness of this approach. More generally, this work suggests that adding a reflective component to pretrained language models can improve their performance beyond standard fine-tuning (3.3% improvement in Acc@60).
翻訳日:2022-11-01 16:51:21 公開日:2022-10-28
# テキストセグメンテーションと長文要約の統一に向けて

Toward Unifying Text Segmentation and Long Document Summarization ( http://arxiv.org/abs/2210.16422v1 )

ライセンス: Link先を確認
Sangwoo Cho, Kaiqiang Song, Xiaoyang Wang, Fei Liu, Dong Yu(参考訳) テキストセグメンテーションは文書の構造をシグナリングするのに重要である。 長い文書を局所的にコヒーレントな部分に分割することなく、重要な情報を見つけることなしに、読者がテキストを理解することは困難である。 この問題は、音声/ビデオ記録の書き起こしのセグメント化の欠如によってのみ悪化する。 本稿では,文および音声文書の抽出要約において,節分割が果たす役割について検討する。 提案手法は,要約とセグメント化を同時に行うことで頑健な文表現を学習し,多種多様な要約文の選択を促進する最適化型正規化器によってさらに強化される。 論文から音声書き起こしまで,複数のデータセットを用いて実験を行い,モデルの性能評価を行った。 提案手法は,公開ベンチマークで最先端のパフォーマンスを実現するだけでなく,テキストセグメンテーション機能を備えた場合のクロスジェネレータ転送性も向上することが示唆された。 本研究では,部分分割が文章や音声文書の相当な長さと複雑さの要約に与える影響を定量的に分析する。

Text segmentation is important for signaling a document's structure. Without segmenting a long document into topically coherent sections, it is difficult for readers to comprehend the text, let alone find important information. The problem is only exacerbated by a lack of segmentation in transcripts of audio/video recordings. In this paper, we explore the role that section segmentation plays in extractive summarization of written and spoken documents. Our approach learns robust sentence representations by performing summarization and segmentation simultaneously, which is further enhanced by an optimization-based regularizer to promote selection of diverse summary sentences. We conduct experiments on multiple datasets ranging from scientific articles to spoken transcripts to evaluate the model's performance. Our findings suggest that the model can not only achieve state-of-the-art performance on publicly available benchmarks, but demonstrate better cross-genre transferability when equipped with text segmentation. We perform a series of analyses to quantify the impact of section segmentation on summarizing written and spoken documents of substantial length and complexity.
翻訳日:2022-11-01 16:50:49 公開日:2022-10-28
# Knowledge-in-Context: 知識のあるセミパラメトリック言語モデルを目指して

Knowledge-in-Context: Towards Knowledgeable Semi-Parametric Language Models ( http://arxiv.org/abs/2210.16433v1 )

ライセンス: Link先を確認
Xiaoman Pan, Wenlin Yao, Hongming Zhang, Dian Yu, Dong Yu, Jianshu Chen(参考訳) 完全なパラメトリック言語モデルは一般に、ゼロ/フェーショット設定で複数の自然言語タスクを解くために必要な知識を保持するために、膨大な数のモデルパラメータを必要とする。 さらに、コストのかかるモデルの再トレーニングなしでは、進化する世界の知識に適応することは困難です。 本稿では,知識豊富な外部メモリを備えたパラメトリックテキスト-テキスト言語モデルを実現する,半パラメトリック言語モデルアーキテクチャであるKnowledge-in-Context(KiC)を開発する。 具体的には、外部メモリにはエンティティ、辞書、コモンセンス、イベント、スクリプト、因果関係の6種類の知識が含まれている。 各入力インスタンスに対して、KiCモデルは適応的に知識タイプを選択し、最も有用な知識を検索する。 入力インスタンスとその知識増強と共にテキスト・ツー・テキストモデル(例えばT5)に入力され、入力と出力の両方が処理後に自然言語形式で出力される出力応答を生成する。 興味深いことに、kicは、知識セレクタがmoeのシーケンスから専門家への割り当てを決定するルータの役割を担っている特別な専門家の混合(moe)モデルとして識別できる。 このキーとなる観察は、インスタンス適応型知識セレクタでKiCをトレーニングするための新しいアルゴリズムを開発するきっかけとなった。 知識豊富なセミパラメトリック言語モデルとして、kicは目に見えないタスクで優れたゼロショット性能を達成するために、はるかに小さなパラメトリック部分しか必要としない。 40以上のタスクを評価することで、770Mパラメータを持つKiC_Largeが、大きなマージンの4-39倍の大規模言語モデル(LM)よりも容易に優れていることを示す。 また,KiCは完全パラメトリックモデルよりもはるかに小さなモデルスケールで創発能力を示すことを示した。

Fully-parametric language models generally require a huge number of model parameters to store the necessary knowledge for solving multiple natural language tasks in zero/few-shot settings. In addition, it is hard to adapt to the evolving world knowledge without the costly model re-training. In this paper, we develop a novel semi-parametric language model architecture, Knowledge-in-Context (KiC), which empowers a parametric text-to-text language model with a knowledge-rich external memory. Specifically, the external memory contains six different types of knowledge: entity, dictionary, commonsense, event, script, and causality knowledge. For each input instance, the KiC model adaptively selects a knowledge type and retrieves the most helpful pieces of knowledge. The input instance along with its knowledge augmentation is fed into a text-to-text model (e.g., T5) to generate the output answer, where both the input and the output are in natural language forms after prompting. Interestingly, we find that KiC can be identified as a special mixture-of-experts (MoE) model, where the knowledge selector plays the role of a router that is used to determine the sequence-to-expert assignment in MoE. This key observation inspires us to develop a novel algorithm for training KiC with an instance-adaptive knowledge selector. As a knowledge-rich semi-parametric language model, KiC only needs a much smaller parametric part to achieve superior zero-shot performance on unseen tasks. By evaluating on 40+ different tasks, we show that KiC_Large with 770M parameters easily outperforms large language models (LMs) that are 4-39x larger by a large margin. We also demonstrate that KiC exhibits emergent abilities at a much smaller model scale compared to the fully-parametric models.
翻訳日:2022-11-01 16:50:19 公開日:2022-10-28
# PolSAR前処理とバランシングが複雑評価ニューラルネットワークセグメンテーションタスクに及ぼす影響

Impact of PolSAR pre-processing and balancing methods on complex-valued neural networks segmentation tasks ( http://arxiv.org/abs/2210.17419v1 )

ライセンス: Link先を確認
Jos\'e Agustin Barrachina, Chengfang Ren, Christ\`ele Morisseau, Gilles Vieillard, Jean-Philippe Ovarlez(参考訳) 本稿では,複合価値ニューラルネットワーク(CVNN)を用いたポラリメトリック合成開口レーダ(PolSAR)のセマンティックセグメンテーションを検討した。 コヒーレンシー行列はCVNNの入力として広く使われているが、最近パウリベクトルが有効な代替物であることが示されている。 6つのモデルアーキテクチャ,3つの複素値,それぞれの実等価モデルについて,両手法を徹底的に比較する。 従って私たちは、入力表現の影響だけでなく、実数値モデルに対する複雑さも比較しています。 次に、データセット分割は、トレーニングと検証セットの間に高い相関関係をもたらし、タスクを飽和させ、非常に高いパフォーマンスを達成すると論じる。 そこで我々は、この効果を低減し、前と同じ構成で結果(インプット表現とモデルアーキテクチャ)を再現するために、異なるデータ前処理技術を使用する。 クラス毎のパフォーマンスがクラスの発生に応じて非常に異なることを確認し、このギャップを減らし、全ての入力表現、モデル、データセット前処理の結果を実行する2つの方法を提案する。

In this paper, we investigated the semantic segmentation of Polarimetric Synthetic Aperture Radar (PolSAR) using Complex-Valued Neural Network (CVNN). Although the coherency matrix is more widely used as the input of CVNN, the Pauli vector has recently been shown to be a valid alternative. We exhaustively compare both methods for six model architectures, three complex-valued, and their respective real-equivalent models. We are comparing, therefore, not only the input representation impact but also the complex- against the real-valued models. We then argue that the dataset splitting produces a high correlation between training and validation sets, saturating the task and thus achieving very high performance. We, therefore, use a different data pre-processing technique designed to reduce this effect and reproduce the results with the same configurations as before (input representation and model architectures). After seeing that the performance per class is highly different according to class occurrences, we propose two methods for reducing this gap and performing the results for all input representations, models, and dataset pre-processing.
翻訳日:2022-11-01 16:41:41 公開日:2022-10-28
# 複数攻撃の有無を考慮したアンサンブルネットワークによる高スペクトル対向ロバスト性の改善

Improving Hyperspectral Adversarial Robustness using Ensemble Networks in the Presences of Multiple Attacks ( http://arxiv.org/abs/2210.16346v1 )

ライセンス: Link先を確認
Nicholas Soucy and Salimeh Yasaei Sekeh(参考訳) ハイパースペクトル画像のセマンティックセグメンテーション(HSI)は近年,ディープラーニングRGB分類モデルからの知識を取り入れて大きな進歩を遂げている。 分類モデルと同様に、セグメンテーションモデルは敵の例に対して脆弱であり、それらに対抗するために敵の訓練を必要とする。 敵対的ロバストネスに対する従来のアプローチは、攻撃されたデータに対する単一のネットワークのトレーニングや再トレーニングに重点を置いているが、複数の攻撃が存在する場合には、各攻撃で個別に訓練されたネットワークと比較してパフォーマンスが低下する。 この課題に対処するため,ネットワーク全体のロバスト化を図り,データタイプ毎の重みを最適に保持する統一モデルの下で,攻撃型検出と敵のロバスト性に着目したADE-Net(Adversarial Discriminator Ensemble Network)を提案する。 提案手法では,攻撃型別データを特定の攻撃経験アンサンブルネットワークに分離するために識別器ネットワークを用いる。 このアプローチでは,複数の攻撃が混在すると同時に,テスト中に攻撃タイプをラベル付けすることが可能である。 ADE-Netは、HSI Indian Pines, Kennedy Space, Houstonのデータセットに対して、複数の攻撃を交互に訓練した単一のネットワークである。

Semantic segmentation of hyperspectral images (HSI) has seen great strides in recent years by incorporating knowledge from deep learning RGB classification models. Similar to their classification counterparts, semantic segmentation models are vulnerable to adversarial examples and need adversarial training to counteract them. Traditional approaches to adversarial robustness focus on training or retraining a single network on attacked data, however, in the presence of multiple attacks these approaches decrease the performance compared to networks trained individually on each attack. To combat this issue we propose an Adversarial Discriminator Ensemble Network (ADE-Net) which focuses on attack type detection and adversarial robustness under a unified model to preserve per data-type weight optimally while robustifiying the overall network. In the proposed method, a discriminator network is used to separate data by attack type into their specific attack-expert ensemble network. Our approach allows for the presence of multiple attacks mixed together while also labeling attack types during testing. We experimentally show that ADE-Net outperforms the baseline, which is a single network adversarially trained under a mix of multiple attacks, for HSI Indian Pines, Kennedy Space, and Houston datasets.
翻訳日:2022-11-01 16:33:11 公開日:2022-10-28
# 皮膚病変分割のためのU-Netベースモデル:より注意と拡張

U-Net-based Models for Skin Lesion Segmentation: More Attention and Augmentation ( http://arxiv.org/abs/2210.16399v1 )

ライセンス: Link先を確認
Pooya Mohammadi Kazaj, MohammadHossein Koosheshi, Ali Shahedi, Alireza Vafaei Sadr(参考訳) WHO[1]によると、1970年代からメラノーマ皮膚癌の診断が頻繁に行われている。 しかし、早期に検出された場合、メラノーマの生存率は99%に増加する。 この点において、皮膚病変のセグメンテーションは、モニタリングと治療計画において重要である。 この作業では、10のモデルと4つの拡張構成がISIC 2016データセットでトレーニングされている。 パフォーマンスとオーバーフィッティングは5つのメトリクスを使って比較されます。 以上の結果から,U-Net-Resnet50とR2U-Netは2つのデータ拡張シナリオとともに,最も高い測定値を持つことがわかった。 また,U-NetアーキテクチャにおけるCBAMおよびAGブロックについても検討し,単純な計算コストでセグメンテーション性能を向上させる。 さらに, ピラミッドブロック, agブロック, cbamブロックを連続的に使用することで, 個別に使用した結果を大幅に超えることを提案する。 最後に,注意モジュールを活用したモデルが一般的な皮膚病変分節問題を克服することに成功したことを示す。 最後に、再現可能な研究の精神で、公開可能なモデルとコードを実装します。

According to WHO[1], since the 1970s, diagnosis of melanoma skin cancer has been more frequent. However, if detected early, the 5-year survival rate for melanoma can increase to 99 percent. In this regard, skin lesion segmentation can be pivotal in monitoring and treatment planning. In this work, ten models and four augmentation configurations are trained on the ISIC 2016 dataset. The performance and overfitting are compared utilizing five metrics. Our results show that the U-Net-Resnet50 and the R2U-Net have the highest metrics value, along with two data augmentation scenarios. We also investigate CBAM and AG blocks in the U-Net architecture, which enhances segmentation performance at a meager computational cost. In addition, we propose using pyramid, AG, and CBAM blocks in a sequence, which significantly surpasses the results of using the two individually. Finally, our experiments show that models that have exploited attention modules successfully overcome common skin lesion segmentation problems. Lastly, in the spirit of reproducible research, we implement models and codes publicly available.
翻訳日:2022-11-01 16:32:46 公開日:2022-10-28
# 経時的核融合変圧器を用いた原子炉事故予後の長期的・信頼できるアプローチ

A Long-term Dependent and Trustworthy Approach to Reactor Accident Prognosis based on Temporal Fusion Transformer ( http://arxiv.org/abs/2210.17298v1 )

ライセンス: Link先を確認
Chengyuan Li, Zhifang Qiu, Yugao Ma, Meifu Li(参考訳) 原子炉事故の予後は、放射性放出を避けるために適切な戦略を採用するための重要な方法である。 しかし、原子力産業の分野では非常に限られた研究がある。 本稿では,多頭部自己着脱機構を有する時間的核融合トランスフォーマ(tft)モデルに基づく事故予後予測手法を提案する。 本手法は,複数の共変量を用いて一方の予測精度を向上し,他方の不確実性評価のための定量的回帰法を提案する。 本報で提案する手法は, hpr1000炉における冷却剤事故(locas)の損失後の予後に応用できる。 本手法は,予測精度と信頼度の観点から,新しい深層学習に基づく予測手法を超えることを示す。 さらに, 信号対雑音比の異なる干渉実験や, 静的共変量のアブレーション実験により, 静的・歴史的共変量の特徴を抽出できることから, 頑健性が得られた。 要約すると,本研究は原子炉事故後のキーパラメータの予後に新しい複合ディープラーニングモデルTFTを適用し,よりインテリジェントでスタッフ軽量な原子炉システムの保守手法の確立に肯定的な貢献をする。

Prognosis of the reactor accident is a crucial way to ensure appropriate strategies are adopted to avoid radioactive releases. However, there is very limited research in the field of nuclear industry. In this paper, we propose a method for accident prognosis based on the Temporal Fusion Transformer (TFT) model with multi-headed self-attention and gating mechanisms. The method utilizes multiple covariates to improve prediction accuracy on the one hand, and quantile regression methods for uncertainty assessment on the other. The method proposed in this paper is applied to the prognosis after loss of coolant accidents (LOCAs) in HPR1000 reactor. Extensive experimental results show that the method surpasses novel deep learning-based prediction methods in terms of prediction accuracy and confidence. Furthermore, the interference experiments with different signal-to-noise ratios and the ablation experiments for static covariates further illustrate that the robustness comes from the ability to extract the features of static and historical covariates. In summary, this work for the first time applies the novel composite deep learning model TFT to the prognosis of key parameters after a reactor accident, and makes a positive contribution to the establishment of a more intelligent and staff-light maintenance method for reactor systems.
翻訳日:2022-11-01 16:23:42 公開日:2022-10-28
# 半教師付き自動音声認識のためのprogressive pseudo label refining

Filter and evolve: progressive pseudo label refining for semi-supervised automatic speech recognition ( http://arxiv.org/abs/2210.16318v1 )

ライセンス: Link先を確認
Zezhong Jin, Dading Zhong, Xiao Song, Zhaoyi Liu, Naipeng Ye, Qingcheng Zeng(参考訳) 擬似ラベルを用いた自己教師付き事前学習モデルの微調整は音声認識性能を効果的に向上させる。 しかし、低品質の擬似ラベルは決定境界を誤認し、性能を低下させる可能性がある。 我々は,この問題を軽減するために,低品質の擬似ラベルをフィルタする簡易かつ効果的な手法を提案する。 具体的には、トレーニングセット全体にわたって擬似ラベルを生成し、モデル出力から算出した平均確率スコアでフィルタリングする。 その後、確率スコアの高い発話の最適な割合は、信頼できるラベルを持つ信頼できる訓練データと見なされる。 モデルは反復的に更新され、信頼できない擬似ラベルを補正し、ノイズの少ないラベルの影響を最小限にする。 上記のプロセスは、信頼できない擬似アベルが適切に修正されるまで繰り返される。 LibriSpeechの大規模な実験により、これらのフィルターされたサンプルにより、洗練されたモデルによりより正確な予測が得られ、様々な実験環境下でのASR性能が向上することが示された。

Fine tuning self supervised pretrained models using pseudo labels can effectively improve speech recognition performance. But, low quality pseudo labels can misguide decision boundaries and degrade performance. We propose a simple yet effective strategy to filter low quality pseudo labels to alleviate this problem. Specifically, pseudo-labels are produced over the entire training set and filtered via average probability scores calculated from the model output. Subsequently, an optimal percentage of utterances with high probability scores are considered reliable training data with trustworthy labels. The model is iteratively updated to correct the unreliable pseudo labels to minimize the effect of noisy labels. The process above is repeated until unreliable pseudo abels have been adequately corrected. Extensive experiments on LibriSpeech show that these filtered samples enable the refined model to yield more correct predictions, leading to better ASR performances under various experimental settings.
翻訳日:2022-11-01 16:14:57 公開日:2022-10-28
# 興味ある異常を検出するための学習

Learning to Detect Interesting Anomalies ( http://arxiv.org/abs/2210.16334v1 )

ライセンス: Link先を確認
Alireza Vafaei Sadr, Bruce A. Bassett, Emmanuel Sekyi(参考訳) 異常検出アルゴリズムは通常、ユーザーが手作りの静的で不変なデータ特徴に適用される。 しかし、ユーザがこれまで見たことのない異常に対して、どのようにして優れた機能を体系的に構築するのか? ここでは、oracleが一連のラウンドを通じてアルゴリズムで選択した少数のデータを反復的にラベル付けするアクティブラーニングとディープラーニングを組み合わせることで、効率的な異常検出のためにデータ機能を自動的かつ動的に改善します。 このアプローチであるAHUNTは、MNIST、CIFAR10、Galaxy-DESIデータに対して優れた性能を示し、静的な特徴空間を持つ標準的な異常検出とアクティブな学習アルゴリズムの両方を著しく上回っている。 パフォーマンスの改善に加えて、AHUNTはOracleの評価に応じて、異常なクラスの数を有機的に成長させることもできる。 広範囲なアブレーション研究は、oracleの質問選択戦略と損失関数がパフォーマンスに与える影響を探求する。 動的異常クラス分類は、ユーザの興味を反映した様々な異常クラスの完全パーソナライズされたランキングへの別のステップを示し、アルゴリズムが統計的に有意だが興味のないアウトリーチ(ノイズなど)を無視することを学習できるようにする。 これは、受信したデータの小さなサブセットのみをレビューできる多様なユーザのセットを提供する大規模な天文学データセットの時代において有用であることが証明される。

Anomaly detection algorithms are typically applied to static, unchanging, data features hand-crafted by the user. But how does a user systematically craft good features for anomalies that have never been seen? Here we couple deep learning with active learning -- in which an Oracle iteratively labels small amounts of data selected algorithmically over a series of rounds -- to automatically and dynamically improve the data features for efficient outlier detection. This approach, AHUNT, shows excellent performance on MNIST, CIFAR10, and Galaxy-DESI data, significantly outperforming both standard anomaly detection and active learning algorithms with static feature spaces. Beyond improved performance, AHUNT also allows the number of anomaly classes to grow organically in response to Oracle's evaluations. Extensive ablation studies explore the impact of Oracle question selection strategy and loss function on performance. We illustrate how the dynamic anomaly class taxonomy represents another step towards fully personalized rankings of different anomaly classes that reflect a user's interests, allowing the algorithm to learn to ignore statistically significant but uninteresting outliers (e.g., noise). This should prove useful in the era of massive astronomical datasets serving diverse sets of users who can only review a tiny subset of the incoming data.
翻訳日:2022-11-01 16:14:44 公開日:2022-10-28
# 知識学習のための教師学生アーキテクチャ:調査

Teacher-Student Architecture for Knowledge Learning: A Survey ( http://arxiv.org/abs/2210.17332v1 )

ライセンス: Link先を確認
Chengming Hu, Xuan Li, Dan Liu, Xi Chen, Ju Wang, and Xue Liu(参考訳) ディープニューラルネットワーク(DNN)は、多くの領域で大規模な問題を解決する強力な能力を示しているが、発光パラメータを持つDNNはリアルタイムシステムに展開することが難しい。 この問題に対処するために、教師-学生アーキテクチャは知識蒸留において最初に利用され、単純な学生ネットワークは深層教師ネットワークに匹敵する性能を達成できる。 近年, 知識蒸留, 知識拡張, 知識適応, マルチタスク学習など, 様々な知識学習目標に対して, 教師・学生アーキテクチャが効果的に広く受け入れられている。 教師-学生アーキテクチャの助けを借りて、現在の研究では、軽量で効果的な学生ネットワークを通じて、複数の知識学習目標を達成することができる。 本研究は,既存の知識蒸留調査と異なり,複数の知識学習目標を持つ教員養成型アーキテクチャを詳細に検討した。 さらに,知識学習中に知識構築と最適化のプロセスを体系的に導入し,代表的かつ頑健な知識を学習するために活用された様々な教師・学生のアーキテクチャと効果的な学習スキームを分析した。 本稿では, 異なる目的(分類, 認識, 生成など)に基づく教師学習型アーキテクチャの最新の応用について概説する。 最後に,知識学習の潜在的な研究方向性について,教師-学生アーキテクチャ設計,知識の質,回帰学習の理論的研究について検討した。 この包括的調査により、業界実践者と学術コミュニティの両方が、複数の知識学習目標に関する教師-学生アーキテクチャに関する洞察に富んだガイドラインを学ぶことができる。

Although Deep Neural Networks (DNNs) have shown a strong capacity to solve large-scale problems in many areas, such DNNs with voluminous parameters are hard to be deployed in a real-time system. To tackle this issue, Teacher-Student architectures were first utilized in knowledge distillation, where simple student networks can achieve comparable performance to deep teacher networks. Recently, Teacher-Student architectures have been effectively and widely embraced on various knowledge learning objectives, including knowledge distillation, knowledge expansion, knowledge adaption, and multi-task learning. With the help of Teacher-Student architectures, current studies are able to achieve multiple knowledge-learning objectives through lightweight and effective student networks. Different from the existing knowledge distillation surveys, this survey detailedly discusses Teacher-Student architectures with multiple knowledge learning objectives. In addition, we systematically introduce the knowledge construction and optimization process during the knowledge learning and then analyze various Teacher-Student architectures and effective learning schemes that have been leveraged to learn representative and robust knowledge. This paper also summarizes the latest applications of Teacher-Student architectures based on different purposes (i.e., classification, recognition, and generation). Finally, the potential research directions of knowledge learning are investigated on the Teacher-Student architecture design, the quality of knowledge, and the theoretical studies of regression-based learning, respectively. With this comprehensive survey, both industry practitioners and the academic community can learn insightful guidelines about Teacher-Student architectures on multiple knowledge learning objectives.
翻訳日:2022-11-01 16:06:39 公開日:2022-10-28
# dual gaussian visual-semantic embedded によるファッション特有の属性解釈

Fashion-Specific Attributes Interpretation via Dual Gaussian Visual-Semantic Embedding ( http://arxiv.org/abs/2210.17417v1 )

ライセンス: Link先を確認
Ryotaro Shimizu, Masanari Kimura, Masayuki Goto(参考訳) 単語、属性、画像といった様々な種類のコンポーネントを埋め込み空間にマップする手法がいくつか研究されている。 その多くは射影空間の点として対象の実体の埋め込み表現を推定する。 Word2Gaussのようないくつかのモデルは、埋め込み表現の背後にある確率分布を仮定し、組み込まれたターゲットコンポーネントの意味の拡散や分散をより詳細に捉え、検討することができる。 ファッション特有の抽象的・理解しにくい用語の解釈のための確率分布として埋め込み表現を推定する方法を検討する。 カジュアル"、"adult-casual"、"adult-casual"、"beauty-casual"、"formal"といった用語は極めて主観的で抽象的であり、専門家と非専門家の両方にとって理解が困難であり、ユーザーが新しいファッションを試すのを妨げている。 本論文では,同一射影空間に画像と属性をマッピングし,その広い応用によってこれらの用語の意味の解釈を可能にする,dual gaussian visual-semantic embeddedと呼ばれるエンド・ツー・エンドモデルを提案する。 提案手法の有効性を,画像と属性マッピング,画像検索と並べ替え技術,および損失関数に含まれる距離測定の詳細な理論的・解析的議論を含む多面的実験により実証する。

Several techniques to map various types of components, such as words, attributes, and images, into the embedded space have been studied. Most of them estimate the embedded representation of target entity as a point in the projective space. Some models, such as Word2Gauss, assume a probability distribution behind the embedded representation, which enables the spread or variance of the meaning of embedded target components to be captured and considered in more detail. We examine the method of estimating embedded representations as probability distributions for the interpretation of fashion-specific abstract and difficult-to-understand terms. Terms, such as "casual," "adult-casual,'' "beauty-casual," and "formal," are extremely subjective and abstract and are difficult for both experts and non-experts to understand, which discourages users from trying new fashion. We propose an end-to-end model called dual Gaussian visual-semantic embedding, which maps images and attributes in the same projective space and enables the interpretation of the meaning of these terms by its broad applications. We demonstrate the effectiveness of the proposed method through multifaceted experiments involving image and attribute mapping, image retrieval and re-ordering techniques, and a detailed theoretical/analytical discussion of the distance measure included in the loss function.
翻訳日:2022-11-01 16:05:49 公開日:2022-10-28
# 物理印刷画像チャンネルのデジタル双生児

Digital twins of physical printing-imaging channel ( http://arxiv.org/abs/2210.17420v1 )

ライセンス: Link先を確認
Yury Belousov and Brian Pulfer and Roman Chaban and Joakim Tutt and Olga Taran and Taras Holotyak and Slava Voloshynovskiy(参考訳) 本稿では、コピー検出パターン(CDP)に基づく反偽造防止のためのデジタルツインと呼ばれる機械学習アプローチに基づいて構築された印刷画像チャネルをモデル化する問題に対処する。 ディジタルツインは、エンコーダとデコーダの両方で開発された相互情報の変分近似を双方向情報通路で使用するTurboと呼ばれる情報理論フレームワーク上に定式化されている。 提案モデルは,AAE(Adversarial Autoencoder),CycleGAN(CycleGAN),ALAE(Adversarial Latent Space Autoencoder)などの最先端アーキテクチャを一般化する。 このモデルは任意の種類の印刷やイメージングに適用することができ、印刷装置に送信されるデジタルテンプレートやアートワークからなるトレーニングデータと、撮像装置が取得したデータのみを必要とする。 さらに、これらのデータはペアリング、アンペア化、ハイブリッド化されたペア化アンペア化が可能で、提案されたアーキテクチャは、多くの実用的なセットアップに対して非常に柔軟でスケーラブルである。 本稿では,デジタル版CDPをデジタル版から生成・予測する作業において,各種アーキテクチャ要因,メトリクス,差別化要因がシステム全体の性能に与える影響を実証する。 また,提案システムと,画像から画像への変換に使用する最先端手法を比較した。

In this paper, we address the problem of modeling a printing-imaging channel built on a machine learning approach a.k.a. digital twin for anti-counterfeiting applications based on copy detection patterns (CDP). The digital twin is formulated on an information-theoretic framework called Turbo that uses variational approximations of mutual information developed for both encoder and decoder in a two-directional information passage. The proposed model generalizes several state-of-the-art architectures such as adversarial autoencoder (AAE), CycleGAN and adversarial latent space autoencoder (ALAE). This model can be applied to any type of printing and imaging and it only requires training data consisting of digital templates or artworks that are sent to a printing device and data acquired by an imaging device. Moreover, these data can be paired, unpaired or hybrid paired-unpaired which makes the proposed architecture very flexible and scalable to many practical setups. We demonstrate the impact of various architectural factors, metrics and discriminators on the overall system performance in the task of generation/prediction of printed CDP from their digital counterparts and vice versa. We also compare the proposed system with several state-of-the-art methods used for image-to-image translation applications.
翻訳日:2022-11-01 16:05:23 公開日:2022-10-28
# アンサンブルモデリング, 「Human Softmax」分布, 不確かさのエントロピー的対策を活用した雑音・クラウドソーシングデータセットのアプローチ

An Approach for Noisy, Crowdsourced Datasets Utilizing Ensemble Modeling, 'Human Softmax' Distributions, and Entropic Measures of Uncertainty ( http://arxiv.org/abs/2210.16380v1 )

ライセンス: Link先を確認
Graham West, Matthew I. Swindall, Ben Keener, Timothy Player, Alex C. Williams, James H. Brusuelas, John F. Wallin(参考訳) クラウドソーシングされた画像データセットは、最高のニューラルネットワークでも難しい。 このようなデータセットの分類を複雑にする2つの問題は、クラス不均衡とラベル付けの不確実性である。 AL-ALL と AL-PUB のデータセットは、古代ギリシアのパピルス像の個々の文字を強く影響している。 このようなデータセットへのアンサンブルモデリングの適用は、接地が疑わしい画像を特定するのに役立ち、それらのサンプルの信頼性を定量化する。 本稿では、クロスエントロピー(CXE)とKLD(Kulback-Liebler Divergence)を利用するResNetsとほぼ同一のスタック化された一般化を適用する。 CXEネットワークは、クラウドソースされたコンセンサスから引き出された標準ラベルを使用する。 対照的に、KLDネットワークはクラウドソースアノテーションの分布から派生した各画像に対して確率ラベルを使用する。 このラベルを human softmax (hsm) 分布と呼ぶ。 我々のアンサンブルモデルでは、cxe と kld ネットワークの出力に k-nearest neighbors モデルを適用する。 個別に、resnetモデルは約93%の精度を持つが、アンサンブルモデルは95%の精度を達成している。 また,様々なモデルの出力分布のシャノンエントロピーの解析を行い,分類の不確かさを測定した。

Noisy, crowdsourced image datasets prove challenging, even for the best neural networks. Two issues which complicate classification on such datasets are class imbalance and ground-truth uncertainty in labeling. The AL-ALL and AL-PUB datasets-consisting of tightly cropped, individual characters from images of ancient Greek papyri are strongly affected by both issues. The application of ensemble modeling to such a dataset can help identify images where the ground-truth is questionable and quantify the trustworthiness of those samples. We apply stacked generalization consisting of nearly identical ResNets: one utilizing cross-entropy (CXE) and the other Kullback-Liebler Divergence (KLD). The CXE network uses standard labeling drawn from the crowdsourced consensus. In contrast, the KLD network uses probabilistic labeling for each image derived from the distribution of crowdsourced annotations. We refer to this labeling as the Human Softmax (HSM) distribution. For our ensemble model, we apply a k-nearest neighbors model to the outputs of the CXE and KLD networks. Individually, the ResNet models have approximately 93% accuracy, while the ensemble model achieves an accuracy of >95%. We also perform an analysis of the Shannon entropy of the various models' output distributions to measure classification uncertainty.
翻訳日:2022-11-01 15:56:11 公開日:2022-10-28
# マルチエージェントシステムの局所的挙動予測と森林火災モデルへの適用

Forecasting local behavior of multi-agent system and its application to forest fire model ( http://arxiv.org/abs/2210.17289v1 )

ライセンス: Link先を確認
Beomseok Kang, Minah Lee, Harshit Kumar, Saibal Mukhopadhyay(参考訳) 本稿では,CNN-LSTMモデルを用いて,大規模マルチエージェントシステムにおける特定のエージェントの状態を予測する。 提案モデルは,システムを低次元ベクトルに表現するCNNエンコーダと,ベクトル空間のエージェントダイナミクスを学習するLSTMモジュールと,エージェントの将来の状態を予測するMLPデコーダとから構成される。 森林火災モデル(forest fire model)は、特定の樹木エージェントがいつ燃えているかを予測する必要がある例である。 提案モデルでは,フレームベースモデルよりも少ない計算で高いAUCを実現し,ConvLSTMよりもアクティベーションなどの計算コストを大幅に削減する。

In this paper, we study a CNN-LSTM model to forecast the state of a specific agent in a large multi-agent system. The proposed model consists of a CNN encoder to represent the system into a low-dimensional vector, a LSTM module to learn the agent dynamics in the vector space, and a MLP decoder to predict the future state of an agent. A forest fire model is considered as an example where we need to predict when a specific tree agent will be burning. We observe that the proposed model achieves higher AUC with less computation than a frame-based model and significantly saves computational costs such as the activation than ConvLSTM.
翻訳日:2022-11-01 15:49:05 公開日:2022-10-28
# M$3$Care:マルチモーダル医療データにおけるモダリティの欠如による学習

M$^3$Care: Learning with Missing Modalities in Multimodal Healthcare Data ( http://arxiv.org/abs/2210.17292v1 )

ライセンス: Link先を確認
Chaohe Zhang, Xu Chu, Liantao Ma, Yinghao Zhu, Yasha Wang, Jiangtao Wang, Junfeng Zhao(参考訳) マルチモーダル電子健康記録(EHR)データは臨床応用に広く利用されている。 従来の方法では、各サンプル(患者)が統一された観察モダリティに関連付けられ、各サンプルに対してすべてのモダリティが利用できると仮定する。 しかし、様々な臨床および社会的理由によるモダリティの欠如は、現実的な臨床シナリオにおいて一般的な問題である。 既存の方法は、主に潜在空間から元の入力空間へのマッピングを学ぶ生成モデルを解くことに依存しているが、これは不安定な逆問題である。 未決定のシステムを緩和するために,マルチモーダル医療データ(m3care)のモダリティを欠いた学習という,直接的な問題を解決するモデルを提案する。 m3careはエンド・ツー・エンドのモデルであり、臨床分析を行うために欠如している患者の情報を補償する。 m3careは、生の欠失データを生成する代わりに、各患者の類似した隣接者からの補助情報によって潜在空間における欠失モダリティのタスク関連情報を、タスクガイドされたモダリティ適応類似度指標で測定し、臨床業務を行う。 タスク誘導型モダリティ適応類似度測定は、同一のモダリティを有する患者と他の患者との無検閲モダリティを利用して、類似した患者を見つける。 実世界のデータセットの実験では、M3Careは最先端のベースラインよりも優れています。 さらに、M3Careが発見した発見は専門家や医学知識と一致しており、有用な洞察と説明を提供する能力と可能性を示している。

Multimodal electronic health record (EHR) data are widely used in clinical applications. Conventional methods usually assume that each sample (patient) is associated with the unified observed modalities, and all modalities are available for each sample. However, missing modality caused by various clinical and social reasons is a common issue in real-world clinical scenarios. Existing methods mostly rely on solving a generative model that learns a mapping from the latent space to the original input space, which is an unstable ill-posed inverse problem. To relieve the underdetermined system, we propose a model solving a direct problem, dubbed learning with Missing Modalities in Multimodal healthcare data (M3Care). M3Care is an end-to-end model compensating the missing information of the patients with missing modalities to perform clinical analysis. Instead of generating raw missing data, M3Care imputes the task-related information of the missing modalities in the latent space by the auxiliary information from each patient's similar neighbors, measured by a task-guided modality-adaptive similarity metric, and thence conducts the clinical tasks. The task-guided modality-adaptive similarity metric utilizes the uncensored modalities of the patient and the other patients who also have the same uncensored modalities to find similar patients. Experiments on real-world datasets show that M3Care outperforms the state-of-the-art baselines. Moreover, the findings discovered by M3Care are consistent with experts and medical knowledge, demonstrating the capability and the potential of providing useful insights and explanations.
翻訳日:2022-11-01 15:48:51 公開日:2022-10-28
# コントラストサンプルを用いた強化学習における可能性因果関係の同定と活用

Using Contrastive Samples for Identifying and Leveraging Possible Causal Relationships in Reinforcement Learning ( http://arxiv.org/abs/2210.17296v1 )

ライセンス: Link先を確認
Harshad Khadilkar and Hardik Meisheri(参考訳) 強化学習における重要な課題は、行動と長期的な報酬の間の複雑な関係を定量化することである。 この効果は、状態と作用の長いペアの長い列に現れるため、特定が困難である。 本稿では,変遷と有意な逸脱と,それに続く報酬の異常な変化をリンクする手法を提案する。 このような遷移は因果効果としてマークされ、対応する状態-アクションペアは別のリプレイバッファに追加される。 さらに、同様の状態からの遷移に対応するが、異なるアクションを持つ \textit{contrastive}サンプルも含む。 トレーニング中のContrastive Experience Replay(CER)を含めると、2次元ナビゲーションタスクにおける標準値ベースの手法よりも優れていることが示される。 我々はcerは、オフポリシー強化学習アルゴリズムを含む幅広い学習タスクに有用であると信じている。

A significant challenge in reinforcement learning is quantifying the complex relationship between actions and long-term rewards. The effects may manifest themselves over a long sequence of state-action pairs, making them hard to pinpoint. In this paper, we propose a method to link transitions with significant deviations in state with unusually large variations in subsequent rewards. Such transitions are marked as possible causal effects, and the corresponding state-action pairs are added to a separate replay buffer. In addition, we include \textit{contrastive} samples corresponding to transitions from a similar state but with differing actions. Including this Contrastive Experience Replay (CER) during training is shown to outperform standard value-based methods on 2D navigation tasks. We believe that CER can be useful for a broad class of learning tasks, including for any off-policy reinforcement learning algorithm.
翻訳日:2022-11-01 15:48:21 公開日:2022-10-28
# グループフェアネス制約付きスケーラブルスペクトルクラスタリング

Scalable Spectral Clustering with Group Fairness Constraints ( http://arxiv.org/abs/2210.16435v1 )

ライセンス: Link先を確認
Ji Wang, Ding Lu, Zhaojun Bai and Ian Davidson(参考訳) 公正性をモデル化し、機械学習におけるアルゴリズムバイアスを補正する研究と産業の努力の相乗効果がある。 本稿では,グループフェアネス制約付きスペクトルクラスタリング(SC)のためのスケーラブルアルゴリズムを提案する。 群フェアネスは統計パリティとしても知られ、各クラスタにおいて、各保護群は全体と同じ割合で表される。 FairSCアルゴリズム (Kleindessner et al., 2019) はより公平なクラスタリングを見つけることができるが、計算ヌルスペースのカーネルや密度行列の平方根が明確に定義されているため、高いコストで妥協される。 本稿では, ヌルスペース射影とHotellingのデフレを取り入れたスペクトル計算の新たな定式化を行い, 結果のアルゴリズムであるs-FairSCは, スパース行列ベクトル積のみを伴い, フェアSCモデルの空間性を完全に活用できることを示す。 修正確率ブロックモデルの実験的結果から, s-fairsc は fairsc と同等であることが判明した。 一方、中程度のモデルサイズでは12倍に高速化される。 また, s-fairsc の計算コストは, 公平性制約を伴わない sc と比較してわずかに増大する程度である。

There are synergies of research interests and industrial efforts in modeling fairness and correcting algorithmic bias in machine learning. In this paper, we present a scalable algorithm for spectral clustering (SC) with group fairness constraints. Group fairness is also known as statistical parity where in each cluster, each protected group is represented with the same proportion as in the entirety. While FairSC algorithm (Kleindessner et al., 2019) is able to find the fairer clustering, it is compromised by high costs due to the kernels of computing nullspaces and the square roots of dense matrices explicitly. We present a new formulation of underlying spectral computation by incorporating nullspace projection and Hotelling's deflation such that the resulting algorithm, called s-FairSC, only involves the sparse matrix-vector products and is able to fully exploit the sparsity of the fair SC model. The experimental results on the modified stochastic block model demonstrate that s-FairSC is comparable with FairSC in recovering fair clustering. Meanwhile, it is sped up by a factor of 12 for moderate model sizes. s-FairSC is further demonstrated to be scalable in the sense that the computational costs of s-FairSC only increase marginally compared to the SC without fairness constraints.
翻訳日:2022-11-01 15:47:51 公開日:2022-10-28
# 機械学習を用いたオイル回収係数の推定:XGBoost分類の適用

Estimating oil recovery factor using machine learning: Applications of XGBoost classification ( http://arxiv.org/abs/2210.16345v1 )

ライセンス: Link先を確認
Alireza Roustazadeh, Behzad Ghanbarian, Frank Male, Mohammad B. Shadmand, Vahid Taslimitehrani, and Larry W. Lake(参考訳) 石油工学では、特に搾取や探査前に究極の回復因子rfを決定することが不可欠である。 しかし、正確に推定するには貯水池開発の初期段階で必ずしも利用できないデータが必要である。 そこで,本研究では,手軽に利用できる特徴を用いた機械学習(ML)を用いて,10種類の油圧RFを推定する。 MLモデルを構築するために,XGBoost分類アルゴリズムを適用した。 分類は、確率と同様に、回復因子が0から1に境界があるため選択された。 3つのデータベースがマージされ、最初にMLモデルをトレーニングしてテストするために4つの異なる組み合わせが残されました。 モデルの有効性を評価するため,10倍のクロスバリデーション法をトレーニングデータセットに適用した。 モデルの精度と信頼性を評価するため, 精度, 近傍精度, マクロ平均f1スコアを測定した。 その結果、XGBoost分類アルゴリズムは、トレーニングデータセットで0.49、テストデータセットで0.34、使用する独立したデータベースで0.2の精度でRFクラスを推定できることがわかった。 XGBoostモデルの信頼性はトレーニングデータセットのデータに依存するため,MLモデルはデータベースに依存していることがわかった。 特徴量分析とshapアプローチにより,最も重要な特徴は貯留層と貯水池面積と厚さであった。

In petroleum engineering, it is essential to determine the ultimate recovery factor, RF, particularly before exploitation and exploration. However, accurately estimating requires data that is not necessarily available or measured at early stages of reservoir development. We, therefore, applied machine learning (ML), using readily available features, to estimate oil RF for ten classes defined in this study. To construct the ML models, we applied the XGBoost classification algorithm. Classification was chosen because recovery factor is bounded from 0 to 1, much like probability. Three databases were merged, leaving us with four different combinations to first train and test the ML models and then further evaluate them using an independent database including unseen data. The cross-validation method with ten folds was applied on the training datasets to assess the effectiveness of the models. To evaluate the accuracy and reliability of the models, the accuracy, neighborhood accuracy, and macro averaged f1 score were determined. Overall, results showed that the XGBoost classification algorithm could estimate the RF class with reasonable accuracies as high as 0.49 in the training datasets, 0.34 in the testing datasets and 0.2 in the independent databases used. We found that the reliability of the XGBoost model depended on the data in the training dataset meaning that the ML models were database dependent. The feature importance analysis and the SHAP approach showed that the most important features were reserves and reservoir area and thickness.
翻訳日:2022-11-01 15:30:07 公開日:2022-10-28
# DiMBERT: アンタングル型マルチモーダルアテンションを用いた視覚言語接地表現の学習

DiMBERT: Learning Vision-Language Grounded Representations with Disentangled Multimodal-Attention ( http://arxiv.org/abs/2210.16431v1 )

ライセンス: Link先を確認
Fenglin Liu, Xian Wu, Shen Ge, Xuancheng Ren, Wei Fan, Xu Sun, Yuexian Zou(参考訳) 視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要があるため、視覚と言語(V-L表現)のきめ細かい結合表現を学習することが最重要となる。 近年、V-L表現を学習し、多くのタスクにおいて改善された結果を達成するために、様々な事前学習V-Lモデルが提案されている。 しかし、主流モデルは視覚と言語の両方の入力を同じ注意行列で処理する。 その結果、生成されたV-L表現は1つの共通潜在空間に絡み合わされる。 この問題に対処するために,視覚と言語に分離された注意空間を適用する新しい枠組みであるdimbert(disentangled multimodal-attention bertの略)を提案する。 アンタングル空間における視覚と言語間の相関性を高めるために,テキスト形式で視覚情報を表現した視覚概念をDiMBERTに導入する。 このように、視覚概念は2つのモード間のギャップを埋めるのに役立つ。 我々は、双方向言語モデリングとシーケンス・ツー・シーケンス言語モデリングという2つのタスクで、大量の画像-文ペアを事前訓練する。 事前訓練後、DiMBERTは下流タスクのためにさらに微調整される。 実験の結果、DiMBERTは生成タスク(画像キャプションとビジュアルストーリーテリング)と分類タスク(表現を参照)を含む3つのタスク(4つ以上のデータセット)に新しい最先端のパフォーマンスを設定できることがわかった。 提案したDiMモジュールは,既存のトレーニング済みV-Lモデルに容易に組み込むことができ,その性能を最大5%向上させることができる。 最後に、系統解析を行い、DEMと導入された視覚概念の有効性を実証する。

Vision-and-language (V-L) tasks require the system to understand both vision content and natural language, thus learning fine-grained joint representations of vision and language (a.k.a. V-L representations) is of paramount importance. Recently, various pre-trained V-L models are proposed to learn V-L representations and achieve improved results in many tasks. However, the mainstream models process both vision and language inputs with the same set of attention matrices. As a result, the generated V-L representations are entangled in one common latent space. To tackle this problem, we propose DiMBERT (short for Disentangled Multimodal-Attention BERT), which is a novel framework that applies separated attention spaces for vision and language, and the representations of multi-modalities can thus be disentangled explicitly. To enhance the correlation between vision and language in disentangled spaces, we introduce the visual concepts to DiMBERT which represent visual information in textual format. In this manner, visual concepts help to bridge the gap between the two modalities. We pre-train DiMBERT on a large amount of image-sentence pairs on two tasks: bidirectional language modeling and sequence-to-sequence language modeling. After pre-train, DiMBERT is further fine-tuned for the downstream tasks. Experiments show that DiMBERT sets new state-of-the-art performance on three tasks (over four datasets), including both generation tasks (image captioning and visual storytelling) and classification tasks (referring expressions). The proposed DiM (short for Disentangled Multimodal-Attention) module can be easily incorporated into existing pre-trained V-L models to boost their performance, up to a 5% increase on the representative task. Finally, we conduct a systematic analysis and demonstrate the effectiveness of our DiM and the introduced visual concepts.
翻訳日:2022-11-01 15:11:45 公開日:2022-10-28
# ランダムフィードバック経路を有するメタラーニング型生物可塑性規則

Meta-Learning Biologically Plausible Plasticity Rules with Random Feedback Pathways ( http://arxiv.org/abs/2210.16414v1 )

ライセンス: Link先を確認
Navid Shervani-Tabar and Robert Rosenbaum(参考訳) バックプロパゲーションは人工神経ネットワークの訓練に広く用いられているが、脳のシナプス可塑性との関係は不明である。 バックプロパゲーションのいくつかの生物学的モデルはフィードフォワード接続と対称なフィードバック投影に依存するが、実験はそのような対称な後方接続の存在を共形化しない。 ランダムフィードバックアライメントは、エラーが固定されたランダムな後方接続を通じて後方に伝播する代替モデルを提供する。 このアプローチは、浅いモデルをうまくトレーニングするが、ゆっくりと学習し、より深いモデルやオンライン学習ではうまく機能しない。 本研究では, オンライン学習性能を向上させるための, 解釈可能な, 生物学的に妥当な可塑性規則を探索するメタ可塑性法を提案する。 その結果得られる可塑性ルールは、低データ環境における深層モデルのオンライントレーニングを改善したことを示している。 本研究は,生物学的制約を満たす効果的な解釈可能な学習規則を発見するためのメタ塑性の可能性に注目した。

Backpropagation is widely used to train artificial neural networks, but its relationship to synaptic plasticity in the brain is unknown. Some biological models of backpropagation rely on feedback projections that are symmetric with feedforward connections, but experiments do not corroborate the existence of such symmetric backward connectivity. Random feedback alignment offers an alternative model in which errors are propagated backward through fixed, random backward connections. This approach successfully trains shallow models, but learns slowly and does not perform well with deeper models or online learning. In this study, we develop a novel meta-plasticity approach to discover interpretable, biologically plausible plasticity rules that improve online learning performance with fixed random feedback connections. The resulting plasticity rules show improved online training of deep models in the low data regime. Our results highlight the potential of meta-plasticity to discover effective, interpretable learning rules satisfying biological constraints.
翻訳日:2022-11-01 15:11:12 公開日:2022-10-28
# 光があるときだけ幸せである:環境変化が顔の表情認識に及ぼす影響

I am Only Happy When There is Light: The Impact of Environmental Changes on Affective Facial Expressions Recognition ( http://arxiv.org/abs/2210.17421v1 )

ライセンス: Link先を確認
Doreen Jirak, Alessandra Sciutti, Pablo Barros, Francesco Rea(参考訳) HRI(Human-robot Interaction)は、研究者が検出や認識といった知覚的なタスクに高性能なモデルを使用することで、機械学習分野の進歩から大きな恩恵を受ける。 特に、特徴抽出のために事前訓練されたり、分類に使用されたりした深層学習モデルは、HRIシナリオにおける人間の振る舞いを特徴づけ、それらの振る舞いをよりよく理解する社会ロボットを持つための方法が確立されている。 HRI実験は通常、小規模で特定の実験室環境に制約があるため、ディープラーニングモデルが特定の相互作用シナリオにどの程度一般化できるか、さらに、その環境変化に対する堅牢性はどの程度良好か、といった疑問がある。 これらの疑問は、HRIフィールドが社会ロボティクスを現実の環境に一貫した行動に組み込もうとするかどうか、すなわち、照明条件の変更や人を動かすことは、依然として同じ認識結果を生み出すべきである、という問題に対処することが重要である。 本稿では,人間の表情からの覚醒とヴァレンス認識に異なる画像条件が与える影響について,facechannelフレームワーク \cite{barro20}を用いて検討する。 その結果,人間の感情状態の解釈は,画像特性をわずかに変えるだけでは,肯定的,否定的いずれの方向にも大きく異なることがわかった。 本稿では,HRI実験の音声解釈を確実にするために,ディープラーニングモデルを用いた場合の重要点をまとめる。

Human-robot interaction (HRI) benefits greatly from advances in the machine learning field as it allows researchers to employ high-performance models for perceptual tasks like detection and recognition. Especially deep learning models, either pre-trained for feature extraction or used for classification, are now established methods to characterize human behaviors in HRI scenarios and to have social robots that understand better those behaviors. As HRI experiments are usually small-scale and constrained to particular lab environments, the questions are how well can deep learning models generalize to specific interaction scenarios, and further, how good is their robustness towards environmental changes? These questions are important to address if the HRI field wishes to put social robotic companions into real environments acting consistently, i.e. changing lighting conditions or moving people should still produce the same recognition results. In this paper, we study the impact of different image conditions on the recognition of arousal and valence from human facial expressions using the FaceChannel framework \cite{Barro20}. Our results show how the interpretation of human affective states can differ greatly in either the positive or negative direction even when changing only slightly the image properties. We conclude the paper with important points to consider when employing deep learning models to ensure sound interpretation of HRI experiments.
翻訳日:2022-11-01 15:05:21 公開日:2022-10-28
# 遺伝的最適化と多層パーセプトロンを用いた階層型自動パワープレーン生成

Hierarchical Automatic Power Plane Generation with Genetic Optimization and Multilayer Perceptron ( http://arxiv.org/abs/2210.16314v1 )

ライセンス: Link先を確認
Haiguang Liao, Vinay Patil, Xuliang Dong, Devika Shanbhag, Elias Fallon, Taylor Hogan, Mirko Spasojevic, Levent Burak Kara(参考訳) 本稿では,プリント基板(pcb)の設計を高速化する多層電力平面自動生成手法を提案する。 PCB設計では、IR-drop、電力整合性、信号整合性などの重要な指標を予測するために自動解法が開発されているが、パワープレーン自体の生成は依然として面倒な手作業に大きく依存している。 我々の自動パワープレーン生成手法は,多層パーセプトロンと組み合わされた遺伝的最適化に基づいており,様々な難易度で様々な問題にまたがるパワープレーンを自動生成することができる。 GOMLPは,外ループ遺伝子オプティマイザ (GO) と内ループ多層パーセプトロン (MLP) から構成される。 提案手法の重要な要素は, 輪郭検出, 特徴拡張, 島を最小化する複雑なパワープレーン生成を可能にする距離測定である。 我々はこのアプローチをa*に基づくベースラインソリューションと比較する。 A*法は、理想的な解を生成できるシーケンシャルなアイランド生成およびマージプロセスからなる。 実験の結果, 単層電力平面問題においては, 基板配置の難易度が異なる問題のうち, 71%でa*を上回った。 さらに、階層的クラスタリングとハウスドルフ距離に基づくネット類似性を用いて、GOMLPを多層パワープレーン問題に拡張するH-GOMLPについて述べる。

We present an automatic multilayer power plane generation method to accelerate the design of printed circuit boards (PCB). In PCB design, while automatic solvers have been developed to predict important indicators such as the IR-drop, power integrity, and signal integrity, the generation of the power plane itself still largely relies on laborious manual methods. Our automatic power plane generation approach is based on genetic optimization combined with a multilayer perceptron and is able to automatically generate power planes across a diverse set of problems with varying levels of difficulty. Our method GOMLP consists of an outer loop genetic optimizer (GO) and an inner loop multi-layer perceptron (MLP) that generate power planes automatically. The critical elements of our approach include contour detection, feature expansion, and a distance measure to enable island-minimizing complex power plane generation. We compare our approach to a baseline solution based on A*. The A* method consisting of a sequential island generation and merging process which can produce less than ideal solutions. Our experimental results show that on single layer power plane problems, our method outperforms A* in 71% of the problems with varying levels of board layout difficulty. We further describe H-GOMLP, which extends GOMLP to multilayer power plane problems using hierarchical clustering and net similarities based on the Hausdorff distance.
翻訳日:2022-11-01 15:03:23 公開日:2022-10-28
# システムデモ:英語の攻撃的言語エラー分析(OLEA)のためのツールと基盤

System Demo: Tool and Infrastructure for Offensive Language Error Analysis (OLEA) in English ( http://arxiv.org/abs/2210.16398v1 )

ライセンス: Link先を確認
Marie Grace, Xajavion "Jay" Seabrum, Dananjay Srinivas, Alexis Palmer(参考訳) 攻撃的言語の自動検出は社会的ニーズを圧迫する。 多くのシステムは、明示的な攻撃的言語でうまく機能するが、より複雑、ニュアンス的、暗黙的な攻撃的、憎悪的な言語の事例を検出するのに苦労する。 OLEAはオープンソースのPythonライブラリで、英語で攻撃的な言語を検出するコンテキストにおいて、エラー分析のための使いやすいツールを提供する。 oleaは、新しいデータセットと分析メソッドを再配布するためのインフラも提供しています。

The automatic detection of offensive language is a pressing societal need. Many systems perform well on explicit offensive language but struggle to detect more complex, nuanced, or implicit cases of offensive and hateful language. OLEA is an open-source Python library that provides easy-to-use tools for error analysis in the context of detecting offensive language in English. OLEA also provides an infrastructure for re-distribution of new datasets and analysis methods requiring very little coding.
翻訳日:2022-11-01 15:02:19 公開日:2022-10-28
# キャリブレーションを超えて:現代のニューラルネットワークのグルーピング損失の推定

Beyond calibration: estimating the grouping loss of modern neural networks ( http://arxiv.org/abs/2210.16315v1 )

ライセンス: Link先を確認
Alexandre Perez-Lebel (SODA), Marine Le Morvan (SODA), Ga\"el Varoquaux (SODA)(参考訳) よい意思決定には、信頼できる信頼度スコアを提供するために機械学習モデルが必要です。 この目的のために、最近の研究は誤校正、すなわちモデルスコアのオーバーまたはアンダー信頼に焦点を当てている。 しかし、広く信じられているように、キャリブレーションは不十分である:最高の精度と完全なキャリブレーションを持つ分類器でさえ、真の後方確率から遠く離れた信頼度スコアを持つことができる。 これは、同じ信頼度スコアを持つが真の後方確率が異なるサンプルによって作成されたグループ化損失によるものである。 適切なスコアリングルール理論は、キャリブレーション損失が与えられた場合、個々のエラーを特徴づける欠片がグループ化損失であることを示している。 キャリブレーション損失には多くの推定要因があるが、標準設定のグルーピング損失は存在していない。 本稿では,グループ化損失を近似する推定器を提案する。 視覚とNLPにおける現代のニューラルネットワークアーキテクチャの研究に使用しています。 グループ化損失はアーキテクチャによって大きく異なり、最も正確で校正されたモデルにおいて重要なモデル比較係数であることがわかった。 また,分布シフトがグループ化損失を増加させることを示した。

Good decision making requires machine-learning models to provide trustworthy confidence scores. To this end, recent work has focused on miscalibration, i.e, the over or under confidence of model scores. Yet, contrary to widespread belief, calibration is not enough: even a classifier with the best possible accuracy and perfect calibration can have confidence scores far from the true posterior probabilities. This is due to the grouping loss, created by samples with the same confidence scores but different true posterior probabilities. Proper scoring rule theory shows that given the calibration loss, the missing piece to characterize individual errors is the grouping loss. While there are many estimators of the calibration loss, none exists for the grouping loss in standard settings. Here, we propose an estimator to approximate the grouping loss. We use it to study modern neural network architectures in vision and NLP. We find that the grouping loss varies markedly across architectures, and that it is a key model-comparison factor across the most accurate, calibrated, models. We also show that distribution shifts lead to high grouping loss.
翻訳日:2022-11-01 14:44:32 公開日:2022-10-28
# NNSVS:ニューラルネットワークによる歌声合成ツールキット

NNSVS: A Neural Network-Based Singing Voice Synthesis Toolkit ( http://arxiv.org/abs/2210.15987v1 )

ライセンス: Link先を確認
Ryuichi Yamamoto, Reo Yoneyama, Tomoki Toda(参考訳) 本稿では,ニューラルネットワークを用いた歌声合成研究のためのオープンソースソフトウェアであるNSVSの設計について述べる。 NNSVSは、歌声合成研究におけるオープンソースのパイオニアであるSinsyにインスパイアされ、マルチストリームモデル、自己回帰基本周波数モデル、ニューラルヴォコーダなど多くの機能を提供している。 さらにnnsvsは、完全な歌声合成システムを構築するための広範なドキュメントと多数のスクリプトを提供する。 実験結果から,Sinsyおよび他のベースラインシステムの再生において,最良のシステムは著しく優れていた。 ツールキットはhttps://github.com/nnsvs/nnsvsで入手できる。

This paper describes the design of NNSVS, an open-source software for neural network-based singing voice synthesis research. NNSVS is inspired by Sinsy, an open-source pioneer in singing voice synthesis research, and provides many additional features such as multi-stream models, autoregressive fundamental frequency models, and neural vocoders. Furthermore, NNSVS provides extensive documentation and numerous scripts to build complete singing voice synthesis systems. Experimental results demonstrate that our best system significantly outperforms our reproduction of Sinsy and other baseline systems. The toolkit is available at https://github.com/nnsvs/nnsvs.
翻訳日:2022-10-31 17:54:21 公開日:2022-10-28
# データ駆動によるグリーン関数の発見

Data-driven discovery of Green's functions ( http://arxiv.org/abs/2210.16016v1 )

ライセンス: Link先を確認
Nicolas Boull\'e(参考訳) 隠れ偏微分方程式(PDE)とデータから演算子を発見することは、機械学習と数値解析のフロンティアにおける重要なトピックである。 この博士論文は理論結果とディープラーニングアルゴリズムを導入し、線形偏微分方程式に関連したグリーン関数を学習し、PDE学習技術を厳密に正当化する。 理論的に厳密なアルゴリズムが導出され、楕円型PDEに関連するグリーン関数をおよそ学習するために必要なトレーニングデータの量を特徴付ける学習率が得られる。 この構成は、ランダム化された特異値分解を非標準ガウスベクトルとヒルベルト・シュミット作用素に拡張し、階層行列を用いてグリーン関数の低ランク階層構造を利用することにより、pde学習と数値線形代数の場を繋ぐ。 有理ニューラルネットワーク(rational neural network, nns)は、学習可能な有理アクティベーション関数を備えたニューラルネットワークである。 これらのネットワークの高度に構成的な構造と有理近似理論は、有理関数が標準活性化関数よりも高い近似能力を持つことを意味する。 さらに、有理 nn は極を持ち、任意に大きい値を取ることができ、グリーン函数のような特異点を持つ函数を近似するのに理想的である。 最後に、グリーン関数と合理的NNの理論的結果を組み合わせて、グリーン関数をデータから発見するための人間の理解可能な深層学習法を設計する。 このアプローチは最先端のpde学習技術を補完するものであり、支配的モード、対称性、特異点位置といった学習されたグリーン関数から幅広い物理学を捉えることができる。

Discovering hidden partial differential equations (PDEs) and operators from data is an important topic at the frontier between machine learning and numerical analysis. This doctoral thesis introduces theoretical results and deep learning algorithms to learn Green's functions associated with linear partial differential equations and rigorously justify PDE learning techniques. A theoretically rigorous algorithm is derived to obtain a learning rate, which characterizes the amount of training data needed to approximately learn Green's functions associated with elliptic PDEs. The construction connects the fields of PDE learning and numerical linear algebra by extending the randomized singular value decomposition to non-standard Gaussian vectors and Hilbert--Schmidt operators, and exploiting the low-rank hierarchical structure of Green's functions using hierarchical matrices. Rational neural networks (NNs) are introduced and consist of neural networks with trainable rational activation functions. The highly compositional structure of these networks, combined with rational approximation theory, implies that rational functions have higher approximation power than standard activation functions. In addition, rational NNs may have poles and take arbitrarily large values, which is ideal for approximating functions with singularities such as Green's functions. Finally, theoretical results on Green's functions and rational NNs are combined to design a human-understandable deep learning method for discovering Green's functions from data. This approach complements state-of-the-art PDE learning techniques, as a wide range of physics can be captured from the learned Green's functions such as dominant modes, symmetries, and singularity locations.
翻訳日:2022-10-31 17:54:10 公開日:2022-10-28
# 分子と固体のハミルトニアンに対する転移可能なE(3)同変パラメタライゼーション

Transferable E(3) equivariant parameterization for Hamiltonian of molecules and solids ( http://arxiv.org/abs/2210.16190v1 )

ライセンス: Link先を確認
Yang Zhong, Hongyu Yu, Mao Su, Xingao Gong, Hongjun Xiang(参考訳) 機械学習、特にディープラーニングは、その巨大なパラメータ空間で構造からプロパティへの直接マッピングを構築することができ、素材の所望の特性を高スループットでスクリーニングすることができる。 しかし、電子ハミルトニアンは回転操作下で非自明に変換するので、この制約を厳密に満たしながら正確に電子ハミルトニアンを予測することは困難である。 現在、コンピュータで要求される密度汎関数理論(DFT)を回避し、完全なデータ駆動方式で分子や物質のアブイニシアチブハミルトニアンを得ることのできる、伝達可能な機械学習モデルが欠如している。 本研究では、電子ハミルトニアンのパリティ対称性を自転同値に加えて明示的に考慮する必要があることを指摘する。 本研究では,HamNetと呼ばれるE(3)同変ニューラルネットワークを開発し,様々な分子および固体のアブイニシオ強結合ハミルトニアンを予測するパラメータ化ハミルトニアンを提案する。 実験の結果、このモデルは機械学習のポテンシャルに類似しており、同じトレーニングされたネットワーク重みのセットを用いて異なる構成の材料群に適用可能であることが示された。 提案手法は,電子構造計算を高速化する汎用伝達モデルを提供する。

Machine learning, especially deep learning, can build a direct mapping from structure to properties with its huge parameter space, making it possible to perform high-throughput screening for the desired properties of materials. However, since the electronic Hamiltonian transforms non-trivially under rotation operations, it is challenging to accurately predict the electronic Hamiltonian while strictly satisfying this constraint. There is currently a lack of transferable machine learning models that can bypass the computationally demanding density functional theory (DFT) to obtain the ab initio Hamiltonian of molecules and materials by complete data-driven methods. In this work, we point out the necessity of explicitly considering the parity symmetry of the electronic Hamiltonian in addition to rotational equivariance. We propose a parameterized Hamiltonian that strictly satisfies rotational equivariance and parity symmetry simultaneously, based on which we develop an E(3) equivariant neural network called HamNet to predict the ab initio tight-binding Hamiltonian of various molecules and solids. The tests show that this model has similar transferability to that of machine learning potentials and can be applied to a class of materials with different configurations using the same set of trained network weights. The proposed framework provides a general transferable model for accelerating electronic structure calculations.
翻訳日:2022-10-31 17:53:27 公開日:2022-10-28
# 偏微分方程式解のための準モンテカルロ型深層学習アルゴリズムの収束解析

Convergence analysis of a quasi-Monte Carlo-based deep learning algorithm for solving partial differential equations ( http://arxiv.org/abs/2210.16196v1 )

ライセンス: Link先を確認
Fengjiang Fu and Xiaoqun Wang(参考訳) 深層学習法は偏微分方程式(PDE)の解法において大きな成功を収めており、損失はしばしば積分として定義される。 これらのアルゴリズムの精度と効率は二次法に大きく依存する。 本稿では,ポアソン方程式のノイマン問題と静的schr\"{o}dinger方程式を解くために,準モンテカルロ法(qmc)をディープリッツ法(drm)に適用することを提案する。 誤差推定では、深層学習アルゴリズムを用いてPDEを解いた誤差を一般化誤差、近似誤差、訓練誤差に分解する。 上位境界を確立し、QMCベースのDRMがDRMよりも漸近的に小さい誤差を達成できることを証明する。 数値実験により,提案手法はすべてのケースにおいてより高速に収束し,ランダム化されたQMCベースのDRMの勾配推定器のばらつきはDRMのそれよりもはるかに小さいことがわかった。

Deep learning methods have achieved great success in solving partial differential equations (PDEs), where the loss is often defined as an integral. The accuracy and efficiency of these algorithms depend greatly on the quadrature method. We propose to apply quasi-Monte Carlo (QMC) methods to the Deep Ritz Method (DRM) for solving the Neumann problems for the Poisson equation and the static Schr\"{o}dinger equation. For error estimation, we decompose the error of using the deep learning algorithm to solve PDEs into the generalization error, the approximation error and the training error. We establish the upper bounds and prove that QMC-based DRM achieves an asymptotically smaller error bound than DRM. Numerical experiments show that the proposed method converges faster in all cases and the variances of the gradient estimators of randomized QMC-based DRM are much smaller than those of DRM, which illustrates the superiority of QMC in deep learning over MC.
翻訳日:2022-10-31 17:52:50 公開日:2022-10-28
# 音声セグメント長の異なるユニバーサル話者音声認識エンコーダ

Universal speaker recognition encoders for different speech segments duration ( http://arxiv.org/abs/2210.16231v1 )

ライセンス: Link先を確認
Sergey Novoselov, Vladimir Volokhov, Galina Lavrentyeva(参考訳) 異なる音響および音声持続時間条件でロバストなユニバーサルスピーカーエンコーダを作成することは、今日では大きな課題である。 短い音声セグメントで訓練されたシステムは、短いフレーズ話者の検証に最適であり、長いセグメントで訓練されたシステムは、長いセグメントの検証に優れている。 プールされた短い音声セグメントと長い音声セグメントを同時に訓練したシステムは、最適な検証結果を与えず、通常、短いセグメントと長いセグメントの両方で劣化する。 本稿では,音声セグメントの持続時間が異なるユニバーサル話者エンコーダを作成する問題に対処する。 我々は,任意のタイプのニューラルネットワークアーキテクチャに対して,ユニバーサル話者エンコーダを訓練するための簡単なレシピについて述べる。 nist sreおよびvoxceleb1ベンチマークで得られたwav2vec-tdnnに基づくシステムの評価結果に基づき,提案するユニバーサルエンコーダは,音声区間長の異なる場合の話者照合の改善を提供する。 提案するエンコーダの重要な特徴は、選択したニューラルネットワークアーキテクチャと同じ推論時間を持つことである。

Creating universal speaker encoders which are robust for different acoustic and speech duration conditions is a big challenge today. According to our observations systems trained on short speech segments are optimal for short phrase speaker verification and systems trained on long segments are superior for long segments verification. A system trained simultaneously on pooled short and long speech segments does not give optimal verification results and usually degrades both for short and long segments. This paper addresses the problem of creating universal speaker encoders for different speech segments duration. We describe our simple recipe for training universal speaker encoder for any type of selected neural network architecture. According to our evaluation results of wav2vec-TDNN based systems obtained for NIST SRE and VoxCeleb1 benchmarks the proposed universal encoder provides speaker verification improvements in case of different enrollment and test speech segment duration. The key feature of the proposed encoder is that it has the same inference time as the selected neural network architecture.
翻訳日:2022-10-31 17:52:33 公開日:2022-10-28
# オブザーバベース逆強化学習における等価解に対する不合理性と収束

Nonuniqueness and Convergence to Equivalent Solutions in Observer-based Inverse Reinforcement Learning ( http://arxiv.org/abs/2210.16299v1 )

ライセンス: Link先を確認
Jared Town, Zachary Morrison, Rushikesh Kamalapurkar(参考訳) オンラインおよびリアルタイムに決定論的逆強化学習問題を解決する上で重要な課題は、非一意解の存在である。 非特異性は同値解の概念とそのような解への収束の研究を必要とする。 等価解に収束する \emph{offline} アルゴリズムは文献で開発されてきたが、非特異性に対処するオンラインリアルタイム手法は利用できない。 本稿では,ほぼ等価な解を生成するために,正規化履歴スタックオブザーバを開発した。 本手法の有効性を実証するために,新しいデータリッチネス条件を開発し,シミュレーション結果を得た。

A key challenge in solving the deterministic inverse reinforcement learning problem online and in real time is the existence of non-unique solutions. Nonuniqueness necessitates the study of the notion of equivalent solutions and convergence to such solutions. While \emph{offline} algorithms that result in convergence to equivalent solutions have been developed in the literature, online, real-time techniques that address nonuniqueness are not available. In this paper, a regularized history stack observer is developed to generate solutions that are approximately equivalent. Novel data-richness conditions are developed to facilitate the analysis and simulation results are provided to demonstrate the effectiveness of the developed technique.
翻訳日:2022-10-31 17:51:57 公開日:2022-10-28
# NeRFPlayer: 分解されたニューラルラジアンスフィールドによるストリーミング可能な動的シーン表現

NeRFPlayer: A Streamable Dynamic Scene Representation with Decomposed Neural Radiance Fields ( http://arxiv.org/abs/2210.15947v1 )

ライセンス: Link先を確認
Liangchen Song, Anpei Chen, Zhong Li, Zhang Chen, Lele Chen, Junsong Yuan, Yi Xu, Andreas Geiger(参考訳) 現実世界の4d空間をvrで自由に探索することは、長年の課題だった。 ダイナミックなシーンを撮影するために、RGBカメラを数台、あるいは1台だけ使うと、特に魅力的だ。 そこで本稿では,高速再構成,コンパクトモデリング,ストリームレンダリングが可能な効率的なフレームワークを提案する。 まず,時間特性に応じて4次元時空間を分解することを提案する。 4D空間の点は、静的、変形、新しい領域の3つのカテゴリに属する確率と関連している。 各領域は別個のニューラルネットワークによって表現され、規則化される。 第2に,ニューラルフィールドを効率的にモデル化するためのハイブリッド表現に基づく特徴ストリーミングスキームを提案する。 我々の手法であるNeRFPlayerは、単一ハンドヘルドカメラとマルチカメラアレイによってキャプチャされた動的シーンに基づいて評価され、最近の最先端手法に匹敵する品質と速度で同等または優れたレンダリング性能、フレーム当たり10秒の再構成とリアルタイムレンダリングを実現している。

Visually exploring in a real-world 4D spatiotemporal space freely in VR has been a long-term quest. The task is especially appealing when only a few or even single RGB cameras are used for capturing the dynamic scene. To this end, we present an efficient framework capable of fast reconstruction, compact modeling, and streamable rendering. First, we propose to decompose the 4D spatiotemporal space according to temporal characteristics. Points in the 4D space are associated with probabilities of belonging to three categories: static, deforming, and new areas. Each area is represented and regularized by a separate neural field. Second, we propose a hybrid representations based feature streaming scheme for efficiently modeling the neural fields. Our approach, coined NeRFPlayer, is evaluated on dynamic scenes captured by single hand-held cameras and multi-camera arrays, achieving comparable or superior rendering performance in terms of quality and speed comparable to recent state-of-the-art methods, achieving reconstruction in 10 seconds per frame and real-time rendering.
翻訳日:2022-10-31 17:46:00 公開日:2022-10-28
# FedVMR:ビデオモーメント検索のための新しいフェデレーション学習手法

FedVMR: A New Federated Learning method for Video Moment Retrieval ( http://arxiv.org/abs/2210.15977v1 )

ライセンス: Link先を確認
Yan Wang, Xin Luo, Zhen-Duo Chen, Peng-Fei Zhang, Meng Liu, Xin-Shun Xu(参考訳) この成功にもかかわらず,既存のビデオモーメント検索(VMR)手法は,データが集中的に保存されているという前提のもと開発されている。 しかし、現実のアプリケーションでは、データ生成とプライバシの懸念の性質から、データは異なるサイロに分散されることが多く、大規模なトレーニングを効果的に行う上で大きな課題となる。 本研究では,フェデレーション学習の最近の成功を活かし,その限界を克服しようとする。 VMRフィールドで探索された最初のタスクとして、新しいタスクは分散データによるビデオモーメント検索として定義される。 次に,分散環境下でのVMRモデルの大規模かつセキュアな訓練を容易にするために,FedVMRという新しいフェデレーション学習手法を提案する。 ベンチマークデータセットの実験は、その有効性を示している。 この研究は、分散化されたシーンにおける安全で効率的なVMRトレーニングを可能にする最初の試みであり、関連する研究分野におけるさらなる研究の道を開くことが期待されている。

Despite the great success achieved, existing video moment retrieval (VMR) methods are developed under the assumption that data are centralizedly stored. However, in real-world applications, due to the inherent nature of data generation and privacy concerns, data are often distributed on different silos, bringing huge challenges to effective large-scale training. In this work, we try to overcome above limitation by leveraging the recent success of federated learning. As the first that is explored in VMR field, the new task is defined as video moment retrieval with distributed data. Then, a novel federated learning method named FedVMR is proposed to facilitate large-scale and secure training of VMR models in decentralized environment. Experiments on benchmark datasets demonstrate its effectiveness. This work is the very first attempt to enable safe and efficient VMR training in decentralized scene, which is hoped to pave the way for further study in the related research field.
翻訳日:2022-10-31 17:45:42 公開日:2022-10-28
# インスタンス最適微分プライベート推定

Instance-Optimal Differentially Private Estimation ( http://arxiv.org/abs/2210.15819v1 )

ライセンス: Link先を確認
Audra McMillan, Adam Smith, Jon Ullman(参考訳) 本研究では,$\epsilon$-differential privacyの対象となる局所最小収束推定値について検討する。 保守的かもしれない最悪のケースレートとは異なり、局所的に最小限のアルゴリズムは問題の簡単なインスタンスに適応する必要がある。 1-パラメータ指数関数族に対する局所的極小微分的プライベート推定器を構築し,分布のテールレートを推定する。 これらのケースでは,Canone et al. (2019) の最近の最適プライベートテスタである単純な仮説テストのための最適アルゴリズムが,局所最小推定アルゴリズムの設計を直接的に通知することを示した。

In this work, we study local minimax convergence estimation rates subject to $\epsilon$-differential privacy. Unlike worst-case rates, which may be conservative, algorithms that are locally minimax optimal must adapt to easy instances of the problem. We construct locally minimax differentially private estimators for one-parameter exponential families and estimating the tail rate of a distribution. In these cases, we show that optimal algorithms for simple hypothesis testing, namely the recent optimal private testers of Canonne et al. (2019), directly inform the design of locally minimax estimation algorithms.
翻訳日:2022-10-31 17:45:08 公開日:2022-10-28
# オンラインディスプレイ広告におけるリスクアウェア入札最適化

Risk-Aware Bid Optimization for Online Display Advertisement ( http://arxiv.org/abs/2210.15837v1 )

ライセンス: Link先を確認
Rui Fan, Erick Delage(参考訳) 本研究は、広告主または広告主のエージェントがウェブサイト訪問者の特徴と広告スロットの種類にアクセスし、所定の総広告予算が与えられる最適な入札価格を決定するオンラインディスプレイ広告のリアルタイム入札設定における入札最適化問題に焦点を当てる。 本稿では、入札ポリシーを設計するために履歴データを活用し、広告機会の種類を入札価格にマッピングし、所定の期間に予算制約に違反するリスクを考慮し、広告主が期待する利益を最大化するリスク対応データ駆動入札最適化モデルを提案する。 ラグランジュ緩和を用いた後、最適入札戦略のためのパラメータ付き閉形式表現を導出する。 提案手法は,リスクニュートラルモデルや最先端のデータ駆動型リスク対応入札手法と比較して,競争力のある利益率を確保しつつ,予算を超過するリスクを効果的に制御できることを示す。

This research focuses on the bid optimization problem in the real-time bidding setting for online display advertisements, where an advertiser, or the advertiser's agent, has access to the features of the website visitor and the type of ad slots, to decide the optimal bid prices given a predetermined total advertisement budget. We propose a risk-aware data-driven bid optimization model that maximizes the expected profit for the advertiser by exploiting historical data to design upfront a bidding policy, mapping the type of advertisement opportunity to a bid price, and accounting for the risk of violating the budget constraint during a given period of time. After employing a Lagrangian relaxation, we derive a parametrized closed-form expression for the optimal bidding strategy. Using a real-world dataset, we demonstrate that our risk-averse method can effectively control the risk of overspending the budget while achieving a competitive level of profit compared with the risk-neutral model and a state-of-the-art data-driven risk-aware bidding approach.
翻訳日:2022-10-31 17:44:59 公開日:2022-10-28
# 完全不均一なフェデレーション学習

Completely Heterogeneous Federated Learning ( http://arxiv.org/abs/2210.15865v1 )

ライセンス: Link先を確認
Chang Liu, Yuwen Yang, Xun Cai, Yue Ding, Hongtao Lu(参考訳) フェデレーション学習(fl)は、クロスドメイン、異種モデル、非i.i.d.ラベルの3つの大きな困難に直面している。 既存のFLメソッドは上記の3つの制約を同時に扱うことができず、プライバシー保護のレベルを下げる必要がある(例えば、モデルアーキテクチャとデータカテゴリの分布を共有できる)。 本稿では,各クライアントが機能空間,モデルアーキテクチャ,ラベル分布などのプライベート情報を公開しないという,flにおける「完全に異質な」シナリオを提案する。 次に、パラメータ分離とデータフリーな知識蒸留に基づくFLフレームワークを考案し、その問題を解決する。 実験により,提案手法は,他の手法が失敗する全く不均一なシナリオにおいて高い性能を達成することを示す。

Federated learning (FL) faces three major difficulties: cross-domain, heterogeneous models, and non-i.i.d. labels scenarios. Existing FL methods fail to handle the above three constraints at the same time, and the level of privacy protection needs to be lowered (e.g., the model architecture and data category distribution can be shared). In this work, we propose the challenging "completely heterogeneous" scenario in FL, which refers to that each client will not expose any private information including feature space, model architecture, and label distribution. We then devise an FL framework based on parameter decoupling and data-free knowledge distillation to solve the problem. Experiments show that our proposed method achieves high performance in completely heterogeneous scenarios where other approaches fail.
翻訳日:2022-10-31 17:44:41 公開日:2022-10-28
# ドメイン適応とサイクルガン再サンプリングを用いた非並列高音質オーディオスーパーレゾリューション

Nonparallel High-Quality Audio Super Resolution with Domain Adaptation and Resampling CycleGANs ( http://arxiv.org/abs/2210.15887v1 )

ライセンス: Link先を確認
Reo Yoneyama, Ryuichi Yamamoto, Kentaro Tachibana(参考訳) ニューラルオーディオ超解像モデルは通常、低解像度と高解像度のオーディオ信号ペアで訓練される。 入力データの音響特性がトレーニングデータと類似している場合、これらの手法は高精度な超解像を実現するが、課題は残る: モデルはドメイン外データの品質劣化に苦しめられ、トレーニングにはペアデータが必要となる。 これらの問題に対処するために,2つの連結サイクル一貫した生成対向ネットワーク(CycleGAN)に基づいて不対向データを利用する,高品質なオーディオ超解法であるDual-CycleGANを提案する。 超解像法を領域適応法と再サンプリング法に分解し,低分解能信号と高分解能信号の音響ミスマッチ処理を行う。 2つのプロセスはCycleGANフレームワーク内で共同で最適化される。 実験により,提案手法は,ペアデータがない場合の従来の手法を大きく上回ることを確認した。 コードとオーディオサンプルはhttps://chomeyama.github.io/DualCycleGAN-Demo/から入手できる。

Neural audio super-resolution models are typically trained on low- and high-resolution audio signal pairs. Although these methods achieve highly accurate super-resolution if the acoustic characteristics of the input data are similar to those of the training data, challenges remain: the models suffer from quality degradation for out-of-domain data, and paired data are required for training. To address these problems, we propose Dual-CycleGAN, a high-quality audio super-resolution method that can utilize unpaired data based on two connected cycle consistent generative adversarial networks (CycleGAN). Our method decomposes the super-resolution method into domain adaptation and resampling processes to handle acoustic mismatch in the unpaired low- and high-resolution signals. The two processes are then jointly optimized within the CycleGAN framework. Experimental results verify that the proposed method significantly outperforms conventional methods when paired data are not available. Code and audio samples are available from https://chomeyama.github.io/DualCycleGAN-Demo/.
翻訳日:2022-10-31 17:44:30 公開日:2022-10-28
# 金融市場オブジェクトのマルチレゾリューション信号処理

Multiresolution Signal Processing of Financial Market Objects ( http://arxiv.org/abs/2210.15934v1 )

ライセンス: Link先を確認
Ioana Boier(参考訳) 金融市場は我々の環境において最も複雑な存在であるが、主流の量的モデルは所定の規模で運用され、線形相関尺度に依存し、非線形構造や因果構造を認識するのに苦労している。 本稿では,非線形関係を捉えたニューラルネットとマルチスケール分解手法を組み合わせることで,金融市場データサブ構造をより理解しやすくする。 量子化は、分解をあらゆる規模で市場に調整し続けます。 我々は、幅広いアプリケーションのコンテキストにおいて、我々のアプローチを説明します。

Financial markets are among the most complex entities in our environment, yet mainstream quantitative models operate at predetermined scale, rely on linear correlation measures, and struggle to recognize non-linear or causal structures. In this paper, we combine neural networks known to capture non-linear associations with a multiscale decomposition approach to facilitate a better understanding of financial market data substructures. Quantization keeps our decompositions calibrated to market at every scale. We illustrate our approach in the context of a wide spectrum of applications.
翻訳日:2022-10-31 17:44:11 公開日:2022-10-28
# Period VITS: 終末感情音声合成のための明示的ピッチモデリングによる変分推論

Period VITS: Variational Inference with Explicit Pitch Modeling for End-to-end Emotional Speech Synthesis ( http://arxiv.org/abs/2210.15964v1 )

ライセンス: Link先を確認
Yuma Shirahata, Ryuichi Yamamoto, Eunwoo Song, Ryo Terashima, Jae-Min Kim, Kentaro Tachibana(参考訳) いくつかの完全なエンドツーエンドのテキスト音声合成(TTS)モデルが提案されており、カスケードモデル(音響モデルとヴォコーダモデルを別々に訓練する)よりも優れた性能を示している。 しかし、データセットが感情的属性、すなわち発音と韻律の多様さを含む場合、彼らはしばしば可聴アーチファクトと不安定なピッチ輪郭を生成する。 この問題に対処するために、明示的な周期性生成を組み込んだ新しいエンドツーエンドTSモデルである Period VITS を提案する。 提案手法では,入力テキストからピッチや発声フラグなどの韻律的特徴を予測するフレームピッチ予測器を提案する。 これらの特徴から,提案する周期性生成器は,波形デコーダがピッチを正確に再現できるサンプルレベルの正弦波音源を生成する。 最後に、モデル全体が変分推論と対向目的とともにエンドツーエンドで共同最適化される。 その結果、デコーダはより安定で、表現的で、自然な出力波形を生成することができる。 実験の結果, 提案モデルは, 生成した試料のピッチ安定性が向上し, 自然性の観点からはベースラインモデルを大きく上回ることがわかった。

Several fully end-to-end text-to-speech (TTS) models have been proposed that have shown better performance compared to cascade models (i.e., training acoustic and vocoder models separately). However, they often generate unstable pitch contour with audible artifacts when the dataset contains emotional attributes, i.e., large diversity of pronunciation and prosody. To address this problem, we propose Period VITS, a novel end-to-end TTS model that incorporates an explicit periodicity generator. In the proposed method, we introduce a frame pitch predictor that predicts prosodic features, such as pitch and voicing flags, from the input text. From these features, the proposed periodicity generator produces a sample-level sinusoidal source that enables the waveform decoder to accurately reproduce the pitch. Finally, the entire model is jointly optimized in an end-to-end manner with variational inference and adversarial objectives. As a result, the decoder becomes capable of generating more stable, expressive, and natural output waveforms. The experimental results showed that the proposed model significantly outperforms baseline models in terms of naturalness, with improved pitch stability in the generated samples.
翻訳日:2022-10-31 17:44:02 公開日:2022-10-28
# マルチバンド生成と逆短時間フーリエ変換を用いた軽量・高忠実エンドツーエンドテキスト音声合成

Lightweight and High-Fidelity End-to-End Text-to-Speech with Multi-Band Generation and Inverse Short-Time Fourier Transform ( http://arxiv.org/abs/2210.15975v1 )

ライセンス: Link先を確認
Masaya Kawamura, Yuma Shirahata, Ryuichi Yamamoto, Kentaro Tachibana(参考訳) マルチバンド生成と逆ショートタイムフーリエ変換を用いた軽量なエンドツーエンドテキスト音声合成モデルを提案する。 我々のモデルは、高品質なエンドツーエンドテキスト音声モデルであるVITSに基づいているが、より効率的な推論のために2つの変更を採用する。 1) 計算コストが最も高い成分は、部分的に単純な逆短時間フーリエ変換に置き換えられ、 2) 波形生成には, 固定あるいはトレーニング可能な合成フィルタを用いたマルチバンド生成を用いる。 従来の軽量モデルでは,2つのカスケード成分の学習に最適化や知識蒸留を別々に用いているが,本手法はエンドツーエンド最適化の利点を享受する。 実験の結果,vitsが合成した音声を自然に合成し,intel core i7 cpu上で0.066倍,vitsの4.1倍の速度でリアルタイムに合成できた。 さらに、より小さなモデルでは、自然性と推論速度の両方に関して軽量のベースラインモデルよりも大幅に優れていた。 コードとオーディオサンプルはhttps://github.com/MasayaKawamura/MB-iSTFT-VITSから入手できる。

We propose a lightweight end-to-end text-to-speech model using multi-band generation and inverse short-time Fourier transform. Our model is based on VITS, a high-quality end-to-end text-to-speech model, but adopts two changes for more efficient inference: 1) the most computationally expensive component is partially replaced with a simple inverse short-time Fourier transform, and 2) multi-band generation, with fixed or trainable synthesis filters, is used to generate waveforms. Unlike conventional lightweight models, which employ optimization or knowledge distillation separately to train two cascaded components, our method enjoys the full benefits of end-to-end optimization. Experimental results show that our model synthesized speech as natural as that synthesized by VITS, while achieving a real-time factor of 0.066 on an Intel Core i7 CPU, 4.1 times faster than VITS. Moreover, a smaller version of the model significantly outperformed a lightweight baseline model with respect to both naturalness and inference speed. Code and audio samples are available from https://github.com/MasayaKawamura/MB-iSTFT-VITS.
翻訳日:2022-10-31 17:43:40 公開日:2022-10-28
# ミラー空間におけるアグリゲーション(aims) : 軍事環境での高速で正確な分散機械学習

Aggregation in the Mirror Space (AIMS): Fast, Accurate Distributed Machine Learning in Military Settings ( http://arxiv.org/abs/2210.16181v1 )

ライセンス: Link先を確認
Ryan Yang, Haizhou Du, Andre Wibisono, Patrick Baker(参考訳) 分散機械学習(DML)は、現代の軍にとって、適応と学習のために複数の領域に分散したデータとデバイスを活用する重要な能力である。 The existing distributed machine learning frameworks, however, cannot realize the full benefits of DML, because they are all based on the simple linear aggregation framework, but linear aggregation cannot handle the $\textit{divergence challenges}$ arising in military settings: the learning data at different devices can be heterogeneous ($\textit{i.e.}$, Non-IID data), leading to model divergence, but the ability for devices to communicate is substantially limited ($\textit{i.e.}$, weak connectivity due to sparse and dynamic communications), reducing the ability for devices to reconcile model divergence. 本稿では,鏡空間におけるアグリゲーション(アグリゲーション)と呼ばれる新しいDMLフレームワークを導入し,一般的なミラー関数を導入してモデルをミラー空間にマッピングし,アグリゲーションと勾配降下を行う。 発散力に応じてミラー関数の凸性を適用することで、AIMSはDMLの自動最適化を可能にする。 我々はAIMSの利点を実証するために厳密な分析と広範な実験的評価を行う。 例えば、aimは$t$ネットワーク全体の更新後に$o\left((\frac{m^{r+1}}{t})^{\frac1r}\right)が失われることを証明する。$m$はデバイス数であり、$r$はミラー関数の凸性であり、既存の線形集約フレームワークは$r=2$の特別なケースである。 軍事通信設定にEMANE(Extendable Mobile Ad-hoc Network Emulator)を用いた実験では,DMLコンバージェンス率を最大57倍に向上し,接続性の弱いデバイスにも拡張可能である。

Distributed machine learning (DML) can be an important capability for modern military to take advantage of data and devices distributed at multiple vantage points to adapt and learn. The existing distributed machine learning frameworks, however, cannot realize the full benefits of DML, because they are all based on the simple linear aggregation framework, but linear aggregation cannot handle the $\textit{divergence challenges}$ arising in military settings: the learning data at different devices can be heterogeneous ($\textit{i.e.}$, Non-IID data), leading to model divergence, but the ability for devices to communicate is substantially limited ($\textit{i.e.}$, weak connectivity due to sparse and dynamic communications), reducing the ability for devices to reconcile model divergence. In this paper, we introduce a novel DML framework called aggregation in the mirror space (AIMS) that allows a DML system to introduce a general mirror function to map a model into a mirror space to conduct aggregation and gradient descent. Adapting the convexity of the mirror function according to the divergence force, AIMS allows automatic optimization of DML. We conduct both rigorous analysis and extensive experimental evaluations to demonstrate the benefits of AIMS. For example, we prove that AIMS achieves a loss of $O\left((\frac{m^{r+1}}{T})^{\frac1r}\right)$ after $T$ network-wide updates, where $m$ is the number of devices and $r$ the convexity of the mirror function, with existing linear aggregation frameworks being a special case with $r=2$. Our experimental evaluations using EMANE (Extendable Mobile Ad-hoc Network Emulator) for military communications settings show similar results: AIMS can improve DML convergence rate by up to 57\% and scale well to more devices with weak connectivity, all with little additional computation overhead compared to traditional linear aggregation.
翻訳日:2022-10-31 17:37:37 公開日:2022-10-28
# 物理インフォームド超解像生成逆数ネットワークの乱流予混合燃焼およびエンジンライク火炎カーネル直接数値データへの適用

Applying Physics-Informed Enhanced Super-Resolution Generative Adversarial Networks to Turbulent Premixed Combustion and Engine-like Flame Kernel Direct Numerical Simulation Data ( http://arxiv.org/abs/2210.16206v1 )

ライセンス: Link先を確認
Mathis Bode and Michael Gauding and Dominik Goeb and Tobias Falkenstein and Heinz Pitsch(参考訳) 未解決流れにおける有限速度化学のモデルは、複雑な構成の予測シミュレーションにおいて大きな課題の1つである。 乱気流が絡むと、問題はさらに難しくなります。 この研究は、最近開発されたPIESRGANによる乱流予混合燃焼のモデリング手法を推し進めている。 そのため、ネットワークが処理し、損失関数で考慮した物理情報を調整し、トレーニングプロセスを平滑化し、特に密度変化の影響を考慮する。 その結果, 全乱流予混合火炎核の直接数値シミュレーションデータに対して, 先行実験と後続試験に良好な結果が得られた。 モデリングアプローチの限界について論じる。 最後に, このモデルを用いて, サイクル・ツー・サイクルの変動について, スケール・センシティブなフレームワークを用いて解析し, 予混合火炎核のさらなる実現を推算する。 データ駆動型PIESRGANサブフィルタモデルは、従来のサブフィルタモデルでは不可能な多くの粗いメッシュ上での直接数値シミュレーションデータを非常に正確に再現でき、計算コストが小さくなるため、統計処理をより効率的に研究できることを示す。

Models for finite-rate-chemistry in underresolved flows still pose one of the main challenges for predictive simulations of complex configurations. The problem gets even more challenging if turbulence is involved. This work advances the recently developed PIESRGAN modeling approach to turbulent premixed combustion. For that, the physical information processed by the network and considered in the loss function are adjusted, the training process is smoothed, and especially effects from density changes are considered. The resulting model provides good results for a priori and a posteriori tests on direct numerical simulation data of a fully turbulent premixed flame kernel. The limits of the modeling approach are discussed. Finally, the model is employed to compute further realizations of the premixed flame kernel, which are analyzed with a scale-sensitive framework regarding their cycle-to-cycle variations. The work shows that the data-driven PIESRGAN subfilter model can very accurately reproduce direct numerical simulation data on much coarser meshes, which is hardly possible with classical subfilter models, and enables studying statistical processes more efficiently due to the smaller computing cost.
翻訳日:2022-10-31 17:37:01 公開日:2022-10-28
# 物理学による畳み込みニューラルネットワークによる動的システムの破壊除去

Physics-Informed Convolutional Neural Networks for Corruption Removal on Dynamical Systems ( http://arxiv.org/abs/2210.16215v1 )

ライセンス: Link先を確認
Daniel Kelshaw, Luca Magri(参考訳) 力学系の測定は、実験的、その他の方法では、しばしば汚職を起こすことができる不正確さを被るが、その除去は物理科学において根本的な重要性の課題である。 本研究では,データから物理解を抽出する手段を提供し,コロケーション点における部分的接地観測へのアクセスを前提とした,定常的破壊除去のための物理計算型畳み込みニューラルネットワークを提案する。 カオス乱流構造における2次元非圧縮ナビエ-ストークス方程式の方法論を提示し,モダリティと腐敗の大きさに対する頑健性を示す。

Measurements on dynamical systems, experimental or otherwise, are often subjected to inaccuracies capable of introducing corruption; removal of which is a problem of fundamental importance in the physical sciences. In this work we propose physics-informed convolutional neural networks for stationary corruption removal, providing the means to extract physical solutions from data, given access to partial ground-truth observations at collocation points. We showcase the methodology for 2D incompressible Navier-Stokes equations in the chaotic-turbulent flow regime, demonstrating robustness to modality and magnitude of corruption.
翻訳日:2022-10-31 17:36:42 公開日:2022-10-28
# 物理インフォームド型高分解能ガスタービン燃焼器の有限レート化学流れへの適用

Applying Physics-Informed Enhanced Super-Resolution Generative Adversarial Networks to Finite-Rate-Chemistry Flows and Predicting Lean Premixed Gas Turbine Combustors ( http://arxiv.org/abs/2210.16219v1 )

ライセンス: Link先を確認
Mathis Bode(参考訳) 未解決フローにおける小さなスケールの正確な予測は、複雑な構成の予測シミュレーションにおける大きな課題の1つである。 ここ数年、データ駆動モデリングが多くの分野で人気を博し、多くのラベル付きデータセットが利用可能になり、大きなニューラルネットワークのトレーニングがgpu(graphics processing unit)上で可能になり、学習プロセスが大幅にスピードアップした。 実際、未解決のリアクティブフローなど、流体力学におけるディープニューラルネットワークの応用は依然として困難である。 この研究は、最近導入されたPIESRGANを反応性有限レート化学フローへと前進させる。 しかし、燃焼化学は一般に最小のスケールで作用するため、元のアプローチを拡張する必要がある。 したがって、PIESRGANのモデリングアプローチは、ラミナー有限レート化学フローの文脈における課題を正確に説明するために修正される。 改良型piesrgan-based modelは, 層状リーン予混合燃焼装置において, 事前および後方試験において良好な一致を示した。 さらに, PIESRGAN を用いた縮小モデルを用いて, 復元されたフィールド上の主要種のみを解き, 残りの種について PIERSGAN を検索し, 時間的滞留を生かした。 判別器支援訓練の利点が示され, モデルガスタービン燃焼器の文脈において, 新モデルのユーザビリティが実証された。

The accurate prediction of small scales in underresolved flows is still one of the main challenges in predictive simulations of complex configurations. Over the last few years, data-driven modeling has become popular in many fields as large, often extensively labeled datasets are now available and training of large neural networks has become possible on graphics processing units (GPUs) that speed up the learning process tremendously. In fact, the successful application of deep neural networks in fluid dynamics, such as for underresolved reactive flows, is still challenging. This work advances the recently introduced PIESRGAN to reactive finite-rate-chemistry flows. However, since combustion chemistry typically acts on the smallest scales, the original approach needs to be extended. Therefore, the modeling approach of PIESRGAN is modified to accurately account for the challenges in the context of laminar finite-rate-chemistry flows. The modified PIESRGAN-based model gives good agreement in a priori and a posteriori tests in a laminar lean premixed combustion setup. Furthermore, a reduced PIESRGAN-based model is presented that solves only the major species on a reconstructed field and employs PIERSGAN lookup for the remaining species, utilizing staggering in time. The advantages of the discriminator-supported training are shown, and the usability of the new model demonstrated in the context of a model gas turbine combustor.
翻訳日:2022-10-31 17:36:31 公開日:2022-10-28
# 非均一メッシュ上の乱流非予混合燃焼に対する物理インフォーム型超解像生成逆数ネットワークの適用と加速シミュレーションワークフローの実証

Applying Physics-Informed Enhanced Super-Resolution Generative Adversarial Networks to Turbulent Non-Premixed Combustion on Non-Uniform Meshes and Demonstration of an Accelerated Simulation Workflow ( http://arxiv.org/abs/2210.16248v1 )

ライセンス: Link先を確認
Mathis Bode(参考訳) 本稿では, 有限レート化学を用いた乱流中におけるLESサブフィルタモデリングのための物理インフォームド超解像生成対向ネットワーク (PIESRGANs) の利用法を拡張し, 非予混合時空ジェットケースへの適用例を示す。 これは、気候変動に対抗するため、より効率的で炭素ニュートラルなエネルギーデバイスの必要性を考える上で重要なトピックである。 複数の前科と後科の結果が提示され、議論される。 これにより、基盤となるメッシュが予測品質に与える影響が強調され、マルチメッシュアプローチが開発される。 ピエセルガンに基づくlesを用いて,訓練に使用されていないレイノルズ数における症例を予測する方法が実証された。 最後に、成功した予測に必要なデータ量について詳述する。

This paper extends the methodology to use physics-informed enhanced super-resolution generative adversarial networks (PIESRGANs) for LES subfilter modeling in turbulent flows with finite-rate chemistry and shows a successful application to a non-premixed temporal jet case. This is an important topic considering the need for more efficient and carbon-neutral energy devices to fight the climate change. Multiple a priori and a posteriori results are presented and discussed. As part of this, the impact of the underlying mesh on the prediction quality is emphasized, and a multi-mesh approach is developed. It is demonstrated how LES based on PIESRGAN can be employed to predict cases at Reynolds numbers which were not used for training. Finally, the amount of data needed for a successful prediction is elaborated.
翻訳日:2022-10-31 17:36:06 公開日:2022-10-28
# 確率グラフ摂動を用いた時空間グラフニューラルネットワーク

Space-Time Graph Neural Networks with Stochastic Graph Perturbations ( http://arxiv.org/abs/2210.16270v1 )

ライセンス: Link先を確認
Samar Hadou, Charilaos Kanatsoulis, and Alejandro Ribeiro(参考訳) 時空間グラフニューラルネットワーク(ST-GNN)は、時間変化データの効率的なグラフ表現を学習するアーキテクチャである。 st-gnnは、安定性とエージェント間の通信遅延を尊重する能力から、マルチエージェントシステムにおいて特に有用である。 本稿では,ST-GNNの安定性特性を再検討し,確率的グラフ摂動に対して安定であることを証明する。 解析の結果,st-gnnは時変グラフの転送学習に適しており,時変グラフと時変信号を同時に処理する一般化畳み込みアーキテクチャの設計が可能であることが示唆された。 分散制御システムの数値実験により,従来のST-GNNアーキテクチャの利点を実証した。

Space-time graph neural networks (ST-GNNs) are recently developed architectures that learn efficient graph representations of time-varying data. ST-GNNs are particularly useful in multi-agent systems, due to their stability properties and their ability to respect communication delays between the agents. In this paper we revisit the stability properties of ST-GNNs and prove that they are stable to stochastic graph perturbations. Our analysis suggests that ST-GNNs are suitable for transfer learning on time-varying graphs and enables the design of generalized convolutional architectures that jointly process time-varying graphs and time-varying signals. Numerical experiments on decentralized control systems validate our theoretical results and showcase the benefits of traditional and generalized ST-GNN architectures.
翻訳日:2022-10-31 17:35:49 公開日:2022-10-28
# マルチグラフ畳み込みフィルタによる学習

Learning with Multigraph Convolutional Filters ( http://arxiv.org/abs/2210.16272v1 )

ライセンス: Link先を確認
Landon Butler, Alejandro Parada-Mayorga, Alejandro Ribeiro(参考訳) 本稿では,マルチグラフ上で情報をサポートする場合に学習を行う畳み込みアーキテクチャを提案する。 代数的信号処理(asp)を活用し,マルチグラフ(msp)上の畳み込み信号処理モデルを提案する。 次に,多グラフ畳み込みニューラルネットワーク(MGNN)を,MSPモデルに基づいて情報を処理する階層構造として導入する。 また,MGNNにおけるフィルタ係数のトラクタブルな計算手法と,レイヤ間で転送される情報の次元性を低減するための低コスト手法を開発した。 我々は,マルチチャネル通信システムにおける最適資源割り当てタスクにおいて,MGNNの性能を他の学習アーキテクチャと比較することで結論付けた。

In this paper, we introduce a convolutional architecture to perform learning when information is supported on multigraphs. Exploiting algebraic signal processing (ASP), we propose a convolutional signal processing model on multigraphs (MSP). Then, we introduce multigraph convolutional neural networks (MGNNs) as stacked and layered structures where information is processed according to an MSP model. We also develop a procedure for tractable computation of filter coefficients in the MGNN and a low cost method to reduce the dimensionality of the information transferred between layers. We conclude by comparing the performance of MGNNs against other learning architectures on an optimal resource allocation task for multi-channel communication systems.
翻訳日:2022-10-31 17:35:37 公開日:2022-10-28
# 均質系のモジュールシミュレーションの学習

Learning Modular Simulations for Homogeneous Systems ( http://arxiv.org/abs/2210.16294v1 )

ライセンス: Link先を確認
Jayesh K. Gupta, Sai Vemprala, Ashish Kapoor(参考訳) 複雑なシステムはエンジニアリングのトラクタビリティのために、しばしばモジュラーサブシステムに分解される。 様々な方程式に基づくホワイトボックスモデリング手法はそのような構造を利用するが、学習に基づく手法はまだこれらの概念を広く取り入れていない。 グラフニューラルネットワークとニューラル微分方程式のアイデアを組み合わせた等質多体力学系をモデル化するためのモジュラーシミュレーションフレームワークを提案する。 我々は、個々の動的サブシステムをニューラルODEモジュールとしてモデル化することを学ぶ。 これらのモジュール間の時空間メッセージパッシングを通じて複合システムの完全なシミュレーションを行う。 任意の数のモジュールを組み合わせることで、様々な結合トポロジーのシステムをシミュレートすることができる。 我々は,様々なシステム上でのフレームワークの評価を行い,メッセージパッシングが正確な予測のために時間とともに複数のモジュール間の協調を可能にすることを示す。 さらに,本モデルでは,スクラッチからトレーニングしたモデルと比較して,データ要求やトレーニングの少ない新しいシステム構成に移行可能であることを示す。

Complex systems are often decomposed into modular subsystems for engineering tractability. Although various equation based white-box modeling techniques make use of such structure, learning based methods have yet to incorporate these ideas broadly. We present a modular simulation framework for modeling homogeneous multibody dynamical systems, which combines ideas from graph neural networks and neural differential equations. We learn to model the individual dynamical subsystem as a neural ODE module. Full simulation of the composite system is orchestrated via spatio-temporal message passing between these modules. An arbitrary number of modules can be combined to simulate systems of a wide variety of coupling topologies. We evaluate our framework on a variety of systems and show that message passing allows coordination between multiple modules over time for accurate predictions and in certain cases, enables zero-shot generalization to new system configurations. Furthermore, we show that our models can be transferred to new system configurations with lower data requirement and training effort, compared to those trained from scratch.
翻訳日:2022-10-31 17:35:28 公開日:2022-10-28
# Vox-Fusion:Voxel-based Neural Implicit Representationを用いたDense Trackingとマッピング

Vox-Fusion: Dense Tracking and Mapping with Voxel-based Neural Implicit Representation ( http://arxiv.org/abs/2210.15858v1 )

ライセンス: Link先を確認
Xingrui Yang, Hai Li, Hongjia Zhai, Yuhang Ming, Yuqian Liu, Guofeng Zhang(参考訳) 本研究では,従来の容積融合法とニューラル暗黙表現をシームレスに融合させる,Vox-Fusionという高密度追跡・マッピングシステムを提案する。 このアプローチは,最近開発された暗黙的マッピングと位置決めシステムに着想を得て,実用的なシナリオに自由に適用できるようにアイデアをさらに拡張する。 具体的には、voxelベースのニューラルネットワークによる暗黙的表面表現を利用して、各voxel内のシーンをエンコードし、最適化する。 さらに,シーンを分割し,動的拡張をサポートするためにオクツリー構造を採用し,従来のような環境を知らずに任意のシーンを追跡・マップできるシステムを開発した。 さらに,提案手法を高速化する高性能マルチプロセスフレームワークを提案し,リアルタイム性能を必要とするアプリケーションをいくつかサポートした。 評価の結果,提案手法は従来手法よりも精度と完全性を向上できることがわかった。 また、私たちのVox-Fusionは拡張現実やバーチャルリアリティーのアプリケーションにも利用できることを示す。 ソースコードはhttps://github.com/zju3dv/Vox-Fusion.comで公開されています。

In this work, we present a dense tracking and mapping system named Vox-Fusion, which seamlessly fuses neural implicit representations with traditional volumetric fusion methods. Our approach is inspired by the recently developed implicit mapping and positioning system and further extends the idea so that it can be freely applied to practical scenarios. Specifically, we leverage a voxel-based neural implicit surface representation to encode and optimize the scene inside each voxel. Furthermore, we adopt an octree-based structure to divide the scene and support dynamic expansion, enabling our system to track and map arbitrary scenes without knowing the environment like in previous works. Moreover, we proposed a high-performance multi-process framework to speed up the method, thus supporting some applications that require real-time performance. The evaluation results show that our methods can achieve better accuracy and completeness than previous methods. We also show that our Vox-Fusion can be used in augmented reality and virtual reality applications. Our source code is publicly available at https://github.com/zju3dv/Vox-Fusion.
翻訳日:2022-10-31 17:35:12 公開日:2022-10-28
# マルチ露光による単一画像HDR再構成

Single-Image HDR Reconstruction by Multi-Exposure Generation ( http://arxiv.org/abs/2210.15897v1 )

ライセンス: Link先を確認
Phuoc-Hieu Le, Quynh Le, Rang Nguyen, Binh-Son Hua(参考訳) 高ダイナミックレンジ(HDR)イメージングは、現代写真に欠かせない技術である。 従来の方法では、複数の画像からのHDR再構成に焦点を合わせ、画像アライメント、融合、トーンマッピングといった中核的な問題を解くが、ゴーストや他の視覚的アーティファクトによる完璧な解決策は得られない。 近年のシングルイメージHDR再構成の試みは、期待できる代替手段である。ニューラルネットワークを用いて画素値を照度にマッピングすることを学ぶことで、アライメント・アンド・マージパイプラインを完全にバイパスできるが、高品質のHDR画像が得られる。 本研究では,HDR再構成のための物理画像生成過程を学習を通して逆転し,単一の画像から複数の露光を生成する弱教師付き学習手法を提案する。 ニューラルネットワークは、複数の露光を合成する前にカメラ応答を反転させ、単一の入力画像から未露光領域と過剰露光領域で詳細を幻覚することができる。 ネットワークをトレーニングするために,一対のアンダー露光画像に適用された表現損失,再構成損失,知覚損失を提案し,訓練にHDR画像を必要としない。 提案手法は,hdr画像を効果的に再現できることを示す。 定性的かつ定量的な結果から,本手法がDrTMOデータセットの最先端性能を実現することを示す。 私たちのコードはhttps://github.com/vinairesearch/single_image_hdrで利用可能です。

High dynamic range (HDR) imaging is an indispensable technique in modern photography. Traditional methods focus on HDR reconstruction from multiple images, solving the core problems of image alignment, fusion, and tone mapping, yet having a perfect solution due to ghosting and other visual artifacts in the reconstruction. Recent attempts at single-image HDR reconstruction show a promising alternative: by learning to map pixel values to their irradiance using a neural network, one can bypass the align-and-merge pipeline completely yet still obtain a high-quality HDR image. In this work, we propose a weakly supervised learning method that inverts the physical image formation process for HDR reconstruction via learning to generate multiple exposures from a single image. Our neural network can invert the camera response to reconstruct pixel irradiance before synthesizing multiple exposures and hallucinating details in under- and over-exposed regions from a single input image. To train the network, we propose a representation loss, a reconstruction loss, and a perceptual loss applied on pairs of under- and over-exposure images and thus do not require HDR images for training. Our experiments show that our proposed model can effectively reconstruct HDR images. Our qualitative and quantitative results show that our method achieves state-of-the-art performance on the DrTMO dataset. Our code is available at https://github.com/VinAIResearch/single_image_hdr.
翻訳日:2022-10-31 17:34:53 公開日:2022-10-28
# 最適化と制御のための微分可能アナログ量子コンピューティング

Differentiable Analog Quantum Computing for Optimization and Control ( http://arxiv.org/abs/2210.15812v1 )

ライセンス: Link先を確認
Jiaqi Leng, Yuxiang Peng, Yi-Ling Qiao, Ming Lin, Xiaodi Wu(参考訳) 我々は,アナログ信号(パルス)レベルでの特定のパラメータ化設計を施した最初の微分可能アナログ量子コンピューティングフレームワークを定式化し,近距離量子デバイスを変分法でより有効活用する。 さらに,モンテカルロサンプリングを用いた前方通過法を用いて量子力学の勾配を推定するスケーラブルな手法を提案する。 量子最適化と制御の枠組みを応用し,パラメータ化されたディジタル量子回路に基づくsomaに対する微分可能アナログ量子コンピューティングの大きな利点を1桁も観察した。

We formulate the first differentiable analog quantum computing framework with a specific parameterization design at the analog signal (pulse) level to better exploit near-term quantum devices via variational methods. We further propose a scalable approach to estimate the gradients of quantum dynamics using a forward pass with Monte Carlo sampling, which leads to a quantum stochastic gradient descent algorithm for scalable gradient-based training in our framework. Applying our framework to quantum optimization and control, we observe a significant advantage of differentiable analog quantum computing against SOTAs based on parameterized digital quantum circuits by orders of magnitude.
翻訳日:2022-10-31 17:28:02 公開日:2022-10-28
# クラスタ集約によるフェデレーション学習によるエネルギー需要予測

Federated Learning based Energy Demand Prediction with Clustered Aggregation ( http://arxiv.org/abs/2210.15850v1 )

ライセンス: Link先を確認
Ye Lin Tun, Kyi Thar, Chu Myaet Thwal, Choong Seon Hong(参考訳) 負の環境影響を減らすために、発電所と電力網は発電に必要な資源を最適化する必要がある。 このように、クライアントのエネルギー消費を予測することは、すべてのエネルギー管理システムの重要な部分となっている。 クライアントのスマートホームが収集したエネルギー使用情報は、将来のエネルギー需要を予測するディープニューラルネットワークのトレーニングに使用できる。 集中型モデルトレーニングのために、多数の分散クライアントからデータを収集するのは、通信リソースの面でコストがかかる。 エッジシステムの分散データを活用するために、各クライアントがローカルデータにトレーニングによって生成されたモデル更新をアップロードするだけで、集中的なトレーニングをフェデレーション学習に置き換えることができる。 これらのモデル更新は、サーバによって単一のグローバルモデルに集約される。 しかし、異なるクライアントは異なる属性を持つことができるので、モデル更新は様々な重みを持ち、その結果、集約されたグローバルモデルが収束するのに長い時間がかかる可能性がある。 収束過程を高速化するために、クラスタ化をそれらの特性に基づいてグループクライアントに適用し、同一クラスタからのモデル更新を集約してクラスタ固有のグローバルモデルを生成する。 本稿では,クラスタ化されたクライアント上でのフェデレーション学習によってトレーニングされたニューラルネットワークに基づくエネルギー需要予測器を提案し,分散データを利用して収束過程を高速化する。

To reduce negative environmental impacts, power stations and energy grids need to optimize the resources required for power production. Thus, predicting the energy consumption of clients is becoming an important part of every energy management system. Energy usage information collected by the clients' smart homes can be used to train a deep neural network to predict the future energy demand. Collecting data from a large number of distributed clients for centralized model training is expensive in terms of communication resources. To take advantage of distributed data in edge systems, centralized training can be replaced by federated learning where each client only needs to upload model updates produced by training on its local data. These model updates are aggregated into a single global model by the server. But since different clients can have different attributes, model updates can have diverse weights and as a result, it can take a long time for the aggregated global model to converge. To speed up the convergence process, we can apply clustering to group clients based on their properties and aggregate model updates from the same cluster together to produce a cluster specific global model. In this paper, we propose a recurrent neural network based energy demand predictor, trained with federated learning on clustered clients to take advantage of distributed data and speed up the convergence process.
翻訳日:2022-10-31 17:27:51 公開日:2022-10-28
# Deconfounder による EHR の健康格差の緩和

Mitigating Health Disparities in EHR via Deconfounder ( http://arxiv.org/abs/2210.15901v1 )

ライセンス: Link先を確認
Zheng Liu, Xiaohan Li and Philip Yu(参考訳) 特に電子健康記録(EHR)予測モデルでは、医療の意思決定において健康格差や、異なる患者層間の不平等が重要になっている。 センシティブな属性の公平性を確保するために、従来の研究は主に、異なる集団間でのパフォーマンスのバランスをとるために、キャリブレーションまたは再重み付け手法を採用する。 しかし,これらの手法にはいくつかの制限がある。 第一に、これらの手法は通常、モデルの性能と公平性の間のトレードオフを意味する。 第二に、多くの手法はデータ収集プロセスに不公平さを全く考慮していない。 本稿では,deconfounderを用いて医療における異質な問題に対処する可能性を見出すための実証的研究を行う。 私たちの研究は2つの部分で要約できる。 第1部は、観察されていない共同創設者が存在する場合の格差の悪化を示すパイロット研究である。 第2部では、医療データセットの格差問題に対処するため、新しいフレームワークであるParity Medical Deconfounder(PriMeD)を提案した。 退化理論に触発されたPriMeDは、観測データに潜伏因子(代替共同設立者)を学習するための条件変分オートエンコーダ(CVAE)を採用し、その有効性を示す広範な実験を提供する。

Health disparities, or inequalities between different patient demographics, are becoming crucial in medical decision-making, especially in Electronic Health Record (EHR) predictive modeling. To ensure the fairness of sensitive attributes, conventional studies mainly adopt calibration or re-weighting methods to balance the performance on among different demographic groups. However, we argue that these methods have some limitations. First, these methods usually mean a trade-off between the model's performance and fairness. Second, many methods completely attribute unfairness to the data collection process, which lacks substantial evidence. In this paper, we provide an empirical study to discover the possibility of using deconfounder to address the disparity issue in healthcare. Our study can be summarized in two parts. The first part is a pilot study demonstrating the exacerbation of disparity when unobserved confounders exist. The second part proposed a novel framework, Parity Medical Deconfounder (PriMeD), to deal with the disparity issue in healthcare datasets. Inspired by the deconfounder theory, PriMeD adopts a Conditional Variational Autoencoder (CVAE) to learn latent factors (substitute confounders) for observational data, and extensive experiments are provided to show its effectiveness.
翻訳日:2022-10-31 17:27:31 公開日:2022-10-28
# ニューラルネットワークによるストック選択のための対話型ファクトの導入

Incorporating Interactive Facts for Stock Selection via Neural Recursive ODEs ( http://arxiv.org/abs/2210.15925v1 )

ライセンス: Link先を確認
Qiang Gao, Xinzhu Zhou, Kunpeng Zhang, Li Huang, Siyuan Liu, Fan Zhou(参考訳) 株式選択は投資決定を最適化するために株式のリストをランク付けし、利益を最大化しながら投資リスクを最小化することを目指している。 近年、研究者はこの問題に対処する様々な(繰り返し)ニューラルネットワークベースの手法を開発した。 例外なく、主に歴史的な市場のボラティリティを利用して選択性能を高めている。 しかし、これらのアプローチは、株価変動の不確実性を考慮することや、将来における継続的な株価変動を予測できない、離散的な市場観測に大きく依存している。 また、複数のドメイン(例えば、業界や株主)に由来する明示的な株式相互依存を考える研究もある。 しかし、異なるドメイン間の暗黙的な相互依存は未探索である。 このような制限に対処するため、我々は新しいストックセレクションソリューション -- ガウス前の潜在変数モデルであるストックノッドを提案する。 具体的には,ストックムーブメントに関する時間変動関係を明らかにするために,動き傾向相関モジュールを考案する。 ニューラル再帰的正規微分方程式ネットワーク (NRODE) を設計し, ストックボラティリティの時間的変動を連続的動的に捉えた。 さらに,株式間のドメイン認識依存を組み込むための階層的ハイパーグラフを構築する。 2つの実世界の株式市場データセットで実施した実験は、stockodeがシャープ比に関して18.57%の平均改善など、いくつかのベースラインを大きく上回っていることを示している。

Stock selection attempts to rank a list of stocks for optimizing investment decision making, aiming at minimizing investment risks while maximizing profit returns. Recently, researchers have developed various (recurrent) neural network-based methods to tackle this problem. Without exceptions, they primarily leverage historical market volatility to enhance the selection performance. However, these approaches greatly rely on discrete sampled market observations, which either fail to consider the uncertainty of stock fluctuations or predict continuous stock dynamics in the future. Besides, some studies have considered the explicit stock interdependence derived from multiple domains (e.g., industry and shareholder). Nevertheless, the implicit cross-dependencies among different domains are under-explored. To address such limitations, we present a novel stock selection solution -- StockODE, a latent variable model with Gaussian prior. Specifically, we devise a Movement Trend Correlation module to expose the time-varying relationships regarding stock movements. We design Neural Recursive Ordinary Differential Equation Networks (NRODEs) to capture the temporal evolution of stock volatility in a continuous dynamic manner. Moreover, we build a hierarchical hypergraph to incorporate the domain-aware dependencies among the stocks. Experiments conducted on two real-world stock market datasets demonstrate that StockODE significantly outperforms several baselines, such as up to 18.57% average improvement regarding Sharpe Ratio.
翻訳日:2022-10-31 17:27:09 公開日:2022-10-28
# 大規模高ダイナミックレンジイメージングのためのディープネットワークシリーズ

Deep network series for large-scale high-dynamic range imaging ( http://arxiv.org/abs/2210.16060v1 )

ライセンス: Link先を確認
Amir Aghabiglou, Matthieu Terris, Adrian Jackson, Yves Wiaux(参考訳) 本稿では,大規模高ダイナミックレンジ計算イメージングのための新しい手法を提案する。 deep neural networks (dnns) トレーニングされたエンドツーエンドは、ほぼ瞬時に線形逆イメージング問題を解決することができる。 展開されたアーキテクチャは測定設定のバリエーションに対して必要な堅牢性を提供するが、DNNアーキテクチャに大規模測定演算子を組み込むことは現実的ではない。 代替的なPlug-and-Play(PnP)アプローチでは、DNNは測定環境に不自由であり、スケーラビリティと高ダイナミックレンジの課題に対処する上で有効であるが、高い反復アルゴリズムに依存している。 本研究では,動的範囲を漸進的に増加させる残差画像の和として再構成画像を構築し,前回の残差を入力としてdnnsにより反復的に推定する残差dnn系列手法を提案する。 電波・天文学的画像のシミュレーションにおいて, 現状のPnP手法と同等品質の高ダイナミックレンジ再構成を, コストのごく一部で実現できることを実証した。

We propose a new approach for large-scale high-dynamic range computational imaging. Deep Neural Networks (DNNs) trained end-to-end can solve linear inverse imaging problems almost instantaneously. While unfolded architectures provide necessary robustness to variations of the measurement setting, embedding large-scale measurement operators in DNN architectures is impractical. Alternative Plug-and-Play (PnP) approaches, where the denoising DNNs are blind to the measurement setting, have proven effective to address scalability and high-dynamic range challenges, but rely on highly iterative algorithms. We propose a residual DNN series approach, where the reconstructed image is built as a sum of residual images progressively increasing the dynamic range, and estimated iteratively by DNNs taking the back-projected data residual of the previous iteration as input. We demonstrate on simulations for radio-astronomical imaging that a series of only few terms provides a high-dynamic range reconstruction of similar quality to state-of-the-art PnP approaches, at a fraction of the cost.
翻訳日:2022-10-31 17:26:48 公開日:2022-10-28
# 高性能計算データとディープラーニングを用いたレイノルズ数における乱流予測に向けて

Towards prediction of turbulent flows at high Reynolds numbers using high performance computing data and deep learning ( http://arxiv.org/abs/2210.16110v1 )

ライセンス: Link先を確認
Mathis Bode and Michael Gauding and Jens Henrik G\"obbert and Baohao Liao and Jenia Jitsev and Heinz Pitsch(参考訳) 本稿では,乱流の文脈におけるディープラーニング(DL)手法の評価を行う。 乱流の理解とモデル化に適合する様々な生成的逆ネットワーク(gan)について論じる。 ワッサースタイン GAN (WGAN) は小さな乱流を生成するために選択される。 高分解能直接数値シミュレーション(DNS)乱流データを用いてWGANのトレーニングを行い,学習速度や損失関数などのネットワークパラメータの影響について検討した。 DNS入力データと生成された乱流構造との質的に良い一致を示す。 予測された乱流場の定量的統計的評価を行う。

In this paper, deep learning (DL) methods are evaluated in the context of turbulent flows. Various generative adversarial networks (GANs) are discussed with respect to their suitability for understanding and modeling turbulence. Wasserstein GANs (WGANs) are then chosen to generate small-scale turbulence. Highly resolved direct numerical simulation (DNS) turbulent data is used for training the WGANs and the effect of network parameters, such as learning rate and loss function, is studied. Qualitatively good agreement between DNS input data and generated turbulent structures is shown. A quantitative statistical assessment of the predicted turbulent fields is performed.
翻訳日:2022-10-31 17:25:51 公開日:2022-10-28
# 新しいスパースベイズ学習とマルチステーション組立システムにおける故障診断への応用

A Novel Sparse Bayesian Learning and Its Application to Fault Diagnosis for Multistation Assembly Systems ( http://arxiv.org/abs/2210.16176v1 )

ライセンス: Link先を確認
Jihoon Chung, Bo Shen, and Zhenyu (James) Kong(参考訳) 本稿では,マルチステーション組立システムにおける故障診断の問題に対処する。 欠陥診断は、次元測定を用いて製品の過度な次元変化を引き起こすプロセス欠陥を特定することである。 このような問題に対して、課題は、実際によくある現象によって引き起こされる不確定なシステム、すなわち、測定回数がプロセスエラーよりも少ないシステムを解決することである。 そこで本研究では,(1)プロセスエラーの時系列データにおける時間相関の活用方法,(2)プロセスエラーがプロセス障害となる確率の高いプロセスエラーに関する事前知識の適用方法,の2つの課題を解決しようと試みる。 上記の目的を達成するために,新しい疎ベイズ学習法を提案する。 方法は3つの階層構造からなる。 第1層は、各プロセスエラーの時間的相関を利用する事前分布をパラメータ化している。 さらに、第2層と第3層は、プロセス欠陥の事前知識を表す事前分布を達成する。 そして、これらの先行分布をプロセスからの測定サンプルの確率関数で更新し、過小判定されたシステムからプロセス障害の正確な後部分布を導出する。 プロセス欠陥の後方分布は難解であるため,変分ベイズ推定により近似的な後方分布を導出する。 提案手法の有効性を実証するために,実車体組立プロセスを用いた数値およびシミュレーションケーススタディを行った。

This paper addresses the problem of fault diagnosis in multistation assembly systems. Fault diagnosis is to identify process faults that cause the excessive dimensional variation of the product using dimensional measurements. For such problems, the challenge is solving an underdetermined system caused by a common phenomenon in practice; namely, the number of measurements is less than that of the process errors. To address this challenge, this paper attempts to solve the following two problems: (1) how to utilize the temporal correlation in the time series data of each process error and (2) how to apply prior knowledge regarding which process errors are more likely to be process faults. A novel sparse Bayesian learning method is proposed to achieve the above objectives. The method consists of three hierarchical layers. The first layer has parameterized prior distribution that exploits the temporal correlation of each process error. Furthermore, the second and third layers achieve the prior distribution representing the prior knowledge of process faults. Then, these prior distributions are updated with the likelihood function of the measurement samples from the process, resulting in the accurate posterior distribution of process faults from an underdetermined system. Since posterior distributions of process faults are intractable, this paper derives approximate posterior distributions via Variational Bayes inference. Numerical and simulation case studies using an actual autobody assembly process are performed to demonstrate the effectiveness of the proposed method.
翻訳日:2022-10-31 17:25:28 公開日:2022-10-28
# rawgment: ノイズ対応raw拡張は多様な環境における認識を可能にする

Rawgment: Noise-Accounted RAW Augmentation Enables Recognition in a Wide Variety of Environments ( http://arxiv.org/abs/2210.16046v1 )

ライセンス: Link先を確認
Masakazu Yoshimura, Junji Otsuka, Atsushi Irie, Takeshi Ohashi(参考訳) 困難な環境で機能する画像認識モデル(例えば、極暗、ぼやけ、高ダイナミックレンジ条件など)は有用である必要がある。 しかし、データ収集とアノテーションの難しさのため、そのような環境のためのトレーニングデータセットの作成は高価で難しい。 難しいデータセットを必要とせずに堅牢なモデルが得られればよいのです。 1つの単純なアプローチは、単純なシーンで標準的なRGB(sRGB)画像に色ジッタやぼやけなどのデータ拡張を適用することである。 残念なことに、このアプローチは画像信号処理装置(isp)の非線形性や画像センサのノイズ特性を考慮していないため、画素強度やノイズ分布の観点から現実的な画像を生成するのに苦労している。 代わりに,ノイズを考慮した生画像拡張法を提案する。 本質的には、非線形ISPを適用する前にRAW画像に色ジッタとぼかし増大を施し、現実的な強度が得られる。 さらに,拡張による雑音特性の領域ギャップを校正する雑音量アライメント手法を提案する。 提案手法は,簡易な学習データのみを用いて,課題環境における画像認識精度を2倍にする。

Image recognition models that can work in challenging environments (e.g., extremely dark, blurry, or high dynamic range conditions) must be useful. However, creating a training dataset for such environments is expensive and hard due to the difficulties of data collection and annotation. It is desirable if we could get a robust model without the need of hard-to-obtain dataset. One simple approach is to apply data augmentation such as color jitter and blur to standard RGB (sRGB) images in simple scenes. Unfortunately, this approach struggles to yield realistic images in terms of pixel intensity and noise distribution due to not considering the non-linearity of Image Signal Processor (ISP) and noise characteristics of an image sensor. Instead, we propose a noise-accounted RAW image augmentation method. In essence, color jitter and blur augmentation are applied to a RAW image before applying non-linear ISP, yielding realistic intensity. Furthermore, we introduce a noise amount alignment method that calibrates the domain gap in noise property caused by the augmentation. We show that our proposed noise-accounted RAW augmentation method doubles the image recognition accuracy in challenging environments only with simple training data.
翻訳日:2022-10-31 17:19:35 公開日:2022-10-28
# 血管セグメンテーションマップを用いた糖尿病網膜症の自動解析

Automated analysis of diabetic retinopathy using vessel segmentation maps as inductive bias ( http://arxiv.org/abs/2210.16053v1 )

ライセンス: Link先を確認
Linus Kreitner, Ivan Ezhov, Daniel Rueckert, Johannes C. Paetzold, and Martin J. Menten(参考訳) 最近の研究では、糖尿病網膜症(dr)の初期段階は深部血管複合体の血管変化をモニターすることで診断できることが示唆されている。 そこで本研究では,光コヒーレンストモグラフィ (optical coherence tomography angiography,octa) 画像を用いた新しい dr grading 法について検討した。 我々の研究はOCTAスキャンと血管のセグメンテーションを組み合わせて、病変のセグメンテーション、画像品質評価、DRグレーディングのためのタスク特定ネットワークへの入力として機能する。 そこで我々は,実際のOCTAデータに直接適用可能なセグメンテーションネットワークをトレーニングするために,合成OCTA画像を生成する。 我々はMICCAI 2022のDRアナリティクスチャレンジ(DRAC)に対するアプローチを検証した。 実験では,提案手法がベースラインモデルと同等の性能を発揮することを示した。

Recent studies suggest that early stages of diabetic retinopathy (DR) can be diagnosed by monitoring vascular changes in the deep vascular complex. In this work, we investigate a novel method for automated DR grading based on optical coherence tomography angiography (OCTA) images. Our work combines OCTA scans with their vessel segmentations, which then serve as inputs to task specific networks for lesion segmentation, image quality assessment and DR grading. For this, we generate synthetic OCTA images to train a segmentation network that can be directly applied on real OCTA data. We test our approach on MICCAI 2022's DR analysis challenge (DRAC). In our experiments, the proposed method performs equally well as the baseline model.
翻訳日:2022-10-31 17:19:14 公開日:2022-10-28
# cRedAnno+:自励性肺結節診断における注記

cRedAnno+: Annotation Exploitation in Self-Explanatory Lung Nodule Diagnosis ( http://arxiv.org/abs/2210.16097v1 )

ライセンス: Link先を確認
Jiahao Lu, Chong Yin, Kenny Erleben, Michael Bachmann Nielsen, Sune Darkner(参考訳) 近年,肺結節診断のための機能的自己説明モデルにおけるアノテーション要件の低減が試みられている。 代表として、cRedAnnoは、教師なしの特徴抽出を行うために自己教師付きコントラスト学習を導入することで、アノテーションの要求を大幅に削減して競争性能を達成する。 しかし, アノテーション条件の少ない条件下では不安定な性能を示す。 cRedAnnoの精度とロバスト性を改善するために,学習意味空間における半教師付き能動学習を行い,抽出した特徴,アノテーション,および未ラベルデータとの共同利用によるアノテーション活用機構を提案する。 提案手法は10倍のアノテーションで同等あるいはそれ以上の悪性度予測精度を達成し,さらにロバスト性や結節属性予測精度も向上した。 私たちの完全なコードは、オープンソースで利用可能です。

Recently, attempts have been made to reduce annotation requirements in feature-based self-explanatory models for lung nodule diagnosis. As a representative, cRedAnno achieves competitive performance with considerably reduced annotation needs by introducing self-supervised contrastive learning to do unsupervised feature extraction. However, it exhibits unstable performance under scarce annotation conditions. To improve the accuracy and robustness of cRedAnno, we propose an annotation exploitation mechanism by conducting semi-supervised active learning in the learned semantically meaningful space to jointly utilise the extracted features, annotations, and unlabelled data. The proposed approach achieves comparable or even higher malignancy prediction accuracy with 10x fewer annotations, meanwhile showing better robustness and nodule attribute prediction accuracy. Our complete code is open-source available: https://github.com/diku-dk/credanno.
翻訳日:2022-10-31 17:19:02 公開日:2022-10-28
# 照明条件下での小さな物体のボルダー同定

Boulders Identification on Small Bodies Under Varying Illumination Conditions ( http://arxiv.org/abs/2210.16283v1 )

ライセンス: Link先を確認
Mattia Pugliatti and Francesco Topputo(参考訳) 小天体の表面におけるボルダーの検出能力は、臨界操作中のナビゲーションやハザード検出といった視覚ベースの応用に有用である。 この課題は、不規則な形状の多様化、ボールダーの個体群の特徴、照明条件の急速な変動などにより困難である。 著者らはこの課題に対して,小さな物体表面に散在する岩体を堅牢に検出・分断する,データ駆動型画像処理パイプラインを開発するためのマルチステップトレーニングアプローチを設計した。 ラベル付きイメージマスクペアの可用性が限られているため、開発手法はBlenderで特別に設計された2つの人工環境によって支援されている。 これらは大量の合成画像ラベルセットを生成するために使用され、画像処理コミュニティで公開されています。 提示された方法論は、照明条件の変化、不規則な形状、高速なトレーニング時間、アーキテクチャ設計空間の広範囲な探索、以前飛行したミッションからの合成画像と実際の画像の間のドメインギャップといった課題に対処する。 開発した画像処理パイプラインの性能は合成画像と実画像の両方でテストされ、優れた性能と高い一般化能力を示す。

The capability to detect boulders on the surface of small bodies is beneficial for vision-based applications such as navigation and hazard detection during critical operations. This task is challenging due to the wide assortment of irregular shapes, the characteristics of the boulders population, and the rapid variability in the illumination conditions. The authors address this challenge by designing a multi-step training approach to develop a data-driven image processing pipeline to robustly detect and segment boulders scattered over the surface of a small body. Due to the limited availability of labeled image-mask pairs, the developed methodology is supported by two artificial environments designed in Blender specifically for this work. These are used to generate a large amount of synthetic image-label sets, which are made publicly available to the image processing community. The methodology presented addresses the challenges of varying illumination conditions, irregular shapes, fast training time, extensive exploration of the architecture design space, and domain gap between synthetic and real images from previously flown missions. The performance of the developed image processing pipeline is tested both on synthetic and real images, exhibiting good performances, and high generalization capabilities
翻訳日:2022-10-31 17:18:26 公開日:2022-10-28
# GM-TCNet:感情因果性を用いたマルチスケール時間畳み込みネットワークによる音声認識

GM-TCNet: Gated Multi-scale Temporal Convolutional Network using Emotion Causality for Speech Emotion Recognition ( http://arxiv.org/abs/2210.15834v1 )

ライセンス: Link先を確認
Jia-Xin Ye, Xin-Cheng Wen, Xuan-Ze Wang, Yong Xu, Yan Luo, Chang-Li Wu, Li-Yan Chen, Kun-Hong Liu(参考訳) 人-コンピュータインタラクションにおいて、音声感情認識(SER)はユーザの意図を理解し、対話的体験を改善する上で重要な役割を果たす。 類似した感情的なスピーチは多様な話者特性を持つが、共通の先行性と結果を共有するが、serにとって不可欠な課題は、音声感情間の因果関係を通じて頑健で差別的な表現を作り出す方法である。 本稿では,マルチスケールの受容場を持つ新しい感情因果関係表現学習コンポーネントを構築するためのゲート型多スケール時相畳み込みネットワーク(gm-tcnet)を提案する。 GM-TCNetは、時間領域全体にわたる感情のダイナミクスを捉え、拡張因果畳み込み層とゲーティング機構で構築する、新しい感情因果表現学習コンポーネントをデプロイする。 さらに、異なるゲートの畳み込みブロックから高レベルの特徴を引き出すスキップ接続を利用して、人間の発話における豊富な微妙な感情の変化を捉える。 GM-TCNetは最初、入力としてメル周波数ケプストラム係数という単一タイプの特徴を使い、その後、ゲート時間的畳み込みモジュールを通して高レベルの特徴を生成する。 最後に、これらの機能は感情分類器に送られ、SERタスクを達成する。 実験の結果,我々のモデルは最先端技術と比較して,ほとんどのケースで最高の性能を維持していることがわかった。

In human-computer interaction, Speech Emotion Recognition (SER) plays an essential role in understanding the user's intent and improving the interactive experience. While similar sentimental speeches own diverse speaker characteristics but share common antecedents and consequences, an essential challenge for SER is how to produce robust and discriminative representations through causality between speech emotions. In this paper, we propose a Gated Multi-scale Temporal Convolutional Network (GM-TCNet) to construct a novel emotional causality representation learning component with a multi-scale receptive field. GM-TCNet deploys a novel emotional causality representation learning component to capture the dynamics of emotion across the time domain, constructed with dilated causal convolution layer and gating mechanism. Besides, it utilizes skip connection fusing high-level features from different gated convolution blocks to capture abundant and subtle emotion changes in human speech. GM-TCNet first uses a single type of feature, mel-frequency cepstral coefficients, as inputs and then passes them through the gated temporal convolutional module to generate the high-level features. Finally, the features are fed to the emotion classifier to accomplish the SER task. The experimental results show that our model maintains the highest performance in most cases compared to state-of-the-art techniques.
翻訳日:2022-10-31 17:18:06 公開日:2022-10-28
# スペクトログラムはパッチのシーケンスです

Spectrograms Are Sequences of Patches ( http://arxiv.org/abs/2210.15988v1 )

ライセンス: Link先を確認
Leyi Zhao, Yi Li(参考訳) 自己教師付き事前学習モデルは、いくつかの機械学習領域でうまく使われている。 しかし、音楽に関連する作品はごくわずかである。 本研究では,音楽のスペクトログラムを一連のパッチとして扱い,これらのシーケンシャルパッチの特徴を捉えた自己教師型モデルを設計する。 事前学習にはラベル付きデータを使用しないが、16kの音楽クリップを含むmtatデータセットのサブセットのみである。 事前学習後、複数の下流タスクにモデルを適用します。 本モデルは,他の音響表現モデルと比較してかなり許容できる結果が得られる。 一方、我々の研究は、オーディオを一連のパッチセグメントと考えることは理にかなっていることを示している。

Self-supervised pre-training models have been used successfully in several machine learning domains. However, only a tiny amount of work is related to music. In our work, we treat a spectrogram of music as a series of patches and design a self-supervised model that captures the features of these sequential patches: Patchifier, which makes good use of self-supervised learning methods from both NLP and CV domains. We do not use labeled data for the pre-training process, only a subset of the MTAT dataset containing 16k music clips. After pre-training, we apply the model to several downstream tasks. Our model achieves a considerably acceptable result compared to other audio representation models. Meanwhile, our work demonstrates that it makes sense to consider audio as a series of patch segments.
翻訳日:2022-10-31 17:17:41 公開日:2022-10-28
# 模倣学習に基づく暗黙的意味認識通信ネットワーク:多層表現と協調推論

Imitation Learning-based Implicit Semantic-aware Communication Networks: Multi-layer Representation and Collaborative Reasoning ( http://arxiv.org/abs/2210.16118v1 )

ライセンス: Link先を確認
Yong Xiao, Zijian Sun, Guangming Shi, and Dusit Niyato(参考訳) セマンティックコミュニケーションは、既存のデータ中心のコミュニケーションアーキテクチャを、より汎用的で目標指向のセマンティックなネットワークシステムに転換する可能性から、産業と学術の両方から大きな関心を集めている。 有望な可能性にもかかわらず、セマンティックコミュニケーションとセマンティックアウェアネットワークはまだ初期段階にある。 既存の作品のほとんどは、ソース信号から直接識別できるオブジェクトのラベルや特徴など、明示的な意味情報の転送と配信に焦点を当てている。 認知神経科学の最近の結果と同様に、意味論の本来の定義は、それは暗黙的な意味情報であり、特に、メッセージの意味を認識し、コミュニケーションし、伝達する際に基本的な役割を果たす、異なる概念と特徴項目を結びつける隠れた関係であることを示している。 そこで本研究では,cdcとエッジサーバの複数階層が協調して,効率的な意味的エンコーディング,復号化,解釈をサポートする,推論ベースの暗黙的意味認識型通信ネットワークアーキテクチャを提案する。 本稿では,暗黙的意味論の階層構造と個人ユーザのパーソナライズされた推論嗜好の両方を考慮した,意味情報の新たな多層表現を提案する。 本稿では,意味推論プロセスを強化学習プロセスとしてモデル化し,それを模倣した意味推論機構学習(irml)ソリューションを提案する。 分散知識データセットに基づく共有意味解釈モデルを複数エッジサーバで共同構築可能にするために,協調型gcnに基づく協調推論法を提案する。

Semantic communication has recently attracted significant interest from both industry and academia due to its potential to transform the existing data-focused communication architecture towards a more generally intelligent and goal-oriented semantic-aware networking system. Despite its promising potential, semantic communications and semantic-aware networking are still at their infancy. Most existing works focus on transporting and delivering the explicit semantic information, e.g., labels or features of objects, that can be directly identified from the source signal. The original definition of semantics as well as recent results in cognitive neuroscience suggest that it is the implicit semantic information, in particular the hidden relations connecting different concepts and feature items that plays the fundamental role in recognizing, communicating, and delivering the real semantic meanings of messages. Motivated by this observation, we propose a novel reasoning-based implicit semantic-aware communication network architecture that allows multiple tiers of CDC and edge servers to collaborate and support efficient semantic encoding, decoding, and interpretation for end-users. We introduce a new multi-layer representation of semantic information taking into consideration both the hierarchical structure of implicit semantics as well as the personalized inference preference of individual users. We model the semantic reasoning process as a reinforcement learning process and then propose an imitation-based semantic reasoning mechanism learning (iRML) solution for the edge servers to leaning a reasoning policy that imitates the inference behavior of the source user. A federated GCN-based collaborative reasoning solution is proposed to allow multiple edge servers to jointly construct a shared semantic interpretation model based on decentralized knowledge datasets.
翻訳日:2022-10-31 17:17:30 公開日:2022-10-28
# 宇宙せん断前方モデリングにおけるモデルバイアスの解決に向けて

Towards solving model bias in cosmic shear forward modeling ( http://arxiv.org/abs/2210.16243v1 )

ライセンス: Link先を確認
Benjamin Remy and Francois Lanusse and Jean-Luc Starck(参考訳) 現代の銀河調査の量と質が増加するにつれて、銀河の形に刻印された宇宙信号の測定も困難になる。 宇宙で最も巨大な構造によって引き起こされる弱い重力レンズは、宇宙モデルの主要なプローブである宇宙せん断と呼ばれる銀河形態のわずかなせん断を生み出している。 楕円性測定の統計に基づく最近のせん断推定技術は、楕円性が任意の銀河の光プロファイルに対して明確に定義された量ではなく、せん断推定のバイアスであるという事実に苦しむ。 生成モデルが銀河の形態を捉えたハイブリッド物理モデルとディープラーニング階層ベイズモデルにより、現実的な銀河のせん断の偏りのない推定を復元し、モデルバイアスを解消できることが示されている。

As the volume and quality of modern galaxy surveys increase, so does the difficulty of measuring the cosmological signal imprinted in galaxy shapes. Weak gravitational lensing sourced by the most massive structures in the Universe generates a slight shearing of galaxy morphologies called cosmic shear, key probe for cosmological models. Modern techniques of shear estimation based on statistics of ellipticity measurements suffer from the fact that the ellipticity is not a well-defined quantity for arbitrary galaxy light profiles, biasing the shear estimation. We show that a hybrid physical and deep learning Hierarchical Bayesian Model, where a generative model captures the galaxy morphology, enables us to recover an unbiased estimate of the shear on realistic galaxies, thus solving the model bias.
翻訳日:2022-10-31 17:17:00 公開日:2022-10-28
# 事前学習音声モデルを用いた音響単語埋め込みの分析

Analyzing Acoustic Word Embeddings from Pre-trained Self-supervised Speech Models ( http://arxiv.org/abs/2210.16043v1 )

ライセンス: Link先を確認
Ramon Sanabria, Hao Tang, Sharon Goldwater(参考訳) 音響単語埋め込み(AWE)のための自己教師型表現を探索する研究は,様々なタスクにおける自己教師型モデルによる強い結果が得られている。 本研究では,AWEを自己教師付き表現で構築するための事前学習モデルとプーリング手法について検討する。 自己教師付き表現の文脈的性質から、平均化のような単純なプーリング手法は、既にAWEの構築に有用かもしれないと仮定する。 標準的な単語識別タスクで評価すると、平均プールのHuBERT表現が英語AWEの最先端技術に匹敵することがわかった。 さらに驚くべきことに、英語でしか訓練されていないにもかかわらず、Xitsonga、Mandarin、フランス語で評価された HuBERT の表現は多言語モデル XLSR-53 よりも一貫して優れていた。

Given the strong results of self-supervised models on various tasks, there have been surprisingly few studies exploring self-supervised representations for acoustic word embeddings (AWE), fixed-dimensional vectors representing variable-length spoken word segments. In this work, we study several pre-trained models and pooling methods for constructing AWEs with self-supervised representations. Owing to the contextualized nature of self-supervised representations, we hypothesize that simple pooling methods, such as averaging, might already be useful for constructing AWEs. When evaluating on a standard word discrimination task, we find that HuBERT representations with mean-pooling rival the state of the art on English AWEs. More surprisingly, despite being trained only on English, HuBERT representations evaluated on Xitsonga, Mandarin, and French consistently outperform the multilingual model XLSR-53 (as well as Wav2Vec 2.0 trained on English).
翻訳日:2022-10-31 17:11:02 公開日:2022-10-28
# 音響コンディショニング, 発話埋め込み, 参照エンコーダを用いたゼロショットテキスト音声編集に向けて

Towards zero-shot Text-based voice editing using acoustic context conditioning, utterance embeddings, and reference encoders ( http://arxiv.org/abs/2210.16045v1 )

ライセンス: Link先を確認
Jason Fong, Yun Wang, Prabhav Agrawal, Vimal Manohar, Jilong Wu, Thilo K\"ohler, Qing He(参考訳) テキストベースの音声編集(TBVE)は、テキスト音声合成システム(TTS)からの合成出力を使用して、オリジナル録音中の単語を置き換える。 最近の研究では、明快さ、話者のアイデンティティ、韻律の観点で元の音声と類似した編集された音声を生成するために神経モデルを用いている。 しかし、事前作業の1つの制限は、パフォーマンスを最適化するために微調整を使用することである。これは、潜在的にセンシティブなデータをサーバーサイドモデルに組み込むコストのかかるプロセスである、ターゲットスピーカーからのデータに対するさらなるモデルのトレーニングを必要とする。 対照的に、この研究はゼロショットのアプローチに重点を置いており、その代わりに事前訓練された話者検証の埋め込みと、共同で訓練された参照エンコーダを用いて、話者識別や韻律などの側面を捉えるのに役立つ発話レベル情報を符号化している。 主観的聴取テストでは、発話埋め込みと参照エンコーダの両方が、編集された合成音声とゼロショット設定における未編集のオリジナル録音との間の話者識別と韻律の連続性を改善する。

Text-based voice editing (TBVE) uses synthetic output from text-to-speech (TTS) systems to replace words in an original recording. Recent work has used neural models to produce edited speech that is similar to the original speech in terms of clarity, speaker identity, and prosody. However, one limitation of prior work is the usage of finetuning to optimise performance: this requires further model training on data from the target speaker, which is a costly process that may incorporate potentially sensitive data into server-side models. In contrast, this work focuses on the zero-shot approach which avoids finetuning altogether, and instead uses pretrained speaker verification embeddings together with a jointly trained reference encoder to encode utterance-level information that helps capture aspects such as speaker identity and prosody. Subjective listening tests find that both utterance embeddings and a reference encoder improve the continuity of speaker identity and prosody between the edited synthetic speech and unedited original recording in the zero-shot setting.
翻訳日:2022-10-31 17:10:34 公開日:2022-10-28
# dynamic latent perceiversを用いた効率的な音声翻訳

Efficient Speech Translation with Dynamic Latent Perceivers ( http://arxiv.org/abs/2210.16264v1 )

ライセンス: Link先を確認
Ioannis Tsiamas, Gerard I. G\'allego, Jos\'e A. R. Fonollosa, Marta R. Costa-juss\'a(参考訳) 近年、トランスフォーマーは音声翻訳の主要なアーキテクチャであり、翻訳品質が大幅に向上している。 音声信号はテキスト信号よりも長く、変圧器の二次的な複雑さのため、音声翻訳に採用するにはダウンサンプリングのステップが不可欠である。 そこで本研究では,Perceiverエンコーダを用いて音声入力を固定長の潜在表現にマッピングすることで,複雑さを軽減することを提案する。 さらに、動的遅延アクセス(DLA)を用いて、計算オーバーヘッドを伴わずにより大きな潜在空間をアンロックするパーシーバーのトレーニング方法を導入する。 DLAによる音声からテキストへの知覚は、 MuST-C の3つの言語対間での変換器ベースラインのパフォーマンスと一致する。 最後に、DLA学習モデルは推論時に容易にDLAに適応でき、様々な計算予算で柔軟に展開できるが、翻訳品質は大幅に低下しない。

Transformers have been the dominant architecture for Speech Translation in recent years, achieving significant improvements in translation quality. Since speech signals are longer than their textual counterparts, and due to the quadratic complexity of the Transformer, a down-sampling step is essential for its adoption in Speech Translation. Instead, in this research, we propose to ease the complexity by using a Perceiver encoder to map the speech inputs to a fixed-length latent representation. Furthermore, we introduce a novel way of training Perceivers, with Dynamic Latent Access (DLA), unlocking larger latent spaces without any additional computational overhead. Speech-to-Text Perceivers with DLA can match the performance of a Transformer baseline across three language pairs in MuST-C. Finally, a DLA-trained model is easily adaptable to DLA at inference, and can be flexibly deployed with various computational budgets, without significant drops in translation quality.
翻訳日:2022-10-31 17:10:05 公開日:2022-10-28
# 共学習型マルチモダリティpet-ct機能のためのハイパーコネクテッドトランスフォーマーネットワーク

Hyper-Connected Transformer Network for Co-Learning Multi-Modality PET-CT Features ( http://arxiv.org/abs/2210.15808v1 )

ライセンス: Link先を確認
Lei Bi, Xiaohang Fu, Qiufang Liu, Shaoli Song, David Dagan Feng, Michael Fulham, Jinman Kim(参考訳) 18F]-フルオロデオキシグルコース(FDG)ポジトロントモグラフィー(PET-CT)は,多くの癌を診断するための画像モダリティとなっている。 PET-CT画像の同時学習は, 自動腫瘍分割とコンピュータ支援癌診断システムの開発に必須である。 本稿では,マルチモダリティpet-ct画像に対して,トランスフォーマーネットワーク(tn)とハイパーコネクテッドフュージョンを統合したハイパーコネクテッドトランスフォーマー(hct)ネットワークを提案する。 tnは、画像全体のコンテキスト情報をキャプチャするセルフアテンション機構を備えたイメージパッチ埋め込みを使用することで、画像特徴学習にグローバル依存性を提供する能力として活用された。 我々はTNの単一モダリティ定義を複数のTNベースブランチで拡張し,画像の特徴を別々に抽出した。 我々は、複数のトランスフォーマーにまたがる文脈的および補完的な画像特徴を反復的に融合するハイパーコネクテッドフュージョンを導入した。 2つの非小細胞肺癌と軟部肉腫のデータセットを用いた結果から,hctは最先端法と比較して分節精度が向上した。 また,HCTは画像融合戦略やネットワークバックボーンに対して一貫した性能を示す。

[18F]-Fluorodeoxyglucose (FDG) positron emission tomography - computed tomography (PET-CT) has become the imaging modality of choice for diagnosing many cancers. Co-learning complementary PET-CT imaging features is a fundamental requirement for automatic tumor segmentation and for developing computer aided cancer diagnosis systems. We propose a hyper-connected transformer (HCT) network that integrates a transformer network (TN) with a hyper connected fusion for multi-modality PET-CT images. The TN was leveraged for its ability to provide global dependencies in image feature learning, which was achieved by using image patch embeddings with a self-attention mechanism to capture image-wide contextual information. We extended the single-modality definition of TN with multiple TN based branches to separately extract image features. We introduced a hyper connected fusion to fuse the contextual and complementary image features across multiple transformers in an iterative manner. Our results with two non-small cell lung cancer and soft-tissue sarcoma datasets show that HCT achieved better performance in segmentation accuracy when compared to state-of-the-art methods. We also show that HCT produces consistent performance across various image fusion strategies and network backbones.
翻訳日:2022-10-31 17:09:37 公開日:2022-10-28
# deepfake検出と局所化のための空間-時間的特徴の探索

Exploring Spatial-Temporal Features for Deepfake Detection and Localization ( http://arxiv.org/abs/2210.15872v1 )

ライセンス: Link先を確認
Wu Haiwei and Zhou Jiantao and Zhang Shile and Tian Jinyu(参考訳) 近年のディープフェイク法医学の継続的な研究により、ビデオレベルでの粗い分類に加えて、偽造物の微粒な局在化を試みている。 しかし,既存のDeepfake法定法の検出とローカライズ性能には,さらなる改善の余地が十分にある。 本研究では,空間的・時間的特徴を同時に探索する空間的・時間的深度検出・局所化(ST-DDL)ネットワークを提案する。 具体的には,顔のマイクロ表現の精密な幾何学的動きをモデル化し,時間的(運動)特徴を抽出する新しいアンカー・メッシュ・モーション(amm)アルゴリズムを設計する。 移動物体を模擬する従来の動き抽出法(光流など)と比較して,提案したAMMは,動きの小さい顔の特徴をよりよく捉えることができる。 時間的特徴と空間的特徴は、最終的にDeepfakeの法医学的タスクのためのTransformerアーキテクチャに基づいてFusion Attention(FA)モジュールに融合される。 st-ddlネットワークの優位性は,映像および画素レベルの検出とローカライズ性能の両面において,最先端の競合企業との実験的比較によって検証される。 さらに, ディープフェイク法医学の今後の展開を促すために, 6000本のビデオからなる公開偽造データセットを構築し, 広く使用されている商用ソフトウェア(例えばafter effects)の使用, オンラインソーシャルネットワークの送信バージョンの提供, マルチソースビデオのスプライシングなど, 多数の新機能を盛り込んだ。 ソースコードとデータセットはhttps://github.com/HighwayWu/ST-DDLで公開されている。

With the continuous research on Deepfake forensics, recent studies have attempted to provide the fine-grained localization of forgeries, in addition to the coarse classification at the video-level. However, the detection and localization performance of existing Deepfake forensic methods still have plenty of room for further improvement. In this work, we propose a Spatial-Temporal Deepfake Detection and Localization (ST-DDL) network that simultaneously explores spatial and temporal features for detecting and localizing forged regions. Specifically, we design a new Anchor-Mesh Motion (AMM) algorithm to extract temporal (motion) features by modeling the precise geometric movements of the facial micro-expression. Compared with traditional motion extraction methods (e.g., optical flow) designed to simulate large-moving objects, our proposed AMM could better capture the small-displacement facial features. The temporal features and the spatial features are then fused in a Fusion Attention (FA) module based on a Transformer architecture for the eventual Deepfake forensic tasks. The superiority of our ST-DDL network is verified by experimental comparisons with several state-of-the-art competitors, in terms of both video- and pixel-level detection and localization performance. Furthermore, to impel the future development of Deepfake forensics, we build a public forgery dataset consisting of 6000 videos, with many new features such as using widely-used commercial software (e.g., After Effects) for the production, providing online social networks transmitted versions, and splicing multi-source videos. The source code and dataset are available at https://github.com/HighwayWu/ST-DDL.
翻訳日:2022-10-31 17:09:15 公開日:2022-10-28
# タンパー局在と自己回復のための画像免疫の学習

Learning to Immunize Images for Tamper Localization and Self-Recovery ( http://arxiv.org/abs/2210.15902v1 )

ライセンス: Link先を確認
Qichao Ying, Hang Zhou, Zhenxing Qian, Sheng Li, Xinpeng Zhang(参考訳) デジタル画像は、コンテンツの追加や削除といった、本来の意味を著しく変える不正な改ざん攻撃に対して脆弱である。 様々な種類のウイルスに開放された保護のない人のようなものです。 画像免疫(いむげ)は、自明な摂動を導入して画像を保護する技術であり、保護された画像がウイルスに免疫し、改ざんされた内容を自動的に回収することができる。 本稿では,画像免疫の強化手法であるImuge+について述べる。 画像免疫とそれに対応する自己回復の関係を可逆的に観察することにより、画像免疫と逆行性回復を同時に学習する可逆ニューラルネットワークを用いる。 また,悪質なタンパーと良性な画像後処理の両方を含む効率的な攻撃層を導入し,新しい蒸留方式のJPEGシミュレータを提案し,JPEGの堅牢性を向上させる。 提案手法は,精度の高いタンパの局所化と高忠実度コンテンツの回復を示す実世界の実験において有望な結果が得られる。 さらに, 受動法医学に基づく最先端のスキームと比較して, タンパー局在の優れた性能を示す。

Digital images are vulnerable to nefarious tampering attacks such as content addition or removal that severely alter the original meaning. It is somehow like a person without protection that is open to various kinds of viruses. Image immunization (Imuge) is a technology of protecting the images by introducing trivial perturbation, so that the protected images are immune to the viruses in that the tampered contents can be auto-recovered. This paper presents Imuge+, an enhanced scheme for image immunization. By observing the invertible relationship between image immunization and the corresponding self-recovery, we employ an invertible neural network to jointly learn image immunization and recovery respectively in the forward and backward pass. We also introduce an efficient attack layer that involves both malicious tamper and benign image post-processing, where a novel distillation-based JPEG simulator is proposed for improved JPEG robustness. Our method achieves promising results in real-world tests where experiments show accurate tamper localization as well as high-fidelity content recovery. Additionally, we show superior performance on tamper localization compared to state-of-the-art schemes based on passive forensics.
翻訳日:2022-10-31 17:08:46 公開日:2022-10-28
# Long-HOT: 長距離物体輸送のためのモジュラ階層的アプローチ

Long-HOT: A Modular Hierarchical Approach for Long-Horizon Object Transport ( http://arxiv.org/abs/2210.15908v1 )

ライセンス: Link先を確認
Sriram Narayanan, Dinesh Jayaraman, Manmohan Chandraker(参考訳) 我々は、時間的拡張ナビゲーションのための新しいオブジェクトトランスポートタスクと新しいモジュラーフレームワークを提案することにより、長距離探査と航法における重要な課題に対処する。 私たちの最初の貢献は、エージェントが目標の場所に、ロード制約とコンテナへのオプションアクセスを伴い、目的のオブジェクトを効率的に見つけて取り出す必要がある、深層探査とロングホリゾン計画に焦点を当てた、新しいロングホットな環境の設計です。 さらに,重み付けされたフロンティアの助けを借りて探索を行うために,シーンのトポロジカルグラフを構築するモジュラー階層輸送ポリシー(htp)を提案する。 我々の階層的なアプローチは、探索された場所内のポイントゴールに到達するための動き計画アルゴリズムと、未知の場所におけるセマンティックターゲットに向かうためのオブジェクトナビゲーションポリシーを組み合わせています。 提案したHabitatトランスポートタスクとMultiOnベンチマークの両方の実験により,本手法がベースラインと先行作業を大幅に上回ることを示す。 さらに,作業の単純バージョンのみをトレーニングすることで,より複雑な輸送シーンに有意義な一般化を示すことによって,長距離輸送に対するモジュール方式の有効性を検証する。

We address key challenges in long-horizon embodied exploration and navigation by proposing a new object transport task and a novel modular framework for temporally extended navigation. Our first contribution is the design of a novel Long-HOT environment focused on deep exploration and long-horizon planning where the agent is required to efficiently find and pick up target objects to be carried and dropped at a goal location, with load constraints and optional access to a container if it finds one. Further, we propose a modular hierarchical transport policy (HTP) that builds a topological graph of the scene to perform exploration with the help of weighted frontiers. Our hierarchical approach uses a combination of motion planning algorithms to reach point goals within explored locations and object navigation policies for moving towards semantic targets at unknown locations. Experiments on both our proposed Habitat transport task and on MultiOn benchmarks show that our method significantly outperforms baselines and prior works. Further, we validate the effectiveness of our modular approach for long-horizon transport by demonstrating meaningful generalization to much harder transport scenes with training only on simpler versions of the task.
翻訳日:2022-10-31 17:08:28 公開日:2022-10-28
# ib-u-nets: 3次元インダクティブバイアスカーネルによる医用画像分割タスクの改善

IB-U-Nets: Improving medical image segmentation tasks with 3D Inductive Biased kernels ( http://arxiv.org/abs/2210.15949v1 )

ライセンス: Link先を確認
Shrajan Bhandary and Zahra Babaiee and Dejan Kostyszyn and Tobias Fechter and Constantinos Zamboglou and Anca-Ligia Grosu and Radu Grosu(参考訳) 3D医療画像のセグメンテーションのための畳み込みニューラルネットワークの成功にもかかわらず、現在使われているアーキテクチャは、異なるスキャナーのプロトコルやそれらが生成するさまざまな画像特性に十分な堅牢性を持っていない。 さらに,注釈付き領域を持つ大規模データセットへのアクセスは困難であり,良好な結果を得ることは困難である。 これらの課題を克服するために,脊椎動物の視覚処理に触発された誘導バイアスを持つ新しいアーキテクチャであるib-u-netsを紹介する。 3D U-Netをベースとして、第2エンコーダブロックに2つの残留成分を付加する。 それらは誘導バイアスを提供し、U-Netsが堅牢性と精度を高めた3D画像から解剖学的構造を分割するのに役立つ。 IB-U-Netsと最先端の3D U-Netsを,データ処理,拡張,クロスバリデーションを含む同一のトレーニングおよびテストパイプラインを用いて,前立腺や脾臓などの複数のモードおよび臓器で比較した。 IB-U-Netsの強靭性と精度は,医用画像解析の典型例のように,特に小データセットにおいて優れていた。 IB-U-Netsのソースコードとモデルが公開されている。

Despite the success of convolutional neural networks for 3D medical-image segmentation, the architectures currently used are still not robust enough to the protocols of different scanners, and the variety of image properties they produce. Moreover, access to large-scale datasets with annotated regions of interest is scarce, and obtaining good results is thus difficult. To overcome these challenges, we introduce IB-U-Nets, a novel architecture with inductive bias, inspired by the visual processing in vertebrates. With the 3D U-Net as the base, we add two 3D residual components to the second encoder blocks. They provide an inductive bias, helping U-Nets to segment anatomical structures from 3D images with increased robustness and accuracy. We compared IB-U-Nets with state-of-the-art 3D U-Nets on multiple modalities and organs, such as the prostate and spleen, using the same training and testing pipeline, including data processing, augmentation and cross-validation. Our results demonstrate the superior robustness and accuracy of IB-U-Nets, especially on small datasets, as is typically the case in medical-image analysis. IB-U-Nets source code and models are publicly available.
翻訳日:2022-10-31 17:08:07 公開日:2022-10-28
# 非制御環境における画像歪み下での物体検出のベンチマーク性能

Benchmarking performance of object detection under image distortions in an uncontrolled environment ( http://arxiv.org/abs/2210.15999v1 )

ライセンス: Link先を確認
Ayman Beghdadi, Malik Mallem, Lotfi Beji(参考訳) オブジェクト検出アルゴリズムのロバスト性は、実世界のアプリケーション、特に画像取得時の歪みによる制御不能環境において重要な役割を果たす。 物体検出法の性能は, 収差歪みに悩まされていることが証明されている。 本研究では,様々な歪みの画像を重大度で含む専用データセットを用いて,最先端のオブジェクト検出手法の性能評価フレームワークを提案する。 さらに,局所的歪みと大域的歪みを組み合わせたms-cocoデータセットに適用した画像歪み生成の独自の戦略を提案する。 提案するデータセットを用いたトレーニングにより,オブジェクト検出のロバスト性が31.5\%向上することを示した。 最後に、MS-COCOから歪んだ自然画像を含むカスタムデータセットを提供し、一般的な歪みに対するロバスト性をより信頼性の高い評価を行う。 異なる歪みのデータベースと生成ソースコードが公開されています

The robustness of object detection algorithms plays a prominent role in real-world applications, especially in uncontrolled environments due to distortions during image acquisition. It has been proven that the performance of object detection methods suffers from in-capture distortions. In this study, we present a performance evaluation framework for the state-of-the-art object detection methods using a dedicated dataset containing images with various distortions at different levels of severity. Furthermore, we propose an original strategy of image distortion generation applied to the MS-COCO dataset that combines some local and global distortions to reach much better performances. We have shown that training using the proposed dataset improves the robustness of object detection by 31.5\%. Finally, we provide a custom dataset including natural images distorted from MS-COCO to perform a more reliable evaluation of the robustness against common distortions. The database and the generation source codes of the different distortions are made publicly available
翻訳日:2022-10-31 17:07:44 公開日:2022-10-28
# ランク制約最適化問題に対するDantzig-Wolfe緩和の効果について

On the Exactness of Dantzig-Wolfe Relaxation for Rank Constrained Optimization Problems ( http://arxiv.org/abs/2210.16191v1 )

ライセンス: Link先を確認
Yongchun Li and Weijun Xie(参考訳) 本稿では,m の2辺の線形制約付き閉ランク制約領域を交差させるよりも,線形目的関数の最小化を目的としたランク制約最適化問題 (RCOP) について検討する。 閉じた凸部によって設定された領域を置き換えることで、RCOPの凸部Dantzig-Wolfe Relaxation(DWR)が得られる。 我々の目標は、DWRとRCOPが極端点、凸殻、および目的値の意味で等価である必要かつ十分な条件を特徴づけることである。 より正確には、DWR 実現可能な集合が 2 つの視点から m 個の線型制約に対して RCOP と一致するときの、最初の必要十分条件を開発する。 (i)極点完全性 --dwr実現可能集合の極端点はすべてrcopの極端点に属する。) (ii) 凸船体精度 -- DWR 実現可能な集合は RCOP 実現可能な集合の閉凸船体と同一である。 最適化の観点からも検討する。 (iii) 目的性 -- dwr と rcop の最適値は、任意の $m$ の線形制約と線形目的関数の族と一致する。 DWR が線形目的関数の 4 つの好ましいクラスをそれぞれ認めているとき、まず必要な条件と十分な目的精度の条件を導出する。 本稿では,2次制約付き2次プログラム(QCQP)と公正な教師なし学習において,提案した条件が既存の精度を洗練・拡張する方法について述べる。

This paper studies the rank constrained optimization problem (RCOP) that aims to minimize a linear objective function over intersecting a prespecified closed rank constrained domain set with m two-sided linear constraints. Replacing the domain set by its closed convex hull offers us a convex Dantzig-Wolfe Relaxation (DWR) of the RCOP. Our goal is to characterize necessary and sufficient conditions under which the DWR and RCOP are equivalent in the sense of extreme point, convex hull, and objective value. More precisely, we develop the first-known necessary and sufficient conditions about when the DWR feasible set matches that of RCOP for any m linear constraints from two perspectives: (i) extreme point exactness -- all extreme points in the DWR feasible set belong to that of the RCOP; and (ii) convex hull exactness -- the DWR feasible set is identical to the closed convex hull of RCOP feasible set. From the optimization view, we also investigate (iii) objective exactness -- the optimal values of the DWR and RCOP coincide for any $m$ linear constraints and a family of linear objective functions. We derive the first-known necessary and sufficient conditions of objective exactness when the DWR admits four favorable classes of linear objective functions, respectively. From the primal perspective, this paper presents how our proposed conditions refine and extend the existing exactness results in the quadratically constrained quadratic program (QCQP) and fair unsupervised learning.
翻訳日:2022-10-31 17:01:35 公開日:2022-10-28
# Few-Shot Text-to-Speech Speaker Adaptationのための残差適応器

Residual Adapters for Few-Shot Text-to-Speech Speaker Adaptation ( http://arxiv.org/abs/2210.15868v1 )

ライセンス: Link先を確認
Nobuyuki Morioka, Heiga Zen, Nanxin Chen, Yu Zhang, Yifan Ding(参考訳) ターゲット話者にニューラルテキスト音声(TTS)モデルを適用する場合、トレーニング済みのマルチスピーカーバックボーンモデルのパラメータのすべてではない場合、ほとんどを微調整する。 しかしながら、数百の微調整されたニューラルネットワークttsモデルは、それぞれがかなりのフットプリントと別々の計算リソース(加速器やメモリなど)を必要とするため、費用がかかる。 本稿では, 話者適応型ニューラルTS音声を, 自然性や話者類似性を保ちながら数百人の話者に拡張するために, バックボーンモデルに残留アダプタと呼ばれる訓練可能な軽量モジュールを付加したパラメータ効率の良い少数ショット話者適応を提案する。 このアーキテクチャにより、バックボーンモデルは異なるターゲットスピーカー間で共有できる。 実験結果から,提案手法は,完全微調整方式に比べて競合的自然性と話者類似性が得られ,各話者のバックボーンモデルパラメータの$\sim$0.1%しか必要とされないことがわかった。

Adapting a neural text-to-speech (TTS) model to a target speaker typically involves fine-tuning most if not all of the parameters of a pretrained multi-speaker backbone model. However, serving hundreds of fine-tuned neural TTS models is expensive as each of them requires significant footprint and separate computational resources (e.g., accelerators, memory). To scale speaker adapted neural TTS voices to hundreds of speakers while preserving the naturalness and speaker similarity, this paper proposes a parameter-efficient few-shot speaker adaptation, where the backbone model is augmented with trainable lightweight modules called residual adapters. This architecture allows the backbone model to be shared across different target speakers. Experimental results show that the proposed approach can achieve competitive naturalness and speaker similarity compared to the full fine-tuning approaches, while requiring only $\sim$0.1% of the backbone model parameters for each speaker.
翻訳日:2022-10-31 16:59:53 公開日:2022-10-28
# ランダム発話結合を用いたショートビデオ音声認識の改善

Improving short-video speech recognition using random utterance concatenation ( http://arxiv.org/abs/2210.15876v1 )

ライセンス: Link先を確認
Haihua Xu, Van Tung Pham, Yerbolat Khassanov, Yist Lin, Tao Han, Tze Yuan Chong, Yi He, Zejun Ma(参考訳) エンドツーエンドの自動音声認識フレームワークの制限の1つは、列車の発話長が一致しない場合、その性能が損なわれることである。 本稿では,短ビデオ音声認識タスクにおける列車走行時間ミスマッチ問題を軽減するために,ランダム発話結合(RUC)手法を提案する。 具体的には、人間の書き起こした訓練発話は、短時間の自発音声(平均3秒)よりずっと短い傾向にあるが、音声活動検出フロントエンドから発生するテスト発話は、はるかに長い(平均10秒)。 このようなミスマッチは、準最適パフォーマンスにつながる可能性がある。 実験では, 提案手法を用いて, 単語誤り率の最大化(WERR)を約3倍の訓練データサイズ増加と2つの発話結合で達成できる。 実際、提案手法は14言語で平均WERRが平均3.64%となる強力なベースラインモデルよりも一貫して優れている。

One of the limitations in end-to-end automatic speech recognition framework is its performance would be compromised if train-test utterance lengths are mismatched. In this paper, we propose a random utterance concatenation (RUC) method to alleviate train-test utterance length mismatch issue for short-video speech recognition task. Specifically, we are motivated by observations our human-transcribed training utterances tend to be much shorter for short-video spontaneous speech (~3 seconds on average), while our test utterance generated from voice activity detection front-end is much longer (~10 seconds on average). Such a mismatch can lead to sub-optimal performance. Experimentally, by using the proposed RUC method, the best word error rate reduction (WERR) can be achieved with around three fold training data size increase as well as two utterance concatenation for each. In practice, the proposed method consistently outperforms the strong baseline models, where 3.64% average WERR is achieved on 14 languages.
翻訳日:2022-10-31 16:59:35 公開日:2022-10-28
# モダリティに特有な大規模事前学習エンコーダを用いたマルチモーダル感情分析

On the Use of Modality-Specific Large-Scale Pre-Trained Encoders for Multimodal Sentiment Analysis ( http://arxiv.org/abs/2210.15937v1 )

ライセンス: Link先を確認
Atsushi Ando, Ryo Masumura, Akihiko Takashima, Satoshi Suzuki, Naoki Makishima, Keita Suzuki, Takafumi Moriya, Takanori Ashihara, Hiroshi Sato(参考訳) 本稿では,マルチモーダル感情分析のためのモダリティ固有の大規模事前学習エンコーダの有効性と実装について検討する。 各種分野における事前学習エンコーダの有効性は報告されているが,従来のMSA法では言語的モダリティのみに使用されており,その応用は検討されていない。 本稿では,大規模な事前学習エンコーダと従来のヒューリスティックな特徴を比較する。 各モダリティのために公開されている最大のプリトレーニングエンコーダの1つ、クリップvit、wavlm、bertは視覚的、音響的、言語的モダリティのために使用される。 2つのデータセットの実験により、ドメイン固有の事前訓練エンコーダを持つメソッドは、単調なシナリオとマルチモーダルなシナリオの両方で従来の機能を持つ方法よりも優れたパフォーマンスが得られることが明らかになった。 また、エンコーダの中間層の出力を出力層の出力よりも使用した方がよいことも分かりました。 コードはhttps://github.com/ando-hub/msa_pretrainで入手できる。

This paper investigates the effectiveness and implementation of modality-specific large-scale pre-trained encoders for multimodal sentiment analysis~(MSA). Although the effectiveness of pre-trained encoders in various fields has been reported, conventional MSA methods employ them for only linguistic modality, and their application has not been investigated. This paper compares the features yielded by large-scale pre-trained encoders with conventional heuristic features. One each of the largest pre-trained encoders publicly available for each modality are used; CLIP-ViT, WavLM, and BERT for visual, acoustic, and linguistic modalities, respectively. Experiments on two datasets reveal that methods with domain-specific pre-trained encoders attain better performance than those with conventional features in both unimodal and multimodal scenarios. We also find it better to use the outputs of the intermediate layers of the encoders than those of the output layer. The codes are available at https://github.com/ando-hub/MSA_Pretrain.
翻訳日:2022-10-31 16:59:19 公開日:2022-10-28
# 事前学習言語モデルを用いたESL音声のフレーズ分割の評価

Assessing Phrase Break of ESL speech with Pre-trained Language Models ( http://arxiv.org/abs/2210.16029v1 )

ライセンス: Link先を確認
Zhiyi Wang, Shaoguang Mao, Wenshan Wu, Yan Xia(参考訳) 本稿では,事前学習型言語モデル(plm)を用いたesl学習者の発話におけるフレーズブレークの評価手法を提案する。 従来の方法とは異なり、この提案は音声をトークン列に変換し、plmのパワーを活用する。 2つのサブタスクがある: 音声クリップにおけるフレーズブレークの全体的な評価、あらゆる可能なフレーズブレーク位置のきめ細かい評価。 音声入力はまずテキストと強制的に一致し、次に単語や関連する句ブレーク情報を含むトークンシーケンスに前処理される。 トークンシーケンスは、事前トレーニングおよび微調整パイプラインに入力される。 事前トレーニングにおいて、交換されたブレークトークン検出モジュールは、各トークンがランダムに置き換えられる一定のパーセンテージの確率を持つトークンデータで訓練される。 微調整では、全体的なスコアリングと微粒度スコアリングをそれぞれテキスト分類とシーケンスラベリングパイプラインで最適化する。 PLMの導入により、ラベル付きトレーニングデータへの依存が大幅に減少し、性能が向上した。

This work introduces an approach to assessing phrase break in ESL learners' speech with pre-trained language models (PLMs). Different with traditional methods, this proposal converts speech to token sequences, and then leverages the power of PLMs. There are two sub-tasks: overall assessment of phrase break for a speech clip; fine-grained assessment of every possible phrase break position. Speech input is first force-aligned with texts, then pre-processed to a token sequence, including words and associated phrase break information. The token sequence is then fed into the pre-training and fine-tuning pipeline. In pre-training, a replaced break token detection module is trained with token data where each token has a certain percentage chance to be randomly replaced. In fine-tuning, overall and fine-grained scoring are optimized with text classification and sequence labeling pipeline, respectively. With the introduction of PLMs, the dependence on labeled training data has been greatly reduced, and performance has improved.
翻訳日:2022-10-31 16:59:04 公開日:2022-10-28
# マルチモーダル感性分析のためのマルチビューコントラスト学習によるモダリティ表現の改善

Improving the Modality Representation with Multi-View Contrastive Learning for Multimodal Sentiment Analysis ( http://arxiv.org/abs/2210.15824v1 )

ライセンス: Link先を確認
Peipei Liu, Xin Zheng, Hong Li, Jie Liu, Yimo Ren, Hongsong Zhu, Limin Sun(参考訳) モダリティ表現学習はマルチモーダル感情分析(MSA)において重要な問題である。 MSAのこれまでの研究は、通常マルチモーダル融合戦略に重点を置いており、モーダル表現学習の深い研究は、あまり注目されなかった。 近年, コントラスト学習は, 識別能力の強い学習表現の実現に有効であることが確認されている。 そこで本研究では, コントラスト学習によるモダリティ表現の改善手法について検討する。 この目的のために,多視点のコントラスト学習を用いた3段階フレームワークを考案し,特定の目的に対する表現を洗練する。 最初の段階では、ユニモーダル表現の改善のために、教師付きコントラスト学習を使用して、同じクラス内でサンプルをプルし、他のサンプルをプッシュする。 第2段階では, クロスモーダル相互作用後の蒸留片側表現の改善のために, 自己指導型コントラスト学習を設計する。 最終的に、教師付きコントラスト学習を再び活用して、融合マルチモーダル表現を強化する。 すべてのコントラストトレーニングの後、次に凍結表現に基づく分類タスクを達成する。 3つのオープンデータセットについて実験を行い,モデルの進歩を示す。

Modality representation learning is an important problem for multimodal sentiment analysis (MSA), since the highly distinguishable representations can contribute to improving the analysis effect. Previous works of MSA have usually focused on multimodal fusion strategies, and the deep study of modal representation learning was given less attention. Recently, contrastive learning has been confirmed effective at endowing the learned representation with stronger discriminate ability. Inspired by this, we explore the improvement approaches of modality representation with contrastive learning in this study. To this end, we devise a three-stages framework with multi-view contrastive learning to refine representations for the specific objectives. At the first stage, for the improvement of unimodal representations, we employ the supervised contrastive learning to pull samples within the same class together while the other samples are pushed apart. At the second stage, a self-supervised contrastive learning is designed for the improvement of the distilled unimodal representations after cross-modal interaction. At last, we leverage again the supervised contrastive learning to enhance the fused multimodal representation. After all the contrast trainings, we next achieve the classification task based on frozen representations. We conduct experiments on three open datasets, and results show the advance of our model.
翻訳日:2022-10-31 16:52:18 公開日:2022-10-28
# システムネットワーク分析: 状態系列の進化と安定ルール

System Network Analytics: Evolution and Stable Rules of a State Series ( http://arxiv.org/abs/2210.15965v1 )

ライセンス: Link先を確認
Animesh Chaturvedi, Aruna Tiwari, Nicolas Spyratos(参考訳) 進化するシステムのシステム進化分析は、状態系列 SS = {S1, S2.} となるため、課題である。 . sn}(すなわち時間順に順序付けられた状態の集合)と複数の相互接続されたエンティティが時間とともに変化する。 複数の状態に存在する興味深い進化規則の安定性特性を示す。 我々は、その安定性を規則が興味深い状態のごく一部として、進化規則を定義した。 広く、安定規則を与えられたしきい値最小安定性(minstab)を超える安定性を持つ進化則と定義した。 永続的エンティティ接続の定量的尺度である永続的メトリックも定義しました。 我々は、minStabを用いてネットワーク進化規則(NER)と安定NER(SNER)を検索するシステムネットワーク分析(SysNet-Analytics)のアプローチとアルゴリズムでこれを説明する。 検索した情報は、提案したSNP(System Network Persistence)メトリックを計算するために使用される。 この作業は、SysNet-Analytics Toolとして自動化され、ソフトウェアシステム、自然言語システム、小売市場システム、IMDbシステムなどの実世界のシステムに適用される。 システム状態系列におけるエンティティ接続の安定性と持続性を定量化した。 これにより、知識発見とデータマイニングに基づくシステム進化分析を支援する進化情報が得られる。

System Evolution Analytics on a system that evolves is a challenge because it makes a State Series SS = {S1, S2... SN} (i.e., a set of states ordered by time) with several inter-connected entities changing over time. We present stability characteristics of interesting evolution rules occurring in multiple states. We defined an evolution rule with its stability as the fraction of states in which the rule is interesting. Extensively, we defined stable rule as the evolution rule having stability that exceeds a given threshold minimum stability (minStab). We also defined persistence metric, a quantitative measure of persistent entity-connections. We explain this with an approach and algorithm for System Network Analytics (SysNet-Analytics), which uses minStab to retrieve Network Evolution Rules (NERs) and Stable NERs (SNERs). The retrieved information is used to calculate a proposed System Network Persistence (SNP) metric. This work is automated as a SysNet-Analytics Tool to demonstrate application on real world systems including: software system, natural-language system, retail market system, and IMDb system. We quantified stability and persistence of entity-connections in a system state series. This results in evolution information, which helps in system evolution analytics based on knowledge discovery and data mining.
翻訳日:2022-10-31 16:51:58 公開日:2022-10-28
# 複雑な適応システムの観点から協調問題解決過程を検討するための人工知能駆動学習分析法

An Artificial Intelligence driven Learning Analytics Method to Examine the Collaborative Problem solving Process from a Complex Adaptive Systems Perspective ( http://arxiv.org/abs/2210.16059v1 )

ライセンス: Link先を確認
Fan Ouyang, Weiqi Xu, Mutlu Cukurova(参考訳) コラボレーティブ問題解決(cps)は、学生グループが学習タスクを完了し、知識を構築し、問題解決を可能にする。 これまでの研究では、複雑な適応システムの観点から、CPSの複雑さ、多モード性、ダイナミクス、シナジーなどを調べることの重要性を論じてきた。 しかし、CPSプロセスの実際の複雑さを単純化した表現に繋がるかもしれないCPSの適応性と時間的特性を調べる実験的な研究は限られている。 オンラインインタラクション設定におけるCPSの性質をさらに理解するため、この研究は多モーダルプロセスとパフォーマンスデータ(音声、コンピュータ画面記録、コンセプトマップデータ)を収集し、AIアルゴリズムと学習分析を統合してグループコラボレーションパターンの規則性を分析する3層分析フレームワークを提案した。 その結果,グループ内の3種類のコラボレーティブパターン,すなわち行動指向コラボレーティブパターン(タイプ)が検出された。 1)中レベルのパフォーマンス,コミュニケーション-行動-相乗的協調パターン(タイプ)との関連 2)ハイレベルパフォーマンスと関連したコミュニケーション指向協調パターン(タイプ) 3)低レベルパフォーマンスに関連する。 この研究は、cpsプロセスにおける適応型自己組織化システムの出現を説明するために、グループ協調パターンのマルチモーダル、動的、相乗的特徴をさらに強調した。

Collaborative problem solving (CPS) enables student groups to complete learning tasks, construct knowledge, and solve problems. Previous research has argued the importance to examine the complexity of CPS, including its multimodality, dynamics, and synergy from the complex adaptive systems perspective. However, there is limited empirical research examining the adaptive and temporal characteristics of CPS which might lead to an oversimplified representation of the real complexity of the CPS process. To further understand the nature of CPS in online interaction settings, this research collected multimodal process and performance data (i.e., verbal audios, computer screen recordings, concept map data) and proposed a three-layered analytical framework that integrated AI algorithms with learning analytics to analyze the regularity of groups collaboration patterns. The results detected three types of collaborative patterns in groups, namely the behaviour-oriented collaborative pattern (Type 1) associated with medium-level performance, the communication - behaviour - synergistic collaborative pattern (Type 2) associated with high-level performance, and the communication-oriented collaborative pattern (Type 3) associated with low-level performance. The research further highlighted the multimodal, dynamic, and synergistic characteristics of groups collaborative patterns to explain the emergence of an adaptive, self-organizing system during the CPS process.
翻訳日:2022-10-31 16:51:38 公開日:2022-10-28
# resus:ctr予測におけるメタラーニングによるコールドユーザウォームアップ

RESUS: Warm-Up Cold Users via Meta-Learning Residual User Preferences in CTR Prediction ( http://arxiv.org/abs/2210.16080v1 )

ライセンス: Link先を確認
Yanyan Shen, Lifan Zhao, Weiyu Cheng, Zibin Zhang, Wenwen Zhou, Kangyi Lin(参考訳) コールドユーザーに対するCTR(Click-Through Rate)予測は、レコメンデーションシステムにおいて難しい課題である。 最近の研究は、数ショットのユーザ表現学習を行うか、最適化ベースのメタ学習を採用する、コールドユーザーチャレンジに取り組むためにメタラーニングを活用している。 しかし, 従来の手法は情報損失や非効率な最適化プロセスに悩まされており, 寒冷地利用者の疎外かつ不適切な選好情報を補完する上で重要なグローバルな選好知識を明示的にモデル化することができない。 本稿では,集団ユーザによって提供されたグローバル選好知識の学習と,個々のユーザの残留選好の学習を分離する,resusという新しい効率的なアプローチを提案する。 具体的には,異なるユーザのインタラクションからグローバルな嗜好知識を取得するために,ユーザ嗜好の推測に共有予測器を用いる。 一方,最寄りの近傍とリッジ回帰予測に基づく2つの効率的なアルゴリズムを開発し,少数のユーザ固有のインタラクションから素早く学習することにより,残差ユーザの嗜好を推定する。 3つの公開データセットに対する大規模な実験により、我々のRESUSアプローチは、様々な最先端手法と比較して、コールドユーザーに対するCTR予測精度を改善するのに効率的で効果的であることが示された。

Click-Through Rate (CTR) prediction on cold users is a challenging task in recommender systems. Recent researches have resorted to meta-learning to tackle the cold-user challenge, which either perform few-shot user representation learning or adopt optimization-based meta-learning. However, existing methods suffer from information loss or inefficient optimization process, and they fail to explicitly model global user preference knowledge which is crucial to complement the sparse and insufficient preference information of cold users. In this paper, we propose a novel and efficient approach named RESUS, which decouples the learning of global preference knowledge contributed by collective users from the learning of residual preferences for individual users. Specifically, we employ a shared predictor to infer basis user preferences, which acquires global preference knowledge from the interactions of different users. Meanwhile, we develop two efficient algorithms based on the nearest neighbor and ridge regression predictors, which infer residual user preferences via learning quickly from a few user-specific interactions. Extensive experiments on three public datasets demonstrate that our RESUS approach is efficient and effective in improving CTR prediction accuracy on cold users, compared with various state-of-the-art methods.
翻訳日:2022-10-31 16:51:16 公開日:2022-10-28
# 信頼できるマルチモーダル動作予測に向けて:評価と解釈可能性

Towards Trustworthy Multi-Modal Motion Prediction: Evaluation and Interpretability ( http://arxiv.org/abs/2210.16144v1 )

ライセンス: Link先を確認
Sandra Carrasco Limeros, Sylwia Majchrowska, Joakim Johnander, Christoffer Petersson, Miguel \'Angel Sotelo, David Fern\'andez Llorca(参考訳) 他の道路エージェントの動きを予測することで、自動運転車は安全かつ効率的な経路計画を行うことができる。 道路エージェントの挙動は多くの要因に依存するため、このタスクは非常に複雑であり、将来の軌道の数は相当である(マルチモーダル)。 マルチモーダル動作予測に対処するほとんどの手法は、解釈可能性に制限のある複雑な機械学習システムに基づいている。 さらに、現在のベンチマークで使用されるメトリクスは、アウトプットの多様性や許容性など、問題のすべての側面を評価していない。 本研究は,信頼に値する人工知能の設計に必要ないくつかの要件に基づき,信頼に値する動き予測システムの設計に向けて進むことを目的とする。 出力の評価基準、堅牢性、解釈可能性に焦点を当てる。 まず、評価指標を総合的に分析し、現在のベンチマークの主なギャップを特定し、新しい総合評価フレームワークを提案する。 さらに,知覚系における雑音をシミュレートして,空間的・時間的ロバスト性を評価する手法を提案する。 本稿では,マルチモーダル動作予測モデルにアタッチ可能な意図予測層を提案し,出力の解釈可能性を高め,評価フレームワークでよりバランスの取れた結果を生成する。 最後に、出力の解釈可能性について、マルチモーダルな軌跡と意図の可視化において異なる要素を探索する調査によって評価する。

Predicting the motion of other road agents enables autonomous vehicles to perform safe and efficient path planning. This task is very complex, as the behaviour of road agents depends on many factors and the number of possible future trajectories can be considerable (multi-modal). Most approaches proposed to address multi-modal motion prediction are based on complex machine learning systems that have limited interpretability. Moreover, the metrics used in current benchmarks do not evaluate all aspects of the problem, such as the diversity and admissibility of the output. In this work, we aim to advance towards the design of trustworthy motion prediction systems, based on some of the requirements for the design of Trustworthy Artificial Intelligence. We focus on evaluation criteria, robustness, and interpretability of outputs. First, we comprehensively analyse the evaluation metrics, identify the main gaps of current benchmarks, and propose a new holistic evaluation framework. In addition, we formulate a method for the assessment of spatial and temporal robustness by simulating noise in the perception system. We propose an intent prediction layer that can be attached to multi-modal motion prediction models to enhance the interpretability of the outputs and generate more balanced results in the proposed evaluation framework. Finally, the interpretability of the outputs is assessed by means of a survey that explores different elements in the visualization of the multi-modal trajectories and intentions.
翻訳日:2022-10-31 16:50:54 公開日:2022-10-28
# アクティブ平衡のゲーム理論的視点:ナッシュ平衡よりも優先された解概念

Game-Theoretical Perspectives on Active Equilibria: A Preferred Solution Concept over Nash Equilibria ( http://arxiv.org/abs/2210.16175v1 )

ライセンス: Link先を確認
Dong-Ki Kim, Matthew Riemer, Miao Liu, Jakob N. Foerster, Gerald Tesauro, Jonathan P. How(参考訳) マルチエージェント学習の設定は、各エージェントが共有環境で他の同時学習エージェントと相互作用するため、シングルエージェント学習よりも本質的に難しい。 多エージェント強化学習における効果的なアプローチは、エージェントの学習過程を考察し、各エージェントの観点から望ましい行動に将来の方針に影響を与えることである。 重要なことに、各エージェントがその行動が収束ポリシーの集合に与える影響を考慮し、長期的な報酬を最大化すれば、結果として生じるマルチエージェントシステムは活発な平衡に達する。 この新しい解の概念は、ナッシュ平衡のような標準解の概念が活性平衡の特別な場合であるような一般的なものであるが、活性平衡が他の解の概念よりも好ましい平衡であるかどうかは不明である。 本稿では,nash平衡が知られている例を詳細に研究し,ゲーム理論的な視点からアクティブ平衡を分析する。 これらの例において、アクティブ平衡とナッシュ平衡を直接比較することにより、アクティブ平衡がナッシュ平衡よりも効果的な解を見出すことが判明し、アクティブ平衡がマルチエージェント学習設定の望ましい解であると結論付けた。

Multiagent learning settings are inherently more difficult than single-agent learning because each agent interacts with other simultaneously learning agents in a shared environment. An effective approach in multiagent reinforcement learning is to consider the learning process of agents and influence their future policies toward desirable behaviors from each agent's perspective. Importantly, if each agent maximizes its long-term rewards by accounting for the impact of its behavior on the set of convergence policies, the resulting multiagent system reaches an active equilibrium. While this new solution concept is general such that standard solution concepts, such as a Nash equilibrium, are special cases of active equilibria, it is unclear when an active equilibrium is a preferred equilibrium over other solution concepts. In this paper, we analyze active equilibria from a game-theoretic perspective by closely studying examples where Nash equilibria are known. By directly comparing active equilibria to Nash equilibria in these examples, we find that active equilibria find more effective solutions than Nash equilibria, concluding that an active equilibrium is the desired solution for multiagent learning settings.
翻訳日:2022-10-31 16:50:35 公開日:2022-10-28
# クラッタに到達する物体に対する環境対応型インタラクティブ運動プリミティブ

Environment-aware Interactive Movement Primitives for Object Reaching in Clutter ( http://arxiv.org/abs/2210.16194v1 )

ライセンス: Link先を確認
Sariah Mghames, Marc Hanheide(参考訳) 環境の状態空間が一方向に制約された2次元(2-d)空間に,物体に到達するための文献上で開発された動き計画戦略の大部分が適用される。 3次元クラッタ空間でターゲットに到達するための研究は少ないが、複雑な場合に適用した場合の性能は限られている。 本研究では, 局所最適化型プランナCHOMPを用いて, クラスタ内で生育する軟質果実を事例として, コンパクトなクラッタ内でターゲットに到達するための制約付き多目的最適化フレームワーク(OptI-ProMP)を提案する。 OptI-ProMPの特徴は、ターゲット地区の静的、動的、およびプッシュ可能なオブジェクトの両方に関連するコストであり、問題の初期化には確率的プリミティブに依存している。 文献からのProMPベースのプランナーとOptI-ProMPをそれぞれ低(3-dofs)と高(7-dofs)のデキスタリティロボット体でシミュレーションした。 その結果, 7-dofsロボットキネマティクスによる衝突・押出コストの最小化に加えて, 静的障害物回避と, 押し出し可能な物体中心からの系統的ドリフトに成功した。

The majority of motion planning strategies developed over the literature for reaching an object in clutter are applied to two dimensional (2-d) space where the state space of the environment is constrained in one direction. Fewer works have been investigated to reach a target in 3-d cluttered space, and when so, they have limited performance when applied to complex cases. In this work, we propose a constrained multi-objective optimization framework (OptI-ProMP) to approach the problem of reaching a target in a compact clutter with a case study on soft fruits grown in clusters, leveraging the local optimisation-based planner CHOMP. OptI-ProMP features costs related to both static, dynamic and pushable objects in the target neighborhood, and it relies on probabilistic primitives for problem initialisation. We tested, in a simulated poly-tunnel, both ProMP-based planners from literature and the OptI-ProMP, on low (3-dofs) and high (7-dofs) dexterity robot body, respectively. Results show collision and pushing costs minimisation with 7-dofs robot kinematics, in addition to successful static obstacles avoidance and systematic drifting from the pushable objects center of mass.
翻訳日:2022-10-31 16:50:18 公開日:2022-10-28
# 複数のメンバーシップ推論攻撃とターゲットモデルによるデータポイントの脆弱性について

On the Vulnerability of Data Points under Multiple Membership Inference Attacks and Target Models ( http://arxiv.org/abs/2210.16258v1 )

ライセンス: Link先を確認
Mauro Conti, Jiaxin Li, and Stjepan Picek(参考訳) メンバーシップ推論攻撃(mias)は、データポイントが機械学習モデルのトレーニングデータにあるかどうかを推測する。 トレーニングデータの中にいるのは、データポイントのプライベートな情報である、という脅威です。 MIAは、トレーニングデータのメンバーまたは非メンバーとして、いくつかのデータポイントを正しく推論する。 直感的には、MIAが正確に検出するデータは脆弱である。 これらのデータポイントは、複数のMIAに影響を受けやすい異なるターゲットモデルに存在する可能性があるので、複数のMIAおよびターゲットモデルの下でのデータポイントの脆弱性を調査する価値がある。 本稿では、データポイントの脆弱性の実態を反映し、複数のMIAおよびターゲットモデルの下で脆弱なデータポイントをキャプチャする新しいメトリクスを定義する。 この分析から、MIAは、全体的な推論性能が低いにもかかわらず、いくつかのデータポイントに対する推論傾向を有する。 さらに,平均攻撃精度が0.5~0.9の範囲の54miasを実装し,スケーラブルで柔軟なvmiap(メンバーシップ推論アタックプラットフォーム)を用いて解析をサポートする。 さらに、従来の手法は、複数のMIAおよび異なるターゲットモデルの下で脆弱なデータポイントを見つけるには適していない。 最後に、脆弱性はデータポイントの特徴ではなく、miaおよびターゲットモデルに関連するものであることを観察する。

Membership Inference Attacks (MIAs) infer whether a data point is in the training data of a machine learning model. It is a threat while being in the training data is private information of a data point. MIA correctly infers some data points as members or non-members of the training data. Intuitively, data points that MIA accurately detects are vulnerable. Considering those data points may exist in different target models susceptible to multiple MIAs, the vulnerability of data points under multiple MIAs and target models is worth exploring. This paper defines new metrics that can reflect the actual situation of data points' vulnerability and capture vulnerable data points under multiple MIAs and target models. From the analysis, MIA has an inference tendency to some data points despite a low overall inference performance. Additionally, we implement 54 MIAs, whose average attack accuracy ranges from 0.5 to 0.9, to support our analysis with our scalable and flexible platform, Membership Inference Attacks Platform (VMIAP). Furthermore, previous methods are unsuitable for finding vulnerable data points under multiple MIAs and different target models. Finally, we observe that the vulnerability is not characteristic of the data point but related to the MIA and target model.
翻訳日:2022-10-31 16:49:55 公開日:2022-10-28
# 角不変性レンズによる領域一般化

Domain Generalization through the Lens of Angular Invariance ( http://arxiv.org/abs/2210.15836v1 )

ライセンス: Link先を確認
Yujie Jin, Xu Chu, Yasha Wang and Wenwu Zhu(参考訳) ドメイン一般化(Domain Generalization, DG)は、複数のソースドメインで訓練された分類器を、ドメインシフトを伴う見えないターゲットドメインに一般化することを目的としている。 既存のDG文学における一般的な普及テーマは、様々な不変仮定を持つ領域不変表現学習である。 ディープニューラルネットワーク(DNN)によって誘導されるマッピングが、ソースドメインをうまく整列させることができれば、そのようなマッピングもターゲットドメインを整列させる。 本稿では,DNNを特徴抽出器として用いて,分散アライメントの要求を緩和する。 具体的には、新しい角度不変性とそれに伴うノルムシフトの仮定を示した。 提案した不変項に基づいて,Angular Invariance Domain Generalization Network (AIDGN) と呼ばれる新しいディープDG手法を提案する。 AIDGNの最適化目標は、von-Mises Fisher (vMF)混合モデルを用いて開発されている。 複数のDGベンチマークデータセットに対する大規模な実験により,提案手法の有効性が検証された。

Domain generalization (DG) aims at generalizing a classifier trained on multiple source domains to an unseen target domain with domain shift. A common pervasive theme in existing DG literature is domain-invariant representation learning with various invariance assumptions. However, prior works restrict themselves to a radical assumption for realworld challenges: If a mapping induced by a deep neural network (DNN) could align the source domains well, then such a mapping aligns a target domain as well. In this paper, we simply take DNNs as feature extractors to relax the requirement of distribution alignment. Specifically, we put forward a novel angular invariance and the accompanied norm shift assumption. Based on the proposed term of invariance, we propose a novel deep DG method called Angular Invariance Domain Generalization Network (AIDGN). The optimization objective of AIDGN is developed with a von-Mises Fisher (vMF) mixture model. Extensive experiments on multiple DG benchmark datasets validate the effectiveness of the proposed AIDGN method.
翻訳日:2022-10-31 16:43:10 公開日:2022-10-28
# DELFI:デリー首都圏における長期空気質予測のための深層混合モデル

DELFI: Deep Mixture Models for Long-term Air Quality Forecasting in the Delhi National Capital Region ( http://arxiv.org/abs/2210.15923v1 )

ライセンス: Link先を確認
Naishadh Parmar, Raunak Shah, Tushar Goswamy, Vatsalya Tandon, Ravi Sahu, Ronak Sutaria, Purushottam Kar, Sachchida Nand Tripathi(参考訳) 気候変動における人的要因の識別と制御は、急速に増大する関心事であり、効果的な政策定式化と実施を可能にする上で重要な役割を担っている。 本稿では, 粒子状物質 (PM) 2.5 濃度の長期予測に有効な深層学習型混合モデル DELFI を提案する。 DELFIの重要な特徴は、予測問題に対するマルチスケールアプローチである。 長期的な短期的および確率的予測において、点予測がより適しているという観察により、正確な予測を24時間前まで行うことができる。 DELFIは、気象データと汚染物質に基づく特徴を組み込んで、2つの部分に分けられる堅牢なモデルを保証する。 (i)過去のデータと同じウィンドウの差分モデリングを行う3つのLong Short-Term Memory(LSTM)ネットワークのスタック (ii)各コンポーネントに注意を向けられる完全接続層。 インドのデリー首都圏(Delhi-NCR)に13の駅を設置した実験による評価では、DELFIは特に非パラメトリックの基準線よりも長期においてはるかに優れた予測を提供している。 デリー-NCRは、2011-2015年に世界の39大都市の中で3番目に高いPMレベルを記録し、DELFIのパフォーマンスは、公衆衛生管理と環境保護を可能にするPMレベルを効果的に長期予測するためのツールとして確立している。

The identification and control of human factors in climate change is a rapidly growing concern and robust, real-time air-quality monitoring and forecasting plays a critical role in allowing effective policy formulation and implementation. This paper presents DELFI, a novel deep learning-based mixture model to make effective long-term predictions of Particulate Matter (PM) 2.5 concentrations. A key novelty in DELFI is its multi-scale approach to the forecasting problem. The observation that point predictions are more suitable in the short-term and probabilistic predictions in the long-term allows accurate predictions to be made as much as 24 hours in advance. DELFI incorporates meteorological data as well as pollutant-based features to ensure a robust model that is divided into two parts: (i) a stack of three Long Short-Term Memory (LSTM) networks that perform differential modelling of the same window of past data, and (ii) a fully-connected layer enabling attention to each of the components. Experimental evaluation based on deployment of 13 stations in the Delhi National Capital Region (Delhi-NCR) in India establishes that DELFI offers far superior predictions especially in the long-term as compared to even non-parametric baselines. The Delhi-NCR recorded the 3rd highest PM levels amongst 39 mega-cities across the world during 2011-2015 and DELFI's performance establishes it as a potential tool for effective long-term forecasting of PM levels to enable public health management and environment protection.
翻訳日:2022-10-31 16:42:56 公開日:2022-10-28
# グラフ表現学習のための一般化ラプラシアン位置符号化

Generalized Laplacian Positional Encoding for Graph Representation Learning ( http://arxiv.org/abs/2210.15956v1 )

ライセンス: Link先を確認
Sohir Maskey, Ali Parviz, Maximilian Thiessen, Hannes St\"ark, Ylli Sadikaj, Haggai Maron(参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データを処理するための主要なツールである。 残念ながら、メッセージパッシングニューラルネットワーク(MPNN)と呼ばれる最も一般的なGNNには、いくつかの基本的な制限がある。 これらの制限を克服するため、最近の研究は位置エンコーディングの考え方をグラフデータに適用した。 本稿では,最近のラプラシアン型位置符号化の成功から着想を得て,グラフの位置符号化スキームの新たなファミリーを定義する。 元の定式化で用いられる2ノルムよりも、より一般的な相似関数へのラプラス埋め込みを定義する最適化問題を一般化することで、これを実現できる。 この位置符号化の族は、p-ノルムを考慮してインスタンス化される。 本稿では、これらの位置符号化スキームを計算し、pytorchに実装し、結果として得られる位置符号化がグラフの異なる特性をどのように捉えるかを示す。 さらに,この位置符号化の新たなファミリーがMPNNの表現力を向上させることを実証した。 最後に,予備実験結果を示す。

Graph neural networks (GNNs) are the primary tool for processing graph-structured data. Unfortunately, the most commonly used GNNs, called Message Passing Neural Networks (MPNNs) suffer from several fundamental limitations. To overcome these limitations, recent works have adapted the idea of positional encodings to graph data. This paper draws inspiration from the recent success of Laplacian-based positional encoding and defines a novel family of positional encoding schemes for graphs. We accomplish this by generalizing the optimization problem that defines the Laplace embedding to more general dissimilarity functions rather than the 2-norm used in the original formulation. This family of positional encodings is then instantiated by considering p-norms. We discuss a method for calculating these positional encoding schemes, implement it in PyTorch and demonstrate how the resulting positional encoding captures different properties of the graph. Furthermore, we demonstrate that this novel family of positional encodings can improve the expressive power of MPNNs. Lastly, we present preliminary experimental results.
翻訳日:2022-10-31 16:42:32 公開日:2022-10-28
# 新型コロナウイルスによる車両利用予測のためのオンライン学習手法

An Online Learning Approach for Vehicle Usage Prediction During COVID-19 ( http://arxiv.org/abs/2210.16002v1 )

ライセンス: Link先を確認
Tobias Lindroth, Axel Svensson, Niklas {\AA}kerblom, Mitra Pourabdollah, Morteza Haghir Chehreghani(参考訳) 現在、より持続可能な輸送への転換が進行中であり、この移行の重要な部分は燃焼機関車からバッテリ電気自動車(bev)への切り替えである。 BEVにはサステナビリティの観点から多くの利点があるが、運転距離の制限や長時間の充電といった問題は燃焼エンジンからの遷移を遅らせる。 これらの問題を緩和する1つの方法は、バッテリーのエネルギー効率を増加させるバッテリーの温熱前処理を行うことである。 しかし、バッテリ熱プリコンディショニングを最適に実行するには、車両の使用パターン、すなわち車両の使用方法と使用時期を知る必要がある。 本研究では,異なるオンライン機械学習モデルを用いて,第1ドライブの1日あたりの出発時間と距離を予測する。 オンライン機械学習モデルは、新型コロナウイルス(COVID-19)パンデミックの間、一連のBEVから収集された歴史的運転データに基づいてトレーニングされ、評価される。 さらに、予測モデルは、その予測の不確実性を定量化するために拡張され、予測が使用されるかどうかのガイダンスとして使用できる。 最適性能予測モデルでは,出発時刻の予測では平均絶対誤差が2.75時間,旅行距離の予測では13.37kmとなる。

Today, there is an ongoing transition to more sustainable transportation, and an essential part of this transition is the switch from combustion engine vehicles to battery electric vehicles (BEVs). BEVs have many advantages from a sustainability perspective, but issues such as limited driving range and long recharge times slow down the transition from combustion engines. One way to mitigate these issues is by performing battery thermal preconditioning, which increases the energy efficiency of the battery. However, to optimally perform battery thermal preconditioning, the vehicle usage pattern needs to be known, i.e., how and when the vehicle will be used. This study attempts to predict the departure time and distance of the first drive each day using different online machine learning models. The online machine learning models are trained and evaluated on historical driving data collected from a fleet of BEVs during the COVID-19 pandemic. Additionally, the prediction models are extended to quantify the uncertainty of their predictions, which can be used as guidance to whether the prediction should be used or dismissed. We show that the best-performing prediction models yield an aggregated mean absolute error of 2.75 hours when predicting departure time and 13.37 km when predicting trip distance.
翻訳日:2022-10-31 16:42:15 公開日:2022-10-28
# 深層学習における損失関数変動の影響評価

Evaluating the Impact of Loss Function Variation in Deep Learning for Classification ( http://arxiv.org/abs/2210.16003v1 )

ライセンス: Link先を確認
Simon Dr\"ager, Jannik Dunkelau(参考訳) 損失関数は、ニューラルネットワークにとって最も重要なハイパーパラメータの1つである。 多くの損失関数はこれまでに設計されており、正しい選択は自明ではない。 しかし、損失関数の選択に関する詳細な正当化は、関連する作業では行われない。 これは、私たちが見ているように、経験的基盤を欠いているディープラーニングコミュニティにおける独創的な考え方の現れです。 本研究では,教師付き分類設定におけるディープニューラルネットワークを考察し,学習結果に対する損失関数の選択の影響を分析する。 ある種の損失関数は準最適に作用するが、kl分岐のような非表現の損失は最先端の選択を著しく上回っており、固定された選択ではなくチューニングされたハイパーパラメータとして損失関数を含める必要性を強調している。

The loss function is arguably among the most important hyperparameters for a neural network. Many loss functions have been designed to date, making a correct choice nontrivial. However, elaborate justifications regarding the choice of the loss function are not made in related work. This is, as we see it, an indication of a dogmatic mindset in the deep learning community which lacks empirical foundation. In this work, we consider deep neural networks in a supervised classification setting and analyze the impact the choice of loss function has onto the training result. While certain loss functions perform suboptimally, our work empirically shows that under-represented losses such as the KL Divergence can outperform the State-of-the-Art choices significantly, highlighting the need to include the loss function as a tuned hyperparameter rather than a fixed choice.
翻訳日:2022-10-31 16:41:58 公開日:2022-10-28
# LegoNet: 高速で正確な非学習アーキテクチャ

LegoNet: A Fast and Exact Unlearning Architecture ( http://arxiv.org/abs/2210.16023v1 )

ライセンス: Link先を確認
Sihao Yu, Fei Sun, Jiafeng Guo, Ruqing Zhang, Xueqi Cheng(参考訳) 機械学習は、トレーニングされたモデルから削除されたリクエストに対する特定のトレーニングサンプルの影響を消すことを目的としている。 削除後の保持データに対するモデルの再学習は、膨大な数のモデルパラメータと再学習サンプルのために効果的だが効率的ではない。 スピードアップには、そのようなパラメータとサンプルを減らすのが自然な方法です。 しかし、そのような戦略は一般にモデル性能の低下につながり、許容できる性能を維持しながら学習効率を向上させることが課題となる。 本稿では, ``fixed encoder + multiple adapters''' というフレームワークを採用した新しいネットワーク,すなわち \textit{LegoNet} を提案する。 我々は、LegoNetのエンコーダ~(表現学習のバックボーン)を修正し、アンラーニング中に再トレーニングが必要なパラメータを減らす。 エンコーダはモデルパラメータの大部分を占めるため、未学習効率は大幅に向上する。 しかし、エンコーダの修正は経験的に大幅なパフォーマンス低下につながる。 性能損失を補うために、エンコーディング~(エンコーダの出力を\ie the output)による予測を推測するために、独立したサブモデルである複数のアダプタのアンサンブルを採用する。 さらに,モデル性能に対する学習効率のさらなるトレードオフを図るために,アダプタのアクティベーション機構を設計する。 このメカニズムにより、各サンプルがアダプタにしか影響しないことが保証されるため、未学習時には、再トレーニングが必要なパラメータとサンプルの両方が削減される。 実証実験では、LegoNetが許容されたパフォーマンスを維持しつつ、高速で正確な未学習を実現し、未学習のベースラインを総合的に上回っていることを確認した。

Machine unlearning aims to erase the impact of specific training samples upon deleted requests from a trained model. Re-training the model on the retained data after deletion is an effective but not efficient way due to the huge number of model parameters and re-training samples. To speed up, a natural way is to reduce such parameters and samples. However, such a strategy typically leads to a loss in model performance, which poses the challenge that increasing the unlearning efficiency while maintaining acceptable performance. In this paper, we present a novel network, namely \textit{LegoNet}, which adopts the framework of ``fixed encoder + multiple adapters''. We fix the encoder~(\ie the backbone for representation learning) of LegoNet to reduce the parameters that need to be re-trained during unlearning. Since the encoder occupies a major part of the model parameters, the unlearning efficiency is significantly improved. However, fixing the encoder empirically leads to a significant performance drop. To compensate for the performance loss, we adopt the ensemble of multiple adapters, which are independent sub-models adopted to infer the prediction by the encoding~(\ie the output of the encoder). Furthermore, we design an activation mechanism for the adapters to further trade off unlearning efficiency against model performance. This mechanism guarantees that each sample can only impact very few adapters, so during unlearning, parameters and samples that need to be re-trained are both reduced. The empirical experiments verify that LegoNet accomplishes fast and exact unlearning while maintaining acceptable performance, synthetically outperforming unlearning baselines.
翻訳日:2022-10-31 16:41:44 公開日:2022-10-28
# 活性化関数学習によるリプシッツ制約ニューラルネットワークの改良

Improving Lipschitz-Constrained Neural Networks by Learning Activation Functions ( http://arxiv.org/abs/2210.16222v1 )

ライセンス: Link先を確認
Stanislas Ducotterd, Alexis Goujon, Pakshal Bohra, Dimitris Perdios, Sebastian Neumayer, Michael Unser(参考訳) リプシッツ制約ニューラルネットワークは、制約のないニューラルネットワークに比べていくつかの利点があり、様々な問題に適用できる。 その結果,近年,深層学習コミュニティに注目が集まっている。 残念ながら、ReLUアクティベーション関数を持つネットワークはそのような制約下では性能が良くないことは理論的にも実証的にも証明されている。 一方、学習可能な1-Lipschitz線形スプラインを持つニューラルネットワークは理論上より表現力が高いことが知られている。 本稿では,2次全変分正規化を用いた関数最適化問題の解であることを示す。 さらに,このような1-Lipschitzディープスプラインニューラルネットワークの学習方法を提案する。 様々なタスクに対する数値実験により、トレーニングされたネットワークが、特にリプシッツ制約されたアーキテクチャに合わせたアクティベーション関数を持つネットワークと一致または上回ることを示した。

Lipschitz-constrained neural networks have several advantages compared to unconstrained ones and can be applied to various different problems. Consequently, they have recently attracted considerable attention in the deep learning community. Unfortunately, it has been shown both theoretically and empirically that networks with ReLU activation functions perform poorly under such constraints. On the contrary, neural networks with learnable 1-Lipschitz linear splines are known to be more expressive in theory. In this paper, we show that such networks are solutions of a functional optimization problem with second-order total-variation regularization. Further, we propose an efficient method to train such 1-Lipschitz deep spline neural networks. Our numerical experiments for a variety of tasks show that our trained networks match or outperform networks with activation functions specifically tailored towards Lipschitz-constrained architectures.
翻訳日:2022-10-31 16:41:17 公開日:2022-10-28
# 実写ボケレンダリングのための適応マスク型ピラミッドネットワーク

Adaptive Mask-based Pyramid Network for Realistic Bokeh Rendering ( http://arxiv.org/abs/2210.16078v1 )

ライセンス: Link先を確認
Konstantinos Georgiadis, Albert Sa\`a-Garriga, Mehmet Kerim Yucel, Anastasios Drosou, Bruno Manganelli(参考訳) ボケ効果は、画像の残りの部分をぼやかしながら物体(または画像の一部)を強調し、視覚的に楽しい芸術効果を生み出す。 モバイルデバイスにおけるセンサベースの制限のため、機械学習(ML)ベースのボケレンダリングは信頼できる代替手段として注目を集めている。 本稿ではMLベースのボケレンダリングにおけるいくつかの改善に焦点を当てる。 一 高解像度画像のオンデバイス性能 二 ユーザが編集可能なマスクでボケ世代を誘導する能力 三 ぼやけた強さを異にする能力 そこで本稿では,Mask-Guided Bokeh Generator (MGBG) ブロックと Laplacian Pyramid Refinement (LPR) ブロックで構成されるAdaptive Mask-based Pyramid Network (AMPN) を提案する。 MGBGは2つの軽量ネットワークを積み重ねてボケ効果を発生させ、LPRはMGBGの出力を精細化し、高解像度のボケ画像を生成する。 達成する i) 軽量でモバイルフレンドリーなデザイン選択を通じて ii)mgbgのスタックネットワーク設計と弱教師付きマスク予測方式、及び 三 ボケ発生を誘導するマスクの強度値を手動又は自動で編集すること。 これらの特徴に加えて, AMPN は EBB! データセットの既存手法と比較して, 競合的, より良い結果が得られる一方で, 代替手法よりも高速で小さくなっていることを示す。

Bokeh effect highlights an object (or any part of the image) while blurring the rest of the image, and creates a visually pleasant artistic effect. Due to the sensor-based limitations on mobile devices, machine learning (ML) based bokeh rendering has gained attention as a reliable alternative. In this paper, we focus on several improvements in ML-based bokeh rendering; i) on-device performance with high-resolution images, ii) ability to guide bokeh generation with user-editable masks and iii) ability to produce varying blur strength. To this end, we propose Adaptive Mask-based Pyramid Network (AMPN), which is formed of a Mask-Guided Bokeh Generator (MGBG) block and a Laplacian Pyramid Refinement (LPR) block. MGBG consists of two lightweight networks stacked to each other to generate the bokeh effect, and LPR refines and upsamples the output of MGBG to produce the high-resolution bokeh image. We achieve i) via our lightweight, mobile-friendly design choices, ii) via the stacked-network design of MGBG and the weakly-supervised mask prediction scheme and iii) via manually or automatically editing the intensity values of the mask that guide the bokeh generation. In addition to these features, our results show that AMPN produces competitive or better results compared to existing methods on the EBB! dataset, while being faster and smaller than the alternatives.
翻訳日:2022-10-31 16:34:59 公開日:2022-10-28
# roma: リアルタイム精度を最大化するランタイムオブジェクト検出

ROMA: Run-Time Object Detection To Maximize Real-Time Accuracy ( http://arxiv.org/abs/2210.16083v1 )

ライセンス: Link先を確認
JunKyu Lee, Blesson Varghese, Hans Vandierendonck(参考訳) 本稿では,動的に変化する映像の内容と検出遅延が検出器のリアルタイム検出精度に与える影響を解析し,解析結果に基づいて新たな実行時精度変動モデル ROMA を提案する。 ROMAは、リアルタイム物体検出精度を最大化するためにラベル情報なしで、一連の検出器から最適な検出器をリアルタイムで選択するように設計されている。 NVIDIA Jetson Nano上で4つのYOLOv4検出器を利用するROMAは、個々のYOLOv4検出器と2つの最先端ランタイム技術と比較して、動的に変化するビデオコンテンツとMOT17DetとMOT20Detデータセットからなる検出遅延のシナリオに対して、リアルタイムの精度を4~37%向上させる。

This paper analyzes the effects of dynamically varying video contents and detection latency on the real-time detection accuracy of a detector and proposes a new run-time accuracy variation model, ROMA, based on the findings from the analysis. ROMA is designed to select an optimal detector out of a set of detectors in real time without label information to maximize real-time object detection accuracy. ROMA utilizing four YOLOv4 detectors on an NVIDIA Jetson Nano shows real-time accuracy improvements by 4 to 37% for a scenario of dynamically varying video contents and detection latency consisting of MOT17Det and MOT20Det datasets, compared to individual YOLOv4 detectors and two state-of-the-art runtime techniques.
翻訳日:2022-10-31 16:34:38 公開日:2022-10-28
# 有益摂動特徴付加による顔認識における逆例の伝達性の向上

Improving Transferability of Adversarial Examples on Face Recognition with Beneficial Perturbation Feature Augmentation ( http://arxiv.org/abs/2210.16117v1 )

ライセンス: Link先を確認
Fengfan Zhou, Hefei Ling, Yuxuan Shi, Jiazhong Chen, Zongyi Li, Qian Wang(参考訳) 顔認識(FR)モデルは、良質な顔画像に知覚不能な摂動を加えることで、敵対的な例によって容易に騙される。 本研究では, FRモデル上での対向例の転送性を向上させるため, BPFA (Beeficial Perturbation Feature Augmentation Attack) と呼ばれる新たな攻撃手法を提案する。 具体的には、バックプロパゲーションステップにおいて、bpfaは予め選択された特徴の勾配を記録し、入力画像上の勾配を用いて、入力画像に副次的な摂動を加える。 次の転送ステップでは、bpfaは記録された勾配を利用して、対応する特徴の入力画像に付加された逆摂動に対してピットできる摂動(すなわち、有益な摂動)を付加する。 上記の2つのステップは、イテレーションの最大数に達する前の最後のバックプロパゲーションステップまで繰り返される。 入力画像に付加される対向摂動の最適化プロセスと、特徴に付加される有益摂動の最適化プロセスは、ミニマックス2プレーヤゲームに対応する。 広範囲にわたる実験により、BPFAはFRに対する最先端の勾配に基づく敵攻撃よりも優れていることが示された。

Face recognition (FR) models can be easily fooled by adversarial examples, which are crafted by adding imperceptible perturbations on benign face images. To improve the transferability of adversarial examples on FR models, we propose a novel attack method called Beneficial Perturbation Feature Augmentation Attack (BPFA), which reduces the overfitting of the adversarial examples to surrogate FR models by the adversarial strategy. Specifically, in the backpropagation step, BPFA records the gradients on pre-selected features and uses the gradient on the input image to craft adversarial perturbation to be added on the input image. In the next forward propagation step, BPFA leverages the recorded gradients to add perturbations(i.e., beneficial perturbations) that can be pitted against the adversarial perturbation added on the input image on their corresponding features. The above two steps are repeated until the last backpropagation step before the maximum number of iterations is reached. The optimization process of the adversarial perturbation added on the input image and the optimization process of the beneficial perturbations added on the features correspond to a minimax two-player game. Extensive experiments demonstrate that BPFA outperforms the state-of-the-art gradient-based adversarial attacks on FR.
翻訳日:2022-10-31 16:34:00 公開日:2022-10-28
# パーシャルパーソナライズされた注意機構を用いた慢性閉塞性肺疾患分類のための連合学習

Federated Learning for Chronic Obstructive Pulmonary Disease Classification with Partial Personalized Attention Mechanism ( http://arxiv.org/abs/2210.16142v1 )

ライセンス: Link先を確認
Yiqing Shen, Baiyun Liu, Ruize Yu, Yudong Wang, Shaokang Wang, Jiangfen Wu, Weidao Chen(参考訳) 慢性閉塞性肺疾患(COPD)は世界で4番目に多い死因である。 しかし, COPD の診断は, 呼吸機能検査と機能的気道制限に大きく依存しており, 特に早期に診断された COPD 患者のかなりの割合を生じる可能性がある。 近年のディープラーニング(DL)の進歩は,CT画像からの COPD の同定に有望な可能性を示唆している。 しかし、ヘテロジニアス症候群と異なる表現型により、あるデータセンターのctで訓練されたdlモデルは、別のセンターの画像の一般化に失敗している。 プライバシーの規則化のため、分散CT画像の1つの中央集中センターへの協調は不可能である。 フェデレーション学習(fl)アプローチは、分散プライベートデータをトレーニング可能にする。 しかし, COPD CT が独立で同一分布しない場合 (Non-IID) では, 通常のFLソリューションは性能劣化に悩まされる。 そこで本研究では,分散型および異種型copd ctsのための視覚トランスフォーマー(vit)に基づくパーソナライズ型連合学習(pfl)手法を提案する。 より具体的には、複数の頭を持つ自己注意層における頭部の一部をパーソナライズし、局所データのパーソナライズされた注意を学習し、他の頭部を共有して共通の注意を抽出する。 我々の知る限りでは、これはVTがPDを識別するためのPFLフレームワークの最初の提案である。 6つの医療センターから収集したデータセットの評価は,畳み込みニューラルネットワークのpflアプローチを上回っている。

Chronic Obstructive Pulmonary Disease (COPD) is the fourth leading cause of death worldwide. Yet, COPD diagnosis heavily relies on spirometric examination as well as functional airway limitation, which may cause a considerable portion of COPD patients underdiagnosed especially at the early stage. Recent advance in deep learning (DL) has shown their promising potential in COPD identification from CT images. However, with heterogeneous syndromes and distinct phenotypes, DL models trained with CTs from one data center fail to generalize on images from another center. Due to privacy regularizations, a collaboration of distributed CT images into one centralized center is not feasible. Federated learning (FL) approaches enable us to train with distributed private data. Yet, routine FL solutions suffer from performance degradation in the case where COPD CTs are not independent and identically distributed (Non-IID). To address this issue, we propose a novel personalized federated learning (PFL) method based on vision transformer (ViT) for distributed and heterogeneous COPD CTs. To be more specific, we partially personalize some heads in multiheaded self-attention layers to learn the personalized attention for local data and retain the other heads shared to extract the common attention. To the best of our knowledge, this is the first proposal of a PFL framework specifically for ViT to identify COPD. Our evaluation of a dataset set curated from six medical centers shows our method outperforms the PFL approaches for convolutional neural networks.
翻訳日:2022-10-31 16:33:38 公開日:2022-10-28
# TripletTrack: Triplet EmbeddingsとLSTMを用いた3次元オブジェクト追跡

TripletTrack: 3D Object Tracking using Triplet Embeddings and LSTM ( http://arxiv.org/abs/2210.16204v1 )

ライセンス: Link先を確認
Nicola Marinello (1), Marc Proesmans (1 and 3), Luc Van Gool (1 and 2 and 3) ((1) KU Leuven/ESAT-PSI, (2) ETH Zurich/CVL, (3) TRACE vzw)(参考訳) 3Dオブジェクトトラッキングは、自動運転システムにおいて重要なタスクである。 システムは周囲の環境に対する認識に不可欠な役割を担っている。 同時に、カメラなどの安価なセンサーのみに依存する自動運転車のアルゴリズムへの関心が高まっている。 本稿では,3次元物体追跡におけるトリプルト埋め込みと運動表現の組み合わせについて検討する。 既製の3Dオブジェクト検出器から始めて,物体を局所的な物体特徴埋め込みと運動記述子で計算した親和性スコアで一致させるトラッキング機構を適用する。 特徴埋め込みは、視覚的な外観とモノクロの3dオブジェクト特性に関する情報を含むように訓練され、モーションディスクリプタはオブジェクトの軌跡の強い表現を提供する。 提案手法は,オブジェクトを効果的に再識別すると同時に,咬合や検出の欠如に対して確実に正確に動作し,異なる視野で再出現を検知できることを示す。 実験により,本手法はnuScenesの最先端を大きなマージンで上回ることがわかった。 また,KITTIの競争結果も得られた。

3D object tracking is a critical task in autonomous driving systems. It plays an essential role for the system's awareness about the surrounding environment. At the same time there is an increasing interest in algorithms for autonomous cars that solely rely on inexpensive sensors, such as cameras. In this paper we investigate the use of triplet embeddings in combination with motion representations for 3D object tracking. We start from an off-the-shelf 3D object detector, and apply a tracking mechanism where objects are matched by an affinity score computed on local object feature embeddings and motion descriptors. The feature embeddings are trained to include information about the visual appearance and monocular 3D object characteristics, while motion descriptors provide a strong representation of object trajectories. We will show that our approach effectively re-identifies objects, and also behaves reliably and accurately in case of occlusions, missed detections and can detect re-appearance across different field of views. Experimental evaluation shows that our approach outperforms state-of-the-art on nuScenes by a large margin. We also obtain competitive results on KITTI.
翻訳日:2022-10-31 16:33:12 公開日:2022-10-28
# ニューラルトピックモデルは壊れているか?

Are Neural Topic Models Broken? ( http://arxiv.org/abs/2210.16162v1 )

ライセンス: Link先を確認
Alexander Hoyle, Pranav Goel, Rupak Sarkar, Philip Resnik(参考訳) 近年,話題モデルの自動評価と人間評価の関係が疑問視されている。 手法開発者は、新しいトピックモデル変種が自動測定に有効であることに賭け、人間の嗜好を近似できないことは、これらのモデルを不確実な場所に配置する。 さらに、既存の評価パラダイムは、しばしば現実世界の使用と区別される。 トピックモデリングにおける実世界の主要なユースケースとしてのコンテンツ分析に動機づけられ、その目的のために、トピックモデルの有効性と信頼性に影響を与える2つの関連する側面、すなわち、推定の安定性と、モデルが発見するカテゴリが、データの人間によって決定されたカテゴリに合致する程度を分析した。 ニューラルトピックモデルは、確立された古典的手法と比較して、両方の点においてより悪くなる。 提案手法は,アンサンブルの構成員に確実に勝ることを示すことにより,両課題の対応に向けて一歩踏み出す。

Recently, the relationship between automated and human evaluation of topic models has been called into question. Method developers have staked the efficacy of new topic model variants on automated measures, and their failure to approximate human preferences places these models on uncertain ground. Moreover, existing evaluation paradigms are often divorced from real-world use. Motivated by content analysis as a dominant real-world use case for topic modeling, we analyze two related aspects of topic models that affect their effectiveness and trustworthiness in practice for that purpose: the stability of their estimates and the extent to which the model's discovered categories align with human-determined categories in the data. We find that neural topic models fare worse in both respects compared to an established classical method. We take a step toward addressing both issues in tandem by demonstrating that a straightforward ensembling method can reliably outperform the members of the ensemble.
翻訳日:2022-10-31 16:32:18 公開日:2022-10-28
# 異性マップ作成のためのステレオマッチングアルゴリズムの比較

Comparison of Stereo Matching Algorithms for the Development of Disparity Map ( http://arxiv.org/abs/2210.15926v1 )

ライセンス: Link先を確認
Hamid Fsian, Vahid Mohammadi, Pierre Gouton, Saeid Minaei(参考訳) ステレオマッチングはコンピュータビジョンにおける3D情報の抽出における古典的な問題の1つだが、精度と処理コストについては議論の余地がある。 マッチング技術とコスト関数の使用は、格差マップの開発において不可欠である。 本稿では,Block Matching (BM), Block Matching with Dynamic Programming (BMDP), Belief Propagation (BP), Gradient Feature Matching (GF), Histogram of Oriented Gradient (HOG) などの6種類のステレオマッチングアルゴリズムの比較検討を行った。 また,平均二乗誤差 (MSE), 絶対差和 (SAD), 正規化相互相関 (NCC) の3つのコスト関数を用いて比較を行った。 この研究で使用されたステレオ画像は、完璧なキャリブレーションと不完全なキャリブレーションを備えたミドルベリー・ステレオデータセットから得られたものである。 その結果,マッチング関数の選択は非常に重要であり,画像特性にも依存することがわかった。 その結果,ほとんどの場合,BPアルゴリズムは95%以上の精度が得られた。

Stereo Matching is one of the classical problems in computer vision for the extraction of 3D information but still controversial for accuracy and processing costs. The use of matching techniques and cost functions is crucial in the development of the disparity map. This paper presents a comparative study of six different stereo matching algorithms including Block Matching (BM), Block Matching with Dynamic Programming (BMDP), Belief Propagation (BP), Gradient Feature Matching (GF), Histogram of Oriented Gradient (HOG), and the proposed method. Also three cost functions namely Mean Squared Error (MSE), Sum of Absolute Differences (SAD), Normalized Cross-Correlation (NCC) were used and compared. The stereo images used in this study were from the Middlebury Stereo Datasets provided with perfect and imperfect calibrations. Results show that the selection of matching function is quite important and also depends on the images properties. Results showed that the BP algorithm in most cases provided better results getting accuracies over 95%.
翻訳日:2022-10-31 16:26:37 公開日:2022-10-28
# psformer:3dサルエント物体検出のためのポイントトランスフォーマ

PSFormer: Point Transformer for 3D Salient Object Detection ( http://arxiv.org/abs/2210.15933v1 )

ライセンス: Link先を確認
Baian Chen, Lipeng Gu, Xin Zhuang, Yiyang Shen, Weiming Wang, Mingqiang Wei(参考訳) 本稿では,3次元サルエント物体検出のための効果的な点変換モデルpsformerを提案する。 PSFormerはエンコーダ・デコーダネットワークであり、トランスフォーマーの利点をフル活用して、マルチスケールのポイントワイドとシーンワイドの両方でコンテキスト情報をモデル化する。 エンコーダでは、ポイントレベルにおける領域的文脈特徴をキャプチャするポイントコンテキストトランスフォーマ(pct)モジュールを開発し、pctはポイント間の関係を掘り下げるために2つの異なるトランスフォーマを含んでいる。 このデコーダでは、シーンレベルでコンテキスト表現を学習するScene Context Transformer (SCT) モジュールを開発し、SCTには、エンコーダからグローバルなセマンティクスとマルチレベルの機能をグローバルなシーンコンテキストに統合するためのupsampling-and-TransformerブロックとMulti-context Aggregationユニットの両方が含まれている。 実験の結果、PSFormerは競合製品よりも明らかに改善されており、PSFormerは、小さなオブジェクト、複数のオブジェクト、複雑な構造を持つオブジェクトといった課題に対してより堅牢であることを示す。

We propose PSFormer, an effective point transformer model for 3D salient object detection. PSFormer is an encoder-decoder network that takes full advantage of transformers to model the contextual information in both multi-scale point- and scene-wise manners. In the encoder, we develop a Point Context Transformer (PCT) module to capture region contextual features at the point level; PCT contains two different transformers to excavate the relationship among points. In the decoder, we develop a Scene Context Transformer (SCT) module to learn context representations at the scene level; SCT contains both Upsampling-and-Transformer blocks and Multi-context Aggregation units to integrate the global semantic and multi-level features from the encoder into the global scene context. Experiments show clear improvements of PSFormer over its competitors and validate that PSFormer is more robust to challenging cases such as small objects, multiple objects, and objects with complex structures.
翻訳日:2022-10-31 16:26:17 公開日:2022-10-28
# グラフト視覚変換器

Grafting Vision Transformers ( http://arxiv.org/abs/2210.15943v1 )

ライセンス: Link先を確認
Jongwoo Park, Kumara Kahatapitiya, Donghyun Kim, Shivchander Sudalairaj, Quanfu Fan, Michael S. Ryoo(参考訳) ビジョントランスフォーマー(ViT)は近年、多くのコンピュータビジョンタスクにおける最先端技術となっている。 畳み込みネットワーク(CNN)とは対照的に、ViTはネットワークの浅い層、すなわち高解像度の機能でもグローバルな情報共有を可能にする。 しかし、後にスウィントランス(swin transformer)のようなピラミッドアーキテクチャが成功し、パフォーマンスと複雑さのトレードオフが向上した。 本稿では,ネットワーク全体のグローバル依存性とマルチスケール情報を考慮した簡易かつ効率的なアドオンコンポーネント(グラフト)を提案する。 GrafTは均一なゲインを示しながら、均一なトランスフォーマーとピラミッドトランスフォーマーの両方で容易に採用できる。 任意の深さで分岐する柔軟性があり、複数のスケールでネットワークを広げる。 このグラフト操作により、バックボーンのパラメータと計算の大部分を共有でき、最小限の複雑さしか加えず、より高収率で実現できる。 実際、グラフトにおける複数スケールの受容野を段階的に複合するプロセスは、局所的な領域間の通信を可能にする。 本稿では,画像分類(imagenet-1k),意味セグメンテーション(ade20k),オブジェクト検出およびインスタンスセグメンテーション(coco2017)など,複数のベンチマークにおいて提案手法の利点を示す。 私たちのコードとモデルは利用可能になります。

Vision Transformers (ViTs) have recently become the state-of-the-art across many computer vision tasks. In contrast to convolutional networks (CNNs), ViTs enable global information sharing even within shallow layers of a network, i.e., among high-resolution features. However, this perk was later overlooked with the success of pyramid architectures such as Swin Transformer, which show better performance-complexity trade-offs. In this paper, we present a simple and efficient add-on component (termed GrafT) that considers global dependencies and multi-scale information throughout the network, in both high- and low-resolution features alike. GrafT can be easily adopted in both homogeneous and pyramid Transformers while showing consistent gains. It has the flexibility of branching-out at arbitrary depths, widening a network with multiple scales. This grafting operation enables us to share most of the parameters and computations of the backbone, adding only minimal complexity, but with a higher yield. In fact, the process of progressively compounding multi-scale receptive fields in GrafT enables communications between local regions. We show the benefits of the proposed method on multiple benchmarks, including image classification (ImageNet-1K), semantic segmentation (ADE20K), object detection and instance segmentation (COCO2017). Our code and models will be made available.
翻訳日:2022-10-31 16:25:56 公開日:2022-10-28
# 光場からのマッチングエントロピーに基づく不均一性推定

Matching entropy based disparity estimation from light field ( http://arxiv.org/abs/2210.15948v1 )

ライセンス: Link先を確認
Ligen Shi (1), Chang Liu (2), Di He (2), Xing Zhao (1), and Jun Qiu (2)(参考訳) マッチングに基づく深さ推定の大きな課題は、閉塞領域と滑らかな領域のミスマッチを防ぐことである。 テクスチャの豊かさ,不均一性の整合性,非閉塞性の3つの特徴を満たす効果的なマッチングウィンドウは,ある程度のミスマッチを防止することができる。 これらの特徴により、光の空間領域におけるマッチングエントロピーを提案し、マッチングウィンドウにおける正しい情報の量を測定することにより、マッチングウィンドウ選択の基準を提供する。 一致したエントロピー正規化に基づいて、一致したコスト忠実度項による深さ推定の最適化モデルを確立する。 最適解を求めるために,2段階適応マッチングアルゴリズムを提案する。 まず、領域タイプを適応的に決定し、オクルディング、オクルード、滑らか、テクスチャ領域を識別する。 次に、マッチングエントロピー基準を用いて、マッチングウィンドウのサイズと形状、および可視的な視点を適応的に選択する。 2段階のプロセスは、効果的なマッチングウィンドウを選択することで、ミスマッチや冗長な計算を削減できる。 合成および実データを用いた実験結果から, 閉塞域および滑らかな領域における深度推定の精度を効果的に向上し, 騒音レベルに強いロバスト性を有することを示す。 そのため、4次元光場データから高精度な深度推定が可能となる。

A major challenge for matching-based depth estimation is to prevent mismatches in occlusion and smooth regions. An effective matching window satisfying three characteristics: texture richness, disparity consistency and anti-occlusion should be able to prevent mismatches to some extent. According to these characteristics, we propose matching entropy in the spatial domain of light field to measure the amount of correct information in a matching window, which provides the criterion for matching window selection. Based on matching entropy regularization, we establish an optimization model for depth estimation with a matching cost fidelity term. To find the optimum, we propose a two-step adaptive matching algorithm. First, the region type is adaptively determined to identify occluding, occluded, smooth and textured regions. Then, the matching entropy criterion is used to adaptively select the size and shape of matching windows, as well as the visible viewpoints. The two-step process can reduce mismatches and redundant calculations by selecting effective matching windows. The experimental results on synthetic and real data show that the proposed method can effectively improve the accuracy of depth estimation in occlusion and smooth regions and has strong robustness for different noise levels. Therefore, high-precision depth estimation from 4D light field data is achieved.
翻訳日:2022-10-31 16:25:33 公開日:2022-10-28
# LBF:ポイントクラウド復調のためのLearnable Bilateral Filter

LBF:Learnable Bilateral Filter For Point Cloud Denoising ( http://arxiv.org/abs/2210.15950v1 )

ライセンス: Link先を確認
Huajian Si, Zeyong Wei, Zhe Zhu, Honghua Chen, Dong Liang, Weiming Wang, Mingqiang Wei(参考訳) バイラテラルフィルタ (BF) は、高速で軽量で効果的な画像デノイングツールであり、ポイントクラウドデノイングまで十分に拡張されている。 しかし、これは連続的かつ手動的なパラメータ調整を伴うことが多く、この不便さによって効率とユーザエクスペリエンスが低下し、満足な認知結果が得られる。 我々は,ポイントクラウドを問うエンドツーエンド学習可能なバイラテラルフィルタリングネットワークであるlmfを提案する。 従来のBFと異なり、LBFはその幾何学的特徴(例えば、角、端、平面)に基づいて各点の適応的パラメータを学習し、残響ノイズを避け、誤って取り除かれた幾何学的詳細と歪んだ形状を学習する。 BFの学習可能なパラダイムに加えて、LBFを促進するための2つのコアがあります。 第一に、局部bfと異なり、lbfは各点のマルチスケールパッチを活用し、グローバルな特徴知覚能力を有する。 第二に、LBFは幾何学的に認識された双方向の射影損失を定式化し、デノイングの結果は基礎となる表面に忠実である。 ユーザは無駄なパラメータチューニングを使わずにLBFを適用でき、最適な denoising 結果が得られます。 実験では、合成データセットと実スキャンデータセットの両方で競合するLBFが明らかに改善されている。

Bilateral filter (BF) is a fast, lightweight and effective tool for image denoising and well extended to point cloud denoising. However, it often involves continual yet manual parameter adjustment; this inconvenience discounts the efficiency and user experience to obtain satisfied denoising results. We propose LBF, an end-to-end learnable bilateral filtering network for point cloud denoising; to our knowledge, this is the first time. Unlike the conventional BF and its variants that receive the same parameters for a whole point cloud, LBF learns adaptive parameters for each point according its geometric characteristic (e.g., corner, edge, plane), avoiding remnant noise, wrongly-removed geometric details, and distorted shapes. Besides the learnable paradigm of BF, we have two cores to facilitate LBF. First, different from the local BF, LBF possesses a global-scale feature perception ability by exploiting multi-scale patches of each point. Second, LBF formulates a geometry-aware bi-directional projection loss, leading the denoising results to being faithful to their underlying surfaces. Users can apply our LBF without any laborious parameter tuning to achieve the optimal denoising results. Experiments show clear improvements of LBF over its competitors on both synthetic and real-scanned datasets.
翻訳日:2022-10-31 16:25:14 公開日:2022-10-28
# VHRリモートセンシング画像のためのフーリエ複素場における文脈学習

Contextual Learning in Fourier Complex Field for VHR Remote Sensing Images ( http://arxiv.org/abs/2210.15972v1 )

ライセンス: Link先を確認
Yan Zhang, Xiyuan Gao, Qingyan Duan, Jiaxu Leng, Xiao Pu, Xinbo Gao(参考訳) 超高分解能(VHR)リモートセンシング(RS)画像分類は、RS画像解析と理解の基本的な課題である。 近年, 変換器を用いたモデルでは, 一般解像度(224×224ピクセル)の自然画像から高次文脈関係を学習し, 一般画像分類タスクにおいて顕著な結果が得られた。 しかし、単純変換器の複雑さは画像サイズの増加とともに2次的に増大し、VHR RS画像(500x500ピクセル)分類やその他の計算コストのかかる下流タスクから変換器ベースのモデルを避ける。 この目的のために, 高価な自己着脱 (sa) を離散フーリエ変換 (dft) により実部と虚部に分け, 効率的な複素自己着脱 (csa) 機構を提案する。 DFTの共役対称性から恩恵を受けることで、CSAは、高次文脈情報を半分以下のSAの計算でモデル化することができる。 フーリエ複素場における勾配爆発を克服するために, ソフトマックス関数を注意深く設計されたlogmax関数に置き換え, csaの注意マップを正規化し, 勾配伝播を安定化する。 CSAブロックの様々な層を積み重ねることで、階層的手法に従ってVHR空中画像から大域的文脈情報を学習するFourier Complex Transformer(FCT)モデルを提案する。 一般的なRS分類データセットを用いて行われた普遍的な実験は、特に高分解能RS画像においてFCTの有効性と効率を示す。

Very high-resolution (VHR) remote sensing (RS) image classification is the fundamental task for RS image analysis and understanding. Recently, transformer-based models demonstrated outstanding potential for learning high-order contextual relationships from natural images with general resolution (224x224 pixels) and achieved remarkable results on general image classification tasks. However, the complexity of the naive transformer grows quadratically with the increase in image size, which prevents transformer-based models from VHR RS image (500x500 pixels) classification and other computationally expensive downstream tasks. To this end, we propose to decompose the expensive self-attention (SA) into real and imaginary parts via discrete Fourier transform (DFT) and therefore propose an efficient complex self-attention (CSA) mechanism. Benefiting from the conjugated symmetric property of DFT, CSA is capable to model the high-order contextual information with less than half computations of naive SA. To overcome the gradient explosion in Fourier complex field, we replace the Softmax function with the carefully designed Logmax function to normalize the attention map of CSA and stabilize the gradient propagation. By stacking various layers of CSA blocks, we propose the Fourier Complex Transformer (FCT) model to learn global contextual information from VHR aerial images following the hierarchical manners. Universal experiments conducted on commonly used RS classification data sets demonstrate the effectiveness and efficiency of FCT, especially on very high-resolution RS images.
翻訳日:2022-10-31 16:24:50 公開日:2022-10-28
# 数発オープンセット物体検出に向けて

Towards Few-Shot Open-Set Object Detection ( http://arxiv.org/abs/2210.15996v1 )

ライセンス: Link先を確認
Binyi Su, Hua Zhang, Zhong Zhou(参考訳) open-set object detection (osod) は、既知のカテゴリを検出し、動的世界の未知のオブジェクトを識別することを目的としている。 しかし、従来のアプローチでは、この問題はデータ・バウンダント条件でのみ考慮されていた。 本手法は, 未知のクラスをすべて検出し, 未知のクラスを識別しながら, 少数のサンプルに基づいて検出者を迅速に訓練することを目的としている。 このタスクの主な課題は、既知のクラスに過度に適合するトレーニングサンプルがほとんどなく、オープンセットのパフォーマンスが低下することです。 本稿では,新しいクラスドロップアウトコサイン分類器 (CDCC) と未知の疎結合学習器 (UDL) を含む新しいFSOSODアルゴリズムであるFOODを提案する。 過剰適合を防ぐため、CDCCは正常化されたニューロンの一部をランダムに不活性化して全てのクラスのロジット予測を行い、その後、クラスと隣人の共適応性を低下させる。 同時に、UDLは未知のクラスを訓練し、モデルがコンパクトな未知の決定境界を形成することを可能にする。 したがって、未知のオブジェクトは、トレーニングのための擬似未知のサンプルなしで、信頼確率で識別することができる。 本手法をいくつかの最先端osod法と比較し,voc-cocoデータセット設定における未知クラスのリコールを5%-9%改善することを確認した。

Open-set object detection (OSOD) aims to detect the known categories and identify unknown objects in a dynamic world, which has achieved significant attentions. However, previous approaches only consider this problem in data-abundant conditions. We seek a solution for few-shot open-set object detection (FSOSOD), which aims to quickly train a detector based on few samples while detecting all known classes and identifying unknown classes. The main challenge for this task is that few training samples tend to overfit on the known classes, and lead to poor open-set performance. We propose a new FSOSOD algorithm to tackle this issue, named FOOD, which contains a novel class dropout cosine classifier (CDCC) and a novel unknown decoupling learner (UDL). To prevent over-fitting, CDCC randomly inactivates parts of the normalized neurons for the logit prediction of all classes, and then decreases the co-adaptability between the class and its neighbors. Alongside, UDL decouples training the unknown class and enables the model to form a compact unknown decision boundary. Thus, the unknown objects can be identified with a confidence probability without any pseudo-unknown samples for training. We compare our method with several state-of-the-art OSOD methods in few-shot scenes and observe that our method improves the recall of unknown classes by 5%-9% across all shots in VOC-COCO dataset setting.
翻訳日:2022-10-31 16:24:24 公開日:2022-10-28
# 医学画像解析における因果表現学習の実態と今後の課題

A Survey on Causal Representation Learning and Future Work for Medical Image Analysis ( http://arxiv.org/abs/2210.16034v1 )

ライセンス: Link先を確認
Changjie Lu(参考訳) 統計的機械学習アルゴリズムは、ベンチマークデータセットで最先端の結果を達成し、多くのタスクで人間を上回っています。 しかし、予測不能な因果関係を持つアウトオブディストリビューションデータと共同創設者は、既存のモデルのパフォーマンスを著しく低下させる。 近年,視覚理解における因果関係問題に対処するために,因果表現学習(CRL)が期待されている。 本調査は,視覚におけるCRLの最近の進歩を示す。 まず,因果推論の基本的な概念を紹介する。 第2に,CRL理論,特に不変リスク最小化の成果と特徴理解と伝達学習の実践的成果を分析した。 最後に,医用画像解析とCRL一般理論の今後の研究方向性を提案する。

Statistical machine learning algorithms have achieved state-of-the-art results on benchmark datasets, outperforming humans in many tasks. However, the out-of-distribution data and confounder, which have an unpredictable causal relationship, significantly degrade the performance of the existing models. Causal Representation Learning (CRL) has recently been a promising direction to address the causal relationship problem in vision understanding. This survey presents recent advances in CRL in vision. Firstly, we introduce the basic concept of causal inference. Secondly, we analyze the CRL theoretical work, especially in invariant risk minimization, and the practical work in feature understanding and transfer learning. Finally, we propose a future research direction in medical image analysis and CRL general theory.
翻訳日:2022-10-31 16:23:56 公開日:2022-10-28
# MagicMix: 拡散モデルとのセマンティックミキシング

MagicMix: Semantic Mixing with Diffusion Models ( http://arxiv.org/abs/2210.16056v1 )

ライセンス: Link先を確認
Jun Hao Liew, Hanshu Yan, Daquan Zhou, Jiashi Feng(参考訳) コーギーのようなコーヒーマシンやトラのようなウサギの姿を想像したことがありますか? 本研究では,2つの異なる意味をブレンドして新しい概念(例えば,corgi + coffee machine -- > corgi-alike coffee machine)を構築することを目的とした,セマンティック・ミキシング(semantic mixed)と呼ばれる新しいタスクを探求することで,これらの質問に答える。 画像内容を変えずに参照スタイルに従って画像がスタイル化されるスタイル転送とは異なり、セマンティックブレンドは2つの異なる概念を意味的に混合し、空間レイアウトと幾何学を保ちながら新しい概念を合成する。 そこで本研究では,事前学習したテキスト条件拡散モデルに基づく,シンプルで効果的な解であるMagicMixを提案する。 そこで本手法は,まず,まず粗いレイアウト(画像の劣化や,テキストのプロンプトが与えられた純粋ガウス雑音からのデノイング)を取得し,続いて条件付きプロンプトを注入して意味混合を行う。 本手法では,空間マスクや再訓練は必要としないが,高い忠実度で新しい物体を合成できる。 混合品質を向上させるため,合成コンテンツに対する制御と柔軟性を向上させるための2つの簡単な戦略を考案した。 本手法では,本手法の柔軟性を実証し,セマンティック・スタイル・トランスファー,新規オブジェクト合成,品種混合,概念除去など,さまざまなダウンストリーム・アプリケーションに対する結果を示す。 さらなる結果はプロジェクトページhttps://magicmix.github.ioにある。

Have you ever imagined what a corgi-alike coffee machine or a tiger-alike rabbit would look like? In this work, we attempt to answer these questions by exploring a new task called semantic mixing, aiming at blending two different semantics to create a new concept (e.g., corgi + coffee machine -- > corgi-alike coffee machine). Unlike style transfer, where an image is stylized according to the reference style without changing the image content, semantic blending mixes two different concepts in a semantic manner to synthesize a novel concept while preserving the spatial layout and geometry. To this end, we present MagicMix, a simple yet effective solution based on pre-trained text-conditioned diffusion models. Motivated by the progressive generation property of diffusion models where layout/shape emerges at early denoising steps while semantically meaningful details appear at later steps during the denoising process, our method first obtains a coarse layout (either by corrupting an image or denoising from a pure Gaussian noise given a text prompt), followed by injection of conditional prompt for semantic mixing. Our method does not require any spatial mask or re-training, yet is able to synthesize novel objects with high fidelity. To improve the mixing quality, we further devise two simple strategies to provide better control and flexibility over the synthesized content. With our method, we present our results over diverse downstream applications, including semantic style transfer, novel object synthesis, breed mixing, and concept removal, demonstrating the flexibility of our method. More results can be found on the project page https://magicmix.github.io
翻訳日:2022-10-31 16:23:44 公開日:2022-10-28
# セミUFormer:イメージデハージングのための半教師付き不確かさ対応変圧器

Semi-UFormer: Semi-supervised Uncertainty-aware Transformer for Image Dehazing ( http://arxiv.org/abs/2210.16057v1 )

ライセンス: Link先を確認
Ming Tong, Yongzhen Wang, Peng Cui, Xuefeng Yan, Mingqiang Wei(参考訳) 画像デハジングは基本だが、コンピュータビジョンでは十分解決されていない。 ほとんどの最先端モデルは合成データで訓練されており、実世界の不安定なシナリオでは性能が低下する。 さらに、決定論的デハズド画像は、その不確かさを無視しながら、通常与える。 ドメインギャップを埋めてデハージング性能を高めるため,Semi-UFormerと呼ばれる半教師付き不確実性対応トランスネットワークを提案する。 Semi-UFormerは実世界のハジーイメージと不確実性ガイダンス情報の両方をうまく活用できる。 特にsemi-uformerは知識蒸留フレームワークをベースにしている。 このような教師と学生のネットワークは、品質劣化のために現実世界のヘイズ情報を効果的に吸収する。 さらに、モデルに不確実性推定ブロックを導入して画素の不確実性表現を推定し、学生ネットワークがより正確にヘイズフリーの画像を生成するのに役立つ誘導信号として使用する。 広範な実験により、セミuformerは合成画像から実世界画像までよく一般化している。

Image dehazing is fundamental yet not well-solved in computer vision. Most cutting-edge models are trained in synthetic data, leading to the poor performance on real-world hazy scenarios. Besides, they commonly give deterministic dehazed images while neglecting to mine their uncertainty. To bridge the domain gap and enhance the dehazing performance, we propose a novel semi-supervised uncertainty-aware transformer network, called Semi-UFormer. Semi-UFormer can well leverage both the real-world hazy images and their uncertainty guidance information. Specifically, Semi-UFormer builds itself on the knowledge distillation framework. Such teacher-student networks effectively absorb real-world haze information for quality dehazing. Furthermore, an uncertainty estimation block is introduced into the model to estimate the pixel uncertainty representations, which is then used as a guidance signal to help the student network produce haze-free images more accurately. Extensive experiments demonstrate that Semi-UFormer generalizes well from synthetic to real-world images.
翻訳日:2022-10-31 16:23:14 公開日:2022-10-28
# AGReE:自動文法読解運動生成システム

AGReE: A system for generating Automated Grammar Reading Exercises ( http://arxiv.org/abs/2210.16302v1 )

ライセンス: Link先を確認
Sophia Chan, Swapna Somasundaran, Debanjan Ghosh, Mengxuan Zhao(参考訳) 本稿では,利用者が入力した節を入力とし,読みながら完結できる文法練習を自動生成する「合意システム」について述べる。 多段練習項目は、句読点、記事、副詞、代名詞、前置詞、動詞、名詞など、様々な文法構成要素に対して生成される。 また,約4,500個のマルチチョイス練習項目を用いた大規模人体評価を行った。 95%の項目に気付き、5人に1人が正しい答えを特定でき、85%のケースでは、選択の中に正しい答えが1つしかないことに同意する。 最後に,誤り分析の結果から,句読点と連接点の誤りが最も多いことがわかった。

We describe the AGReE system, which takes user-submitted passages as input and automatically generates grammar practice exercises that can be completed while reading. Multiple-choice practice items are generated for a variety of different grammar constructs: punctuation, articles, conjunctions, pronouns, prepositions, verbs, and nouns. We also conducted a large-scale human evaluation with around 4,500 multiple-choice practice items. We notice for 95% of items, a majority of raters out of five were able to identify the correct answer and for 85% of cases, raters agree that there is only one correct answer among the choices. Finally, the error analysis shows that raters made the most mistakes for punctuation and conjunctions.
翻訳日:2022-10-31 16:16:56 公開日:2022-10-28
# VLT:視覚言語変換器と参照セグメンテーションのためのクエリ生成

VLT: Vision-Language Transformer and Query Generation for Referring Segmentation ( http://arxiv.org/abs/2210.15871v1 )

ライセンス: Link先を確認
Henghui Ding, Chang Liu, Suchen Wang, Xudong Jiang(参考訳) 本稿では,多モーダル情報間の深い相互作用を促進するためにセグメンテーションを参照する視覚言語変換器(VLT)フレームワークを提案する。 言語表現のダイナミックな強調を理解するには,特に画像と対話する場合には,さまざまな方法がある。 しかし、既存の変圧器作業における学習クエリは、学習後に固定されるため、言語表現のランダム性や膨大な多様性に対処できない。 そこで本稿では,言語表現の多様な理解を表現するために,複数の入力固有のクエリを動的に生成する問合せ生成モジュールを提案する。 これらの多様な理解の中で最良のものを見つけるため、より優れたマスクを生成するために、クエリの集合の対応する応答を選択的に融合するクエリバランスモジュールを提案する。 さらに、多様な言語表現を扱うモデルの能力を高めるため、サンプル間学習は、モデルに異なる言語表現を同じオブジェクトに理解する知識を明示的に付与することを考慮します。 異なる対象オブジェクトの特徴を区別しながら、同じ対象オブジェクトに対して異なる表現の特徴を狭めるために、マスク付きコントラスト学習を導入する。 提案手法は軽量であり,5つのデータセットで一貫したセグメンテーション結果を実現する。

We propose a Vision-Language Transformer (VLT) framework for referring segmentation to facilitate deep interactions among multi-modal information and enhance the holistic understanding to vision-language features. There are different ways to understand the dynamic emphasis of a language expression, especially when interacting with the image. However, the learned queries in existing transformer works are fixed after training, which cannot cope with the randomness and huge diversity of the language expressions. To address this issue, we propose a Query Generation Module, which dynamically produces multiple sets of input-specific queries to represent the diverse comprehensions of language expression. To find the best among these diverse comprehensions, so as to generate a better mask, we propose a Query Balance Module to selectively fuse the corresponding responses of the set of queries. Furthermore, to enhance the model's ability in dealing with diverse language expressions, we consider inter-sample learning to explicitly endow the model with knowledge of understanding different language expressions to the same object. We introduce masked contrastive learning to narrow down the features of different expressions for the same target object while distinguishing the features of different objects. The proposed approach is lightweight and achieves new state-of-the-art referring segmentation results consistently on five datasets.
翻訳日:2022-10-31 16:14:32 公開日:2022-10-28
# GeoGCN:Point Cloud Denoisingのための幾何学的デュアルドメイングラフ畳み込みネットワーク

GeoGCN: Geometric Dual-domain Graph Convolution Network for Point Cloud Denoising ( http://arxiv.org/abs/2210.15913v1 )

ライセンス: Link先を確認
Zhaowei Chen, Peng Li, Zeyong Wei, Honghua Chen, Haoran Xie, Mingqiang Wei, Fu Lee Wang(参考訳) 点雲デノイング(PCD)のための新しい幾何学的二領域グラフ畳み込みネットワークGeoGCNを提案する。 PCDの伝統的な知恵の他に、点雲の幾何学的情報を完全に活用するために、我々は2種類の曲面正規 (Real Normal, RN) を定義し、もう1つは仮想正規 (Virtual Normal, VN) である。 RNはノイズの多い点雲の局所的な詳細を保存し、VNはノイズ発生時の大域的な形状の収縮を避ける。 GeoGCNは、新しいPCDパラダイムである。 1) VNの助けを借りて, 空間ベースGCNによる点位置の回帰を行う。 2) 後続点の主成分分析により初期RNを推定し, 3) 最終的に正常なGCNにより微細なRNを後退させる。 既存のPCD法とは異なり、GeoGCNは2種類の幾何学的専門知識(RNとVN)を利用するだけでなく、トレーニングデータの利点も活用している。 実験により、GeoGCNはノイズロス性と局所的・局所的特徴保存の両方の観点からSOTAよりも優れていた。

We propose GeoGCN, a novel geometric dual-domain graph convolution network for point cloud denoising (PCD). Beyond the traditional wisdom of PCD, to fully exploit the geometric information of point clouds, we define two kinds of surface normals, one is called Real Normal (RN), and the other is Virtual Normal (VN). RN preserves the local details of noisy point clouds while VN avoids the global shape shrinkage during denoising. GeoGCN is a new PCD paradigm that, 1) first regresses point positions by spatialbased GCN with the help of VNs, 2) then estimates initial RNs by performing Principal Component Analysis on the regressed points, and 3) finally regresses fine RNs by normalbased GCN. Unlike existing PCD methods, GeoGCN not only exploits two kinds of geometry expertise (i.e., RN and VN) but also benefits from training data. Experiments validate that GeoGCN outperforms SOTAs in terms of both noise-robustness and local-and-global feature preservation.
翻訳日:2022-10-31 16:14:12 公開日:2022-10-28
# RoChBert:中国のロバストBERTファインチューニングを目指す

RoChBert: Towards Robust BERT Fine-tuning for Chinese ( http://arxiv.org/abs/2210.15944v1 )

ライセンス: Link先を確認
Zihan Zhang, Jinfeng Li, Ning Shi, Bo Yuan, Xiangyu Liu, Rong Zhang, Hui Xue, Donghong Sun and Chao Zhang(参考訳) 幅広いタスクにおける最高のパフォーマンスにもかかわらず、事前訓練された言語モデル(例えばBERT)は敵のテキストに対して脆弱であることが証明されている。 本稿では,より包括的な逆グラフを用いて中国語音声とグリフの機能を事前学習した表現に融合し,より堅牢なbertベースのモデルを構築するためのフレームワークであるrochbertを提案する。 さらに, カリキュラム学習に着想を得て, 中間サンプルと組み合わせて, 逆テキストを用いた学習データセットの強化を提案する。 大規模な実験では、RoChBERTは以前の方法よりも大幅に優れていた。 (i) robust -- RoChBERTは、良質なテキストの精度を犠牲にすることなく、モデルロバスト性を大幅に改善する。 具体的には、防御は無制限攻撃と限定攻撃の成功率をそれぞれ59.43%、39.33%、精度を93.30%低下させる。 (ii)柔軟な-RoChBERTは、様々な言語モデルに容易に拡張でき、様々な下流タスクを優れたパフォーマンスで解決できます。 (iii)効率的な -- RoChBERTは、スクラッチから言語モデルを事前学習することなく、微調整段階に直接適用することができ、提案したデータ拡張手法も低コストである。

Despite of the superb performance on a wide range of tasks, pre-trained language models (e.g., BERT) have been proved vulnerable to adversarial texts. In this paper, we present RoChBERT, a framework to build more Robust BERT-based models by utilizing a more comprehensive adversarial graph to fuse Chinese phonetic and glyph features into pre-trained representations during fine-tuning. Inspired by curriculum learning, we further propose to augment the training dataset with adversarial texts in combination with intermediate samples. Extensive experiments demonstrate that RoChBERT outperforms previous methods in significant ways: (i) robust -- RoChBERT greatly improves the model robustness without sacrificing accuracy on benign texts. Specifically, the defense lowers the success rates of unlimited and limited attacks by 59.43% and 39.33% respectively, while remaining accuracy of 93.30%; (ii) flexible -- RoChBERT can easily extend to various language models to solve different downstream tasks with excellent performance; and (iii) efficient -- RoChBERT can be directly applied to the fine-tuning stage without pre-training language model from scratch, and the proposed data augmentation method is also low-cost.
翻訳日:2022-10-31 16:08:13 公開日:2022-10-28
# ステンソサウルス:多言語誤報へのスタンス分類

Stanceosaurus: Classifying Stance Towards Multilingual Misinformation ( http://arxiv.org/abs/2210.15954v1 )

ライセンス: Link先を確認
Jonathan Zheng, Ashutosh Baheti, Tarek Naous, Wei Xu, and Alan Ritter(参考訳) 英語、ヒンディー語、アラビア語で28,033ツイートからなる新しいコーパスとして、251の誤情報クレームに対するスタンスを付けて紹介する。 われわれが認識している限り、誤情報請求に対する姿勢を示す最大のコーパスである。 ステンソサウルスの主張は、様々な地理的地域や文化をカバーする15の事実検査資料に由来する。 既存のスタンスデータセットとは異なり、暗黙のスタンスを区別するためのサブカテゴリを追加して、よりきめ細かい5クラスラベル戦略を導入します。 我々のコーパスに微調整された事前訓練されたトランスフォーマーベースの姿勢分類器は、トレーニングデータ以外の国からの未確認のクレームと地域クレームを良好に一般化している。 言語横断実験は、ステンソサウルスの多言語モデルの訓練能力を示し、ヒンディー語では53.1 F1、アラビア語では50.4 F1を達成した。 最後に,新たなRumourEval-2019データを用いて,Stanceosaurusの性能向上にドメイン適応法を用いる方法を示す。 stanceosaurusを研究コミュニティに公開し、言語や文化にまたがる誤情報の識別に関するさらなる取り組みを促すことを願っています。

We present Stanceosaurus, a new corpus of 28,033 tweets in English, Hindi, and Arabic annotated with stance towards 251 misinformation claims. As far as we are aware, it is the largest corpus annotated with stance towards misinformation claims. The claims in Stanceosaurus originate from 15 fact-checking sources that cover diverse geographical regions and cultures. Unlike existing stance datasets, we introduce a more fine-grained 5-class labeling strategy with additional subcategories to distinguish implicit stance. Pre-trained transformer-based stance classifiers that are fine-tuned on our corpus show good generalization on unseen claims and regional claims from countries outside the training data. Cross-lingual experiments demonstrate Stanceosaurus' capability of training multi-lingual models, achieving 53.1 F1 on Hindi and 50.4 F1 on Arabic without any target-language fine-tuning. Finally, we show how a domain adaptation method can be used to improve performance on Stanceosaurus using additional RumourEval-2019 data. We make Stanceosaurus publicly available to the research community and hope it will encourage further work on misinformation identification across languages and cultures.
翻訳日:2022-10-31 16:07:51 公開日:2022-10-28
# BEBERT: 効率的で堅牢なバイナリアンサンブルBERT

BEBERT: Efficient and robust binary ensemble BERT ( http://arxiv.org/abs/2210.15976v1 )

ライセンス: Link先を確認
Jiayi Tian, Chao Fang, Haonan Wang and Zhongfeng Wang(参考訳) 事前訓練されたBERTモデルは、自然言語処理(NLP)タスクにおいて顕著な精度を達成した。 しかし、その過剰なパラメータは、エッジデバイスへの効率的なデプロイを妨げる。 BERTモデルのバイナリ化はこの問題を著しく軽減するが、完全精度のモデルに比べて精度が大幅に低下する。 本稿では,精度のギャップを埋めるために,効率的で堅牢なバイナリアンサンブルBERT(BEBERT)を提案する。 我々の知る限りでは、これはバイナリBERTのアンサンブル技術を利用した最初の作品であり、計算効率を維持しながら精度の高いBEBERTが得られる。 さらに,アンサンブル中の知識蒸留処理を除去し,精度を損なうことなくトレーニングプロセスを高速化する。 GLUEベンチマークによる実験結果から,提案したBEBERTは既存のバイナリBERTモデルよりも精度と堅牢性が高く,トレーニング時間の2倍の高速化を実現していることがわかった。 さらに, FLOPの15xと13xを, モデルサイズでそれぞれ保存しながら, 完全精度ベースラインに比べて0.3%の補正精度しか得られなかった。 さらに、BEBERTは圧縮されたBERTの精度を最大6.7%向上させる。

Pre-trained BERT models have achieved impressive accuracy on natural language processing (NLP) tasks. However, their excessive amount of parameters hinders them from efficient deployment on edge devices. Binarization of the BERT models can significantly alleviate this issue but comes with a severe accuracy drop compared with their full-precision counterparts. In this paper, we propose an efficient and robust binary ensemble BERT (BEBERT) to bridge the accuracy gap. To the best of our knowledge, this is the first work employing ensemble techniques on binary BERTs, yielding BEBERT, which achieves superior accuracy while retaining computational efficiency. Furthermore, we remove the knowledge distillation procedures during ensemble to speed up the training process without compromising accuracy. Experimental results on the GLUE benchmark show that the proposed BEBERT significantly outperforms the existing binary BERT models in accuracy and robustness with a 2x speedup on training time. Moreover, our BEBERT has only a negligible accuracy loss of 0.3% compared to the full-precision baseline while saving 15x and 13x in FLOPs and model size, respectively. In addition, BEBERT also outperforms other compressed BERTs in accuracy by up to 6.7%.
翻訳日:2022-10-31 16:07:32 公開日:2022-10-28
# ウズベク語用有限状態機械による規則に基づく補題化アルゴリズムの開発

Development of a rule-based lemmatization algorithm through Finite State Machine for Uzbek language ( http://arxiv.org/abs/2210.16006v1 )

ライセンス: Link先を確認
Maksud Sharipov, Ogabek Sobirov(参考訳) 補間は自然言語処理の核となる概念の1つであり、補間ツールの作成は重要なタスクである。 本稿では,ウズベキスタン語に対する補題化アルゴリズムの構築について論じる。 この研究の主な目的は、有限状態機械を用いてウズベク語の単語の接尾辞を除去し、単語の補題(辞書で見られる単語)を特定することである。 affixesを削除するプロセスは、affixesのデータベースと、音声知識の一部を使用する。 この補題化は、ウズベク語の一般的な規則と音声データの一部、接尾辞、接尾辞の分類、各クラスに対する有限状態機械に基づく接尾辞の除去、およびこの単語の補題の定義からなる。

Lemmatization is one of the core concepts in natural language processing, thus creating a lemmatization tool is an important task. This paper discusses the construction of a lemmatization algorithm for the Uzbek language. The main purpose of the work is to remove affixes of words in the Uzbek language by means of the finite state machine and to identify a lemma (a word that can be found in the dictionary) of the word. The process of removing affixes uses a database of affixes and part of speech knowledge. This lemmatization consists of the general rules and a part of speech data of the Uzbek language, affixes, classification of affixes, removing affixes on the basis of the finite state machine for each class, as well as a definition of this word lemma.
翻訳日:2022-10-31 16:07:15 公開日:2022-10-28
# UzbekStemmer: Uzbek言語のためのルールベースステミングアルゴリズムの開発

UzbekStemmer: Development of a Rule-Based Stemming Algorithm for Uzbek Language ( http://arxiv.org/abs/2210.16011v1 )

ライセンス: Link先を確認
Maksud Sharipov, Ollabergan Yuldashov(参考訳) 本稿では,ウズベク語における規則に基づくstemingアルゴリズムを提案する。 ウズベク語は凝集言語であるため、接尾辞を加えることで多くの単語が作られ、接尾辞の数も大きい。 そのため、単語の語幹を見つけることは困難である。 この手法は、ウズベク語の通常の語形に関するデータベースは含まないが、接尾辞ストリッピングアプローチでウズベク語を語源とする手法として提案されている。 単語の接尾辞は15のクラスに分類され、形態規則に従って各クラスごとに有限状態機械(fsms)として設計される。 15個のFSMを作成し、それらを結合してBasic FSMを作成しました。 XML形式の接尾辞の辞書が作成され、FSMに基づいてウズベク語を綴じるアプリケーションが開発されている。

In this paper we present a rule-based stemming algorithm for the Uzbek language. Uzbek is an agglutinative language, so many words are formed by adding suffixes, and the number of suffixes is also large. For this reason, it is difficult to find a stem of words. The methodology is proposed for doing the stemming of the Uzbek words with an affix stripping approach whereas not including any database of the normal word forms of the Uzbek language. Word affixes are classified into fifteen classes and designed as finite state machines (FSMs) for each class according to morphological rules. We created fifteen FSMs and linked them together to create the Basic FSM. A lexicon of affixes in XML format was created and a stemming application for Uzbek words has been developed based on the FSMs.
翻訳日:2022-10-31 16:07:00 公開日:2022-10-28
# DORE:生成フレームワークに基づく文書順序付き関係抽出

DORE: Document Ordered Relation Extraction based on Generative Framework ( http://arxiv.org/abs/2210.16064v1 )

ライセンス: Link先を確認
Qipeng Guo, Yuqing Yang, Hang Yan, Xipeng Qiu, Zheng Zhang(参考訳) 近年,事前学習した言語モデルをより直接的に利用し,効率よく出力依存を把握できる世代ベースの情報抽出作業が急増している。 しかし,従来の語彙表現を用いた生成手法は,複数の実体や関係事実が存在する文書レベルの関係抽出(DocRE)に自然に適合しない。 本稿では,既存の生成ドクレモデルの性能低下の根本原因について検討し,モデルの能力に代えて,学習パラダイムの不十分性が原因であることを明らかにした。 本稿では,モデルが学習しやすく,決定論的な関係行列から記号列と順序列を生成することを提案する。 さらに,オーバーロングターゲットシーケンスを処理する並列行生成手法も設計する。 また,バランスの取れた信号の性能を向上させるために,いくつかの負のサンプリング戦略を導入する。 4つのデータセットにおける実験結果から,提案手法が生成型docreモデルの性能を向上できることが判明した。 コードをhttps://github.com/ayyyq/DOREでリリースしました。

In recent years, there is a surge of generation-based information extraction work, which allows a more direct use of pre-trained language models and efficiently captures output dependencies. However, previous generative methods using lexical representation do not naturally fit document-level relation extraction (DocRE) where there are multiple entities and relational facts. In this paper, we investigate the root cause of the underwhelming performance of the existing generative DocRE models and discover that the culprit is the inadequacy of the training paradigm, instead of the capacities of the models. We propose to generate a symbolic and ordered sequence from the relation matrix which is deterministic and easier for model to learn. Moreover, we design a parallel row generation method to process overlong target sequences. Besides, we introduce several negative sampling strategies to improve the performance with balanced signals. Experimental results on four datasets show that our proposed method can improve the performance of the generative DocRE models. We have released our code at https://github.com/ayyyq/DORE.
翻訳日:2022-10-31 16:06:46 公開日:2022-10-28
# Debiasing Masks: NLUにおけるショートカット緩和のための新しいフレームワーク

Debiasing Masks: A New Framework for Shortcut Mitigation in NLU ( http://arxiv.org/abs/2210.16079v1 )

ライセンス: Link先を確認
Johannes Mario Meissner, Saku Sugawara, Akiko Aizawa(参考訳) 自然言語理解タスクにおける不必要な行動から言語モデルを逸脱することは、nlpコミュニティへの関心が急速に高まる話題である。 データの統計的相関により、モデルはショートカットを実行し、より先進的で望ましい言語的特徴を明らかにすることを避けることができる。 多くの効果的なデバイアスアプローチが提案されているが、柔軟性は依然として大きな問題である。 モデルの大部分は、デバイアスの振る舞いを持つ新しいウェイトセットを見つけるために再トレーニングされなければなりません。 そこで本研究では,微調整モデルに適用可能な脱バイアスプルーニングマスクを同定する新しい脱バイアス法を提案する。 これにより、嫌悪行動の選択的および条件付き適用が可能になる。 バイアスはネットワーク内の特定の重みのサブセットによって引き起こされると仮定し、本手法は本質的にバイアス重みを識別し除去するためのマスク探索である。 私たちのマスクは、標準のマスクと同等または優れたパフォーマンスを示し、重要な利点を提供します。 プルーニングマスクはメモリ内で高い効率で保存することができ、推論時にいくつかの偏りの挙動(または元のバイアスモデルに戻す)に切り替えることができる。 そして最後に、生成されたマスクの研究によってバイアスがどのように獲得されるかについてのさらなる研究の扉を開く。 例えば、初期の層と注意ヘッドはより積極的に刈り取られており、バイアスが符号化される場所に向かっている可能性があると観察した。

Debiasing language models from unwanted behaviors in Natural Language Understanding tasks is a topic with rapidly increasing interest in the NLP community. Spurious statistical correlations in the data allow models to perform shortcuts and avoid uncovering more advanced and desirable linguistic features. A multitude of effective debiasing approaches has been proposed, but flexibility remains a major issue. For the most part, models must be retrained to find a new set of weights with debiased behavior. We propose a new debiasing method in which we identify debiased pruning masks that can be applied to a finetuned model. This enables the selective and conditional application of debiasing behaviors. We assume that bias is caused by a certain subset of weights in the network; our method is, in essence, a mask search to identify and remove biased weights. Our masks show equivalent or superior performance to the standard counterparts, while offering important benefits. Pruning masks can be stored with high efficiency in memory, and it becomes possible to switch among several debiasing behaviors (or revert back to the original biased model) at inference time. Finally, it opens the doors to further research on how biases are acquired by studying the generated masks. For example, we observed that the early layers and attention heads were pruned more aggressively, possibly hinting towards the location in which biases may be encoded.
翻訳日:2022-10-31 16:06:34 公開日:2022-10-28
# CCG解析と大規模言語モデルを用いた脳構造構築のモデル化

Modeling structure-building in the brain with CCG parsing and large language models ( http://arxiv.org/abs/2210.16147v1 )

ライセンス: Link先を確認
Milo\v{s} Stanojevi\'c and Jonathan R. Brennan and Donald Dunagan and Mark Steedman and John T. Hale(参考訳) 自然環境における言語理解の行動と神経の相関をモデル化するために、研究者は自然言語処理から機械学習まで幅広いツールに目を向けている。 構文構造が明示的にモデル化されている場合、先行研究は主に文脈自由文法(cfg)に依存しているが、そのような形式主義は人間の言語に対して十分に表現できない。 組合せカテゴリー文法(ccgs)は、漸進的な解釈を可能にする柔軟な構成構成性を持つ文法の表現的直接合成モデルである。 本研究では,より表現力に富んだccgが,fmriを用いて収集したヒト神経信号に対してcfgよりも優れたモデルを提供するかを評価する。 さらに、任意の随伴をどう扱うかが異なるCCGの変種をテストします。 これらの評価は、トランスフォーマリンニューラルネットワークモデルから次の単語予測可能性の推定を含むベースラインに対して実行される。 このような比較は、主に左側頭葉におけるCCG構造構築の独特な寄与を明らかにしている: CCG由来の尺度は、CFG由来のものよりも神経信号に適合する。 これらの効果は、予測可能性に特有の両側上の時間的効果とは空間的に異なる。 構造構築におけるニューラルエフェクトは、自然主義的聴取における予測可能性から分離可能であり、これらのエフェクトは、表現力が独立した言語基盤に動機付けられる文法によって最も特徴付けられる。

To model behavioral and neural correlates of language comprehension in naturalistic environments, researchers have turned to broad-coverage tools from natural-language processing and machine learning. Where syntactic structure is explicitly modeled, prior work has relied predominantly on context-free grammars (CFG), yet such formalisms are not sufficiently expressive for human languages. Combinatory Categorial Grammars (CCGs) are sufficiently expressive directly compositional models of grammar with flexible constituency that affords incremental interpretation. In this work we evaluate whether a more expressive CCG provides a better model than a CFG for human neural signals collected with fMRI while participants listen to an audiobook story. We further test between variants of CCG that differ in how they handle optional adjuncts. These evaluations are carried out against a baseline that includes estimates of next-word predictability from a Transformer neural network language model. Such a comparison reveals unique contributions of CCG structure-building predominantly in the left posterior temporal lobe: CCG-derived measures offer a superior fit to neural signals compared to those derived from a CFG. These effects are spatially distinct from bilateral superior temporal effects that are unique to predictability. Neural effects for structure-building are thus separable from predictability during naturalistic listening, and those effects are best characterized by a grammar whose expressive power is motivated on independent linguistic grounds.
翻訳日:2022-10-31 16:06:13 公開日:2022-10-28
# 文法的誤り検出による構文的知識の探索

Probing for targeted syntactic knowledge through grammatical error detection ( http://arxiv.org/abs/2210.16228v1 )

ライセンス: Link先を確認
Christopher Davis, Christopher Bryant, Andrew Caines, Marek Rei, Paula Buttery(参考訳) 主観的合意(SVA)の知識を検証したターゲット研究は、事前学習された言語モデルが構文情報を符号化していることを示している。 モデルが主観的な合意をしっかりとエンコードしているなら、いつ合意が正しいのか、いつ正しくないかを特定できるべきだ、と我々は主張する。 そこで我々は,SVAの知識に対して,トークンレベルの文脈表現を評価するための診断プローブとして文法的誤り検出を提案する。 各層における文脈表現は, BERT, XLNet, GPT-2, RoBERTa, ELECTRAの5つの事前学習英語モデルから評価する。 英語の第二言語学習者およびウィキペディア編集者の公開注記学習データを活用し,手作業による対訳合意の刺激について報告する。 マスク付き言語モデルでは,SVAエラー検出に関連する情報を線形に符号化し,自動回帰モデルはベースラインと同等に動作することがわかった。 しかし,プローブが異なるトレーニングセットで訓練された場合や,異なる構文構造で評価された場合には,SVAエラー検出に関する情報が強固に符号化されていないことが示唆された。

Targeted studies testing knowledge of subject-verb agreement (SVA) indicate that pre-trained language models encode syntactic information. We assert that if models robustly encode subject-verb agreement, they should be able to identify when agreement is correct and when it is incorrect. To that end, we propose grammatical error detection as a diagnostic probe to evaluate token-level contextual representations for their knowledge of SVA. We evaluate contextual representations at each layer from five pre-trained English language models: BERT, XLNet, GPT-2, RoBERTa, and ELECTRA. We leverage public annotated training data from both English second language learners and Wikipedia edits, and report results on manually crafted stimuli for subject-verb agreement. We find that masked language models linearly encode information relevant to the detection of SVA errors, while the autoregressive models perform on par with our baseline. However, we also observe a divergence in performance when probes are trained on different training sets, and when they are evaluated on different syntactic constructions, suggesting the information pertaining to SVA error detection is not robustly encoded.
翻訳日:2022-10-31 16:05:51 公開日:2022-10-28
# 協調推論誘導言語モデルによる数学語問題の解法

Solving Math Word Problem via Cooperative Reasoning induced Language Models ( http://arxiv.org/abs/2210.16257v1 )

ライセンス: Link先を確認
Xinyu Zhu, Junjie Wang, Lin Zhang, Yuxiang Zhang, Ruyi Gan, Jiaxing Zhang, Yujiu Yang(参考訳) 大規模事前学習言語モデル(PLM)は、特に数学語問題(MWP)のような高レベルの知性を必要とする問題に挑戦する新たな機会をもたらす。 しかしながら、既存のPLMをMWPに直接適用することは、生成プロセスが十分な監督を欠いているため、人間としての高速な適応性を欠いているため失敗する可能性がある。 人間の推論には、即時反応系(システム1)と微妙な推論系(システム2)から構成される二重推論の枠組みがあることに気付く。 これにより、協調推論(Cooperative Reasoning, CoRe)と呼ばれる、MWPを解くための協調推論によるPLMを開発することとなり、システム1をジェネレータとして、システム2をバリデーションとして、人間のような推論アーキテクチャを実現する。 提案手法では, ジェネレータは推論経路の生成に責任を持ち, 検証器を用いて評価を監督し, ジェネレータに対する信頼性の高いフィードバックを得る。 我々はCoReフレームワークをいくつかの数学的推論データセット上で評価し、最先端の手法よりも優れた改善を実現した。

Large-scale pre-trained language models (PLMs) bring new opportunities to challenge problems, especially those that need high-level intelligence, such as the math word problem (MWPs). However, directly applying existing PLMs to MWPs can fail as the generation process lacks sufficient supervision and thus lacks fast adaptivity as humans. We notice that human reasoning has a dual reasoning framework that consists of an immediate reaction system (system 1) and a delicate reasoning system (system 2), where the entire reasoning is determined by their interaction. This inspires us to develop a cooperative reasoning-induced PLM for solving MWPs, called Cooperative Reasoning (CoRe), resulting in a human-like reasoning architecture with system 1 as the generator and system 2 as the verifier. In our approach, the generator is responsible for generating reasoning paths, and the verifiers are used to supervise the evaluation in order to obtain reliable feedback for the generator. We evaluate our CoRe framework on several mathematical reasoning datasets and achieve decent improvement over state-of-the-art methods, up to 9.8% increase over best baselines.
翻訳日:2022-10-31 16:05:30 公開日:2022-10-28
# 視覚トランスフォーマーを用いた分割学習のための微分プライベートカットミックス

Differentially Private CutMix for Split Learning with Vision Transformer ( http://arxiv.org/abs/2210.15986v1 )

ライセンス: Link先を確認
Seungeun Oh, Jihong Park, Sihun Baek, Hyelin Nam, Praneeth Vepakomma, Ramesh Raskar, Mehdi Bennis, Seong-Lyun Kim(参考訳) 近年,視覚トランスフォーマ(vit)は,従来のコンピュータビジョンタスクのcnnを上回っている。 vitによるプライバシ保存型分散学習を考えると、フェデレーション学習(fl)はモデルと通信する。 スプリットラーニング(SL)は、切断層でスマッシュデータを通信することでこれを回避しているが、ViTのスマッシュデータと入力データとの高い類似性に起因するデータプライバシリークと大きな通信コストに悩まされている。 そこで,本研究ではdp-cutmixslを提案する。dp patch-level randomized cutmix (dp-cutmix)は,ランダムに選択されたパッチを代替する,新しいプライバシ保存型クライアント間補間方式である。 実験により,DP-CutMixSLはプライバシー保証と通信効率を向上するだけでなく,Vanilla SLよりも高い精度を実現することが示された。 理論的には、DP-CutMixはR'enyi DP(RDP)を増幅する。

Recently, vision transformer (ViT) has started to outpace the conventional CNN in computer vision tasks. Considering privacy-preserving distributed learning with ViT, federated learning (FL) communicates models, which becomes ill-suited due to ViT' s large model size and computing costs. Split learning (SL) detours this by communicating smashed data at a cut-layer, yet suffers from data privacy leakage and large communication costs caused by high similarity between ViT' s smashed data and input data. Motivated by this problem, we propose DP-CutMixSL, a differentially private (DP) SL framework by developing DP patch-level randomized CutMix (DP-CutMix), a novel privacy-preserving inter-client interpolation scheme that replaces randomly selected patches in smashed data. By experiment, we show that DP-CutMixSL not only boosts privacy guarantees and communication efficiency, but also achieves higher accuracy than its Vanilla SL counterpart. Theoretically, we analyze that DP-CutMix amplifies R\'enyi DP (RDP), which is upper-bounded by its Vanilla Mixup counterpart.
翻訳日:2022-10-31 15:59:10 公開日:2022-10-28
# SEMPAI:筋機能と病理の事前評価のための多光子人工知能

SEMPAI: a Self-Enhancing Multi-Photon Artificial Intelligence for prior-informed assessment of muscle function and pathology ( http://arxiv.org/abs/2210.16273v1 )

ライセンス: Link先を確認
Alexander M\"uhlberg, Paul Ritter, Simon Langer, Chlo\"e Goossens, Stefanie N\"ubler, Dominik Schneidereit, Oliver Taubmann, Felix Denzinger, Dominik N\"orenberg, Michael Haug, Wolfgang H. Goldmann, Andreas K. Maier, Oliver Friedrich, Lucas Kreiss(参考訳) 深層学習(DL)は医学研究において顕著な成功を収めた。 しかし、ほとんどのDLアルゴリズムはブラックボックスとして機能し、生物医学の専門家を除外し、広範なデータを必要とする。 筋線維の多光子顕微鏡(MPM)研究のためのデータ駆動型DLアプローチにおいて仮説駆動型先行情報を統合したSEMPAI(Self-Enhancing Multi-Photon Artificial Intelligence)を導入する。 SEMPAIは、メタ学習を使用して、事前統合、データ表現、ニューラルネットワークアーキテクチャを同時に最適化する。 これは仮説テストを可能にし、MPM画像における生物学的情報の起源に関する解釈可能なフィードバックを提供する。 SEMPAIは、小さなデータセットの予測を可能にするために、いくつかのタスクを共同で学習する。 本手法は, 単一筋線維の病態と機能に関する最大ジョイント解析を行う, 広範囲のマルチスタディデータセットに適用できる。 SEMPAIは、7つの予測タスクのうち6つで最先端のバイオマーカーを上回っている。 SEMPAIのDLモデルは、事前のないものや、事前のみの機械学習アプローチよりも優れている。

Deep learning (DL) shows notable success in biomedical studies. However, most DL algorithms work as a black box, exclude biomedical experts, and need extensive data. We introduce the Self-Enhancing Multi-Photon Artificial Intelligence (SEMPAI), that integrates hypothesis-driven priors in a data-driven DL approach for research on multiphoton microscopy (MPM) of muscle fibers. SEMPAI utilizes meta-learning to optimize prior integration, data representation, and neural network architecture simultaneously. This allows hypothesis testing and provides interpretable feedback about the origin of biological information in MPM images. SEMPAI performs joint learning of several tasks to enable prediction for small datasets. The method is applied on an extensive multi-study dataset resulting in the largest joint analysis of pathologies and function for single muscle fibers. SEMPAI outperforms state-of-the-art biomarkers in six of seven predictive tasks, including those with scarce data. SEMPAI's DL models with integrated priors are superior to those without priors and to prior-only machine learning approaches.
翻訳日:2022-10-31 15:58:35 公開日:2022-10-28
# 非同期分散ドロップアウトによる効率的かつ軽量なフェデレーション学習

Efficient and Light-Weight Federated Learning via Asynchronous Distributed Dropout ( http://arxiv.org/abs/2210.16105v1 )

ライセンス: Link先を確認
Chen Dun, Mirian Hipolito, Chris Jermaine, Dimitrios Dimitriadis, Anastasios Kyrillidis(参考訳) 非同期学習プロトコルは最近注目を集めており、特にフェデレートラーニング(FL)では、遅いクライアントが学習プロセスに悪影響を及ぼす可能性がある。 本稿では,分散型設定におけるデバイスの不均一性を扱うためにドロップアウト正規化を利用する新しい非同期FLフレームワークである‘texttt{AsyncDrop} を提案する。 全体として、‘texttt{AsyncDrop} は、最先端の非同期メソッドと比較してパフォーマンスが良く、通信やトレーニング時間のオーバーヘッドも少なくなります。 重要なアイデアは、グローバルモデルから‘サブモデル’を作成し、デバイスの不均一性に基づいたトレーニングをワーカーに配布することにある。 我々はそのようなアプローチが理論的に特徴づけられることを厳格に正当化する。 我々は、既存の同期flアルゴリズムを非同期シナリオに適用することで、このアプローチを実装し、他の非同期ベースラインと比較する。 実証的に、‘texttt{AsyncDrop} は通信コストと訓練時間を削減し、また様々な非I.D. FLシナリオにおける最終テスト精度をマッチングまたは改善する。

Asynchronous learning protocols have regained attention lately, especially in the Federated Learning (FL) setup, where slower clients can severely impede the learning process. Herein, we propose \texttt{AsyncDrop}, a novel asynchronous FL framework that utilizes dropout regularization to handle device heterogeneity in distributed settings. Overall, \texttt{AsyncDrop} achieves better performance compared to state of the art asynchronous methodologies, while resulting in less communication and training time overheads. The key idea revolves around creating ``submodels'' out of the global model, and distributing their training to workers, based on device heterogeneity. We rigorously justify that such an approach can be theoretically characterized. We implement our approach and compare it against other asynchronous baselines, both by design and by adapting existing synchronous FL algorithms to asynchronous scenarios. Empirically, \texttt{AsyncDrop} reduces the communication cost and training time, while matching or improving the final test accuracy in diverse non-i.i.d. FL scenarios.
翻訳日:2022-10-31 15:58:19 公開日:2022-10-28
# LOFT:フィルターワイドトレーニングによる宝くじの発見

LOFT: Finding Lottery Tickets through Filter-wise Training ( http://arxiv.org/abs/2210.16169v1 )

ライセンス: Link先を確認
Qihan Wang, Chen Dun, Fangshuo Liao, Chris Jermaine, Anastasios Kyrillidis(参考訳) Lottery Ticket hypothesis (LTH) に関する最近の研究は、大規模ニューラルネットワークには ``\textit{winning ticket}' が存在することを示している。 これらのチケットはフルモデルの ``sparse'' バージョンを表しており、フルモデルに対して同等の精度を達成するために独立してトレーニングすることができる。 しかし、入賞チケットを見つけるには、少なくともいくつかのエポックに対して、大きめのモデルを1つ \emph{pretrain} する必要がある。 本稿では,入賞チケットの出現を効率的に識別する方法について検討し,この観察を用いて効率的な事前学習アルゴリズムを設計する。 エクスポジションを明確にするために、我々の焦点は畳み込みニューラルネットワーク(CNN)である。 良質なフィルタを特定するために,モデル収束をよく表現する新しいフィルタ距離メトリックを提案する。 我々の理論が示すように、フィルタ解析はニューラルネットワークの学習ダイナミクスの最近の発見と一貫して振る舞う。 これらの観測により,フィルタワイドトレーニングによる‘emph{LOttery ticket’(‘textsc{LoFT}’)を提案する。 \textsc{loft} は、畳み込み層をフィルタで分割して分散設定で独立にトレーニングするモデル並列プリトレーニングアルゴリズムで、プリトレーニング時のメモリと通信コストが削減される。 実験によると、 \textsc{loft} $i)$は良い宝くじを保存し発見し、$ii)$は自明な計算と通信の節約を実現し、他の事前学習方法と同等またはそれ以上の精度を維持する。

Recent work on the Lottery Ticket Hypothesis (LTH) shows that there exist ``\textit{winning tickets}'' in large neural networks. These tickets represent ``sparse'' versions of the full model that can be trained independently to achieve comparable accuracy with respect to the full model. However, finding the winning tickets requires one to \emph{pretrain} the large model for at least a number of epochs, which can be a burdensome task, especially when the original neural network gets larger. In this paper, we explore how one can efficiently identify the emergence of such winning tickets, and use this observation to design efficient pretraining algorithms. For clarity of exposition, our focus is on convolutional neural networks (CNNs). To identify good filters, we propose a novel filter distance metric that well-represents the model convergence. As our theory dictates, our filter analysis behaves consistently with recent findings of neural network learning dynamics. Motivated by these observations, we present the \emph{LOttery ticket through Filter-wise Training} algorithm, dubbed as \textsc{LoFT}. \textsc{LoFT} is a model-parallel pretraining algorithm that partitions convolutional layers by filters to train them independently in a distributed setting, resulting in reduced memory and communication costs during pretraining. Experiments show that \textsc{LoFT} $i)$ preserves and finds good lottery tickets, while $ii)$ it achieves non-trivial computation and communication savings, and maintains comparable or even better accuracy than other pretraining methods.
翻訳日:2022-10-31 15:57:59 公開日:2022-10-28
# イベント引数抽出のための双方向反復プロンプトチューニング

Bi-Directional Iterative Prompt-Tuning for Event Argument Extraction ( http://arxiv.org/abs/2210.15843v1 )

ライセンス: Link先を確認
Lu Dai and Bang Wang and Wei Xiang and Yijun Mo(参考訳) 近年,イベント議論抽出(EAE)への関心が高まっている。 しかし,既存のプロンプトチューニング手法は,エンティティ情報の考慮が欠如しているため,良好な性能が得られていない。 本稿では,EAEタスクをクローゼスタイルのタスクとして扱い,エンティティ情報と事前学習言語モデル(PLM)をフル活用する双方向反復型EAEプロンプトチューニング手法を提案する。 さらに,コンテクストエンティティの引数ロールをプロンプト構造に導入することで,イベント引数の相互作用を探索する。 テンプレートと動詞はクローゼスタイルのプロンプトにおいて2つの重要な要素であるので,役割ラベルの意味的知識を用いて意味的動詞化器を構築し,eaeタスクのための3種類のテンプレートを設計することを提案する。 ACE 2005 の英語データセットにおける標準および低リソース設定による実験により,提案手法がピア・オブ・ザ・アーティファクト法を著しく上回ることを示した。 私たちのコードはhttps://github.com/HustMinsLab/BIPで利用可能です。

Recently, prompt-tuning has attracted growing interests in event argument extraction (EAE). However, the existing prompt-tuning methods have not achieved satisfactory performance due to the lack of consideration of entity information. In this paper, we propose a bi-directional iterative prompt-tuning method for EAE, where the EAE task is treated as a cloze-style task to take full advantage of entity information and pre-trained language models (PLMs). Furthermore, our method explores event argument interactions by introducing the argument roles of contextual entities into prompt construction. Since template and verbalizer are two crucial components in a cloze-style prompt, we propose to utilize the role label semantic knowledge to construct a semantic verbalizer and design three kinds of templates for the EAE task. Experiments on the ACE 2005 English dataset with standard and low-resource settings show that the proposed method significantly outperforms the peer state-of-the-art methods. Our code is available at https://github.com/HustMinsLab/BIP.
翻訳日:2022-10-31 15:57:06 公開日:2022-10-28
# ユニバーサル表現とクロスマッピングによるゼロショット多言語翻訳の改善

Improving Zero-Shot Multilingual Translation with Universal Representations and Cross-Mappings ( http://arxiv.org/abs/2210.15851v1 )

ライセンス: Link先を確認
Shuhao Gu, Yang Feng(参考訳) 多言語多言語ニューラルマシン翻訳は、訓練中に見えない言語対、すなわちゼロショット翻訳を翻訳することができる。 ゼロショット翻訳を改善するには、モデルが普遍表現とクロスマップ関係を学習し、教師あり方向から学習した知識をゼロショット方向に移行する必要がある。 本研究では,エンコーダによって出力される表現の差をモデル化するための最適理論に基づく状態移動子の距離を提案する。 次に,提案する距離を最小化して普遍表現を学ぶことにより,異なる言語の意味等価表現間のギャップをトークンレベルで橋渡しする。 また,すべての翻訳方向の共通クロスマップ関係を学習するために,意味同値文に基づく一貫した予測を行うための合意に基づく学習手法を提案する。 多言語多言語データセットを用いた実験の結果,本手法はベースラインシステムや他のコントラスト法と比較して,一貫して改善できることがわかった。 分析の結果,提案手法は意味空間の調整や予測一貫性の向上が期待できることがわかった。

The many-to-many multilingual neural machine translation can translate between language pairs unseen during training, i.e., zero-shot translation. Improving zero-shot translation requires the model to learn universal representations and cross-mapping relationships to transfer the knowledge learned on the supervised directions to the zero-shot directions. In this work, we propose the state mover's distance based on the optimal theory to model the difference of the representations output by the encoder. Then, we bridge the gap between the semantic-equivalent representations of different languages at the token level by minimizing the proposed distance to learn universal representations. Besides, we propose an agreement-based training scheme, which can help the model make consistent predictions based on the semantic-equivalent sentences to learn universal cross-mapping relationships for all translation directions. The experimental results on diverse multilingual datasets show that our method can improve consistently compared with the baseline system and other contrast methods. The analysis proves that our method can better align the semantic space and improve the prediction consistency.
翻訳日:2022-10-31 15:56:49 公開日:2022-10-28
# クラウドワーカーによる機械翻訳のドメイン適応

Domain Adaptation of Machine Translation with Crowdworkers ( http://arxiv.org/abs/2210.15861v1 )

ライセンス: Link先を確認
Makoto Morishita, Jun Suzuki, Masaaki Nagata(参考訳) 大きなドメイン内並列コーパスでトレーニングされた機械翻訳モデルは驚くべき結果を得るが、ドメイン内データがない場合でもうまく機能しない。 この状況は、ターゲットドメインのデータに制限がある場合、機械翻訳の適用性を制限する。 しかし、多くのドメインに対して高品質なドメイン固有機械翻訳モデルが要求される。 本稿では,クラウドワーカーの助けを借りて,Webから対象ドメインの並列文を効率的に効率的に収集するフレームワークを提案する。 収集した並列データにより、マシン翻訳モデルをターゲット領域に迅速に適応させることができる。 提案手法は,数日間にわたって適切なコストで対象領域の並列データを収集できることを示す。 我々は5つのドメインでテストを行い、ドメイン適応モデルは汎用翻訳モデルと比較してBLEUのスコアを+19.7まで平均+7.8ポイント改善した。

Although a machine translation model trained with a large in-domain parallel corpus achieves remarkable results, it still works poorly when no in-domain data are available. This situation restricts the applicability of machine translation when the target domain's data are limited. However, there is great demand for high-quality domain-specific machine translation models for many domains. We propose a framework that efficiently and effectively collects parallel sentences in a target domain from the web with the help of crowdworkers. With the collected parallel data, we can quickly adapt a machine translation model to the target domain. Our experiments show that the proposed method can collect target-domain parallel data over a few days at a reasonable cost. We tested it with five domains, and the domain-adapted model improved the BLEU scores to +19.7 by an average of +7.8 points compared to a general-purpose translation model.
翻訳日:2022-10-31 15:56:32 公開日:2022-10-28
# 「ただの憎しみではない」:オンラインの有害音声検出のための多次元的視点

"It's Not Just Hate'': A Multi-Dimensional Perspective on Detecting Harmful Speech Online ( http://arxiv.org/abs/2210.15870v1 )

ライセンス: Link先を確認
Federico Bianchi, Stefanie Anja Hills, Patricia Rossini, Dirk Hovy, Rebekah Tromble, Nava Tintarev(参考訳) 十分な注釈付きデータは、優れた自然言語処理モデルの前提条件である。 しかし、アノテーションの決定は時間やアノテータの合意を最適化することで制御されることが多い。 我々は,攻撃的なオンラインスピーチを注釈付けするための学際的環境におけるニュアンス的な努力を事例に挙げる。 攻撃的コンテンツの検出は、急速に、現実世界で最も重要なNLPタスクの1つになりつつある。 しかし、ほとんどのデータセットは、各概念が多面的であるにもかかわらず、ヘイトやインキビティのために、単一のバイナリラベルを使用する。 このモデリングの選択は、微妙な洞察だけでなく、パフォーマンスも厳しく制限します。 インキビティや憎しみや不寛容なコンテンツを予測するための、よりきめ細かいマルチラベルアプローチは、概念とパフォーマンスの問題の両方に対処できることを示します。 当社は米国と英国からの移民に関する4万あまりのツイートのデータセットを公開し、6つのラベルにインキビティと不寛容の異なる側面を注釈付けした。 私たちのデータセットは、有害なスピーチをオンラインでより微妙に理解するだけでなく、トレーニングされたモデルもベンチマークデータセットのパフォーマンスを上回ったり、一致させたりします。

Well-annotated data is a prerequisite for good Natural Language Processing models. Too often, though, annotation decisions are governed by optimizing time or annotator agreement. We make a case for nuanced efforts in an interdisciplinary setting for annotating offensive online speech. Detecting offensive content is rapidly becoming one of the most important real-world NLP tasks. However, most datasets use a single binary label, e.g., for hate or incivility, even though each concept is multi-faceted. This modeling choice severely limits nuanced insights, but also performance. We show that a more fine-grained multi-label approach to predicting incivility and hateful or intolerant content addresses both conceptual and performance issues. We release a novel dataset of over 40,000 tweets about immigration from the US and UK, annotated with six labels for different aspects of incivility and intolerance. Our dataset not only allows for a more nuanced understanding of harmful speech online, models trained on it also outperform or match performance on benchmark datasets.
翻訳日:2022-10-31 15:56:20 公開日:2022-10-28
# IoT侵入検出のための共同意味伝達ネットワーク

Joint Semantic Transfer Network for IoT Intrusion Detection ( http://arxiv.org/abs/2210.15911v1 )

ライセンス: Link先を確認
Jiashu Wu, Yang Wang, Binhui Xie, Shuang Li, Hao Dai, Kejiang Ye, Chengzhong Xu(参考訳) 本稿では,大規模で希少なラベル付きIoTドメインに対する効果的な侵入検出のための統合意味伝達ネットワーク(JSTN)を提案する。 マルチソースヘテロジニアスドメイン適応(MS-HDA)手法として、JSTNは、知識豊富なネットワーク侵入(NI)ドメインと、ソースドメインとしての別の小規模IoT侵入(II)ドメインを統合し、本質的なセマンティックプロパティを保持し、ターゲットIIドメイン侵入検出を支援する。 JSTNは、以下の3つのセマンティクスを共同で転送し、ドメイン不変かつ識別的特徴表現を学ぶ。 シナリオセマンティクス・エンドウズ ソース ni と ii ドメインは互いに特性を持ち、混乱したドメイン識別器とカテゴリー分布の知識保存を介して知識伝達プロセスを容易化する。 また、ソースとターゲットの差異を減らし、共有機能領域を不変にする。 一方、重みづけられた暗黙的意味伝達は、ソースのカテゴリー分布を対象領域に転送する細かな知識保存によって識別性を高める。 ソース・ターゲットのばらつきは、知識保存における重み付けの重要性を導き、知識学習の程度を反映させる。 さらに、階層的な明示的な意味的アライメントは、幾何学的類似性を認識する擬似ラベルリファインダの助けを借りて、センタロイドレベルおよび代表レベルのアライメントを実行し、非ラベルのターゲットiiドメインの値を活用し、大域的および局所的な視点から特徴表現を集中的にアライメントする。 様々なタスクに関する総合的な実験は、JSTNの最先端比較手法に対する優位性を検証し、平均10.3%の精度向上を達成する。 また,各構成成分の統計的健全性と計算効率も検証した。

In this paper, we propose a Joint Semantic Transfer Network (JSTN) towards effective intrusion detection for large-scale scarcely labelled IoT domain. As a multi-source heterogeneous domain adaptation (MS-HDA) method, the JSTN integrates a knowledge rich network intrusion (NI) domain and another small-scale IoT intrusion (II) domain as source domains, and preserves intrinsic semantic properties to assist target II domain intrusion detection. The JSTN jointly transfers the following three semantics to learn a domain-invariant and discriminative feature representation. The scenario semantic endows source NI and II domain with characteristics from each other to ease the knowledge transfer process via a confused domain discriminator and categorical distribution knowledge preservation. It also reduces the source-target discrepancy to make the shared feature space domain-invariant. Meanwhile, the weighted implicit semantic transfer boosts discriminability via a fine-grained knowledge preservation, which transfers the source categorical distribution to the target domain. The source-target divergence guides the importance weighting during knowledge preservation to reflect the degree of knowledge learning. Additionally, the hierarchical explicit semantic alignment performs centroid-level and representative-level alignment with the help of a geometric similarity-aware pseudo-label refiner, which exploits the value of unlabelled target II domain and explicitly aligns feature representations from a global and local perspective in a concentrated manner. Comprehensive experiments on various tasks verify the superiority of the JSTN against state-of-the-art comparing methods, on average a 10.3% of accuracy boost is achieved. The statistical soundness of each constituting component and the computational efficiency are also verified.
翻訳日:2022-10-31 15:50:42 公開日:2022-10-28
# 知識グラフを用いた生体影響予測の理解

Understanding Adverse Biological Effect Predictions Using Knowledge Graphs ( http://arxiv.org/abs/2210.15985v1 )

ライセンス: Link先を確認
Erik Bryhn Myklebust, Ernesto Jimenez-Ruiz, Jiaoyan Chen, Raoul Wolf, Knut Erik Tollefsen(参考訳) 化学物質の有害な生物学的(毒性)影響の補間は、実験で動物を使わずに(eco)毒性学で利用可能なハザードデータを拡張するための重要な貢献である。 本稿では、最も関連する効果データからなる知識グラフ(kg)に基づく効果を、ドメイン固有の背景知識として推定する。 化学薬品の有害な生物効果濃度を原型的ストレス因子として予測するために,背景知識と無知識の影響予測モデルを用いた。 背景知識は、R^2$(決定係数)でモデル予測性能を最大40\%向上させる。 我々はKGとKGの埋め込みを用いて予測の量的および質的な洞察を提供する。 これらの知見は効果予測の信頼性を向上させることが期待されている。 このような外挿モデルの大規模実装は、テストニーズの簡素化と削減により、ハザードとリスクアセスメントをサポートすることが期待される。

Extrapolation of adverse biological (toxic) effects of chemicals is an important contribution to expand available hazard data in (eco)toxicology without the use of animals in laboratory experiments. In this work, we extrapolate effects based on a knowledge graph (KG) consisting of the most relevant effect data as domain-specific background knowledge. An effect prediction model, with and without background knowledge, was used to predict mean adverse biological effect concentration of chemicals as a prototypical type of stressors. The background knowledge improves the model prediction performance by up to 40\% in terms of $R^2$ (\ie coefficient of determination). We use the KG and KG embeddings to provide quantitative and qualitative insights into the predictions. These insights are expected to improve the confidence in effect prediction. Larger scale implementation of such extrapolation models should be expected to support hazard and risk assessment, by simplifying and reducing testing needs.
翻訳日:2022-10-31 15:50:09 公開日:2022-10-28
# sparse-reward long-horizon-conditioned reinforcement learningのための事前学習スキルによる目標探索強化

Goal Exploration Augmentation via Pre-trained Skills for Sparse-Reward Long-Horizon Goal-Conditioned Reinforcement Learning ( http://arxiv.org/abs/2210.16058v1 )

ライセンス: Link先を確認
Lisheng Wu and Ke Chen(参考訳) 強化学習(rl)は、複雑な環境で疎遠な長いホリゾンタスクを達成するのに苦労することが多い。 目標条件強化学習(gcrl)は、難解なサブゴールのカリキュラムを通じてこの問題に取り組むために採用されている。 gcrlでは、エージェントが最終的に望ましい目標への経路を見つけるためには、新しいサブゴールの探索が不可欠である。 新たなサブゴールを効率的に探索する方法は、GCRLの最も難しい問題の一つである。 この問題に対処するために、いくつかの目標探索手法が提案されているが、望ましい目標を効率的に見つけるのに苦労している。 本稿では,ゴール選択に基づくGCRLにおいて,達成目標と新たな目標のエントロピーを最適化し,より効率的な目標探索を実現するための新たな学習目標を提案する。 この目的を最適化するために、我々はまず、スキル学習を通じてスキルを構成するために、現在のタスクと同様の環境でしばしば発生するゴール遷移パターンを探索し、活用する。 そして、事前訓練されたスキルをゴール探索に適用する。 本手法をいくつかの最先端GCRLベースラインに組み込むことで, 探索効率を向上し, 性能を向上し, 維持することが示唆された。 ソースコードは、https://github.com/GEAPS/GEAPSで入手できる。

Reinforcement learning (RL) often struggles to accomplish a sparse-reward long-horizon task in a complex environment. Goal-conditioned reinforcement learning (GCRL) has been employed to tackle this difficult problem via a curriculum of easy-to-reach sub-goals. In GCRL, exploring novel sub-goals is essential for the agent to ultimately find the pathway to the desired goal. How to explore novel sub-goals efficiently is one of the most challenging issues in GCRL. Several goal exploration methods have been proposed to address this issue but still struggle to find the desired goals efficiently. In this paper, we propose a novel learning objective by optimizing the entropy of both achieved and new goals to be explored for more efficient goal exploration in sub-goal selection based GCRL. To optimize this objective, we first explore and exploit the frequently occurring goal-transition patterns mined in the environments similar to the current task to compose skills via skill learning. Then, the pretrained skills are applied in goal exploration. Evaluation on a variety of spare-reward long-horizon benchmark tasks suggests that incorporating our method into several state-of-the-art GCRL baselines significantly boosts their exploration efficiency while improving or maintaining their performance. The source code is available at: https://github.com/GEAPS/GEAPS.
翻訳日:2022-10-31 15:49:55 公開日:2022-10-28
# 信頼できる神経仕様を目指して

Toward Reliable Neural Specifications ( http://arxiv.org/abs/2210.16114v1 )

ライセンス: Link先を確認
Chuqin Geng, Nham Le, Xiaojie Xu, Zhaoyue Wang, Arie Gurfinkel, Xujie Si(参考訳) 信頼できる仕様を持つことは、aiシステムの検証可能な正確性、堅牢性、解釈可能性を達成する上で避けられない課題である。 既存のニューラルネットワークの仕様は、仕様としてデータのパラダイムにある。 すなわち、参照入力を中心としたローカルな近所は正しい(または堅牢)と考えられている。 しかしながら、我々の実証的研究は、テストセットからのデータポイントが基準入力の認定領域にないため、そのような仕様は極めて過度に適合していることを示している。 本稿では、ニューラルネットワークの予測の正確性と/または堅牢性を特定するために入力データではなく、ニューラルネットワークの固有情報であるニューラルネットワーク活性化パターン(nap)を使用する、ニューラル表現という新しい仕様を提案する。 支配的なニューラルアクティベーションパターンをマイニングするための単純な統計的アプローチを提案する。 我々は統計的な観点からNAPを分析し、単一のNAPが大量のトレーニングやテストデータポイントをカバーできるのに対して、アドホックなデータ・アズ・セグメンテーションは与えられた参照データポイントのみをカバーする。 発見されたNAPの有効性を示すために、与えられたNAPに対して様々な種類の誤分類が起こらないこと、異なるNAPの間に曖昧さがないことなど、いくつかの重要な特性を正式に検証する。 NAPを用いて入力空間全体の予測を検証でき、データの84%をリコールできることを示す。 したがって、NAPの使用はより信頼性が高く拡張可能なニューラルネットワーク検証仕様であると主張する。

Having reliable specifications is an unavoidable challenge in achieving verifiable correctness, robustness, and interpretability of AI systems. Existing specifications for neural networks are in the paradigm of data as specification. That is, the local neighborhood centering around a reference input is considered to be correct (or robust). However, our empirical study shows that such a specification is extremely overfitted since usually no data points from the testing set lie in the certified region of the reference input, making them impractical for real-world applications. We propose a new family of specifications called neural representation as specification, which uses the intrinsic information of neural networks - neural activation patterns (NAP), rather than input data to specify the correctness and/or robustness of neural network predictions. We present a simple statistical approach to mining dominant neural activation patterns. We analyze NAPs from a statistical point of view and find that a single NAP can cover a large number of training and testing data points whereas ad hoc data-as-specification only covers the given reference data point. To show the effectiveness of discovered NAPs, we formally verify several important properties, such as various types of misclassifications will never happen for a given NAP, and there is no-ambiguity between different NAPs. We show that by using NAP, we can verify the prediction of the entire input space, while still recalling 84% of the data. Thus, we argue that using NAPs is a more reliable and extensible specification for neural network verification.
翻訳日:2022-10-31 15:49:33 公開日:2022-10-28
# フェデレーション学習における局所モデル再構築攻撃とその利用

Local Model Reconstruction Attacks in Federated Learning and their Uses ( http://arxiv.org/abs/2210.16205v1 )

ライセンス: Link先を確認
Ilias Driouich, Chuan Xu, Giovanni Neglia, Frederic Giroire, Eoin Thomas(参考訳) 本稿では,対象とするクライアントとサーバの間で交換されたメッセージを,真に反抗する相手が盗聴し,被害者のローカル/パーソナライズされたモデルを再構築する,フェデレーション学習のための局所モデル再構成攻撃の研究を開始する。 ローカルモデル再構築攻撃は、ローカルモデルがクライアントのデータのみに依存し、サーバが学習したグローバルモデルよりも多くのプライベート情報をリークするので、敵が他の古典的攻撃を効果的に引き起こすことができる。 さらに,局所モデル再構成攻撃を利用したフェデレーション学習におけるモデルに基づく属性推論攻撃を提案する。 この属性推論攻撃の解析的低バウンドを提供する。 実世界のデータセットを用いた実証実験の結果、我々の局所的再構築攻撃は回帰と分類の両方に有効であることを確認した。 さらに,フェデレーション学習における最先端攻撃に対する新たな属性推論攻撃のベンチマークを行った。 我々の攻撃は、特にクライアントのデータセットが不均一である場合に、高い再構成精度をもたらす。 我々の研究は、FLのプライバシーリスクを効果的に定量化するために、強力で説明可能な攻撃を設計するための新しい角度を提供する。

In this paper, we initiate the study of local model reconstruction attacks for federated learning, where a honest-but-curious adversary eavesdrops the messages exchanged between a targeted client and the server, and then reconstructs the local/personalized model of the victim. The local model reconstruction attack allows the adversary to trigger other classical attacks in a more effective way, since the local model only depends on the client's data and can leak more private information than the global model learned by the server. Additionally, we propose a novel model-based attribute inference attack in federated learning leveraging the local model reconstruction attack. We provide an analytical lower-bound for this attribute inference attack. Empirical results using real world datasets confirm that our local reconstruction attack works well for both regression and classification tasks. Moreover, we benchmark our novel attribute inference attack against the state-of-the-art attacks in federated learning. Our attack results in higher reconstruction accuracy especially when the clients' datasets are heterogeneous. Our work provides a new angle for designing powerful and explainable attacks to effectively quantify the privacy risk in FL.
翻訳日:2022-10-31 15:49:05 公開日:2022-10-28
# DPVIm: 個人差分変動推論の改善

DPVIm: Differentially Private Variational Inference Improved ( http://arxiv.org/abs/2210.15961v1 )

ライセンス: Link先を確認
Joonas J\"alk\"o, Lukas Prediger, Antti Honkela, and Samuel Kaski(参考訳) 多次元統計の微分プライベート(dp)リリースは一般に、例えば高次元ベクトルのベクトルノルムのような集合感度を考える。 しかし、そのベクトルの異なる次元は幅広い大きさを持つため、DP摂動は次元をまたいだ信号に不均等に影響を及ぼす。 この問題は、変分推論(VI)に用いたDP-SGDアルゴリズムの勾配リリースにおいて観測され、そこでは、収差が低く、特定の変分パラメータの出力に高いばらつきがあり、次のような貢献をする。 (i)異なる変分パラメータに対応する勾配部間の等級差の原因を数学的に分離する。 これを事前知識として、変分パラメータの勾配間のリンクを確立し、よりノイズの少ない勾配推定器を得るために、問題を効率的かつ簡単な修正を提案し、これを $\textit{aligned}$ gradients と呼ぶ。 このアプローチにより、プライバシーコストを伴わずにガウス後続近似の共分散パラメータの更新が得られる。 これを解析的に導出した事前条件、例えば自然勾配を用いて勾配をスケーリングする別のアプローチと比較する。 (II) トレーニング中に得られたDPパラメータートレースの反復平均化を用いて, パラメーター推定におけるDP誘発ノイズを, 追加のプライバシを伴わずに低減することを提案する。 最後に (iii)モデルパラメータに導入される追加の不確実性dpを正確に把握するために、パラメータトレースからdpによるノイズを推定し、学習した後方に$\textit{noise aware}$ を付与する。 提案手法の有効性を実データを用いた各種実験により実証した。

Differentially private (DP) release of multidimensional statistics typically considers an aggregate sensitivity, e.g. the vector norm of a high-dimensional vector. However, different dimensions of that vector might have widely different magnitudes and therefore DP perturbation disproportionately affects the signal across dimensions. We observe this problem in the gradient release of the DP-SGD algorithm when using it for variational inference (VI), where it manifests in poor convergence as well as high variance in outputs for certain variational parameters, and make the following contributions: (i) We mathematically isolate the cause for the difference in magnitudes between gradient parts corresponding to different variational parameters. Using this as prior knowledge we establish a link between the gradients of the variational parameters, and propose an efficient while simple fix for the problem to obtain a less noisy gradient estimator, which we call $\textit{aligned}$ gradients. This approach allows us to obtain the updates for the covariance parameter of a Gaussian posterior approximation without a privacy cost. We compare this to alternative approaches for scaling the gradients using analytically derived preconditioning, e.g. natural gradients. (ii) We suggest using iterate averaging over the DP parameter traces recovered during the training, to reduce the DP-induced noise in parameter estimates at no additional cost in privacy. Finally, (iii) to accurately capture the additional uncertainty DP introduces to the model parameters, we infer the DP-induced noise from the parameter traces and include that in the learned posteriors to make them $\textit{noise aware}$. We demonstrate the efficacy of our proposed improvements through various experiments on real data.
翻訳日:2022-10-31 15:48:47 公開日:2022-10-28
# 生体ストレスモニタリングにおける分類技術の検討

Review on Classification Techniques used in Biophysiological Stress Monitoring ( http://arxiv.org/abs/2210.16040v1 )

ライセンス: Link先を確認
Talha Iqbal, Adnan Elahi, Atif Shahzad, William Wijns(参考訳) 心血管活動は、ストレス状態における身体の反応に直接関係している。 ストレスはその強度に基づいて、急性ストレス(短期的ストレス)と慢性ストレス(長期的ストレス)の2つのタイプに分けられる。 反復性急性ストレスと持続性慢性ストレスは、循環器系における炎症において重要な役割を果たすため、心臓発作や脳卒中につながる可能性がある。 本研究では,ストレス監視装置で使用される異なるストレス指標パラメータに適用可能な機械学習分類手法について検討した。 これらのパラメータには、ストレスモニタリング装置で使用される光胸波(PPG)、心電図(ECG)、心電図(EMG)、ガルバニック皮膚反応(GSR)、心拍変動(HRV)、皮膚温度、呼吸速度、脳波(EEG)、唾液コルチゾールが含まれる。 本研究は,実験対象者数,信号処理の種類,計算限界など,精度以外の要因にも依存する分類器の選択に関する議論も提供する。

Cardiovascular activities are directly related to the response of a body in a stressed condition. Stress, based on its intensity, can be divided into two types i.e. Acute stress (short-term stress) and Chronic stress (long-term stress). Repeated acute stress and continuous chronic stress may play a vital role in inflammation in the circulatory system and thus leads to a heart attack or to a stroke. In this study, we have reviewed commonly used machine learning classification techniques applied to different stress-indicating parameters used in stress monitoring devices. These parameters include Photoplethysmograph (PPG), Electrocardiographs (ECG), Electromyograph (EMG), Galvanic Skin Response (GSR), Heart Rate Variation (HRV), skin temperature, respiratory rate, Electroencephalograph (EEG) and salivary cortisol, used in stress monitoring devices. This study also provides a discussion on choosing a classifier, which depends upon a number of factors other than accuracy, like the number of subjects involved in an experiment, type of signals processing and computational limitations.
翻訳日:2022-10-31 15:48:17 公開日:2022-10-28
# 確率勾配ランゲヴィンダイナミクスの優先サブサンプリング

Preferential Subsampling for Stochastic Gradient Langevin Dynamics ( http://arxiv.org/abs/2210.16189v1 )

ライセンス: Link先を確認
Srshti Putcha, Christopher Nemeth, Paul Fearnhead(参考訳) 確率勾配MCMC(SGMCMC)は、データの小さな一様重み付きサブサンプルを用いて、対数姿勢の勾配の偏りのない見積もりを構築することで、従来のMCMCに代わるスケーラブルな代替手段を提供する。 計算効率は高いが、結果として得られる勾配推定器は、高いばらつきと影響のあるサンプリング性能を示す。 分散制御の問題は、従来より優れた確率的勾配推定器を構築することで解決されてきた。 本稿では,確率勾配に大きな影響を与えるデータポイントを優先的にサブサンプル化するために,離散的,非一様確率分布を用いることを提案する。 さらに,アルゴリズムの各イテレーションにおけるサブサンプルサイズを適応的に調整し,勾配を推定しにくいサンプル空間の領域におけるサブサンプルサイズを増大させる手法を提案する。 このような手法は,使用する平均サブサンプルサイズを大幅に削減しつつ,同じレベルの精度を維持することができることを示す。

Stochastic gradient MCMC (SGMCMC) offers a scalable alternative to traditional MCMC, by constructing an unbiased estimate of the gradient of the log-posterior with a small, uniformly-weighted subsample of the data. While efficient to compute, the resulting gradient estimator may exhibit a high variance and impact sampler performance. The problem of variance control has been traditionally addressed by constructing a better stochastic gradient estimator, often using control variates. We propose to use a discrete, non-uniform probability distribution to preferentially subsample data points that have a greater impact on the stochastic gradient. In addition, we present a method of adaptively adjusting the subsample size at each iteration of the algorithm, so that we increase the subsample size in areas of the sample space where the gradient is harder to estimate. We demonstrate that such an approach can maintain the same level of accuracy while substantially reducing the average subsample size that is used.
翻訳日:2022-10-31 15:47:57 公開日:2022-10-28
# 識別的個人分類のための公正証明書

Fairness Certificates for Differentially Private Classification ( http://arxiv.org/abs/2210.16242v1 )

ライセンス: Link先を確認
Paul Mangold, Micha\"el Perrot, Aur\'elien Bellet, Marc Tommasi(参考訳) 本研究では,二項分類における差分プライバシーの影響を理論的に検討する。 モデルの種類が与えられたとき、人気群フェアネス測度はモデルのパラメーターに対してポイントワイズリプシッツ連続であることが証明される。 この結果は、決定関数が任意の事象(センシティブなグループへの加入など)に対して負の予測を行う確率についてのより一般的な声明の結果である。 上記のリプシッツ特性を用いて高い確率境界を証明し、十分な例が与えられた場合、プライベートモデルの公平度レベルが、その非プライベートモデルのいずれかに近いことを示す。

In this work, we theoretically study the impact of differential privacy on fairness in binary classification. We prove that, given a class of models, popular group fairness measures are pointwise Lipschitz-continuous with respect to the parameters of the model. This result is a consequence of a more general statement on the probability that a decision function makes a negative prediction conditioned on an arbitrary event (such as membership to a sensitive group), which may be of independent interest. We use the aforementioned Lipschitz property to prove a high probability bound showing that, given enough examples, the fairness level of private models is close to the one of their non-private counterparts.
翻訳日:2022-10-31 15:47:41 公開日:2022-10-28
# 部分学習型3層ニューラルネットワークの関数空間平均場理論

A Functional-Space Mean-Field Theory of Partially-Trained Three-Layer Neural Networks ( http://arxiv.org/abs/2210.16286v1 )

ライセンス: Link先を確認
Zhengdao Chen, Eric Vanden-Eijnden, Joan Bruna(参考訳) ニューラルネットワーク(nns)のトレーニングダイナミクスを理解するために、先行研究は2層nnの無限幅平均場(mf)限界を検討し、勾配流訓練下での収束の理論的保証と近似と一般化能力を確立した。 本研究では,第1層がランダムで固定された3層NNモデルの無限幅限界について検討する。 制限モデルを厳密に定義するために,ニューロンを機能空間に属するものとして扱うことにより,二層NNのMF理論を一般化する。 そして、MFトレーニングダイナミクスを正定値な時間変化カーネルを持つカーネル勾配流として記述することにより、線形速度で1L_2$回帰のトレーニング損失が0に減衰することを示す。 さらに、mfトレーニングダイナミクスによって得られる解を含む関数空間を定義し、これらの空間のラデマッハ複雑性境界を証明する。 我々の理論はモデルの異なるスケーリング選択に対応しており、特徴学習をしながら特徴的行動を示すMF制限の2つの規則が導かれる。

To understand the training dynamics of neural networks (NNs), prior studies have considered the infinite-width mean-field (MF) limit of two-layer NN, establishing theoretical guarantees of its convergence under gradient flow training as well as its approximation and generalization capabilities. In this work, we study the infinite-width limit of a type of three-layer NN model whose first layer is random and fixed. To define the limiting model rigorously, we generalize the MF theory of two-layer NNs by treating the neurons as belonging to functional spaces. Then, by writing the MF training dynamics as a kernel gradient flow with a time-varying kernel that remains positive-definite, we prove that its training loss in $L_2$ regression decays to zero at a linear rate. Furthermore, we define function spaces that include the solutions obtainable through the MF training dynamics and prove Rademacher complexity bounds for these spaces. Our theory accommodates different scaling choices of the model, resulting in two regimes of the MF limit that demonstrate distinctive behaviors while both exhibiting feature learning.
翻訳日:2022-10-31 15:47:31 公開日:2022-10-28
# ディープニューラルネットワークの運動方程式に向けて:連続時間勾配降下と離散化誤差解析

Toward Equation of Motion for Deep Neural Networks: Continuous-time Gradient Descent and Discretization Error Analysis ( http://arxiv.org/abs/2210.15898v1 )

ライセンス: Link先を確認
Taiki Miyagawa(参考訳) 我々は、DNNの離散学習力学を正確に記述した微分方程式であるディープニューラルネットワーク(DNN)の「運動方程式」(EoM)を導出し、解いた。 微分方程式は連続であるが、離散最適化(GD)アルゴリズムの研究においても顕著な役割を果たしている。 しかし、微分方程式とDNNの実際の学習力学との間には、離散化誤差によるギャップがある。 本稿では、勾配流(GF)から始まり、GFとGDの離散化誤差をキャンセルする逆項を導出する。 その結果、GDの離散学習力学を正確に記述した連続微分方程式であるEoMが得られる。 また、EoMの精度を示すために、離散化誤差を導出する。 さらに、EoMを2つの特定の例に適用する。 eomは、連続時間と離散時間gdの違いを強調しており、gdの離散学習ダイナミクスをよりよく記述するためのカウンター用語の重要性を示している。 実験結果から理論的知見が得られた。

We derive and solve an ``Equation of Motion'' (EoM) for deep neural networks (DNNs), a differential equation that precisely describes the discrete learning dynamics of DNNs. Differential equations are continuous but have played a prominent role even in the study of discrete optimization (gradient descent (GD) algorithms). However, there still exist gaps between differential equations and the actual learning dynamics of DNNs due to discretization error. In this paper, we start from gradient flow (GF) and derive a counter term that cancels the discretization error between GF and GD. As a result, we obtain EoM, a continuous differential equation that precisely describes the discrete learning dynamics of GD. We also derive discretization error to show to what extent EoM is precise. In addition, we apply EoM to two specific cases: scale- and translation-invariant layers. EoM highlights differences between continuous-time and discrete-time GD, indicating the importance of the counter term for a better description of the discrete learning dynamics of GD. Our experimental results support our theoretical findings.
翻訳日:2022-10-31 15:41:48 公開日:2022-10-28
# FUSSL:ファジィな自己指導型学習

FUSSL: Fuzzy Uncertain Self Supervised Learning ( http://arxiv.org/abs/2210.15818v1 )

ライセンス: Link先を確認
Salman Mohamadi, Gianfranco Doretto, Donald A. Adjeroh(参考訳) 自己教師付き学習(ssl)は、注釈のないデータの力を利用する手法として、アノテーションを使わずに成功している。 多くの先進的なアプローチが、比較的成功した監督された代替案を上回って進化している。 SSLの主な問題は、異なる設定下でのアプローチの堅牢性である。 本稿では,単一スーパーバイザ信号の使用によるSSLの基本的限界を初めて認識する。 この制限に対処するために、我々は不確実性表現の力を活用し、その仮定やアプローチに関わらず、SSLベースラインに対して堅牢で一般的な階層的学習/トレーニングプロトコルを考案する。 基本的に、情報ボトルネック原理を用いて、特徴学習を2段階の訓練手順に分解し、それぞれに異なる監督信号を与える。 この二重監督アプローチは、2つの重要なステップで捉えられる。 1)データ拡張に対する非分散強制、及び 2) ファジィな擬似ラベリング(硬いアノテーションと軟いアノテーションの両方)。 クロスクラス/クラスタ機能学習を可能にする、単純で効果的なプロトコルを、不変性によってモデルのアンサンブルを初期訓練して第1のトレーニングフェーズとしてデータ拡張を行い、第2のトレーニングフェーズで元のサンプルにファジィラベルを割り当てる。 我々は、最近のベースラインに対するアプローチの有効性を評価し、幾何学的、コントラスト的、非コントラスト的、ハード/ソフトなホワイトニング(冗長化)ベースラインを含む4つの異なるSSLパラダイムを網羅する。 複数の条件下での大規模な実験により、提案されたトレーニングプロトコルは、基礎となる原則とは無関係に、前者のベースラインのパフォーマンスを一貫して改善することが示された。

Self supervised learning (SSL) has become a very successful technique to harness the power of unlabeled data, with no annotation effort. A number of developed approaches are evolving with the goal of outperforming supervised alternatives, which have been relatively successful. One main issue in SSL is robustness of the approaches under different settings. In this paper, for the first time, we recognize the fundamental limits of SSL coming from the use of a single-supervisory signal. To address this limitation, we leverage the power of uncertainty representation to devise a robust and general standard hierarchical learning/training protocol for any SSL baseline, regardless of their assumptions and approaches. Essentially, using the information bottleneck principle, we decompose feature learning into a two-stage training procedure, each with a distinct supervision signal. This double supervision approach is captured in two key steps: 1) invariance enforcement to data augmentation, and 2) fuzzy pseudo labeling (both hard and soft annotation). This simple, yet, effective protocol which enables cross-class/cluster feature learning, is instantiated via an initial training of an ensemble of models through invariance enforcement to data augmentation as first training phase, and then assigning fuzzy labels to the original samples for the second training phase. We consider multiple alternative scenarios with double supervision and evaluate the effectiveness of our approach on recent baselines, covering four different SSL paradigms, including geometrical, contrastive, non-contrastive, and hard/soft whitening (redundancy reduction) baselines. Extensive experiments under multiple settings show that the proposed training protocol consistently improves the performance of the former baselines, independent of their respective underlying principles.
翻訳日:2022-10-31 15:40:49 公開日:2022-10-28
# ユニバーサルドメイン適応のための下位プロトタイプアライメント

Subsidiary Prototype Alignment for Universal Domain Adaptation ( http://arxiv.org/abs/2210.15909v1 )

ライセンス: Link先を確認
Jogendra Nath Kundu, Suvaansh Bhambri, Akshay Kulkarni, Hiran Sarkar, Varun Jampani, R. Venkatesh Babu(参考訳) Universal Domain Adaptation (UniDA)は、ドメインシフトを伴う2つのデータセット間の知識伝達の問題とカテゴリシフトを扱う。 目標は、ラベルなしのターゲットサンプルを、"known"カテゴリの1つまたは"unknown"カテゴリの1つに分類することである。 UniDAの大きな問題は、負の移動、すなわち「未知」クラスと「未知」クラスの誤配である。 この目的のために、我々はまず、ディープネットワークの異なる層に現れる負の転送リスクとドメイン不変性の間の興味深いトレードオフを明らかにする。 この2つのメトリクスを中間層でバランスをとることができるのです。 この知見に基づく効果的なフレームワークの設計に向けて,Bag-of-visual-Words (BoW) からモチベーションを引き出す。 中層層のBoWライクな表現におけるワードプロトタイプは、高層機能のカテゴリシフトの影響を受けない可能性のある低層視覚プリミティブを表す。 我々は,単語プロトタイプの学習を促進する改良と,単語ヒストグラムに基づく分類を開発する。 その後、補助プロトタイプ空間アライメント(SPA)を閉集合アライメント問題と見なすことができ、負の移動を避けることができる。 そこで我々は,新しい単語ヒストグラム関連プレテキストタスクにより,目標タスクUniDAと連動して,クローズドセットSPAを実現する。 既存のUniDA技術上でのアプローチの有効性を実証し,3つの標準UniDAおよびOpen-Set DAオブジェクト認識ベンチマークの最先端性能を示す。

Universal Domain Adaptation (UniDA) deals with the problem of knowledge transfer between two datasets with domain-shift as well as category-shift. The goal is to categorize unlabeled target samples, either into one of the "known" categories or into a single "unknown" category. A major problem in UniDA is negative transfer, i.e. misalignment of "known" and "unknown" classes. To this end, we first uncover an intriguing tradeoff between negative-transfer-risk and domain-invariance exhibited at different layers of a deep network. It turns out we can strike a balance between these two metrics at a mid-level layer. Towards designing an effective framework based on this insight, we draw motivation from Bag-of-visual-Words (BoW). Word-prototypes in a BoW-like representation of a mid-level layer would represent lower-level visual primitives that are likely to be unaffected by the category-shift in the high-level features. We develop modifications that encourage learning of word-prototypes followed by word-histogram based classification. Following this, subsidiary prototype-space alignment (SPA) can be seen as a closed-set alignment problem, thereby avoiding negative transfer. We realize this with a novel word-histogram-related pretext task to enable closed-set SPA, operating in conjunction with goal task UniDA. We demonstrate the efficacy of our approach on top of existing UniDA techniques, yielding state-of-the-art performance across three standard UniDA and Open-Set DA object recognition benchmarks.
翻訳日:2022-10-31 15:40:22 公開日:2022-10-28
# rnn患者モニタリングによる胸部x線分類の改善

Improving Chest X-Ray Classification by RNN-based Patient Monitoring ( http://arxiv.org/abs/2210.16074v1 )

ライセンス: Link先を確認
David Biesner, Helen Schneider, Benjamin Wulff, Ulrike Attenberger, Rafet Sifa(参考訳) 胸部X線撮影は胸部領域と肺機能に関連する様々な病態を検出するための最も一般的な放射線治療の1つである。 臨床環境では、胸部X線写真の自動評価は、医師が意思決定プロセスで支援し、例えば緊急患者を優先して臨床ワークフローを最適化する可能性を秘めている。 胸部x線画像の分類における機械学習モデルのポテンシャルを分析するほとんどの仕事は、一度に1つの画像の病理の処理と予測に焦点を当てている。 しかし、多くの患者は治療中や1回の入院中に何度もそのような処置を受ける。 過去の画像である患者履歴、特にそれに対応する診断は、その予測において分類システムに役立つ有用な情報を含む。 本研究では,胸部X線のCheXpertデータセットから新しいデータセットを構築することにより,診断に関する情報がCNNに基づく画像分類モデルを改善する方法を分析する。 追加の患者履歴情報に基づいてトレーニングされたモデルが、情報のないトレーニングを受けたモデルよりも有意に優れていることを示す。 データセットの作成とモデルのトレーニングを複製するコードを提供します。

Chest X-Ray imaging is one of the most common radiological tools for detection of various pathologies related to the chest area and lung function. In a clinical setting, automated assessment of chest radiographs has the potential of assisting physicians in their decision making process and optimize clinical workflows, for example by prioritizing emergency patients. Most work analyzing the potential of machine learning models to classify chest X-ray images focuses on vision methods processing and predicting pathologies for one image at a time. However, many patients undergo such a procedure multiple times during course of a treatment or during a single hospital stay. The patient history, that is previous images and especially the corresponding diagnosis contain useful information that can aid a classification system in its prediction. In this study, we analyze how information about diagnosis can improve CNN-based image classification models by constructing a novel dataset from the well studied CheXpert dataset of chest X-rays. We show that a model trained on additional patient history information outperforms a model trained without the information by a significant margin. We provide code to replicate the dataset creation and model training.
翻訳日:2022-10-31 15:39:55 公開日:2022-10-28
# 集団ロバストネス認証のための局所ランダム化平滑化

Localized Randomized Smoothing for Collective Robustness Certification ( http://arxiv.org/abs/2210.16140v1 )

ライセンス: Link先を確認
Jan Schuchardt, Tom Wollschl\"ager, Aleksandar Bojchevski, Stephan G\"unnemann(参考訳) イメージセグメンテーション、ノード分類、その他多くのタスクのモデルは、単一の入力を複数のラベルにマッピングする。 この単一の共有入力(例えば画像)を摂動させることで、敵はいくつかの予測(例えば複数のピクセルを誤分類する)を操作できる。 集合的堅牢性認証は、この脅威モデルの下で堅牢性予測の数を確実に制限するタスクである。 各出力を独立に検証する以上の唯一の専用方法は、厳密な局所モデルに限定され、各予測は小さな受容場に関連付けられる。 さらに,各出力は入力全体に依存するが,異なる入力領域(例えば,画像内の近接性に基づいて)に異なるレベルの重要度を割り当てる。 この証明は、異なる入力領域に対するランダムな摂動強度が出力に対する重要性に比例する、新しい局所的ランダム化平滑化手法に基づいている。 ローカライズされた平滑化パレートは、画像分割とノード分類タスクの両方で既存の証明書を優位に置き、高い精度と強力な保証を提供する。

Models for image segmentation, node classification and many other tasks map a single input to multiple labels. By perturbing this single shared input (e.g. the image) an adversary can manipulate several predictions (e.g. misclassify several pixels). Collective robustness certification is the task of provably bounding the number of robust predictions under this threat model. The only dedicated method that goes beyond certifying each output independently is limited to strictly local models, where each prediction is associated with a small receptive field. We propose a more general collective robustness certificate for all types of models and further show that this approach is beneficial for the larger class of softly local models, where each output is dependent on the entire input but assigns different levels of importance to different input regions (e.g. based on their proximity in the image). The certificate is based on our novel localized randomized smoothing approach, where the random perturbation strength for different input regions is proportional to their importance for the outputs. Localized smoothing Pareto-dominates existing certificates on both image segmentation and node classification tasks, simultaneously offering higher accuracy and stronger guarantees.
翻訳日:2022-10-31 15:39:38 公開日:2022-10-28
# 潜在空間は機能空間である:限定データセット上のgansトレーニングの正規化用語

Latent Space is Feature Space: Regularization Term for GANs Training on Limited Dataset ( http://arxiv.org/abs/2210.16251v1 )

ライセンス: Link先を確認
Pengwei Wang(参考訳) GAN(Generative Adversarial Networks)は現在、教師なし画像生成手法として広く使われている。 現在の最先端のGANは高解像度でフォトリアリスティック画像を生成することができる。 しかし、大量のデータが必要であり、あるいはモデルが類似したパターン(モード崩壊)と品質の悪い画像を生成する傾向がある。 画像品質に影響を与えることなくモード崩壊を回避するため,潜伏空間の異なる次元間の特徴の多様性を最大化するために,LFMと呼ばれるGANの付加構造と損失関数を提案した。 直交潜在ベクトル対を作成し、識別器によって抽出された特徴ベクトル対をドット積で調べ、識別器と生成器が新たな対向関係にある。 実験では、このシステムはdcgan上に構築され、celebaデータセット上でscratchからfrechetインセプション距離(fid)トレーニングを改善することが証明された。 このシステムは軽度の余分なパフォーマンスを必要とし、データ拡張メソッドで機能する。 コードはgithub.com/penway/LFMで入手できる。

Generative Adversarial Networks (GAN) is currently widely used as an unsupervised image generation method. Current state-of-the-art GANs can generate photorealistic images with high resolution. However, a large amount of data is required, or the model would prone to generate images with similar patterns (mode collapse) and bad quality. I proposed an additional structure and loss function for GANs called LFM, trained to maximize the feature diversity between the different dimensions of the latent space to avoid mode collapse without affecting the image quality. Orthogonal latent vector pairs are created, and feature vector pairs extracted by discriminator are examined by dot product, with which discriminator and generator are in a novel adversarial relationship. In experiments, this system has been built upon DCGAN and proved to have improvement on Frechet Inception Distance (FID) training from scratch on CelebA Dataset. This system requires mild extra performance and can work with data augmentation methods. The code is available on github.com/penway/LFM.
翻訳日:2022-10-31 15:39:17 公開日:2022-10-28
# 3Dポイントクラウド解析のためのマルチビューレンダリングによる自己教師付き学習

Self-Supervised Learning with Multi-View Rendering for 3D Point Cloud Analysis ( http://arxiv.org/abs/2210.15904v1 )

ライセンス: Link先を確認
Bach Tran, Binh-Son Hua, Anh Tuan Tran, Minh Hoai(参考訳) 近年、3dポイントクラウド専用に設計されたディープニューラルネットワークが出現し、3dディープラーニングで大きな進歩を遂げている。 これらのネットワークは、スクラッチや、ポイントクラウドデータから純粋に学習されたトレーニング済みモデルからトレーニングされることが多い。 画像領域における深層学習の成功に触発され、3次元データのマルチビューレンダリングを利用してモデル初期化を改善するための新しい事前学習手法を考案した。 我々の事前学習は、視点投影から計算した局所画素/点レベル対応損失と知識蒸留に基づく大域画像/点雲レベル損失により自己管理され、PointNet、DGCNN、SR-UNetなどの人気ポイントクラウドネットワーク上で効果的に改善される。 これらの改善されたモデルは、さまざまなデータセットや下流タスクにおける既存の最先端メソッドよりも優れています。 また、合成データと実データによる事前学習の利点を分析し、合成データによる事前学習が高レベル下流作業にも有用であることを示す。 コードと事前訓練されたモデルはhttps://github.com/VinAIResearch/selfsup_pcd.comで入手できる。

Recently, great progress has been made in 3D deep learning with the emergence of deep neural networks specifically designed for 3D point clouds. These networks are often trained from scratch or from pre-trained models learned purely from point cloud data. Inspired by the success of deep learning in the image domain, we devise a novel pre-training technique for better model initialization by utilizing the multi-view rendering of the 3D data. Our pre-training is self-supervised by a local pixel/point level correspondence loss computed from perspective projection and a global image/point cloud level loss based on knowledge distillation, thus effectively improving upon popular point cloud networks, including PointNet, DGCNN and SR-UNet. These improved models outperform existing state-of-the-art methods on various datasets and downstream tasks. We also analyze the benefits of synthetic and real data for pre-training, and observe that pre-training on synthetic data is also useful for high-level downstream tasks. Code and pre-trained models are available at https://github.com/VinAIResearch/selfsup_pcd.
翻訳日:2022-10-31 15:39:02 公開日:2022-10-28
# 相対行動属性:象徴的目標仕様と人間の嗜好からの逆学習のギャップを埋める

Relative Behavioral Attributes: Filling the Gap between Symbolic Goal Specification and Reward Learning from Human Preferences ( http://arxiv.org/abs/2210.15906v1 )

ライセンス: Link先を確認
Lin Guan, Karthik Valmeekam, Subbarao Kambhampati(参考訳) 非専門家ユーザが指定した目標から複雑な振る舞いを生成することは、インテリジェントエージェントの重要な側面である。 軌道比較によるインタラクティブな報酬学習は、非熟練のユーザーがエージェントの振る舞いの短いクリップよりも好みを表現することで複雑な目的を伝達できる方法の1つである。 この手法は、基礎となるタスクに存在する複雑な暗黙の知識を符号化することができるが、人間は二進選好ラベル以外のリッチなフィードバックを提供できないと暗黙的に仮定し、フィードバックの複雑さとユーザエクスペリエンスの低下を極端に高める。 目的の詳細なシンボリック仕様を提供するのは誘惑的かもしれませんが、専門家のユーザにとっても常に実現可能です。 しかしながら、ほとんどの場合、エージェントは、たとえタスクの目的を象徴的に完全に特定することができなくても、その目的を満たすために意味のある軸に沿ってどのように行動を変えるべきかを認識している。 これをモチベーションとして用いて,2本足の「スニーキー」エージェントの動作の柔らかさを増すなどして,ユーザがエージェントの動作をカスタマイズできるようにすることにより,正確な目標仕様と選好ラベルから純粋に学習することで,中間的基盤として機能する相対行動属性の概念を導入する。 我々は,順序付き行動クリップから任意の種類の行動属性をエンコードできる2つの異なるパラメトリック手法を提案する。 我々は,9つの異なる行動属性を持つ4つのタスクに対する手法の有効性を実証し,各属性が学習されると,エンドユーザーは10回程度のフィードバックを提供することで,望ましいエージェント動作を作成できることを示す。 このアプローチのフィードバックの複雑さは,人間からの学習基準よりも10倍以上小さく,現実のアプリケーションに容易に適用可能であることを示す。

Generating complex behaviors from goals specified by non-expert users is a crucial aspect of intelligent agents. Interactive reward learning from trajectory comparisons is one way to allow non-expert users to convey complex objectives by expressing preferences over short clips of agent behaviors. Even though this method can encode complex tacit knowledge present in the underlying tasks, it implicitly assumes that the human is unable to provide rich-form feedback other than binary preference labels, leading to extremely high feedback complexity and poor user experience. While providing a detailed symbolic specification of the objectives might be tempting, it is not always feasible even for an expert user. However, in most cases, humans are aware of how the agent should change its behavior along meaningful axes to fulfill the underlying purpose, even if they are not able to fully specify task objectives symbolically. Using this as motivation, we introduce the notion of Relative Behavioral Attributes, which acts as a middle ground, between exact goal specification and reward learning purely from preference labels, by enabling the users to tweak the agent's behavior through nameable concepts (e.g., increasing the softness of the movement of a two-legged "sneaky" agent). We propose two different parametric methods that can potentially encode any kind of behavioral attributes from ordered behavior clips. We demonstrate the effectiveness of our methods on 4 tasks with 9 different behavioral attributes and show that once the attributes are learned, end users can effortlessly produce desirable agent behaviors, by providing feedback just around 10 times. The feedback complexity of our approach is over 10 times less than the learning-from-human-preferences baseline and this demonstrates that our approach is readily applicable in real-world applications.
翻訳日:2022-10-31 15:38:44 公開日:2022-10-28
# 高プルーニングレートのための被覆中心コアセット選択

Coverage-centric Coreset Selection for High Pruning Rates ( http://arxiv.org/abs/2210.15809v1 )

ライセンス: Link先を確認
Haizhong Zheng, Rui Liu, Fan Lai, Atul Prakash(参考訳) one-shot coreset selectionは、トレーニングデータのサブセットを選択することを目的としており、pruningレートが与えられると、そのサブセットのみでトレーニングされたモデルに対して高い精度を達成することができる。 最先端のcoreset選択メソッドは、通常、各例に重要スコアを割り当て、coresetを形成するために最も重要な例を選択する。 これらの手法は低プルーニングレートで良好に動作するが、高いプルーニングレートでは破滅的な精度低下に悩まされ、ランダムなコアセットの選択よりも悪い結果が得られた。 本稿では,この精度が理論的にも経験的にも低下する理由を考察する。 我々は、コアセットが提供するカバレッジの観点から、モデル損失のバウンドに関する以前の理論的結果を拡張する。 理論的な結果から着想を得た新しいカバレッジベース計量を提案し,その測定値に基づいて,高プルーニングレートで重要度ベースのコアセット法によって選択されたコアセットが,データカバレッジが悪くなるため,ランダムコアセットと比較して性能が低下することが期待される。 そこで我々は,提案する指標と各例の重要性に基づいて,総合的なデータカバレッジを検討する新しいコアセット選択法であるカバレッジ中心コアセット選択(ccs)を提案する。 CCSを4つのデータセット上で評価した結果,最先端コアセット選択法よりも精度が高く,高いプルーニングレートでのランダムサンプリング,低プルーニングレートでの同等性能が得られた。 例えば、CCSはランダムサンプリングよりも7.04%精度が向上し、90%のプルーニング率を持つCIFAR10の重要度に基づく選択法よりも少なくとも20.16%精度が向上している。

One-shot coreset selection aims to select a subset of the training data, given a pruning rate, that can achieve high accuracy for models that are subsequently trained only with that subset. State-of-the-art coreset selection methods typically assign an importance score to each example and select the most important examples to form a coreset. These methods perform well at low pruning rates; but at high pruning rates, they have been found to suffer a catastrophic accuracy drop, performing worse than even random coreset selection. In this paper, we explore the reasons for this accuracy drop both theoretically and empirically. We extend previous theoretical results on the bound for model loss in terms of coverage provided by the coreset. Inspired by theoretical results, we propose a novel coverage-based metric and, based on the metric, find that coresets selected by importance-based coreset methods at high pruning rates can be expected to perform poorly compared to random coresets because of worse data coverage. We then propose a new coreset selection method, Coverage-centric Coreset Selection (CCS), where we jointly consider overall data coverage based on the proposed metric as well as importance of each example. We evaluate CCS on four datasets and show that they achieve significantly better accuracy than state-of-the-art coreset selection methods as well as random sampling under high pruning rates, and comparable performance at low pruning rates. For example, CCS achieves 7.04% better accuracy than random sampling and at least 20.16% better than popular importance-based selection methods on CIFAR10 with a 90% pruning rate.
翻訳日:2022-10-31 15:31:42 公開日:2022-10-28
# 中間表現規則化によるフェデレーション学習

Federated Learning with Intermediate Representation Regularization ( http://arxiv.org/abs/2210.15827v1 )

ライセンス: Link先を確認
Ye Lin Tun, Chu Myaet Thwal, Seong-Bae Park, Choong Seon Hong(参考訳) データ収集を伴う集中型モデルトレーニングとは対照的に、フェデレートドラーニング(FL)は、リモートクライアントがプライベートデータを公開せずにモデルを協調的にトレーニングすることを可能にする。 しかし、モデル性能は通常、多様な特性を持つクライアントによって生成される異種データのためにflで劣化する。 優れたパフォーマンスを維持するための有望な戦略の1つは、ローカルトレーニングがグローバルモデルから遠く離れることを制限することだ。 従来の研究では、局所モデルと大域モデルによって学習された表現間の距離を規則化することでこれを達成している。 しかし、それらはモデルの初期層または出力層に先行する層からの表現のみを考える。 本研究では,中間層表現を局所的トレーニングプロセスに統合することにより,より細かい規則化を実現するfeedintrを提案する。 具体的には、FedIntRは局所モデルと大域モデルの中間層表現の近接性を促進する正規化項を計算する。 さらに、FedIntRは局所表現とグローバル表現の類似性に基づいて各レイヤの正規化項への表現の寄与を自動的に決定する。 我々は,feedintrが最先端のアプローチと同等以上の性能を達成できることを示すために,様々なデータセットを広範囲に実験した。

In contrast to centralized model training that involves data collection, federated learning (FL) enables remote clients to collaboratively train a model without exposing their private data. However, model performance usually degrades in FL due to the heterogeneous data generated by clients of diverse characteristics. One promising strategy to maintain good performance is by limiting the local training from drifting far away from the global model. Previous studies accomplish this by regularizing the distance between the representations learned by the local and global models. However, they only consider representations from the early layers of a model or the layer preceding the output layer. In this study, we introduce FedIntR, which provides a more fine-grained regularization by integrating the representations of intermediate layers into the local training process. Specifically, FedIntR computes a regularization term that encourages the closeness between the intermediate layer representations of the local and global models. Additionally, FedIntR automatically determines the contribution of each layer's representation to the regularization term based on the similarity between local and global representations. We conduct extensive experiments on various datasets to show that FedIntR can achieve equivalent or higher performance compared to the state-of-the-art approaches.
翻訳日:2022-10-31 15:31:10 公開日:2022-10-28
# 確率比推定と正則化を用いた多クラス分類器の改良

Improving Multi-class Classifier Using Likelihood Ratio Estimation with Regularization ( http://arxiv.org/abs/2210.16033v1 )

ライセンス: Link先を確認
Masato Kikuchi, Tadachika Ozono(参考訳) unb)~\cite{komiya:13}をlrsを用いて定義し,不均衡な分類問題に対処するための普遍セットナイーブベイズ分類器を提案した。 しかし、UNBで使用されるLR推定器は低周波データに対してLRを過大評価し、分類性能を低下させる。 従来の研究では、低周波データにおいても有効なLR推定器が提案されている。 この推定器は正規化を用いて過大評価を抑えるが、不均衡なデータは考慮しなかった。 本稿では,推定器とUNBを統合した。 不均衡データを用いた実験により,クラスバランスに応じて分類スコアを効果的に調整し,分類性能を向上させることができた。

The universal-set naive Bayes classifier (UNB)~\cite{Komiya:13}, defined using likelihood ratios (LRs), was proposed to address imbalanced classification problems. However, the LR estimator used in the UNB overestimates LRs for low-frequency data, degrading the classification performance. Our previous study~\cite{Kikuchi:19} proposed an effective LR estimator even for low-frequency data. This estimator uses regularization to suppress the overestimation, but we did not consider imbalanced data. In this paper, we integrated the estimator with the UNB. Our experiments with imbalanced data showed that our proposed classifier effectively adjusts the classification scores according to the class balance using regularization parameters and improves the classification performance.
翻訳日:2022-10-31 15:30:51 公開日:2022-10-28
# 熱指数予測のためのファジィ論理モデル

Fuzzy Logic Model for Predicting the Heat Index ( http://arxiv.org/abs/2210.16051v1 )

ライセンス: Link先を確認
Nnamdi Uzoukwu, Acep Purqon(参考訳) 温度および相対湿度データから熱指数を予測するファジィ推論システムを開発した。 システム変数の相互接続性を符号化するために入力の不正確なマッピングを用いたファジィ論理の有効性を利用して, 成長室の温度および湿度条件が熱指数に与える影響の言語モデルを明らかにする。 実験では, r2が0.974, rmseが0.084となり, 統計的に有意であった(f1,5915 = 222900.858, p < 0.001)。 データトレンドの言語的要約と高い予測精度の利点を提供することで、ファジィ論理モデルは熱制御問題に対する効果的な機械学習手法であることが判明した。

A fuzzy inference system was developed for predicting the heat index from temperature and relative humidity data. The effectiveness of fuzzy logic in using imprecise mapping of input to output to encode interconnectedness of system variables was exploited to uncover a linguistic model of how the temperature and humidity conditions impact the heat index in a growth room. The developed model achieved an R2 of 0.974 and a RMSE of 0.084 when evaluated on a test set, and the results were statistically significant (F1,5915 = 222900.858, p < 0.001). By providing the advantage of linguistic summarization of data trends as well as high prediction accuracy, the fuzzy logic model proved to be an effective machine learning method for heat control problems.
翻訳日:2022-10-31 15:30:38 公開日:2022-10-28
# OMG:ゼロショットのオープン・ボキャブラリー・ヒューマン・モーション・ジェネレーション

OhMG: Zero-shot Open-vocabulary Human Motion Generation ( http://arxiv.org/abs/2210.15929v1 )

ライセンス: Link先を確認
Junfan Lin, Jianlong Chang, Lingbo Liu, Guanbin Li, Liang Lin, Qi Tian, Chang-wen Chen(参考訳) 近年,テキストによる動きの生成が注目されている。 しかしながら、オープン語彙の人間のモーション生成はタッチレスのままであり、多様なラベル付きデータが欠如している。 良いニュースは、大規模なマルチモデル基盤モデル(例えば、CLIP)の研究が、少数/ゼロショットの画像テキストアライメントにおいて優れたパフォーマンスを示し、手動でラベル付けされたデータの必要性を大幅に減らしたことである。 本稿では,オープンな3次元モーション生成のためのCLIPをゼロショット方式で活用する。 具体的には,text2pose と pose2motion の2段階からなる。 text2pose では,CLIP からの直接監督による最適化の難しさに対処するため,新しいパイプライン蒸留戦略を用いて,多目的CLIP モデルをスリムで具体的な3D ポーズとテキストの整列モデルに彫ることを提案する。 蒸留した3Dポーズテキストモデルで最適化し,CLIPのテキスト目的知識をテキスト目的生成に効果的かつ効率的に活用する。 韻律2動きについて,先進言語モデルからインスピレーションを得て,CLIPの運動力学の欠如を補うトランスフォーマーに基づく運動モデルを事前学習する。 その後、テキスト2poseステージから生成されたポーズをプロンプトとして定式化することにより、このポーズを参照する動きを制御可能で柔軟な方法で生成することができる。 提案手法は高度ベースラインに対して検証され,大幅な改善が得られた。 コードはここでリリースされる。

Generating motion in line with text has attracted increasing attention nowadays. However, open-vocabulary human motion generation still remains touchless and undergoes the lack of diverse labeled data. The good news is that, recent studies of large multi-model foundation models (e.g., CLIP) have demonstrated superior performance on few/zero-shot image-text alignment, largely reducing the need for manually labeled data. In this paper, we take advantage of CLIP for open-vocabulary 3D human motion generation in a zero-shot manner. Specifically, our model is composed of two stages, i.e., text2pose and pose2motion. For text2pose, to address the difficulty of optimization with direct supervision from CLIP, we propose to carve the versatile CLIP model into a slimmer but more specific model for aligning 3D poses and texts, via a novel pipeline distillation strategy. Optimizing with the distilled 3D pose-text model, we manage to concretize the text-pose knowledge of CLIP into a text2pose generator effectively and efficiently. As for pose2motion, drawing inspiration from the advanced language model, we pretrain a transformer-based motion model, which makes up for the lack of motion dynamics of CLIP. After that, by formulating the generated poses from the text2pose stage as prompts, the motion generator can generate motions referring to the poses in a controllable and flexible manner. Our method is validated against advanced baselines and obtains sharp improvements. The code will be released here.
翻訳日:2022-10-31 15:24:03 公開日:2022-10-28
# エッジアウェアガイドによる熱赤外イメージインパインティング

Thermal Infrared Image Inpainting via Edge-Aware Guidance ( http://arxiv.org/abs/2210.16000v1 )

ライセンス: Link先を確認
Zeyu Wang, Haibin Shen, Changyou Men, Quan Sun, Kejie Huang(参考訳) 画像の彩色は、深層学習において根本的な進歩を遂げた。 しかし、既存の塗装法のほとんどは自然画像の処理を目的としており、熱赤外(TIR)画像はほとんど対象外であり、広く応用されている。 TIR画像に適用する場合、従来の塗装法は通常歪みやぼやけた内容を生成する。 本稿では,TIR画像の欠落した領域を再構成することを目的とした,熱赤外画像の塗布作業を提案する。 本稿では,新しいディープラーニングモデルTIR-Fillを提案する。 我々は、壊れたTIR画像の細いエッジを完成させるためにエッジジェネレータを採用する。 完了したエッジは、モデルのエッジ認識を高めるために正規化重みとバイアスに投影される。 さらに、ゲート畳み込みに基づく精細化ネットワークを用いて、TIR画像の整合性を改善する。 実験により,本手法はFLIRサーマルデータセットの現像手法よりも優れていた。

Image inpainting has achieved fundamental advances with deep learning. However, almost all existing inpainting methods aim to process natural images, while few target Thermal Infrared (TIR) images, which have widespread applications. When applied to TIR images, conventional inpainting methods usually generate distorted or blurry content. In this paper, we propose a novel task -- Thermal Infrared Image Inpainting, which aims to reconstruct missing regions of TIR images. Crucially, we propose a novel deep-learning-based model TIR-Fill. We adopt the edge generator to complete the canny edges of broken TIR images. The completed edges are projected to the normalization weights and biases to enhance edge awareness of the model. In addition, a refinement network based on gated convolution is employed to improve TIR image consistency. The experiments demonstrate that our method outperforms state-of-the-art image inpainting approaches on FLIR thermal dataset.
翻訳日:2022-10-31 15:23:35 公開日:2022-10-28
# 航空機搭載LiDAR点雲の物体セグメンテーション

Object Segmentation of Cluttered Airborne LiDAR Point Clouds ( http://arxiv.org/abs/2210.16081v1 )

ライセンス: Link先を確認
Mariona Caros, Ariadna Just, Santi Segui, Jordi Vitria(参考訳) airborne topographic lidarは、地球表面の物体をマッピングするために近赤外線を放射するアクティブなリモートセンシング技術である。 LiDARの派生製品は、リッチな3次元空間情報と複数の戻り値を得る能力のため、幅広い用途に適している。 しかし、ポイントクラウドデータの処理には手作業による編集にかなりの労力が要る。 様々な形状、不規則に分散した点雲、低数のクラスサンプルのため、一部の人造物体は検出が困難である。 本研究では,クラッタで囲まれた任意の数のLiDARポイントによって定義されたオブジェクトの検出とセグメンテーションを自動化する,エンドツーエンドのディープラーニングフレームワークを提案する。 本手法は,オブジェクト認識とセグメンテーションの両タスクにおいて,優れた性能を実現するPointNetの軽量バージョンに基づいている。 実験結果は,手動で送電塔を配置し,有望な精度を示す。

Airborne topographic LiDAR is an active remote sensing technology that emits near-infrared light to map objects on the Earth's surface. Derived products of LiDAR are suitable to service a wide range of applications because of their rich three-dimensional spatial information and their capacity to obtain multiple returns. However, processing point cloud data still requires a significant effort in manual editing. Certain human-made objects are difficult to detect because of their variety of shapes, irregularly-distributed point clouds, and low number of class samples. In this work, we propose an end-to-end deep learning framework to automatize the detection and segmentation of objects defined by an arbitrary number of LiDAR points surrounded by clutter. Our method is based on a light version of PointNet that achieves good performance on both object recognition and segmentation tasks. The results are tested against manually delineated power transmission towers and show promising accuracy.
翻訳日:2022-10-31 15:23:21 公開日:2022-10-28
# 小体まわりの視覚に基づくナビゲーションのための畳み込みエクストリーム学習マシンの設計

Design of Convolutional Extreme Learning Machines for Vision-Based Navigation Around Small Bodies ( http://arxiv.org/abs/2210.16244v1 )

ライセンス: Link先を確認
Mattia Pugliatti and Francesco Topputo(参考訳) 畳み込みニューラルネットワークのようなディープラーニングアーキテクチャは、画像処理タスクにおけるコンピュータビジョンの標準である。 しかし、その正確性は、長く計算コストの高いトレーニング、大規模な注釈付きデータセットの必要性、そして広範囲なハイパーパラメーター検索のコストが伴うことが多い。 一方,畳み込み型エクストリームラーニングマシンと呼ばれる異なる手法では,学習時間の劇的な減少とともに等しく実行できる可能性が示された。 宇宙画像、特に小さな天体の画像は、この方法に適している。 本研究では,畳み込み型エクストリームラーニングマシンアーキテクチャの設計とテストを行っている。 前者の比較的速いトレーニング時間のため、畳み込み学習マシンアーキテクチャはアーキテクチャ設計空間の効率的な探索を可能にし、後者とは非現実的であり、コンピュータビジョンタスクのためのニューラルネットワークアーキテクチャの効率的な設計のための方法論を導入している。 また, 画像処理法とラベリング戦略の結合について検討し, 小型物体周辺の視覚に基づくナビゲーションを考える際に重要な役割を果たすことを実証した。

Deep learning architectures such as convolutional neural networks are the standard in computer vision for image processing tasks. Their accuracy however often comes at the cost of long and computationally expensive training, the need for large annotated datasets, and extensive hyper-parameter searches. On the other hand, a different method known as convolutional extreme learning machine has shown the potential to perform equally with a dramatic decrease in training time. Space imagery, especially about small bodies, could be well suited for this method. In this work, convolutional extreme learning machine architectures are designed and tested against their deep-learning counterparts. Because of the relatively fast training time of the former, convolutional extreme learning machine architectures enable efficient exploration of the architecture design space, which would have been impractical with the latter, introducing a methodology for an efficient design of a neural network architecture for computer vision tasks. Also, the coupling between the image processing method and labeling strategy is investigated and demonstrated to play a major role when considering vision-based navigation around small bodies.
翻訳日:2022-10-31 15:22:36 公開日:2022-10-28
# 近所の人を選んではいけません。 k$NN-LMの検索にいつ、どのように依存するか

You can't pick your neighbors, or can you? When and how to rely on retrieval in the $k$NN-LM ( http://arxiv.org/abs/2210.15859v1 )

ライセンス: Link先を確認
Andrew Drozdov, Shufan Wang, Razieh Rahimi, Andrew McCallum, Hamed Zamani, Mohit Iyyer(参考訳) 大規模な外部データストアから取得したテキストの予測を条件とした検索型言語モデル(LM)は,最近,標準のLMと比較して,大幅なパープレキシティ向上を示した。 そのようなアプローチの1つ、$k$NN-LMは、既存のLMの予測を$k$-nearest近くのモデルの出力と補間し、追加のトレーニングを必要としない。 本稿では,$k$NN-LMで検索した項目の文脈における語彙と意味のマッチングの重要性について検討する。 1)データストアと評価セットの間に大きな重複する$n$-gramの存在は,トレーニングデータからデータストアを抽出した場合でも,強いパフォーマンスにおいて重要な要因となり,(2)検索項目がクエリと意味的類似性が高い場合には,$k$NN-LMが最も有用である。 そこで本研究では,検索品質を用いて補間係数を割り当てる$k$NN-LMの新たな定式化を定義する。 ウィキテキスト103とPG-19の2つの英語モデリングデータセットに対するアプローチの有効性を実証的に測定した。 どちらも$k$NN-LMの再定式化は有益であり、Wikitext-103テストセットの難易度が約4%向上する。

Retrieval-enhanced language models (LMs), which condition their predictions on text retrieved from large external datastores, have recently shown significant perplexity improvements compared to standard LMs. One such approach, the $k$NN-LM, interpolates any existing LM's predictions with the output of a $k$-nearest neighbors model and requires no additional training. In this paper, we explore the importance of lexical and semantic matching in the context of items retrieved by $k$NN-LM. We find two trends: (1) the presence of large overlapping $n$-grams between the datastore and evaluation set plays an important factor in strong performance, even when the datastore is derived from the training data; and (2) the $k$NN-LM is most beneficial when retrieved items have high semantic similarity with the query. Based on our analysis, we define a new formulation of the $k$NN-LM that uses retrieval quality to assign the interpolation coefficient. We empirically measure the effectiveness of our approach on two English language modeling datasets, Wikitext-103 and PG-19. Our re-formulation of the $k$NN-LM is beneficial in both cases, and leads to nearly 4% improvement in perplexity on the Wikitext-103 test set.
翻訳日:2022-10-31 15:22:19 公開日:2022-10-28
# Twitterデータにおける機能エンジニアリング対BERT

Feature Engineering vs BERT on Twitter Data ( http://arxiv.org/abs/2210.16168v1 )

ライセンス: Link先を確認
Ryiaadh Gani, Lisa Chalaguine(参考訳) 本稿では,特徴工学とワードベクトルを用いた従来の機械学習モデルと,3つのデータセットへの単語埋め込みを用いた最先端言語モデルBERTを比較した。 また、BERTと比較して機能エンジニアリングの時間とコスト効率についても検討する。 結果から、BERTモデルの使用は、私たちが比較に使用した3つのデータセットのうちの1つに対して、時間とコストのトレードオフにのみ価値があると結論付けました。 他のデータセットにBERTモデルを使用することで、それぞれ0.03と0.05の精度とF1のスコアが向上しただけで、GPUの時間とコストには値しない、と論じることができる。

In this paper, we compare the performances of traditional machine learning models using feature engineering and word vectors and the state-of-the-art language model BERT using word embeddings on three datasets. We also consider the time and cost efficiency of feature engineering compared to BERT. From our results we conclude that the use of the BERT model was only worth the time and cost trade-off for one of the three datasets we used for comparison, where the BERT model significantly outperformed any kind of traditional classifier that uses feature vectors, instead of embeddings. Using the BERT model for the other datasets only achieved an increase of 0.03 and 0.05 of accuracy and F1 score respectively, which could be argued makes its use not worth the time and cost of GPU.
翻訳日:2022-10-31 15:21:55 公開日:2022-10-28
# 合成開口レーダイメージングにおけるディープラーニングによる異常検出

Deep Learning-Based Anomaly Detection in Synthetic Aperture Radar Imaging ( http://arxiv.org/abs/2210.16038v1 )

ライセンス: Link先を確認
Max Muzeau, Chengfang Ren, S\'ebastien Angelliaume, Mihai Datcu, Jean-Philippe Ovarlez(参考訳) 本稿では,合成開口レーダ(SAR)画像における教師なし異常検出について検討する。 本手法は,異常を周囲から逸脱する異常パターンとみなすが,その特徴を事前に把握していない。 文献では、ほとんどのモデルベースのアルゴリズムは3つの大きな問題に直面している。 まず、スペックルノイズによって画像が破損し、多くの誤検出につながる可能性がある。 第2に、SAR画像における空間相関のモデル化に統計的アプローチが欠如している可能性がある。 最後に、特に異常パターンのクラスにおいて、注釈付きSARデータがないため、教師付き学習アプローチに基づくニューラルネットワークは推奨されない。 提案手法は自己教師付きアルゴリズムを用いてこれらの問題に対処することを目的としている。 スペックルはdeep learning sar2sarアルゴリズムによって最初に取り除かれる。 そして、対向オートエンコーダを訓練して、異常のないSAR画像の再構成を行う。 最後に、入力と出力の間に変更検出処理ステップを適用し、異常を検出する。 従来のReed-Xiaoliアルゴリズムと比較して,提案手法の利点を示すために実験を行った。

In this paper, we proposed to investigate unsupervised anomaly detection in Synthetic Aperture Radar (SAR) images. Our approach considers anomalies as abnormal patterns that deviate from their surroundings but without any prior knowledge of their characteristics. In the literature, most model-based algorithms face three main issues. First, the speckle noise corrupts the image and potentially leads to numerous false detections. Second, statistical approaches may exhibit deficiencies in modeling spatial correlation in SAR images. Finally, neural networks based on supervised learning approaches are not recommended due to the lack of annotated SAR data, notably for the class of abnormal patterns. Our proposed method aims to address these issues through a self-supervised algorithm. The speckle is first removed through the deep learning SAR2SAR algorithm. Then, an adversarial autoencoder is trained to reconstruct an anomaly-free SAR image. Finally, a change detection processing step is applied between the input and the output to detect anomalies. Experiments are performed to show the advantages of our method compared to the conventional Reed-Xiaoli algorithm, highlighting the importance of an efficient despeckling pre-processing step.
翻訳日:2022-10-31 15:21:41 公開日:2022-10-28
# ニューラルネットワークによる意味空間の認知地図の形成と抽象概念の創発

Neural Network based Formation of Cognitive Maps of Semantic Spaces and the Emergence of Abstract Concepts ( http://arxiv.org/abs/2210.16062v1 )

ライセンス: Link先を確認
Paul Stoewer, Achim Schilling, Andreas Maier, Patrick Krauss(参考訳) 海馬と脳の複合体は記憶と思考の組織化において重要な役割を果たしている。 場所と格子細胞による任意の精神空間の認知地図の作成とナビゲーションは、記憶と経験とその相互関係の表現として機能する。 マルチスケールの後継表現は、基礎となる数学的原理とグリッドセル計算である。 本稿では,特徴ベクトルとしてコード化された32種の動物に基づく意味空間の認知マップを学習するニューラルネットワークを提案する。 ニューラルネットワークは、異なる動物種間の類似性をうまく学習し、全ての動物種が1つ以上の後継を持つという事実、すなわち特徴空間の最も近い近傍を持つという事実に関して、理論上の最大に近い約30%の精度で後継表現の原理に基づく「動物空間」の認知マップを構築する。 さらに、階層構造、すなわち認知地図の異なるスケールは、マルチスケールの後継表現に基づいてモデル化することができる。 微粒な認知地図では、動物ベクターは特徴空間に均等に分布している。 対照的に、粗い粒度の地図では、動物ベクターは生物階級、すなわち両生類、哺乳類、昆虫によって高度にクラスター化されている。 これは新しい抽象意味概念の出現を説明するメカニズムになり得る。 最後に、完全に新しい、あるいは不完全な入力でさえ、95%の精度で認知地図からの表現の補間によって表現することができる。 我々は,後継表現が過去の記憶や経験の重み付きポインタとして機能し,将来の機械学習において,先行知識を取り入れ,新たな入力から文脈知識を導き出す上で重要な構成要素となることを結論付けた。

The hippocampal-entorhinal complex plays a major role in the organization of memory and thought. The formation of and navigation in cognitive maps of arbitrary mental spaces via place and grid cells can serve as a representation of memories and experiences and their relations to each other. The multi-scale successor representation is proposed to be the mathematical principle underlying place and grid cell computations. Here, we present a neural network, which learns a cognitive map of a semantic space based on 32 different animal species encoded as feature vectors. The neural network successfully learns the similarities between different animal species, and constructs a cognitive map of 'animal space' based on the principle of successor representations with an accuracy of around 30% which is near to the theoretical maximum regarding the fact that all animal species have more than one possible successor, i.e. nearest neighbor in feature space. Furthermore, a hierarchical structure, i.e. different scales of cognitive maps, can be modeled based on multi-scale successor representations. We find that, in fine-grained cognitive maps, the animal vectors are evenly distributed in feature space. In contrast, in coarse-grained maps, animal vectors are highly clustered according to their biological class, i.e. amphibians, mammals and insects. This could be a possible mechanism explaining the emergence of new abstract semantic concepts. Finally, even completely new or incomplete input can be represented by interpolation of the representations from the cognitive map with remarkable high accuracy of up to 95%. We conclude that the successor representation can serve as a weighted pointer to past memories and experiences, and may therefore be a crucial building block for future machine learning to include prior knowledge, and to derive context knowledge from novel input.
翻訳日:2022-10-31 15:21:25 公開日:2022-10-28
# 眼底画像を用いた白内障検出のためのCNN-LSTM複合ネットワーク

A CNN-LSTM Combination Network for Cataract Detection using Eye Fundus Images ( http://arxiv.org/abs/2210.16093v1 )

ライセンス: Link先を確認
Dishant Padalia, Abhishek Mazumdar, Bharati Singh(参考訳) 世界保健機関(WHO)を含む複数の権威当局によると、視覚関連障害や障害が大きな問題となっている。 最近の報告によると、50歳以上の人の不可逆性失明の主な原因の1つは白内障治療の遅れである。 白内障は眼のレンズの曇りの斑点であり、視力の喪失を引き起こす。 白内障はしばしばゆっくりと発達し、結果として運転、読書、さらには顔の認識が困難になる。 これは、眼疾患の迅速かつ信頼性の高い診断および治療ソリューションの開発を必要とする。 以前は、このような視覚疾患の診断は手作業で行われていたが、それは時間がかかり、人間のミスを招いた。 しかし、技術が進歩するにつれて、時間と人間の労力を削減し、信頼できる結果を生み出す自動化されたコンピュータベースの手法が利用できるようになった。 本研究では, 眼底画像から正常および白内障の症例を分類できる, 低コスト診断システムの構築を目的として, CNN-LSTMモデルアーキテクチャを開発した。 提案モデルは,患者の左眼と右眼の眼底画像を含む,公開されているODIRデータセットに基づいて訓練された。 提案されたアーキテクチャは、最先端の97.53%の精度で以前のシステムより優れていた。

According to multiple authoritative authorities, including the World Health Organization, vision-related impairments and disorders are becoming a significant issue. According to a recent report, one of the leading causes of irreversible blindness in persons over the age of 50 is delayed cataract treatment. A cataract is a cloudy spot in the eye's lens that causes visual loss. Cataracts often develop slowly and consequently result in difficulty in driving, reading, and even recognizing faces. This necessitates the development of rapid and dependable diagnosis and treatment solutions for ocular illnesses. Previously, such visual illness diagnosis were done manually, which was time-consuming and prone to human mistake. However, as technology advances, automated, computer-based methods that decrease both time and human labor while producing trustworthy results are now accessible. In this study, we developed a CNN-LSTM-based model architecture with the goal of creating a low-cost diagnostic system that can classify normal and cataractous cases of ocular disease from fundus images. The proposed model was trained on the publicly available ODIR dataset, which included fundus images of patients' left and right eyes. The suggested architecture outperformed previous systems with a state-of-the-art 97.53% accuracy.
翻訳日:2022-10-31 15:14:52 公開日:2022-10-28
# 深層学習における類似度尺度としてのCKAの信頼性

Reliability of CKA as a Similarity Measure in Deep Learning ( http://arxiv.org/abs/2210.16156v1 )

ライセンス: Link先を確認
MohammadReza Davari, Stefan Horoi, Amine Natik, Guillaume Lajoie, Guy Wolf, Eugene Belilovsky(参考訳) ニューラルネットワークで学習した神経表現を比較することは難しいが重要な問題であり、異なる方法でアプローチされてきた。 Centered Kernel Alignment (CKA) 類似度測定(英語版)は、最近一般的なアプローチとなり、ネットワークの異なるレイヤの表現、アーキテクチャ的に類似したネットワークの異なるトレーニング、または同じデータで訓練された異なるアーキテクチャのモデルの比較に広く用いられている。 これらの様々な表現の類似性と相似性に関する様々な結論がCKAを用いてなされている。 本研究では,CKAの感度を,現代の機械学習の文脈で自然に発生するような,多種多様な単純な変換に形式的に特徴付ける分析を行う。 これは、過去の研究で観測された外れ値に対するCKA感度、および重要な一般化属性であるデータの線形分離性を保存する変換に対する具体的な説明を提供する。 CKA類似度測定のいくつかの弱点を実証的に検討し、予期せぬ結果や反直感的な結果をもたらす状況を示す。 最後に,cka値を変更しながら機能的動作を維持するために表現を変更する手法について検討する。 以上の結果から,CKAの値はモデルの機能的振る舞いに大きな変化を伴わずに容易に操作でき,アクティベーションアライメントの指標を活用する際には注意が必要であることが示唆された。

Comparing learned neural representations in neural networks is a challenging but important problem, which has been approached in different ways. The Centered Kernel Alignment (CKA) similarity metric, particularly its linear variant, has recently become a popular approach and has been widely used to compare representations of a network's different layers, of architecturally similar networks trained differently, or of models with different architectures trained on the same data. A wide variety of conclusions about similarity and dissimilarity of these various representations have been made using CKA. In this work we present analysis that formally characterizes CKA sensitivity to a large class of simple transformations, which can naturally occur in the context of modern machine learning. This provides a concrete explanation of CKA sensitivity to outliers, which has been observed in past works, and to transformations that preserve the linear separability of the data, an important generalization attribute. We empirically investigate several weaknesses of the CKA similarity metric, demonstrating situations in which it gives unexpected or counter-intuitive results. Finally we study approaches for modifying representations to maintain functional behaviour while changing the CKA value. Our results illustrate that, in many cases, the CKA value can be easily manipulated without substantial changes to the functional behaviour of the models, and call for caution when leveraging activation alignment metrics.
翻訳日:2022-10-31 15:14:35 公開日:2022-10-28
# 並列連結変分オートエンコーダ用マルチモーダルトランス

Multimodal Transformer for Parallel Concatenated Variational Autoencoders ( http://arxiv.org/abs/2210.16174v1 )

ライセンス: Link先を確認
Stephen D. Liang, Jerry M. Mendel(参考訳) 本稿では,並列連結アーキテクチャを用いたマルチモーダルトランスを提案する。 パッチの代わりに,R,G,Bチャネルの画像に対してカラムストライプを変換器入力として使用する。 コラムストライプは、元の画像の空間的関係を維持する。 マルチモーダルトランスフォーマーと変分オートエンコーダを組み込んで合成クロスモーダルデータを生成する。 マルチモーダルトランスは複数の圧縮行列を用いて設計され、並列連結変分オートエンコーダ(PC-VAE)のエンコーダとして機能する。 PC-VAEは複数のエンコーダ、1つの潜在空間、2つのデコーダで構成される。 エンコーダはランダムなガウス行列に基づいており、トレーニングは一切必要ありません。 部分的情報分解からの相互作用情報に基づく新たな損失関数を提案する。 対話情報は、入力されたクロスモーダル情報およびデコーダ出力を評価する。 PC-VAEは損失関数を最小化することで訓練される。 PC-VAE用マルチモーダルトランスの検証実験を行った。

In this paper, we propose a multimodal transformer using parallel concatenated architecture. Instead of using patches, we use column stripes for images in R, G, B channels as the transformer input. The column stripes keep the spatial relations of original image. We incorporate the multimodal transformer with variational autoencoder for synthetic cross-modal data generation. The multimodal transformer is designed using multiple compression matrices, and it serves as encoders for Parallel Concatenated Variational AutoEncoders (PC-VAE). The PC-VAE consists of multiple encoders, one latent space, and two decoders. The encoders are based on random Gaussian matrices and don't need any training. We propose a new loss function based on the interaction information from partial information decomposition. The interaction information evaluates the input cross-modal information and decoder output. The PC-VAE are trained via minimizing the loss function. Experiments are performed to validate the proposed multimodal transformer for PC-VAE.
翻訳日:2022-10-31 15:14:11 公開日:2022-10-28
# ドア: ボールダーセグメンテーション用のデータセット。 統計的特性とブレンダー設定

DOORS: Dataset fOr bOuldeRs Segmentation. Statistical properties and Blender setup ( http://arxiv.org/abs/2210.16253v1 )

ライセンス: Link先を確認
Mattia Pugliatti and Francesco Topputo(参考訳) 小天体の表面におけるボルダーの検出能力は、重要な操作やナビゲーションにおけるハザード検出などの視覚ベースの応用に有用である。 この課題は、不規則な形状の多様化、ボールダーの個体群の特徴、照明条件の急速な変動などにより困難である。 さらに、これらのアプリケーションに公開されているラベル付きデータセットがないことは、データ駆動アルゴリズムの研究を阻害する。 本研究で著者らは, 公開されている小天体の岩盤に関する2つのデータセットの生成に使用される統計的特徴と設定を提供する。

The capability to detect boulders on the surface of small bodies is beneficial for vision-based applications such as hazard detection during critical operations and navigation. This task is challenging due to the wide assortment of irregular shapes, the characteristics of the boulders population, and the rapid variability in the illumination conditions. Moreover, the lack of publicly available labeled datasets for these applications damps the research about data-driven algorithms. In this work, the authors provide a statistical characterization and setup used for the generation of two datasets about boulders on small bodies that are made publicly available.
翻訳日:2022-10-31 15:13:59 公開日:2022-10-28
# 人生がレモンを与えるとき、チェリーデを作る:悪い反応からのフィードバックを良いラベルに変える

When Life Gives You Lemons, Make Cherryade: Converting Feedback from Bad Responses into Good Labels ( http://arxiv.org/abs/2210.15893v1 )

ライセンス: Link先を確認
Weiyan Shi, Emily Dinan, Kurt Shuster, Jason Weston, Jing Xu(参考訳) デプロイされた対話エージェントは、人間のフィードバックを統合して継続的に改善する可能性がある。 しかし、チャットボットが対話中にミスをしたとき、人間は常に明確な信号を提供するとは限らない。 本研究では,バイナリと自由形式のテキストフィードバックの両方を利用するためのフレームワークであるJuicerを提案する。 動作します。 (i)満足度分類器を訓練し、ラベルのないデータをラベル付けすることにより、スパースバイナリフィードバックを拡張すること。 (ii)悪い回答を良い回答にマップするために、返信訂正者を訓練すること。 モデル修正応答による強化トレーニングは最終対話モデルを改善し,最近提案されたディレクタモデルにより,肯定応答と否定応答の両方を用いることで,パフォーマンスをさらに向上させることができる。

Deployed dialogue agents have the potential to integrate human feedback to continuously improve themselves. However, humans may not always provide explicit signals when the chatbot makes mistakes during interactions. In this work, we propose Juicer, a framework to make use of both binary and free-form textual human feedback. It works by: (i) extending sparse binary feedback by training a satisfaction classifier to label the unlabeled data; and (ii) training a reply corrector to map the bad replies to good ones. We find that augmenting training with model-corrected replies improves the final dialogue model, and we can further improve performance by using both positive and negative replies through the recently proposed Director model.
翻訳日:2022-10-31 15:13:34 公開日:2022-10-28
# テキスト分類器のモデルロバスト性向上のためのアンサンブル法の検討

Investigating Ensemble Methods for Model Robustness Improvement of Text Classifiers ( http://arxiv.org/abs/2210.16298v1 )

ライセンス: Link先を確認
Jieyu Zhao, Xuezhi Wang, Yao Qin, Jilin Chen, Kai-Wei Chang(参考訳) 大規模な事前訓練された言語モデルは、ここ数年で顕著なパフォーマンスを示している。 しかし、これらのモデルは時にデータセットから表面的な特徴を学習し、トレーニングシナリオと異なる分布に一般化することはできない。 分散環境におけるモデルのロバスト性を改善するために、これらのバイアスフィーチャへのモデルの依存を減らすために、いくつかのアプローチが提案されている。 しかし、既存の手法は通常、様々なバイアス機能を扱うために固定された低容量モデルを使用しており、これらの機能の学習可能性を無視している。 本稿では,既存のバイアス特徴のセットを分析し,すべてのケースに最適なモデルが存在しないことを示す。 さらに,適切なバイアスモデルを選択することで,より洗練されたモデル設計によるベースラインよりも優れたロバスト性が得られることを示す。

Large pre-trained language models have shown remarkable performance over the past few years. These models, however, sometimes learn superficial features from the dataset and cannot generalize to the distributions that are dissimilar to the training scenario. There have been several approaches proposed to reduce model's reliance on these bias features which can improve model robustness in the out-of-distribution setting. However, existing methods usually use a fixed low-capacity model to deal with various bias features, which ignore the learnability of those features. In this paper, we analyze a set of existing bias features and demonstrate there is no single model that works best for all the cases. We further show that by choosing an appropriate bias model, we can obtain a better robustness result than baselines with a more sophisticated model design.
翻訳日:2022-10-31 15:13:21 公開日:2022-10-28
# UPainting: クロスモーダル誘導による統一テキスト・画像拡散生成

UPainting: Unified Text-to-Image Diffusion Generation with Cross-modal Guidance ( http://arxiv.org/abs/2210.16031v1 )

ライセンス: Link先を確認
Wei Li, Xue Xu, Xinyan Xiao, Jiachen Liu, Hu Yang, Guohao Li, Zhanpeng Wang, Zhifan Feng, Qiaoqiao She, Yajuan Lyu, Hua Wu(参考訳) 拡散生成モデルは最近、テキスト条件付き画像生成のパワーを大幅に改善している。 既存の画像生成モデルは主にテキスト条件付き拡散モデルとクロスモーダル誘導拡散モデルを含み、それぞれ小さなシーン画像生成と複雑なシーン画像生成に適している。 本研究では,図~\ref{fig:leading_samples}に示すように,単純かつ複雑なシーン画像生成を統一する,単純かつ効果的な手法を提案する。 UPaintingは、アーキテクチャの改善と多様なガイダンススケジュールに基づいて、事前訓練された画像テキストマッチングモデルからのクロスモーダルガイダンスを、事前訓練されたトランスフォーマー言語モデルをテキストエンコーダとして利用するテキスト条件拡散モデルに統合する。 我々の重要な発見は、言語理解における大規模トランスフォーマー言語モデルと、クロスモーダルなセマンティクスとスタイルをキャプチャする画像テキストマッチングモデルを組み合わせることで、画像生成のサンプル忠実度と画像テキストアライメントを改善することができることである。 このように、upaintingはより一般的な画像生成機能を持ち、シンプルで複雑なシーンのイメージをより効果的に生成できる。 % COCOデータセット上で、UPaintingは、最先端のテキスト画像拡散モデルの1つであるStable Diffusionよりもはるかに優れたパフォーマンスを実現している。 テキストと画像のモデルを包括的に比較するため、より一般的なベンチマークであるUniBenchを、簡素かつ複雑な場面で中国語と英語のプロンプトで作成する。 UPaintingを最近のモデルと比較すると、UPaintingは他のモデルよりもキャプションの類似性や画像の忠実度において、シンプルかつ複雑なシーンで大幅に優れています。

Diffusion generative models have recently greatly improved the power of text-conditioned image generation. Existing image generation models mainly include text conditional diffusion model and cross-modal guided diffusion model, which are good at small scene image generation and complex scene image generation respectively. In this work, we propose a simple yet effective approach, namely UPainting, to unify simple and complex scene image generation, as shown in Figure~\ref{fig:leading_samples}. Based on architecture improvements and diverse guidance schedules, UPainting effectively integrates cross-modal guidance from a pretrained image-text matching model into a text conditional diffusion model that utilizes a pretrained Transformer language model as the text encoder. Our key findings is that combining the power of large-scale Transformer language model in understanding language and image-text matching model in capturing cross-modal semantics and style, is effective to improve sample fidelity and image-text alignment of image generation. In this way, UPainting has a more general image generation capability, which can generate images of both simple and complex scenes more effectively. %On the COCO dataset, UPainting achieves much better performance than Stable Diffusion, one of the state-of-the-art text-to-image diffusion models. To comprehensively compare text-to-image models, we further create a more general benchmark, UniBench, with well-written Chinese and English prompts in both simple and complex scenes. We compare UPainting with recent models and find that UPainting greatly outperforms other models in terms of caption similarity and image fidelity in both simple and complex scenes.
翻訳日:2022-10-31 15:13:09 公開日:2022-10-28
# 自己教師付き表現による顔行動単位の検出と強度推定

Facial Action Unit Detection and Intensity Estimation from Self-supervised Representation ( http://arxiv.org/abs/2210.15878v1 )

ライセンス: Link先を確認
Bowen Ma, Rudong An, Wei Zhang, Yu Ding, Zeng Zhao, Rongsheng Zhang, Tangjie Lv, Changjie Fan, Zhipeng Hu(参考訳) 細粒度および局所的な表現行動測定として、顔行動単位(例えば、検出および強度推定)の分析は、その時間消費、労働集約、およびエラーを起こしやすいアノテーションとして文書化されている。 このように、FAU分析の長年にわたる課題は、手動アノテーションのデータ不足から生じ、訓練されたモデルの一般化能力を広範囲に制限する。 これまでの多くの研究は、半弱監視手法と追加補助情報によってこの問題を緩和しようと努力してきた。 しかし、これらのメソッドはドメイン知識を必要としており、データアノテーションへの高い依存をまだ避けていない。 本稿では,AU分析のための頑健な顔表現モデルMAE-Faceを提案する。 MAE-Faceは、マスク付きオートエンコーディングを自己教師付き事前学習アプローチとして使用し、まず、追加のデータアノテーションなしで顔画像の実行可能なコレクションから高容量モデルを学ぶ。 そして、AUデータセットを微調整した後、MAE-FaceはAU検出とAU強度推定の両方に対して説得力のあるパフォーマンスを示し、ほぼすべての評価結果に対して新たな最先端の達成を実現した。 さらに, AU トレーニングセットの 1 % のみを微調整しても, MAE-Face は良好な性能を示し,その堅牢性と一般化性能を強く証明している。

As a fine-grained and local expression behavior measurement, facial action unit (FAU) analysis (e.g., detection and intensity estimation) has been documented for its time-consuming, labor-intensive, and error-prone annotation. Thus a long-standing challenge of FAU analysis arises from the data scarcity of manual annotations, limiting the generalization ability of trained models to a large extent. Amounts of previous works have made efforts to alleviate this issue via semi/weakly supervised methods and extra auxiliary information. However, these methods still require domain knowledge and have not yet avoided the high dependency on data annotation. This paper introduces a robust facial representation model MAE-Face for AU analysis. Using masked autoencoding as the self-supervised pre-training approach, MAE-Face first learns a high-capacity model from a feasible collection of face images without additional data annotations. Then after being fine-tuned on AU datasets, MAE-Face exhibits convincing performance for both AU detection and AU intensity estimation, achieving a new state-of-the-art on nearly all the evaluation results. Further investigation shows that MAE-Face achieves decent performance even when fine-tuned on only 1\% of the AU training set, strongly proving its robustness and generalization performance.
翻訳日:2022-10-31 15:12:36 公開日:2022-10-28
# 複雑な手書き軌跡の復元:評価指標とアルゴリズム

Complex Handwriting Trajectory Recovery: Evaluation Metrics and Algorithm ( http://arxiv.org/abs/2210.15879v1 )

ライセンス: Link先を確認
Zhounan Chen, Daihui Yang, Jinglin Liang, Xinwu Liu, Yuyi Wang, Zhenghua Peng, Shuangping Huang(参考訳) 鑑定署名の検証や書跡合成などの重要な作業の多くは、手書きの軌跡の回復に依存しているが、適切な評価基準さえも不足している。 実際、既存のメトリクスは書き込み順序のみにフォーカスするが、グリフの忠実さを見落としている。 両面を考慮に入れ、様々なストローク幅の影響を排除したアダプティブ・コンベンション(AIoU)と、軌道点アライメント問題を解決する長さ非依存動的時間ワープ(LDTW)の2つの新しい指標を考案した。 その後、特に複雑なグリフと長い軌跡を持つ文字に対して、パース・アンド・トレーシング・エンコーダ・デコーダ・ネットワーク(pen-net)と呼ばれる新しい手書き軌跡復元モデルを提案する。 PEN-Netでは、慎重に設計された二重ストリーム解析エンコーダがグリフ構造を解析し、グローバルトレースデコーダは長い軌跡予測のメモリ困難を克服する。 実験の結果,AIoU と LDTW の2つの新しい指標は,手書きの軌道復元の精度を真に評価でき,提案した PEN-Net は,中国語,日本語,Indic など多種多様な複合言語で良好な性能を示すことがわかった。

Many important tasks such as forensic signature verification, calligraphy synthesis, etc, rely on handwriting trajectory recovery of which, however, even an appropriate evaluation metric is still missing. Indeed, existing metrics only focus on the writing orders but overlook the fidelity of glyphs. Taking both facets into account, we come up with two new metrics, the adaptive intersection on union (AIoU) which eliminates the influence of various stroke widths, and the length-independent dynamic time warping (LDTW) which solves the trajectory-point alignment problem. After that, we then propose a novel handwriting trajectory recovery model named Parsing-and-tracing ENcoder-decoder Network (PEN-Net), in particular for characters with both complex glyph and long trajectory, which was believed very challenging. In the PEN-Net, a carefully designed double-stream parsing encoder parses the glyph structure, and a global tracing decoder overcomes the memory difficulty of long trajectory prediction. Our experiments demonstrate that the two new metrics AIoU and LDTW together can truly assess the quality of handwriting trajectory recovery and the proposed PEN-Net exhibits satisfactory performance in various complex-glyph languages including Chinese, Japanese and Indic.
翻訳日:2022-10-31 15:12:12 公開日:2022-10-28
# 複数ラベル設定におけるラベル相関の活用:感情のケーススタディ

Leveraging Label Correlations in a Multi-label Setting: A Case Study in Emotion ( http://arxiv.org/abs/2210.15842v1 )

ライセンス: Link先を確認
Georgios Chochlakis (1 and 2), Gireesh Mahajan (3), Sabyasachee Baruah (1 and 2), Keith Burghardt (2), Kristina Lerman (2), Shrikanth Narayanan (1 and 2) ((1) Signal Analysis and Interpretation Lab, University of Southern California, (2) Information Science Institute, University of Southern California, (3) Microsoft Cognitive Services)(参考訳) テキストで表現された感情の検出は、様々な分野において重要になっている。 本研究では,マルチラベル感情認識モデルにおけるラベル相関を利用して感情検出を改善する方法を検討する。 まず,入力中の感情を含むか,あるいはマスク言語モデル(mlm)を活用することにより,感情語自体の単語関係を捉えるために,この問題に対する2つのモデリング手法を開発した。 第2に,感情表現のペアワイズ制約を,モデルの分類損失と並行して正規化項として統合する。 これらの用語をローカルとグローバルの2つのカテゴリに分けました。 前者はゴールドレーベルに基づいて動的に変化し、後者はトレーニング中に静止している。 単言語BERTモデルを用いたSemEval 2018 Task 1 E-cにおいて、スペイン語、英語、アラビア語で最先端のパフォーマンスを示す。 パフォーマンスの向上に加えて、堅牢性の向上も示しています。 コードはhttps://github.com/gchochla/demux-memoで入手できる。

Detecting emotions expressed in text has become critical to a range of fields. In this work, we investigate ways to exploit label correlations in multi-label emotion recognition models to improve emotion detection. First, we develop two modeling approaches to the problem in order to capture word associations of the emotion words themselves, by either including the emotions in the input, or by leveraging Masked Language Modeling (MLM). Second, we integrate pairwise constraints of emotion representations as regularization terms alongside the classification loss of the models. We split these terms into two categories, local and global. The former dynamically change based on the gold labels, while the latter remain static during training. We demonstrate state-of-the-art performance across Spanish, English, and Arabic in SemEval 2018 Task 1 E-c using monolingual BERT-based models. On top of better performance, we also demonstrate improved robustness. Code is available at https://github.com/gchochla/Demux-MEmo.
翻訳日:2022-10-31 15:06:19 公開日:2022-10-28
# 現在の説明責任は、ヒトが医療コードに注釈を付けるための臨床ノートの参考になるか?

Can Current Explainability Help Provide References in Clinical Notes to Support Humans Annotate Medical Codes? ( http://arxiv.org/abs/2210.15882v1 )

ライセンス: Link先を確認
Byung-Hak Kim, Zhongfen Deng, Philip S. Yu, Varun Ganapathi(参考訳) 臨床ノートから得られた医療コード予測問題は,NLPコミュニティにおいて大きな関心を集めており,最近のいくつかの研究では,本格的な深層学習手法による最先端(SOTA)コード予測結果が示されている。 しかし,従来の深層学習に基づくSOTA研究の多くは,このレベルの予測結果が専門医の信頼を得る上で重要であるにもかかわらず,予測符号のテキスト参照や説明提供の観点からはまだ初期段階にある。 これは、現在の説明可能性手法がトランスフォーマーのような高度なニューラルネットワークモデルにどの程度うまく適用され、正しいコードを予測するか、コード予測をサポートする臨床ノートに参照を提示するかという重要な疑問を提起する。 まず、注意点に基づくxRAC-ATTNと、モデルに依存しない知識蒸留に基づくxRAC-KDの2つのアプローチを、SOTA変換器を用いた簡易かつ徹底的な人為的評価により評価する。 我々は,xRAC-ATTNが強調した支持エビデンステキストが,xRAC-KDよりも高品質であるのに対して,xRAC-KDは本番環境において潜在的に有利であることを示した。 さらに重要なことは、現在の説明可能性の方法論を考えると、その予測精度が人間のコーダよりも優れているにもかかわらず、SOTAの医療コード予測システムを使用するには、プロのコーダの専門知識と能力が必要であることを示します。 これは、臨床ノートから完全に自律的な医療コード予測のための説明可能で正確な機械学習システムを開発するための、非常に有意義なステップであると考えています。

The medical codes prediction problem from clinical notes has received substantial interest in the NLP community, and several recent studies have shown the state-of-the-art (SOTA) code prediction results of full-fledged deep learning-based methods. However, most previous SOTA works based on deep learning are still in early stages in terms of providing textual references and explanations of the predicted codes, despite the fact that this level of explainability of the prediction outcomes is critical to gaining trust from professional medical coders. This raises the important question of how well current explainability methods apply to advanced neural network models such as transformers to predict correct codes and present references in clinical notes that support code prediction. First, we present an explainable Read, Attend, and Code (xRAC) framework and assess two approaches, attention score-based xRAC-ATTN and model-agnostic knowledge-distillation-based xRAC-KD, through simplified but thorough human-grounded evaluations with SOTA transformer-based model, RAC. We find that the supporting evidence text highlighted by xRAC-ATTN is of higher quality than xRAC-KD whereas xRAC-KD has potential advantages in production deployment scenarios. More importantly, we show for the first time that, given the current state of explainability methodologies, using the SOTA medical codes prediction system still requires the expertise and competencies of professional coders, even though its prediction accuracy is superior to that of human coders. This, we believe, is a very meaningful step toward developing explainable and accurate machine learning systems for fully autonomous medical code prediction from clinical notes.
翻訳日:2022-10-31 15:06:05 公開日:2022-10-28
# 人間の診断で校正をやめる

Stop Measuring Calibration When Humans Disagree ( http://arxiv.org/abs/2210.16133v1 )

ライセンス: Link先を確認
Joris Baan, Wilker Aziz, Barbara Plank, Raquel Fernandez(参考訳) キャリブレーション(キャリブレーション)は、分類器がいつそれを知らないかを知るかどうかを評価するための一般的なフレームワークである。 正当性は一般に人間の多数派に対して推定される。 近年、人間がどのクラスに当てはまるかについて本質的に意見が一致しないタスクにおいて、人間の多数派に対する校正が測定されている。 そこで本研究では,ChaosNLIデータセット上で実証的にこれを実証し,人間の判断の周波数,ランク,エントロピーの重要統計特性を捉えるためのいくつかの事例レベルのキャリブレーションを導出した。

Calibration is a popular framework to evaluate whether a classifier knows when it does not know - i.e., its predictive probabilities are a good indication of how likely a prediction is to be correct. Correctness is commonly estimated against the human majority class. Recently, calibration to human majority has been measured on tasks where humans inherently disagree about which class applies. We show that measuring calibration to human majority given inherent disagreements is theoretically problematic, demonstrate this empirically on the ChaosNLI dataset, and derive several instance-level measures of calibration that capture key statistical properties of human judgements - class frequency, ranking and entropy.
翻訳日:2022-10-31 15:05:32 公開日:2022-10-28
# Universal Adversarial Directions (英語)

Universal Adversarial Directions ( http://arxiv.org/abs/2210.15997v1 )

ライセンス: Link先を確認
Ching Lam Choi, Farzan Farnia(参考訳) 画像認識タスクにおいて大きな成功を収めたにもかかわらず、ディープニューラルネットワーク(DNN)は、単一の摂動ベクトルで全ての入力サンプルを摂動する普遍的対向摂動(UAP)の影響を受けやすいことが観察されている。 しかし、UPAはDNNアーキテクチャ間の転送に苦労し、最適化の問題に挑戦する。 本研究では,UAP と分類器の共通対角ゲームにおける平衡を解析し,UAP の転送可能性について検討する。 軽微な仮定の下では、普遍対逆例ゲームは純粋なナッシュ均衡を欠き、DNN分類器間のUPAの準最適移動可能性を示す。 この問題に対処するため, 対人摂動の普遍方向のみを固定し, 対人摂動の大きさをサンプル間で自由に選択できるユニバーサル対人方向(UAD)を提案する。 我々は, UAD対逆例ゲームが純粋な UAD 戦略とナッシュ均衡を持つことを証明し, UAD の移動可能性を示す。 また, uad最適化問題をよく知られた主成分分析 (pca) と結びつけ, 効率的なuad最適化アルゴリズムを開発した。 複数のベンチマーク画像データセット上でUADを評価する。 数値計算の結果,UADは標準勾配のUAPよりも高い転送性を示した。

Despite their great success in image recognition tasks, deep neural networks (DNNs) have been observed to be susceptible to universal adversarial perturbations (UAPs) which perturb all input samples with a single perturbation vector. However, UAPs often struggle in transferring across DNN architectures and lead to challenging optimization problems. In this work, we study the transferability of UAPs by analyzing equilibrium in the universal adversarial example game between the classifier and UAP adversary players. We show that under mild assumptions the universal adversarial example game lacks a pure Nash equilibrium, indicating UAPs' suboptimal transferability across DNN classifiers. To address this issue, we propose Universal Adversarial Directions (UADs) which only fix a universal direction for adversarial perturbations and allow the perturbations' magnitude to be chosen freely across samples. We prove that the UAD adversarial example game can possess a Nash equilibrium with a pure UAD strategy, implying the potential transferability of UADs. We also connect the UAD optimization problem to the well-known principal component analysis (PCA) and develop an efficient PCA-based algorithm for optimizing UADs. We evaluate UADs over multiple benchmark image datasets. Our numerical results show the superior transferability of UADs over standard gradient-based UAPs.
翻訳日:2022-10-31 15:04:20 公開日:2022-10-28
# 交通予測モデルの信頼性の測定:その動作性に関する技術・実験比較・ガイドライン

Measuring the Confidence of Traffic Forecasting Models: Techniques, Experimental Comparison and Guidelines towards Their Actionability ( http://arxiv.org/abs/2210.16049v1 )

ライセンス: Link先を確認
Ibai La\~na, Ignacio (I\~naki) Olabarrieta, Javier Del Ser(参考訳) 近年、予測機械学習モデルに特徴付けられる不確実性量の推定が大きな勢いを増している。 不確実性推定は、モデルが予測した結果に対する信頼性を高める情報を提供する。 ユーザの信頼性に対するこの情報の本質的な有用性にもかかわらず、機械学習モデルで測定できるさまざまなタイプの不確実性や、特定のモデルの不確実性を定量化するために使用できるさまざまなテクニックの適合性については、微妙なコンセンサスがある。 交通予測に関する信頼度の測定は,現実的な交通管理システムにおいて,その行動可能性を大幅に向上させることができるにもかかわらず,交通モデリング領域内にはほとんど存在しない。 この研究は、文献で利用可能なさまざまな技術や不確実性の指標をレビューし、交通予測モデルで計算された信頼度が、この研究領域で働く研究者や実践者にとってどのように役立つかを批判的に議論することで、この研究の欠如をカバーすることを目的としている。 この批判的議論は、マドリード(スペイン)で収集された実交通データに対して異なる不確実性推定手法によって得られた実験結果によってさらに示唆され、各手法の利点と欠点の概観、それらの比較方法、測定された不確実性が予測の作成に使用されるデータの量、品質、多様性に応じてどのように減少するかが示される。

The estimation of the amount of uncertainty featured by predictive machine learning models has acquired a great momentum in recent years. Uncertainty estimation provides the user with augmented information about the model's confidence in its predicted outcome. Despite the inherent utility of this information for the trustworthiness of the user, there is a thin consensus around the different types of uncertainty that one can gauge in machine learning models and the suitability of different techniques that can be used to quantify the uncertainty of a specific model. This subject is mostly non existent within the traffic modeling domain, even though the measurement of the confidence associated to traffic forecasts can favor significantly their actionability in practical traffic management systems. This work aims to cover this lack of research by reviewing different techniques and metrics of uncertainty available in the literature, and by critically discussing how confidence levels computed for traffic forecasting models can be helpful for researchers and practitioners working in this research area. To shed light with empirical evidence, this critical discussion is further informed by experimental results produced by different uncertainty estimation techniques over real traffic data collected in Madrid (Spain), rendering a general overview of the benefits and caveats of every technique, how they can be compared to each other, and how the measured uncertainty decreases depending on the amount, quality and diversity of data used to produce the forecasts.
翻訳日:2022-10-31 15:03:57 公開日:2022-10-28
# 粗い学習者による非パラメトリック確率回帰

Nonparametric Probabilistic Regression with Coarse Learners ( http://arxiv.org/abs/2210.16247v1 )

ライセンス: Link先を確認
Brian Lucena(参考訳) 確率回帰(probabilistic Regression)は、特徴量に基づく目標条件に対する完全な確率密度関数を予測することを指す。 対象値の異なる粗い値に基づいて訓練されたベース分類器(典型的には傾斜した森林)を組み合わせた非パラメトリック手法を提案する。 このような分類器を組み合わせて結果の密度を平均化することにより、密度の形状や形について最小限の仮定で正確な条件密度を計算することができる。 このアプローチと構造付きクロスエントロピー損失関数を組み合わせることで、結果として生じる密度を規則化し滑らかにすることができる。 これらの密度から計算された予測間隔は、実際には高い忠実度を示す。 さらに、これらの密度の性質を特定の観測で調べることで、貴重な知見が得られる。 このアプローチをさまざまなデータセットで実証し、特に大きなデータセットで競合性能を示す。

Probabilistic Regression refers to predicting a full probability density function for the target conditional on the features. We present a nonparametric approach to this problem which combines base classifiers (typically gradient boosted forests) trained on different coarsenings of the target value. By combining such classifiers and averaging the resulting densities, we are able to compute precise conditional densities with minimal assumptions on the shape or form of the density. We combine this approach with a structured cross-entropy loss function which serves to regularize and smooth the resulting densities. Prediction intervals computed from these densities are shown to have high fidelity in practice. Furthermore, examining the properties of these densities on particular observations can provide valuable insight. We demonstrate this approach on a variety of datasets and show competitive performance, particularly on larger datasets.
翻訳日:2022-10-31 15:03:30 公開日:2022-10-28
# データと知識駆動型人工知能に向けて:ニューロシンボリックコンピューティングに関する調査

Towards Data-and Knowledge-Driven Artificial Intelligence: A Survey on Neuro-Symbolic Computing ( http://arxiv.org/abs/2210.15889v1 )

ライセンス: Link先を確認
Wenguan Wang, and Yi Yang(参考訳) 認知の象徴的および統計的パラダイムの統合を追求するニューラルシンボリック・コンピューティング(NeSy)は、人工知能(AI)の活発な研究領域である。 NeSyは、ニューラルネットワークにおける記号表現の推論と解釈可能性の利点と堅牢な学習の整合性を示すため、次世代AIの触媒として機能する可能性がある。 本稿では,NeSy AI研究の重要かつ最近の展開を体系的に概観する。 まず,この分野の研究史と背景概念を紹介する。 その後、ニューラルシンボリックな相互関係、ニューラルアーキテクチャ、知識表現、機能など、この研究パラダイムの基礎となるいくつかの主要な特徴に沿って、最近のアプローチを分類する。 次に,いくつかの領域における現代ネッシーアプローチの応用について概説する。 最後に、今後の研究方向性とともに、オープンな問題を特定する。

Neural-symbolic computing (NeSy), which pursues the integration of the symbolic and statistical paradigms of cognition, has been an active research area of Artificial Intelligence (AI) for many years. As NeSy shows promise of reconciling the advantages of reasoning and interpretability of symbolic representation and robust learning in neural networks, it may serve as a catalyst for the next generation of AI. In the present paper, we provide a systematic overview of the important and recent developments of research on NeSy AI. Firstly, we introduce study history and background concepts of this area. Afterward, we categorize recent approaches along several main characteristics that underline this research paradigm, including neural-symbolic interrelation, neural architecture, knowledge representation, and functionality. Then, we briefly discuss the successful application of modern NeSy approaches in several domains. Finally, we identify the open problems together with potential future research directions.
翻訳日:2022-10-31 15:03:18 公開日:2022-10-28
# インセンティブ付き分散データ収集による顔検出器のバイアス対応

Addressing Bias in Face Detectors using Decentralised Data collection with incentives ( http://arxiv.org/abs/2210.16024v1 )

ライセンス: Link先を確認
M. R. Ahan, Robin Lehmann, Richard Blythman(参考訳) 機械学習の最近の進歩は、成功したモデルは大量のデータだけでなく、正しい種類のデータに依存していることを示している。 本稿では,このデータ中心アプローチを分散化することで,アルゴリズムの効率的なデータ収集を実現する方法を提案する。 顔検出装置は、さまざまなデータを扱う必要があるため、バイアス問題に悩まされるモデルの1つである。 また,マルチタスクカスケードcnnとfacenet組込みによる顔検出と匿名化のアプローチを提案し,複数のデータセットをベンチマークし,異なる民族,性別,年齢グループに対するモデルのバイアスを記述・評価するとともに,データラベリング,修正,検証の分散システムにおいて,モデルリトレーニングのための堅牢なパイプラインを作成する方法を提案する。

Recent developments in machine learning have shown that successful models do not rely only on huge amounts of data but the right kind of data. We show in this paper how this data-centric approach can be facilitated in a decentralized manner to enable efficient data collection for algorithms. Face detectors are a class of models that suffer heavily from bias issues as they have to work on a large variety of different data. We also propose a face detection and anonymization approach using a hybrid MultiTask Cascaded CNN with FaceNet Embeddings to benchmark multiple datasets to describe and evaluate the bias in the models towards different ethnicities, gender, and age groups along with ways to enrich fairness in a decentralized system of data labeling, correction, and verification by users to create a robust pipeline for model retraining.
翻訳日:2022-10-31 15:03:04 公開日:2022-10-28
# システム異常検出のための条件付きランダムフィールドの階層的アプローチ

A Hierarchical Approach to Conditional Random Fields for System Anomaly Detection ( http://arxiv.org/abs/2210.15030v2 )

ライセンス: Link先を確認
Srishti Mishra, Tvarita Jain, Dinkar Sitaram(参考訳) 大規模システムにおける異常事象を時間に敏感に認識する異常検出は,多くの産業において重要である。 銀行詐欺 企業システム 医療警報などです 大規模システムは時間とともにサイズや複雑さが増し、異常検出アルゴリズムは構造の変化に適応する必要がある。 階層的アプローチは、複雑なシステムと局所化されたコンテキストにおける暗黙的な関係を利用する。 複雑なシステムの特徴は、データ分散において大きく異なり、複数のデータソースから異なるアスペクトをキャプチャし、組み立てるとシステムのより完全なビューを提供する。 本稿では,クラウドサービス上で実行されるマシンからのシステムメトリクスと,そのシステムノード間の階層構造と相互接続性を備えた大規模分散ソフトウェアシステムからのアプリケーションメトリクスの2番目からなる2つのデータセットを考察する。 変更点に基づくPELTアルゴリズム、認知学習に基づく階層型時間記憶アルゴリズム、サポートベクトルマシン、条件付きランダムフィールドといったアルゴリズムを比較することで、階層型グローバルローカルな条件付きランダムフィールドアプローチを提案し、様々な特徴の複雑なシステムの異常を正確に捉えることができる。 階層的アルゴリズムは、特定の特徴の複雑さの両方を学習し、それらをグローバル抽象表現で活用し、マルチソース特徴データと分散システムにまたがる異常パターンを検出する。 複雑なシステム上でのグラフィカルなネットワーク分析は、利用可能な機能に基づいて関係をマイニングするために、さらにきめ細かいデータセットを作成できる。 さらに、階層的なソリューションは、局所的なレベルでの変化に順応し、新しいデータを学習し、システムの過負荷時に環境を変えることができ、これらの学習を時間の経過とともにシステムのグローバルなビューに変換することができます。

Anomaly detection to recognize unusual events in large scale systems in a time sensitive manner is critical in many industries, eg. bank fraud, enterprise systems, medical alerts, etc. Large-scale systems often grow in size and complexity over time, and anomaly detection algorithms need to adapt to changing structures. A hierarchical approach takes advantage of the implicit relationships in complex systems and localized context. The features in complex systems may vary drastically in data distribution, capturing different aspects from multiple data sources, and when put together provide a more complete view of the system. In this paper, two datasets are considered, the 1st comprising of system metrics from machines running on a cloud service, and the 2nd of application metrics from a large-scale distributed software system with inherent hierarchies and interconnections amongst its system nodes. Comparing algorithms, across the changepoint based PELT algorithm, cognitive learning-based Hierarchical Temporal Memory algorithms, Support Vector Machines and Conditional Random Fields provides a basis for proposing a Hierarchical Global-Local Conditional Random Field approach to accurately capture anomalies in complex systems across various features. Hierarchical algorithms can learn both the intricacies of specific features, and utilize these in a global abstracted representation to detect anomalous patterns robustly across multi-source feature data and distributed systems. A graphical network analysis on complex systems can further fine-tune datasets to mine relationships based on available features, which can benefit hierarchical models. Furthermore, hierarchical solutions can adapt well to changes at a localized level, learning on new data and changing environments when parts of a system are over-hauled, and translate these learnings to a global view of the system over time.
翻訳日:2022-10-31 12:53:10 公開日:2022-10-28
# マルチターゲット追跡のための深部畳み込みニューラルネットワーク:伝達学習アプローチ

Deep Convolutional Neural Networks for Multi-Target Tracking: A Transfer Learning Approach ( http://arxiv.org/abs/2210.15539v2 )

ライセンス: Link先を確認
Damian Owerko, Charilaos Kanatsoulis, Alejandro Ribeiro, Donald J. Bucci Jr, Jennifer Bondarchuk(参考訳) マルチターゲットトラッキング(mtt、multi-target tracking)は従来の信号処理タスクである。 本稿では、深層学習の観点からMTTを再検討し、それに取り組むために畳み込みニューラルネットワーク(CNN)アーキテクチャを提案する。 ターゲット状態とセンサ計測を画像として表現する。 これにより,完全畳み込みモデルを訓練する画像から画像への予測タスクとして問題を再キャストする。 このアーキテクチャは、CNNの転送可能性誤差に関する理論的な境界によって動機付けられている。 提案したCNNアーキテクチャは、MTTタスクにおいて10個のターゲットを持つGM-PHDフィルタより優れている。 cnnのパフォーマンス転送は、平均ospaがわずか13\%$の増加で、250のターゲットを持つより大きなmttタスクに再トレーニングすることなく行われる。

Multi-target tracking (MTT) is a traditional signal processing task, where the goal is to estimate the states of an unknown number of moving targets from noisy sensor measurements. In this paper, we revisit MTT from a deep learning perspective and propose convolutional neural network (CNN) architectures to tackle it. We represent the target states and sensor measurements as images. Thereby we recast the problem as a image-to-image prediction task for which we train a fully convolutional model. This architecture is motivated by a novel theoretical bound on the transferability error of CNN. The proposed CNN architecture outperforms a GM-PHD filter on the MTT task with 10 targets. The CNN performance transfers without re-training to a larger MTT task with 250 targets with only a $13\%$ increase in average OSPA.
翻訳日:2022-10-31 12:52:40 公開日:2022-10-28
# 可変モード共振器を用いた剛体音合成

Rigid-Body Sound Synthesis with Differentiable Modal Resonators ( http://arxiv.org/abs/2210.15306v2 )

ライセンス: Link先を確認
Rodrigo Diaz, Ben Hayes, Charalampos Saitis, Gy\"orgy Fazekas, Mark Sandler(参考訳) 剛体の物理モデルは、仮想環境から音楽制作への応用における音合成に使用される。 モーダル合成のような伝統的な手法は計算コストの高い数値解法に依存することが多いが、最近のディープラーニングのアプローチは結果の処理後に限られている。 本研究は, 深層ニューラルネットワークを訓練し, 微分可能なIIRフィルタのバンクを用いて, 所定の2次元形状と材料に対してモーダル共振器を生成するための新しいエンドツーエンドフレームワークを提案する。 本手法を合成オブジェクトのデータセット上で実証するが,オーディオドメインの目的を用いてモデルをトレーニングし,実世界のオブジェクトの記録から物理的に変形したシンセサイザーを直接学習する方法を提案する。

Physical models of rigid bodies are used for sound synthesis in applications from virtual environments to music production. Traditional methods such as modal synthesis often rely on computationally expensive numerical solvers, while recent deep learning approaches are limited by post-processing of their results. In this work we present a novel end-to-end framework for training a deep neural network to generate modal resonators for a given 2D shape and material, using a bank of differentiable IIR filters. We demonstrate our method on a dataset of synthetic objects, but train our model using an audio-domain objective, paving the way for physically-informed synthesisers to be learned directly from recordings of real-world objects.
翻訳日:2022-10-31 12:52:27 公開日:2022-10-28
# 顔行動単位検出のためのグローバル・ローカルな表現認識埋め込み

Global-to-local Expression-aware Embeddings for Facial Action Unit Detection ( http://arxiv.org/abs/2210.15160v2 )

ライセンス: Link先を確認
Rudong An, Wei Zhang, Hao Zeng, Wei Chen, Zhigang Deng, Yu Ding(参考訳) 表情と顔行動単位 (AUs) は2つのレベルの顔行動記述子である。 表現補助情報は、AU検出性能を改善するために広く利用されている。 しかし、既存の表現表現のほとんどは、事前決定された離散的なカテゴリ(例えば、怒り、嫌悪感、幸福、悲しみなど)のみを記述でき、ausのような微妙な表現変換をキャプチャできない。 本稿では, 微妙で連続的な顔の動きを捉え, AU検出を促進するための, 微粒な \textsl{Global Expression Expression Encoder} を提案する。 このようなグローバルな表現表現を得るために,グローバルな表現類似度に応じて,大規模な表現データセット上に表現埋め込みモデルをトレーニングすることを提案する。 さらに、AUの局所的な定義を考えると、局所的なAUの特徴を抽出することが不可欠である。 そこで我々は,各AUの局所的な特徴を生成するために, \textsl{Local AU Features Module} を設計する。 具体的には、AU特徴マップ抽出器と対応するAUマスク抽出器とから構成される。 まず、2つの抽出器がそれぞれグローバル表現表現をAU特徴写像とマスクに変換する。 次に、AU特徴マップとその対応するAUマスクを乗じて、局所的な顔領域に焦点を当てたAUマスク特徴を生成する。 最後に、AUマスクされた特徴をAU分類器に入力し、AU発生を判定する。 実験の結果,提案手法の優位性を実証した。 提案手法は, BP4D, DISFA, BP4D+など, 広く使われている顔データに対して, 従来よりも精度良く, 最先端の性能を実現する。

Expressions and facial action units (AUs) are two levels of facial behavior descriptors. Expression auxiliary information has been widely used to improve the AU detection performance. However, most existing expression representations can only describe pre-determined discrete categories (e.g., Angry, Disgust, Happy, Sad, etc.) and cannot capture subtle expression transformations like AUs. In this paper, we propose a novel fine-grained \textsl{Global Expression representation Encoder} to capture subtle and continuous facial movements, to promote AU detection. To obtain such a global expression representation, we propose to train an expression embedding model on a large-scale expression dataset according to global expression similarity. Moreover, considering the local definition of AUs, it is essential to extract local AU features. Therefore, we design a \textsl{Local AU Features Module} to generate local facial features for each AU. Specifically, it consists of an AU feature map extractor and a corresponding AU mask extractor. First, the two extractors transform the global expression representation into AU feature maps and masks, respectively. Then, AU feature maps and their corresponding AU masks are multiplied to generate AU masked features focusing on local facial region. Finally, the AU masked features are fed into an AU classifier for judging the AU occurrence. Extensive experiment results demonstrate the superiority of our proposed method. Our method validly outperforms previous works and achieves state-of-the-art performances on widely-used face datasets, including BP4D, DISFA, and BP4D+.
翻訳日:2022-10-31 12:50:56 公開日:2022-10-28
# 科学NLIのための教師なし知識グラフ構築とイベント中心知識注入

Unsupervised Knowledge Graph Construction and Event-centric Knowledge Infusion for Scientific NLI ( http://arxiv.org/abs/2210.15248v2 )

ライセンス: Link先を確認
Chenglin Wang, Yucheng Zhou, Guodong Long, Xiaodong Wang, Xiaowei Xu(参考訳) 自然言語推論(NLI)の進歩により、NLIの要求は科学的テキストを扱うことになっている。 既存の手法は、ドメイン固有の知識を欠いた事前学習モデル(ptm)に依存している。 この欠点に対処するために,PTMを科学領域に一般化する科学知識グラフを導入する。 しかし、既存のナレッジグラフ構築アプローチでは、高価なラベル付きデータ、他のドメインへの適用の失敗、長い推論時間、大きなコーパスへの拡張の困難など、いくつかの欠点がある。 そこで本稿では,ラベル付きデータなしで科学知識グラフ(SKG)を構築するための教師なし知識グラフ構築手法を提案する。 さらに,skgからのノイズ効果を緩和し,文中の知識をより補完するために,文中のきめ細かな意味単位である各事象に外部知識を統合するイベント中心の知識注入手法を提案する。 実験の結果,skgの有効性と信頼性が得られた。

With the advance of natural language inference (NLI), a rising demand for NLI is to handle scientific texts. Existing methods depend on pre-trained models (PTM) which lack domain-specific knowledge. To tackle this drawback, we introduce a scientific knowledge graph to generalize PTM to scientific domain. However, existing knowledge graph construction approaches suffer from some drawbacks, i.e., expensive labeled data, failure to apply in other domains, long inference time and difficulty extending to large corpora. Therefore, we propose an unsupervised knowledge graph construction method to build a scientific knowledge graph (SKG) without any labeled data. Moreover, to alleviate noise effect from SKG and complement knowledge in sentences better, we propose an event-centric knowledge infusion method to integrate external knowledge into each event that is a fine-grained semantic unit in sentences. Experimental results show that our method achieves state-of-the-art performance and the effectiveness and reliability of SKG.
翻訳日:2022-10-31 12:50:05 公開日:2022-10-28
# ヒューマンオプティカルフローとポーズのブートストラップ

Bootstrapping Human Optical Flow and Pose ( http://arxiv.org/abs/2210.15121v2 )

ライセンス: Link先を確認
Aritro Roy Arko and James J. Little and Kwang Moo Yi(参考訳) 人間の光学的フローとポーズを高めるブートストラップフレームワークを提案する。 シーン内の人間を含むビデオでは,2つのタスクを同時に考慮することで,人間の光学的流れとポーズ推定品質の両方を向上できることを示す。 我々は、人間のポーズ推定に適合するように微調整することで、光学フロー推定を強化し、その逆も行う。 より詳しくは、ポーズと光フローネットワークを推論時に互いに一致するように最適化する。 この結果は、WildデータセットにおけるHuman 3.6Mと3D Posesの最先端結果と、人間の関節位置におけるポーズ推定精度と光学フロー精度の両方の観点から、Sintelデータセットの人間関連サブセットであることを示す。 コードはhttps://github.com/ubc-vision/bootstrapping-human-optical-flow-and-poseで利用可能

We propose a bootstrapping framework to enhance human optical flow and pose. We show that, for videos involving humans in scenes, we can improve both the optical flow and the pose estimation quality of humans by considering the two tasks at the same time. We enhance optical flow estimates by fine-tuning them to fit the human pose estimates and vice versa. In more detail, we optimize the pose and optical flow networks to, at inference time, agree with each other. We show that this results in state-of-the-art results on the Human 3.6M and 3D Poses in the Wild datasets, as well as a human-related subset of the Sintel dataset, both in terms of pose estimation accuracy and the optical flow accuracy at human joint locations. Code available at https://github.com/ubc-vision/bootstrapping-human-optical-flow-and-pose
翻訳日:2022-10-31 12:49:49 公開日:2022-10-28
# 映像ベースモーションキャプチャに先立つ変分運動の学習

Learning Variational Motion Prior for Video-based Motion Capture ( http://arxiv.org/abs/2210.15134v2 )

ライセンス: Link先を確認
Xin Chen, Zhuo Su, Lingbo Yang, Pei Cheng, Lan Xu, Bin Fu, and Gang Yu(参考訳) モノクロビデオからのモーションキャプチャは、人間がVR(Virtual Reality)やAR(Augmented Reality)で自然に体験し、相互に対話する上で、基本的で不可欠です。 しかし、既存の手法は、モデリング前の効果的な動きの欠如により、自己排除と複雑なポーズを含む難題に苦慮している。 本稿では,この問題を解決するために,ビデオベースモーションキャプチャーのための新しい変分動作先行学習手法を提案する。 映像と動き領域の対応性を直接構築する代わりに、すべての自然な動きの事前分布を捉えるための一般的な潜在空間を学習することを提案する。 先行空間の一般化能力を向上させるために,マーカーベースの3Dモキャップデータに事前学習したトランスフォーマーベースの変分オートエンコーダを提案する。 その後、個別のビデオエンコーダを予め訓練されたモーションジェネレータに取り付け、タスク固有のビデオデータセットをエンドツーエンドで微調整する。 既存の運動先行モデルと比較して,vmpモデルはフレーム毎のポーズ推定における時間的ジッタと故障モードを効果的に低減し,時間的に安定かつ視覚的なモーションキャプチャ結果をもたらす運動整流器として機能する。 さらに,vmpベースのフレームワークはシーケンスレベルで動作をモデル化し,フォワードパス内で直接モーションクリップを生成し,推論中にリアルタイムモーションキャプチャを実現する。 パブリックデータセットとインザワイルドビデオの両方に対する大規模な実験により、我々のフレームワークの有効性と一般化能力が実証された。

Motion capture from a monocular video is fundamental and crucial for us humans to naturally experience and interact with each other in Virtual Reality (VR) and Augmented Reality (AR). However, existing methods still struggle with challenging cases involving self-occlusion and complex poses due to the lack of effective motion prior modeling. In this paper, we present a novel variational motion prior (VMP) learning approach for video-based motion capture to resolve the above issue. Instead of directly building the correspondence between the video and motion domain, We propose to learn a generic latent space for capturing the prior distribution of all natural motions, which serve as the basis for subsequent video-based motion capture tasks. To improve the generalization capacity of prior space, we propose a transformer-based variational autoencoder pretrained over marker-based 3D mocap data, with a novel style-mapping block to boost the generation quality. Afterward, a separate video encoder is attached to the pretrained motion generator for end-to-end fine-tuning over task-specific video datasets. Compared to existing motion prior models, our VMP model serves as a motion rectifier that can effectively reduce temporal jittering and failure modes in frame-wise pose estimation, leading to temporally stable and visually realistic motion capture results. Furthermore, our VMP-based framework models motion at sequence level and can directly generate motion clips in the forward pass, achieving real-time motion capture during inference. Extensive experiments over both public datasets and in-the-wild videos have demonstrated the efficacy and generalization capability of our framework.
翻訳日:2022-10-31 12:49:33 公開日:2022-10-28
# 自己教師付き学習による遠隔生理計測

Video-based Remote Physiological Measurement via Self-supervised Learning ( http://arxiv.org/abs/2210.15401v2 )

ライセンス: Link先を確認
Zijie Yue, Miaojing Shi, Shuai Ding(参考訳) ビデオベースの遠隔生理学的測定は、人間の顔ビデオからリモート光胸腺撮影(rPPG)信号を推定し、rPPG信号から複数のバイタルサイン(心拍数、呼吸頻度など)を測定することを目的としている。 最近のアプローチでは、通常、豊富な顔ビデオと同期記録フォトプレチモグラフィ(ppg)信号を必要とするディープニューラルネットワークを訓練することで、これを達成している。 しかし、実際にはこれらの注釈付きコーパスの収集は困難である。 本稿では,真理PSG信号を必要とせずに,顔映像からrPPG信号を推定する,周波数にインスパイアされた自己教師型フレームワークを提案する。 ビデオサンプルが与えられたら、まず、元のサンプルと類似/相似信号周波数を含む複数の正/負のサンプルに拡大する。 具体的には、空間増強を用いて正のサンプルを生成する。 負のサンプルは学習可能な周波数拡張モジュールを介して生成され、視覚の外観を過度に変えることなく入力に対して非線形信号周波数変換を行う。 次に、拡張サンプルからrPPG信号を推定するために、局所的なrPPGエキスパートアグリゲーションモジュールを導入する。 異なる顔領域からの補足的な脈動情報を符号化し、1つのrppg予測に集約する。 最後に,複数の拡張映像から推定されたrppg信号の最適化のために,周波数コントラスト損失,周波数比一貫性損失,ビデオ間周波数整合損失など,周波数にインスパイアされた一連の損失を提案する。 4つの標準ベンチマークでrppgによる心拍数,心拍変動,呼吸周波数の推定を行う。 実験の結果,本手法は芸術の状態を大きなマージンで改善できることが確認された。

Video-based remote physiological measurement aims to estimate remote photoplethysmography (rPPG) signals from human face videos and then measure multiple vital signs (e.g. heart rate, respiration frequency) from rPPG signals. Recent approaches achieve it by training deep neural networks, which normally require abundant face videos and synchronously recorded photoplethysmography (PPG) signals for supervision. However, the collection of these annotated corpora is uneasy in practice. In this paper, we introduce a novel frequency-inspired self-supervised framework that learns to estimate rPPG signals from face videos without the need of ground truth PPG signals. Given a video sample, we first augment it into multiple positive/negative samples which contain similar/dissimilar signal frequencies to the original one. Specifically, positive samples are generated using spatial augmentation. Negative samples are generated via a learnable frequency augmentation module, which performs non-linear signal frequency transformation on the input without excessively changing its visual appearance. Next, we introduce a local rPPG expert aggregation module to estimate rPPG signals from augmented samples. It encodes complementary pulsation information from different face regions and aggregate them into one rPPG prediction. Finally, we propose a series of frequency-inspired losses, i.e. frequency contrastive loss, frequency ratio consistency loss, and cross-video frequency agreement loss, for the optimization of estimated rPPG signals from multiple augmented video samples and across temporally neighboring video samples. We conduct rPPG-based heart rate, heart rate variability and respiration frequency estimation on four standard benchmarks. The experimental results demonstrate that our method improves the state of the art by a large margin.
翻訳日:2022-10-31 12:49:05 公開日:2022-10-28
# UnfoldML:マルチステージ分類のためのコスト認識と不確実性に基づく動的2次元予測

UnfoldML: Cost-Aware and Uncertainty-Based Dynamic 2D Prediction for Multi-Stage Classification ( http://arxiv.org/abs/2210.15056v2 )

ライセンス: Link先を確認
Yanbo Xu, Alind Khare, Glenn Matlin, Monish Ramadoss, Rishikesan Kamaleswaran, Chao Zhang and Alexey Tumanov(参考訳) 機械学習(ML)の研究は、予測タスクの精度を最大化することに焦点を当てている。 しかし、MLモデルはますます複雑になり、リソース集約化され、リソース制約のある環境にデプロイするのにコストがかかる。 これらの問題は, 逐次的に遷移した段階を段階的に分類した予測タスクにおいてさらに悪化し, モノリシックな単一クラス分類器の「展開」が可能であり, 典型的にはすべての段階において, 全データを用いて訓練される。 各シングルステージ分類器は、その段階に必要なデータモダリティや機能のみを使用してトレーニングされる、安価からより高価なバイナリ分類器から徐々にカスケードすることができる。 UnfoldMLは,(1)精度/コストトレードオフ空間のナビゲーション,(2)桁違いの推論の時空間コストの削減,(3)進行段階の早期予測を可能にする,多段階分類のためのコスト認識および不確実性に基づく動的2D予測パイプラインである。 UnfoldMLは、複数段階の疾患の発生をリアルタイムで検出しながら、臨床環境での桁違いのコスト向上を実現している。 高いパフォーマンスのマルチクラスベースラインから0.1%の精度で達成し、時空間的な推論コストと早期(3.5hrs)の発症予測で20倍近く節約する。 また、UnfoldMLは画像分類に一般化し、画像の異なるレベルの抽象化を与えられたラベル(粗いものから細かいものまで)を予測し、0.4%の精度で5倍近いコストを節約できることを示した。

Machine Learning (ML) research has focused on maximizing the accuracy of predictive tasks. ML models, however, are increasingly more complex, resource intensive, and costlier to deploy in resource-constrained environments. These issues are exacerbated for prediction tasks with sequential classification on progressively transitioned stages with ''happens-before'' relation between them.We argue that it is possible to ''unfold'' a monolithic single multi-class classifier, typically trained for all stages using all data, into a series of single-stage classifiers. Each single-stage classifier can be cascaded gradually from cheaper to more expensive binary classifiers that are trained using only the necessary data modalities or features required for that stage. UnfoldML is a cost-aware and uncertainty-based dynamic 2D prediction pipeline for multi-stage classification that enables (1) navigation of the accuracy/cost tradeoff space, (2) reducing the spatio-temporal cost of inference by orders of magnitude, and (3) early prediction on proceeding stages. UnfoldML achieves orders of magnitude better cost in clinical settings, while detecting multi-stage disease development in real time. It achieves within 0.1% accuracy from the highest-performing multi-class baseline, while saving close to 20X on spatio-temporal cost of inference and earlier (3.5hrs) disease onset prediction. We also show that UnfoldML generalizes to image classification, where it can predict different level of labels (from coarse to fine) given different level of abstractions of a image, saving close to 5X cost with as little as 0.4% accuracy reduction.
翻訳日:2022-10-31 12:48:35 公開日:2022-10-28
# オープンデータを用いたセグメンテーションに基づく肝ステアトーシス検出のための深層学習:多施設国際検証研究

Deep Learning for Segmentation-based Hepatic Steatosis Detection on Open Data: A Multicenter International Validation Study ( http://arxiv.org/abs/2210.15149v2 )

ライセンス: Link先を確認
Zhongyi Zhang, Guixia Li, Ziqiang Wang, Feng Xia, Ning Zhao, Huibin Nie, Zezhong Ye, Joshua Lin, Yiyi Hui, Xiangchun Liu(参考訳) 多発性異種集団における脂肪症検出の汎用性は, 自動診断では認められなかった。 本研究では,肝ステアトーシスを検出するための完全自動人工知能(ai)システムを外部から検証した。 LIDC-IDRI, NSCLC-Lung1, NSCLC-Lung1, RIDER, VESSEL12, RICORD-1A, RICORD-1B, COVID-19-Italy, COVID-19-Chinaの8つの異なるデータセットから1014個の非コントラスト拡張胸部CTスキャンを行った。 この3ステップのAIワークフローは、以下の通りである。 (i)3次元肝セグメンテーション - 肝セグメンテーションのために開発された3次元U-Net深層学習モデル。 (II)興味領域(AI-ROI)、AI-3D、AI-2Dの3つの自動測定法による肝減衰測定 (iii)肝ステアトーシスの検出。 ディープラーニングセグメンテーションは平均ダイス係数0.957。 ai-roi減衰測定では, エキスパート測定値と有意差は認められなかった (p > 0.05) が, ai-3dとai-2dはエキスパートと大きく異なる (p < 0.001)。 AI-ROI、AI-3D、AI-2Dのステアトーシス分類(AUC)は0.921(95% CI:0.883 - 0.959)、0.939(95% CI:0.903 - 0.973)、0.894(95% CI:0.8500.938)である。 この深層学習システムは、肝ステアトーシスの早期非侵襲的、非薬剤学的予防的治療を可能にする可能性がある。 https://drive.google.com/drive/folders/1-g_zjeaazxyxgql1oef6pujr6kb0igjx。

Despite high global prevalence of hepatic steatosis, no automated diagnostics demonstrated generalizability in detecting steatosis on multiple heterogeneous populations. In this retrospective study, we externally validated a fully automated artificial intelligence (AI) system to detect hepatic steatosis. 1,014 non-contrast enhanced chest computed tomography (CT) scans were collected from eight distinct datasets: LIDC-IDRI, NSCLC-Lung1, RIDER, VESSEL12, RICORD-1A, RICORD-1B, COVID-19-Italy, and COVID-19-China. This three-step AI workflow consists of the following: (i) 3D liver segmentation - a 3D U-Net deep learning model developed for liver segmentation and applied externally without retraining. (ii) liver attenuation measurements by three automatic methods: AI on regions of interest (AI-ROI), AI-3D, and AI-2D; (iii) hepatic steatosis detection. The deep-learning segmentation achieved a mean dice coefficient of 0.957. AI-ROI attenuation measurements showed no significant differences compared to expert measurements (P > 0.05), but AI-3D and AI-2D were significantly different from the expert (P < 0.001). The area under the curve (AUC) of steatosis classification for AI-ROI, AI-3D, and AI-2D are 0.921 (95% CI: 0.883 - 0.959), 0.939 (95% CI: 0.903 - 0.973), and 0.894 (95% CI: 0.850 - 0.938) respectively. If adopted for universal detection, this deep learning system could potentially allow early non-invasive, non-pharmacological preventative interventions for hepatic steatosis. 1,014 expert-annotated liver segmentations of CT images can be downloaded here: https://drive.google.com/drive/folders/1-g_zJeAaZXYXGqL1OeF6pUjr6KB0igJX.
翻訳日:2022-10-31 12:48:01 公開日:2022-10-28
# 雑音残響音声分離のための変形可能な時間畳み込みネットワーク

Deformable Temporal Convolutional Networks for Monaural Noisy Reverberant Speech Separation ( http://arxiv.org/abs/2210.15305v2 )

ライセンス: Link先を確認
William Ravenscroft and Stefan Goetze and Thomas Hain(参考訳) 音声分離モデルは、多くの音声処理アプリケーションで個々の話者を分離するために使用される。 ディープラーニングモデルは、多くの音声分離ベンチマークにおける最先端(SOTA)結果につながることが示されている。 時間畳み込みネットワーク(TCN)として知られるそのようなモデルの1つは、音声分離タスクにおいて有望な結果を示している。 これらのモデルの制限は、固定受容場(RF)を持つことである。 近年,TNの最適なRFは,音声信号の残響特性によって異なることが明らかにされている。 本研究では, 残響音声分離のための様々な残響時間に適応可能な動的RFをTCNモデルで実現するための解として, 変形可能な畳み込みを提案する。 提案するモデルは、whamrベンチマークの入力信号よりも11.1db平均スケール不変信号対歪比(sisdr)が向上する。 1.3Mパラメータの比較的小さな変形可能なTCNモデルが提案され、より大きくより複雑なモデルに匹敵する分離性能を与える。

Speech separation models are used for isolating individual speakers in many speech processing applications. Deep learning models have been shown to lead to state-of-the-art (SOTA) results on a number of speech separation benchmarks. One such class of models known as temporal convolutional networks (TCNs) has shown promising results for speech separation tasks. A limitation of these models is that they have a fixed receptive field (RF). Recent research in speech dereverberation has shown that the optimal RF of a TCN varies with the reverberation characteristics of the speech signal. In this work deformable convolution is proposed as a solution to allow TCN models to have dynamic RFs that can adapt to various reverberation times for reverberant speech separation. The proposed models are capable of achieving an 11.1 dB average scale-invariant signal-to-distortion ratio (SISDR) improvement over the input signal on the WHAMR benchmark. A relatively small deformable TCN model of 1.3M parameters is proposed which gives comparable separation performance to larger and more computationally complex models.
翻訳日:2022-10-31 12:47:21 公開日:2022-10-28
# MLデータ処理の非集約化の1例

A case for disaggregation of ML data processing ( http://arxiv.org/abs/2210.14826v2 )

ライセンス: Link先を確認
Andrew Audibert, Yang Chen, Dan Graur, Ana Klimovic, Jiri Simsa and Chandramohan A. Thekkath(参考訳) 機械学習(ml)計算は、モデルが取り込むための入力データを供給する必要がある。 従来、入力データ処理はML計算と同じホスト上で行われる。 しかし、データを処理するリソースが十分に不足している場合、入力データ処理はml計算のボトルネックとなる可能性がある。 これにより、ML計算の速度が低下し、ML計算で使用されるMLハードウェア(GPUやTPUなど)が不足する。 本稿では,tf.data上に構築した分散入力データ処理サービスであるtf.data serviceを提案する。 Our work goes beyond describing the design and implementation of a new system which disaggregates preprocessing from ML computation and presents: (1) empirical evidence based on production workloads for the need of disaggregation, as well as quantitative evaluation of the impact disaggregation has on the performance and cost of production workloads, (2) benefits of disaggregation beyond horizontal scaling, (3) analysis of tf.data service's adoption at Google, the lessons learned during building and deploying the system and potential future lines of research opened up by our work. データを水平スケーリングすることで,入力ボトルネックの解消,最大110倍の高速化,最大89倍のジョブコスト削減を実現している。 さらに、tf.dataサービスは、同じデータ処理パイプライン(ハイパーパラメータチューニングジョブなど)でMLジョブ間のデータ共有を通じて、計算再利用をサポートし、パフォーマンスのペナルティを発生せず、全体のリソースコストを削減できることを示す。 最後に、tf.data service advanced featuresが非入力バウンドジョブのパフォーマンスを向上させることを示し、特にtf.data serviceによるコーディネートされたデータ読み込みは最大2倍のスピードアップとnlpジョブのジョブコスト削減をもたらす。

Machine Learning (ML) computation requires feeding input data for the models to ingest. Traditionally, input data processing happens on the same host as the ML computation. The input data processing can however become a bottleneck of the ML computation if there are insufficient resources to process data quickly enough. This slows down the ML computation and wastes valuable and scarce ML hardware (e.g. GPUs and TPUs) used by the ML computation. In this paper, we present tf.data service, a disaggregated input data processing service built on top of tf.data. Our work goes beyond describing the design and implementation of a new system which disaggregates preprocessing from ML computation and presents: (1) empirical evidence based on production workloads for the need of disaggregation, as well as quantitative evaluation of the impact disaggregation has on the performance and cost of production workloads, (2) benefits of disaggregation beyond horizontal scaling, (3) analysis of tf.data service's adoption at Google, the lessons learned during building and deploying the system and potential future lines of research opened up by our work. We demonstrate that horizontally scaling data processing using tf.data service helps remove input bottlenecks, achieving speedups of up to 110x and job cost reductions of up to 89x. We further show that tf.data service can support computation reuse through data sharing across ML jobs with identical data processing pipelines (e.g. hyperparameter tuning jobs), incurring no performance penalty and reducing overall resource cost. Finally, we show that tf.data service advanced features can benefit performance of non-input bound jobs; in particular, coordinated data reads through tf.data service can yield up to 2x speedups and job cost savings for NLP jobs.
翻訳日:2022-10-31 12:47:07 公開日:2022-10-28
# クロスモーダル相互知識伝達による視覚的回答定位

Visual Answer Localization with Cross-modal Mutual Knowledge Transfer ( http://arxiv.org/abs/2210.14823v3 )

ライセンス: Link先を確認
Yixuan Weng and Bin Li(参考訳) ビデオ中の視覚的応答ローカライゼーション(VAL)の目的は、与えられた自然言語質問に対する答えとして、ビデオから関連性があり簡潔なタイムクリップを取得することである。 初期手法は、映像とテキスト間の相互作用をモデル化し、視覚的予測器による視覚的応答を予測する。 後に、VALの字幕付きテキスト予測器の使用はより正確であることが証明された。 しかし、これらの既存の手法は、視覚フレームやテキスト字幕からのクロスモーダル知識の逸脱をまだ持っている。 本稿では,知識の偏りを低減するために,モーダルな相互知識伝達を局所化(MutualSL)法を提案する。 MutualSLには視覚予測器とテキスト予測器の両方があり、これらの予測結果が一致し、相互モダリティ間の意味的知識理解を促進することが期待できる。 そこで本研究では,知識伝達の割合を動的に調整する一方向動的損失関数を設計する。 評価のための3つの公開データセットについて広範な実験を行った。 実験結果から,本手法は他のSOTA法よりも優れた性能を示し,その有効性を示した。

The goal of visual answering localization (VAL) in the video is to obtain a relevant and concise time clip from a video as the answer to the given natural language question. Early methods are based on the interaction modelling between video and text to predict the visual answer by the visual predictor. Later, using the textual predictor with subtitles for the VAL proves to be more precise. However, these existing methods still have cross-modal knowledge deviations from visual frames or textual subtitles. In this paper, we propose a cross-modal mutual knowledge transfer span localization (MutualSL) method to reduce the knowledge deviation. MutualSL has both visual predictor and textual predictor, where we expect the prediction results of these both to be consistent, so as to promote semantic knowledge understanding between cross-modalities. On this basis, we design a one-way dynamic loss function to dynamically adjust the proportion of knowledge transfer. We have conducted extensive experiments on three public datasets for evaluation. The experimental results show that our method outperforms other competitive state-of-the-art (SOTA) methods, demonstrating its effectiveness.
翻訳日:2022-10-31 12:38:07 公開日:2022-10-28