このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220813となっている論文です。

PDF登録状況(公開日: 20220813)

TitleAuthorsAbstract論文公表日・翻訳日
# ロスシュミットエコーの奇妙な熱力学的限界

Odd thermodynamic limit for the Loschmidt echo ( http://arxiv.org/abs/2105.06483v3 )

ライセンス: Link先を確認
Gianpaolo Torre, Vanja Mari\'c, Domagoj Kui\'c, Fabio Franchini, Salvatore Marco Giampaolo(参考訳) avogadroの同一の要素の数と、追加の要素が1つあるシステムを簡単に区別できるだろうか? 通常、この問題に対する答えは否定的であるが、この研究において反強磁性量子スピン環において、単純な平衡外の実験は、系が偶数または奇数の要素を含むかどうかによって2つの質的かつ定量的に異なる結果が得られることを示す。 局所的な量子クエンチの設定を考慮し、ロシミットエコー(Loschmidt echo)と呼ばれる作業の生成関数を計算し、連鎖部位の偶数/偶数によって引き起こされる位相的フラストレーションの有無によって異なる特徴を示すことを示す。 我々は、この現象論を説明するために、先代的な量子イジング鎖を用いるが、これは反強磁性スピン鎖の汎用性であり、主として、フラストレーションと非フラストレーション鎖の異なる低エネルギースペクトルに由来すると主張する。 その結果, このスペクトル差は観測可能な特性を分離し, 量子熱力学プロトコルで観測する方法を明らかにした。

Is it possible to readily distinguish a system made by an Avogadro's number of identical elements and one with a single additional one? Usually, the answer to this question is negative but, in this work, we show that in antiferromagnetic quantum spin rings a simple out-of-equilibrium experiment can do so, yielding two qualitatively and quantitatively different outcomes depending on whether the system includes an even or an odd number of elements. We consider a local quantum-quench setup and calculate a generating function of the work done, namely, the Loschmidt echo, showing that it displays different features depending on the presence or absence of topological frustration, which is triggered by the even/oddness in the number of the chain sites. We employ the prototypical quantum Ising chain to illustrate this phenomenology, which we argue being generic for antiferromagnetic spin chains, as it stems primarily from the different low energy spectra of frustrated and non frustrated chains. Our results thus prove that these well-known spectral differences lead indeed to distinct observable characteristics and open the way to harvest them in quantum thermodynamics protocols.
翻訳日:2023-03-31 06:12:49 公開日:2022-08-13
# 駆動カオス系の半古典的エネルギー遷移:スカーディスク上の位相コヒーレンス

Semiclassical energy transition of driven chaotic systems: phase coherence on scar disks ( http://arxiv.org/abs/2203.10668v2 )

ライセンス: Link先を確認
Alfredo M. Ozorio de Almeida(参考訳) エネルギーシェル内の軌道セグメントは、他の正準駆動エネルギーシェル内のセグメントと閉曲線を形成するために結合され、その間の遷移のために量子確率密度の滑らかな古典的背景に振動半古典的な寄与を与える。 どちらのセグメントもいずれのシェルのボーア量子化された周期軌道の一部であれば、そのエンドポイントの中心は単一の静エネルギーシェルのスペクトルウィグナー関数のスカーディスクにあり、遷移への寄与は位相コヒーレンスによって強化される。 遷移密度のスペクトルウィグナー関数上の積分としての正確な表現は、系が位相空間で反射する特別な場合のために以前に導かれたものであり、任意のユニタリ変換に一般化される。 これらが駆動ハミルトニアンによって連続的に生成される場合、遷移が開始するまでの駆動時間に有限のラプスがあり、初期ネストされたシェルが互いに接触し、その後重なり始める。 遷移密度に対する多次元積分の定常位相評価は、各シェル上の一対の軌道セグメントを選択し、一対の滑らかな複合軌道を形成する。 それぞれの複合軌道は、殻の交点上のポアンカルの写像を一般化する写像の積の不動点として現れる。 したがって、閉複軌道は、元のハミルトニアンがカオスであれば孤立する。 化合物軌道の作用は、駆動時間または元の固有状態の変換の他のパラメータに依存する。

A trajectory segment in an energy shell, which combines to form a closed curve with a segment in another canonically driven energy shell, adds an oscillatory semiclassical contribution to the smooth classical background of the quantum probability density for a transition between their energies. If either segment is part of a Bohr-quantized periodic orbit of either shell, the centre of its endpoints lies on a scar disk of the spectral Wigner function for single static energy shell and the contribution to the transition is reinforced by phase coherence. The exact representation of the transition density as an integral over spectral Wigner functions, which was previously derived for the special case where the system undergoes a reflection in phase space, is here generalized to arbitrary unitary transformations. If these are generated continuously by a driving Hamiltonian, there will be a finite lapse in the driving time for the transition to start, until the initially nested shells touch each other and then start to overlap. The stationary phase evaluation of the multidimensional integral for the transition density selects the pair of matching trajectory segments on each shell, which close to form a piecewise smooth compound orbit. Each compound orbit shows up as a fixed point of a product of mappings that generalize Poincar\'e maps on the intersection of the shells. Thus, the closed compound orbits are isolated if the original Hamiltonian is chaotic. The actions of the compound orbits depend on the driving time, or on any other parameter of the transformation of the original eigenstates.
翻訳日:2023-02-21 07:02:49 公開日:2022-08-13
# 100\%の機械的効率を達成する電圧駆動交換共鳴

Voltage-driven exchange resonance achieving 100\% mechanical efficiency ( http://arxiv.org/abs/2204.03534v2 )

ライセンス: Link先を確認
Junyu Tang, Ran Cheng(参考訳) 電流誘起トルクによって駆動される磁気共鳴は磁気材料を研究する上で重要な道具であるが、周波数と機械的効率が非常に限られている。 高周波磁化ダイナミクスの高効率化のために, 電圧誘起トルクという代替機構を提案する。 強磁性体-トポロジカル絶縁体-強磁性体三層構造を断熱量子モータとして操作すると、電圧誘起トルクは2つの界面上のギャップトポロジカル電子の断熱運動から生じ、2つの強磁性層に対して逆作用し、2つの強磁性層が$\pi$相の差で成立する交換モードを励起する。 交換モード共鳴は強磁性共鳴よりもはるかに高い周波数を持ち、位相電荷ポンピングが伴い、共鳴点での電気的断面積の急なピークをもたらす。 出力電流は純粋に断熱的であり、散逸電流は同一に消滅するので、提案された電圧駆動交換共鳴は、電流駆動系では不可能であるユニティに近い非常に高い機械的効率を伴っている。

Magnetic resonances driven by current-induced torques are crucial tools to study magnetic materials but are very limited in frequency and mechanical efficiency. We propose an alternative mechanism, voltage-induced torque, to realize high efficiency in generating high-frequency magnetization dynamics. When a ferromagnet-topological insulator-ferromagnet trilayer heterostructure is operated as an adiabatic quantum motor, voltage-induced torque arises from the adiabatic motion of gapped topological electrons on the two interfaces and act oppositely on the two ferromagnetic layers, which can excite the exchange mode where the two ferromagnetic layers precess with a $\pi$-phase difference. The exchange mode resonance, bearing a much higher frequency than the ferromagnetic resonance, is accompanied by topological charge pumping, leading to a sharp peak in electrical admittance at the resonance point. Because the output current is purely adiabatic while dissipative current vanishes identically, the proposed voltage-driven exchange resonance entails a remarkably high mechanical efficiency close to unity, which is impossible in any current-driven systems.
翻訳日:2023-02-19 16:10:30 公開日:2022-08-13
# 平面上の球面:有限曲率領域からの2次元散乱

Sphere on a plane: Two-dimensional scattering from a finite curved region ( http://arxiv.org/abs/2205.09603v2 )

ライセンス: Link先を確認
James R. Anglin and Etienne Wamba(参考訳) 2次元に効果的に制限される非相対論的粒子は、一般に曲面上を移動でき、スカラーポテンシャルやベクトルゲージ場によって記述できる以上の力学現象が可能である。 ここでは、一様曲率の単純な場合を考える: 粒子は球状押出を伴う平面上を移動する。 球面が平面に合流する緯度によっては、押出は無限小のバンプから、平面に触れるだけのほぼ完全な球面まで様々である。 この一様曲率の表面上の古典的な自由運動は、速度に依存しない測地線に従い、量子力学的散乱はエネルギーに依存する。 古典的、半古典的、完全量子的な問題を全て完全に解けるものとし、半古典的解析が2つの古典的軌跡の間の干渉(平面上の球面は一種の二重スリットとして振舞う)の観点から複素量子微分断面をいかに説明するかを示した。

Non-relativistic particles that are effectively confined to two dimensions can in general move on curved surfaces, allowing dynamical phenomena beyond what can be described with scalar potentials or even vector gauge fields. Here we consider a simple case of piecewise uniform curvature: a particle moves on a plane with a spherical extrusion. Depending on the latitude at which the sphere joins the plane, the extrusion can range from an infinitesimal bump to a nearly full sphere that just touches the plane. Free classical motion on this surface of piecewise uniform curvature follows geodesics that are independent of velocity, while quantum mechanical scattering depends on energy. We compare classical, semi-classical, and fully quantum problems, which are all exactly solvable, and show how semi-classical analysis explains the complex quantum differential cross section in terms of interference between two classical trajectories: the sphere on a plane acts as a kind of double slit.
翻訳日:2023-02-12 15:44:06 公開日:2022-08-13
# 単位分割と文脈部分空間変動量子固有解器

Unitary Partitioning and the Contextual Subspace Variational Quantum Eigensolver ( http://arxiv.org/abs/2207.03451v2 )

ライセンス: Link先を確認
Alexis Ralli and Tim Weaving and Andrew Tranter and William M. Kirby and Peter J. Love and Peter V. Coveney(参考訳) 文脈部分空間変動量子固有解法 (CS-VQE) は、与えられた量子ビットハミルトンの基底状態エネルギーを近似するハイブリッド量子古典的アルゴリズムである。 これはハミルトニアンを文脈的部分と非文脈的部分に分けることで実現される。 基底状態エネルギーは古典的に非コンテキスト問題の解法によって近似され、続いて非コンテキスト解によって制約されたVQEを用いて文脈問題の解法が導かれる。 一般に、文脈補正の計算は従来の vqe によるフルハミルトニアンを解くのに比べ、計算量と測定量が少なくなる。 異なるテーパ分子ハミルトニアン上のcs-vqeをシミュレートし,ユニタリパーティショニング測定低減戦略を適用し,文脈補正に必要な測定回数を更に削減した。 その結果, cs-vqeと測定値の低減は, 雑音中規模量子デバイス上で実現可能な固有値計算を可能にする有望な手法であることがわかった。 また、cs-vqeアルゴリズムの修正も提供しており、従来はハミルトニアン項が指数関数的に増加する可能性がある。

The contextual subspace variational quantum eigensolver (CS-VQE) is a hybrid quantum-classical algorithm that approximates the ground state energy of a given qubit Hamiltonian. It achieves this by separating the Hamiltonian into contextual and noncontextual parts. The ground state energy is approximated by classically solving the noncontextual problem, followed by solving the contextual problem using VQE, constrained by the noncontexual solution. In general, computation of the contextual correction needs fewer qubits and measurements compared to solving the full Hamiltonian via traditional VQE. We simulate CS-VQE on different tapered molecular Hamiltonians and apply the unitary partitioning measurement reduction strategy to further reduce the number of measurements required to obtain the contextual correction. Our results indicate that CS-VQE combined with measurement reduction is a promising approach to allow feasible eigenvalue computations on noisy intermediate-scale quantum devices. We also provide a modification to the CS-VQE algorithm, that previously could cause an exponential increase in Hamiltonian terms, that now at worst will scale quadratically.
翻訳日:2023-02-06 07:00:32 公開日:2022-08-13
# 外磁場中における2次元等方振動子+逆二次電位による二原子分子の研究

Investigating Some Diatomic Molecules Bounded by Two-Dimensional Isotropic Oscillator Plus Inverse Quadratic Potential in an External Magnetic field ( http://arxiv.org/abs/2207.05004v2 )

ライセンス: Link先を確認
O. J. Oluwadare, E. O. Ilesanmi, T. O. Abiola, O. Olubosede, E. A.Odo, S. O. Ajibade and K. J. Oyewumi(参考訳) 等方性発振器と逆二次ポテンシャルによって束縛された二原子分子のエネルギースペクトル, 量子力学的観測器の期待値, 反磁性率に対する非相対論的磁気効果について検討した。 エネルギー固有値と正規化波動関数はパラメトリックニキフォロフ-ウバロフ法によって得られる。 ヘルマン・ファインマンの定理を適用して、位置 r2, 運動量 p2, 運動エネルギー T, ポテンシャルエネルギー V の期待値を求めるとともに、反磁性感受性 X の式も導出する。 この分光データを用いて、任意の値ラーモア周波数に対する二原子分子の集合(I2,H2,CO,HCl)に対する低回転・低振動エネルギースペクトル、期待値及び反磁性感受性Xを算出する。 計算したエネルギースペクトル, 期待値, 反磁性率xは, 選択した分子の振動周波数および質量よりも, 外部磁場強度および逆二次ポテンシャル強度gの影響が大きかった。

We investigate the nonrelativistic magnetic effect on the energy spectra, expectation values of some quantum mechanical observables and diamagnetic susceptibility for some diatomic molecules bounded by the Isotropic oscillator plus inverse quadratic potential. The energy eigenvalues and normalized wavefunctions are obtained via parametric Nikiforov-Uvarov method. The expectation values square of position r2, square of momentum p2, kinetic energy T and potential energy V are obtained by applying Hellmann-Feynman theorem and an expression for the diamagnetic susceptibility X is also derived. Using the spectroscopic data, the low rotational and low vibrational energy spectra, expectation values and diamagnetic susceptibility X for a set of diatomic molecules (I2, H2, CO, HCl) for arbitrary values Larmor frequencies are calculated. The computed energy spectra, expectation values and diamagnetic susceptibility X were found to be more influenced by the external magnetic field strength and inverse quadratic potential strength g than the vibrational frequencies and the masses of the selected molecules.
翻訳日:2023-02-05 12:25:10 公開日:2022-08-13
# 量子非劣化量子ビット読み出しの効率的評価

Efficient characterization of quantum nondemolition qubit readout ( http://arxiv.org/abs/2208.05713v2 )

ライセンス: Link先を確認
He Wang, Ya Cao(参考訳) 本稿では,量子ビット計測の性能の定量的評価について述べる。 特に、量子非退化(QND)読み出しのバックアクション回避特性は、量子トレース距離によって完全に定量化される。 計算基底状態のみが考慮される必要がある。 最も重要な点は,二つの連続測定を用いた実験手法を用いて,古典的トレース距離に基づくqndの忠実度を実験的に評価する手法を提案することである。 測定の3つの重要な量化器、すなわちQNDフィデリティ、読み出しフィデリティ、および射影性は、同じ実験スキームから直接引き出すことができる。 さらに,これら3つの因子間の関係について述べる。 超伝導量子ビットの分散可読化に関する理論的シミュレーション結果は,提案したQND忠実度の有効性を示す。 測定装置の診断, 性能改善, 設計には, 測定性能の効率的な定量化が不可欠である。

We study the quantitative characterization of the performance of qubit measurements in this paper. In particular, the back-action evading nature of quantum nondemolition (QND) readout of qubits is fully quantified by quantum trace distance. Only computational basis states are necessary to be taken into consideration. Most importantly, we propose an experimentally efficient method to evaluate the QND fidelity based on the classical trace distance, which uses an experimental scheme with two consecutive measurements. The three key quantifiers of a measurement, i.e., QND fidelity, readout fidelity, and projectivity, can be derived directly from the same experimental scheme. Besides, we present the relationships among these three factors. Theoretical simulation results for the dispersive readout of superconducting qubits show the validity of the proposed QND fidelity. Efficient quantification of measurement performance is of practical significance for the diagnosis, performance improvement, and design of measurement apparatuses.
翻訳日:2023-01-31 21:12:11 公開日:2022-08-13
# 現実的な量子フォトニックニューラルネットワーク

Realistic quantum photonic neural networks ( http://arxiv.org/abs/2208.06571v1 )

ライセンス: Link先を確認
Jacob Ewaniuk, Jacques Carolan, Bhavin J. Shastri and Nir Rotenberg(参考訳) 量子フォトニックニューラルネットワークは変動フォトニック回路であり、高忠実度量子演算を実装するために訓練することができる。 しかし、現在までの作業は理想化されたコンポーネントを仮定し、完全$\pi$ Kerrの非線形性を含む。 本稿では、光子損失や不完全なルーティング、弱い非線形性につながる不完全性に苦しむ現実的な量子フォトニックニューラルネットワークの限界を調査し、これらの誤りのほとんどを克服できることを示す。 ベル状態解析器の例を用いて、非線形性の欠如を補償する能力と不完全さをバランスさせる最適なネットワークサイズが存在することを示す。 準最適$\pi/10$実効Kerr非線形性を用いて、各論理フォトニック量子ビットにおける光子の検出に成功して0.999999に達するような、最先端のプロセスで構成されたネットワークが0.891の非条件忠実性を達成することを示す。 本研究は,脳にインスパイアされた量子フォトニックデバイスの構築に向けたガイドを提供する。

Quantum photonic neural networks are variational photonic circuits that can be trained to implement high-fidelity quantum operations. However, work-to-date has assumed idealized components, including a perfect $\pi$ Kerr nonlinearity. Here, we investigate the limitations of realistic quantum photonic neural networks that suffer from fabrication imperfections leading to photon loss and imperfect routing, and weak nonlinearities, showing that they can learn to overcome most of these errors. Using the example of a Bell-state analyzer, we demonstrate that there is an optimal network size, which balances imperfections versus the ability to compensate for lacking nonlinearities. With a sub-optimal $\pi/10$ effective Kerr nonlinearity, we show that a network fabricated with current state-of-the-art processes can achieve an unconditional fidelity of 0.891, that increases to 0.999999 if it is possible to precondition success on the detection of a photon in each logical photonic qubit. Our results provide a guide to the construction of viable, brain-inspired quantum photonic devices for emerging quantum technologies.
翻訳日:2023-01-31 06:16:52 公開日:2022-08-13
# 時間依存開量子系における熱力学の第一法則について

On the First Law of Thermodynamics in Time-Dependent Open Quantum Systems ( http://arxiv.org/abs/2208.06544v1 )

ライセンス: Link先を確認
Parth Kumar, Charles A. Stafford(参考訳) 平衡から遠ざかるオープン量子系における熱、仕事、内部エネルギーなどの熱力学量をどのように厳密に定義するかは、量子熱力学において重要な問題である。 熱とは、平衡から無限に摂動する系の過程にのみ基本的な定義が適用される量であり、強駆動系では慎重に考慮しなければならない。 この研究において、相互作用する時間依存のオープン量子系の内部エネルギーに対する曖昧な作用素は、メソスコピックのキーインサイト(開量子系の局所的な駆動とカップリングから無限に離れている)を用いて導かれる。 非平衡グリーン関数の形式を用いて、熱電流と様々なエージェントがシステムへ供給する電力の完全な一般的な表現を導出し、実験上有意義で量子力学的に一貫したシステムのエネルギーの分離を、熱の流出とシステム上での作業に考慮する。 強駆動開量子系における内部エネルギーの時空間分布も解析される。 この形式は、2つの金属貯水池に強く結合し、化学ポンプ/エンジンまたはヒートポンプ/エンジンとして複数の構成で動作可能な2段階の駆動量子システムであるモデル量子マシンの熱力学性能を分析するために用いられる。

How to rigorously define thermodynamic quantities such as heat, work, and internal energy in open quantum systems driven far from equilibrium remains a significant open question in quantum thermodynamics. Heat is a quantity whose fundamental definition applies only to processes in systems infinitesimally perturbed from equilibrium, and as such, must be accounted for carefully in strongly-driven systems. In this work, an unambiguous operator for the internal energy of an interacting time-dependent open quantum system is derived using a key insight from Mesoscopics: infinitely far from the local driving and coupling of an open quantum system, reservoirs are indeed only infinitesimally perturbed. Fully general expressions for the heat current and the power delivered by various agents to the system are derived using the formalism of nonequilibrium Green's functions, establishing an experimentally meaningful and quantum mechanically consistent division of the energy of the system under consideration into Heat flowing out of and Work done on the system. The spatio-temporal distribution of internal energy in a strongly-driven open quantum system is also analyzed. This formalism is applied to analyze the thermodynamic performance of a model quantum machine: a driven two-level quantum system strongly coupled to two metallic reservoirs, which can operate in several configurations--as a chemical pump/engine or a heat pump/engine.
翻訳日:2023-01-31 06:16:11 公開日:2022-08-13
# 量子状態推定に有利な任意の対称性を持つ密度作用素のパラメータ化

Parameterizing density operators with arbitrary symmetries to gain advantage in quantum state estimation ( http://arxiv.org/abs/2208.06540v1 )

ライセンス: Link先を確認
In\'es Corte, Marcelo Losada, Diego Tielas, Federico Holik and Lorena Reb\'on(参考訳) この研究では、任意の対称性を持つ密度行列をパラメータ化する方法を示し、リー代数の生成元(対称性群が連結リー群であれば)またはその基底群の生成元(有限であれば)を知る。 これにより、maxentおよびmaxlik推定手法を凸最適化問題とし、関連する関数のパラメータ数を大幅に削減することができる。 これは、最適化が縮小された空間で行われるという事実による計算上の優位性とは別に、密度行列を適切に推定するために必要な実験データの量も削減できることを意味している。 さらに、数値実験を行い、これらのパラメータ化を異なる対称性を持つ状態の量子状態推定に適用する。

In this work, we show how to parameterize a density matrix that has an arbitrary symmetry, knowing the generators of the Lie algebra (if the symmetry group is a connected Lie group) or the generators of its underlying group (in case it is finite). This allows to pose MaxEnt and MaxLik estimation techniques as convex optimization problems with a substantial reduction in the number of parameters of the function involved. This implies that, apart from a computational advantage due to the fact that the optimization is performed in a reduced space, the amount of experimental data needed for a good estimation of the density matrix can be reduced as well. In addition, we run numerical experiments and apply these parameterizations to quantum state estimation of states with different symmetries.
翻訳日:2023-01-31 06:15:46 公開日:2022-08-13
# 量子コンピュータにおける中性誘導ジェット拡大

Medium induced jet broadening in a quantum computer ( http://arxiv.org/abs/2208.06750v1 )

ライセンス: Link先を確認
Jo\~ao Barata, Xiaojian Du, Meijian Li, Wenyang Qian, Carlos A. Salgado(参考訳) QCDジェットは、超相対論的重イオン衝突の後に発生したクォークグルーオンプラズマに関する情報を抽出する最良の方法の1つである。 ジェットの構造は、摂動法による取組みが難しい多粒子量子干渉によって決定される。 QCD媒体でジェットが進化すると、この干渉パターンが修正され、別の複雑な層が加わる。 量子技術の最近の発展を生かして、このような効果はジェット進化の直接量子シミュレーションによってよりよく理解される。 本稿では,そのようなシミュレーションの前駆体を紹介する。 光フロントハミルトニアン形式に基づくディジタル量子回路を構築し、確率的な色背景の存在下での1つのハードプローブの進化を追跡する。 ジェットクエンシングパラメータ$\hat q$の観点で、理想量子コンピュータの古典的シミュレータを用いて得られた結果は、既知の解析結果と一致する。 本研究は,将来の量子コンピュータを用いた金属ジェット物理学研究のベースラインを提供したいと考えている。

QCD jets provide one of the best avenues to extract information about the quark-gluon plasma produced in the aftermath of ultra relativistic heavy ions collisions. The structure of jets is determined by multiparticle quantum interference hard to tackle using perturbative methods. When jets evolve in a QCD medium this interference pattern is modified, adding another layer of complexity. By taking advantage of the recent developments in quantum technologies, such effects might be better understood via direct quantum simulation of jet evolution. In this work, we introduce a precursor to such simulations. Based on the light-front Hamiltonian formalism, we construct a digital quantum circuit that tracks the evolution of a single hard probe in the presence of a stochastic color background. In terms of the jet quenching parameter $\hat q$, the results obtained using classical simulators of ideal quantum computers agree with known analytical results. With this study, we hope to provide a baseline for future in-medium jet physics studies using quantum computers.
翻訳日:2023-01-31 06:13:12 公開日:2022-08-13
# プログラム可能な原子制御のための統合フォトニックエンジン

An integrated photonic engine for programmable atomic control ( http://arxiv.org/abs/2208.06732v1 )

ライセンス: Link先を確認
Ian Christen, Madison Sutula, Thomas Propson, Hamed Sattari, Gregory Choong, Christopher Panuski, Alexander Melville, Justin Mallek, Scott Hamilton, P. Benjamin Dixon, Adrian J. Menssen, Danielle Braje, Amir H. Ghadimi, Dirk Englund(参考訳) スケーラブルで高性能な光制御のためのソリューションは、スケールド原子ベースの量子技術を開発する上で重要である。 多くの個々の光ビームの変調は、任意のゲートと制御配列の原子配列や原子様系への応用の中心である。 テレコム波長では、フォトニック集積による光学部品の小型化が、バルクデバイスの限界を超えて古典的および量子光学のスケールと性能を押し上げた。 しかし、これらの高速通信集積フォトニクスのための材料プラットフォームは、先導原子系に必要な短波長では透明ではない。 本稿では,薄膜ニオブ酸リチウムに基づく可視光変調器を用いたマルチチャネル量子制御のためのスケーラブルで再構成可能なフォトニックアーキテクチャを提案し,実装する。 自由空間光学,ホログラフィ,制御理論の手法を16チャンネル集積フォトニックデバイスと組み合わせることで,時間的・横断的パワー偏差を安定化し,高精度で均一な制御を可能にする。 この装置をダイヤモンド中のシリコン空孔人工原子の均質な星座に適用し, 空間的かつスペクトル的に, 動的に選択可能な点エミッタの集合に対処できる手法を提案する。 我々は、このスケーラブルで再構成可能な光学アーキテクチャが、大規模多体原子システムの並列個別のプログラム可能性を可能にするシステムにつながると予測している。

Solutions for scalable, high-performance optical control are important for the development of scaled atom-based quantum technologies. Modulation of many individual optical beams is central to the application of arbitrary gate and control sequences on arrays of atoms or atom-like systems. At telecom wavelengths, miniaturization of optical components via photonic integration has pushed the scale and performance of classical and quantum optics far beyond the limitations of bulk devices. However, these material platforms for high-speed telecom integrated photonics are not transparent at the short wavelengths required by leading atomic systems. Here, we propose and implement a scalable and reconfigurable photonic architecture for multi-channel quantum control using integrated, visible-light modulators based on thin-film lithium niobate. Our approach combines techniques in free-space optics, holography, and control theory together with a sixteen-channel integrated photonic device to stabilize temporal and cross-channel power deviations and enable precise and uniform control. Applying this device to a homogeneous constellation of silicon-vacancy artificial atoms in diamond, we present techniques to spatially and spectrally address a dynamically-selectable set of these stochastically-positioned point emitters. We anticipate that this scalable and reconfigurable optical architecture will lead to systems that could enable parallel individual programmability of large many-body atomic systems, which is a critical step towards universal quantum computation on such hardware.
翻訳日:2023-01-31 06:12:58 公開日:2022-08-13
# 電荷密度波の等方性

Conformality of Charge Density Wave ( http://arxiv.org/abs/2208.06673v1 )

ライセンス: Link先を確認
Keiji Nakatsugawa and Tatsuhiko N. Ikeda and Takeshi Toshima and Satoshi Tanda(参考訳) 新しい量子現象が2Dシステムで継続的に発見されている。 特に電荷密度波(cdw)は、巨視的な波動関数(次数パラメータ)を持つ量子結晶の側面を持つため、量子液体(超導電性では量子ホール液体は^3$he, $^4$he)とは異なり、超固体やmoir\'e固体のような新しい基底状態が期待できる。 しかし、それらの量子的な側面からこれらの状態を説明することは困難であり、cdw位相を統一的に説明できる理論はまだ存在しない。 量子結晶を記述する最良の方法は、局所的な変形(波動特性)と局所的な角度(結晶特性)の保存を可能にする共形変換であるように見える。 本稿では,典型的な2次元CDW物質遷移金属ジアルコゲナイド (MX$_2$) における2次元CDW相の一様記述を提案する。 MX$_2$における不規則なCDW相は、CDWウェーブベクターの離散共形変換によって美しく説明できる。 この整合性は、MX$_2$格子とのCDWの可和性に起因する。 言い換えれば、調和波動関数の干渉は共形を誘導する。 この新しい定式化を用いて、実験的な近似共役/ストライプ/t cdw相を、1$t$-tas$_2$ (\sqrt{13}\times\sqrt{13}$ structure), 2$h$-tase$_2$ (\sqrt{9}\times\sqrt{9}$ structure) で説明し、tase$_2$薄膜(\sqrt{7}\times\sqrt{7}$ structure)における新しい実験的近似共役相の起源を説明する。 この理論は非常に単純で、無干渉のみを含み、量子ホール液体と同じくらいリッチな物理学を含んでいる。 この新たな説明は、量子結晶の視点を広げます。

New quantum phenomena are continuously being discovered in 2D systems. In particular, the charge density wave (CDW) has the aspect of a quantum crystal with a macroscopic wave function (order parameter), so unlike quantum liquids (superconductivity, quantum Hall liquids $^3$He, $^4$He), new ground states such as supersolid and Moir\'e solids can be expected. However, it is difficult to describe these states because of their quantum aspect, hence there is still no theory that can explain CDW phases in a unified way. The best way to describe a quantum crystal seems to be a conformal transformation that allows local deformation (wave properties) and preserves local angles (crystal properties). Here, we propose a unifying conformal description of 2D CDW phases in the typical 2D CDW material transition metal dichalcogenides (MX$_2$). We discover that the discommensurate CDW phases in MX$_2$ can be explained beautifully by a discrete conformal transformation of CDW wavevectors. This conformality is due to commensurability of CDW with the MX$_2$ lattice. In other words, interference of harmonic wavefunction induces conformality. Using this new conformal formulation, we explain experimental nearly-commensurate/stripe/T CDW phases in 1$T$-TaS$_2$ ($\sqrt{13}\times\sqrt{13}$ structure), 2$H$-TaSe$_2$ ($\sqrt{9}\times\sqrt{9}$ structure), and explain the origin of a new experimental nearly-commensurate phase in TaSe$_2$ thin-film ($\sqrt{7}\times\sqrt{7}$ structure). This theory is very simple in the sense that it includes only discommensuration and comprises physics as rich as quantum Hall liquids. This new description will broaden our perspective of quantum crystals.
翻訳日:2023-01-31 06:12:20 公開日:2022-08-13
# パラドックスを機能させる:測定に基づく量子計算における文脈性

Putting paradoxes to work: contextuality in measurement-based quantum computation ( http://arxiv.org/abs/2208.06624v1 )

ライセンス: Link先を確認
Robert Raussendorf(参考訳) 本稿では,計測に基づく量子計算(mbqc)と対応する文脈性証明のコホモロジー的枠組みについて述べる。 このフレームワークの中心的な対象は、与えられたMBQCを記述する鎖複体の第2コホモロジー群の要素である。 それは計算された関数を含み、ゲージ同値であり、同時に文脈性証人である。 本コホモロジー記述は, 時間的に平坦な mbqcs に対してのみ適用され, 時間的に順序付けられた場合へ拡張するためのアプローチを概説する。

We describe a joint cohomological framework for measurement-based quantum computation (MBQC) and the corresponding contextuality proofs. The central object in this framework is an element in the second cohomology group of the chain complex describing a given MBQC. It contains the function computed, up to gauge equivalence, and at the same time is a contextuality witness. The present cohomological description only applies to temporally flat MBQCs, and we outline an approach for extending it to the temporally ordered case.
翻訳日:2023-01-31 06:11:26 公開日:2022-08-13
# 1次元ボースガスの一般流体力学のベンチマーク

Benchmarks of Generalized Hydrodynamics for 1D Bose Gases ( http://arxiv.org/abs/2208.06614v1 )

ライセンス: Link先を確認
R. S. Watson, S. A. Simmons, and K. V. Kheruntsyan(参考訳) 一般化流体力学(英語版)(ghd)は、可積分および近積分量子多体系における平衡現象を特徴付けるための最近の理論的な手法である。 本稿では,lieb-linigerモデルによって記述された相互作用する1次元ボース気体に対して,代替理論手法の配列に対してその性能をベンチマークする。 特に、様々な相互作用強度と初期平衡温度に対して、局所密度バンプとディップと量子ニュートンのクレードルセットアップの両方の進化について研究する。 ghdは一般に十分に高い温度や強い相互作用で非常によく機能する。 弱い相互作用と低温の場合、GHDは短い長さスケールで干渉現象を捉えないが、超低温原子実験において有限画像解像度を模した畳み込み平均値に基づく粗い粒度の挙動を記述することができる。 量子ニュートンのクレードル構成では、GHDは早期から中期によく機能するが、c-場アプローチの予測よりもはるかに遅い熱化率を予測する。

Generalized hydrodynamics (GHD) is a recent theoretical approach that is becoming a go-to tool for characterizing out-of-equilibrium phenomena in integrable and near-integrable quantum many-body systems. Here, we benchmark its performance against an array of alternative theoretical methods, for an interacting one-dimensional Bose gas described by the Lieb-Liniger model. In particular, we study the evolution of both a localized density bump and dip, along with a quantum Newton's cradle setup, for various interaction strengths and initial equilibrium temperatures. We find that GHD generally performs very well at sufficiently high temperatures or strong interactions. For weak interactions and low temperatures, we highlight situations where GHD, while not capturing interference phenomena on short lengthscales, can describe a coarse-grained behaviour based on convolution averaging that mimics finite imaging resolution in ultracold atom experiments. In the quantum Newton's cradle setup, we find that GHD performs well at early to intermediate times, but predicts a much slower thermalization rate compared to the predictions of c-field approaches.
翻訳日:2023-01-31 06:11:16 公開日:2022-08-13
# 光に閉じ込められた単一原子からのモロートリプレットの観察

Observation of the Mollow Triplet from an optically confined single atom ( http://arxiv.org/abs/2208.06575v1 )

ライセンス: Link先を確認
Boon Long Ng, Chang Hoong Chow, Christian Kurtsiefer(参考訳) 原子系からの共鳴蛍光は、強い励起場のためにモロー三重項へと進化する単一のスペクトルピークからなる。 三重項の異なるピークからの光子は異なる光子相関を示し、蛍光は量子情報のために有用な光源となる。 我々は、異なるパワーレベルで共鳴的に励起される1つの光学的に閉じ込められた$^{87}$Rb原子の蛍光を特徴付ける。 2階相関測定により、強い励起原子のラビ振動と同時に蛍光の光子の性質が明らかになる。 原子が非共鳴場に露出する際の蛍光スペクトルの2つの側バンドからの光子の相関の非対称性は、異なる側バンドから放出された光子の時間順序が好ましいことを示す。

Resonance fluorescence from atomic systems consists of a single spectral peak that evolves into a Mollow triplet for a strong excitation field. Photons from different peaks of the triplet show distinct photon correlation that make the fluorescence a useful light source for quantum information purpose. We characterize the fluorescence of a single optically trapped $^{87}$Rb atom that is excited resonantly at different power levels. Second-order correlation measurements reveal the single photon nature of the fluorescence concurrently with Rabi oscillations of a strongly excited atom. The asymmetry in correlations between photons from two sidebands of the fluorescence spectrum when the atom is exposed to an off-resonant field further indicates that there is a preferred time-ordering of the emitted photons from different sidebands.
翻訳日:2023-01-31 06:10:22 公開日:2022-08-13
# 予習変圧器模型の落下層の影響について

On the Effect of Dropping Layers of Pre-trained Transformer Models ( http://arxiv.org/abs/2004.03844v3 )

ライセンス: Link先を確認
Hassan Sajjad, Fahim Dalvi, Nadir Durrani, and Preslav Nakov(参考訳) トランスフォーマーベースのNLPモデルは、数億または数十億のパラメータを使用してトレーニングされ、計算制約のある環境での適用性を制限する。 パラメータの数は一般的にパフォーマンスと相関するが、ダウンストリームタスクにネットワーク全体が必要であるかどうかは不明だ。 プレトレーニング済みモデルの刈り取りと蒸留に関する最近の研究に触発され、プレトレーニング済みモデルの層を落として、下流GLUEタスクにおけるプルーニングの効果を観察する。 prune bert、roberta、xlnetの各モデルが40%まで動作し、元のパフォーマンスの最大98%を維持できたのです。 さらに,prunedモデルが,サイズと性能の両面で,知識蒸留を用いて構築したモデルと同等であることを示す。 私たちの実験は興味深い観察をもたらします。 (i)下位層は、下流のタスクパフォーマンスを維持するために最も重要である。 (二 段落の減少に対して、言い換え検出や文類似性等のタスクがより堅牢であること。) 三 異なる目的関数を用いて訓練したモデルが異なる学習パターンを示し、層が落下する。

Transformer-based NLP models are trained using hundreds of millions or even billions of parameters, limiting their applicability in computationally constrained environments. While the number of parameters generally correlates with performance, it is not clear whether the entire network is required for a downstream task. Motivated by the recent work on pruning and distilling pre-trained models, we explore strategies to drop layers in pre-trained models, and observe the effect of pruning on downstream GLUE tasks. We were able to prune BERT, RoBERTa and XLNet models up to 40%, while maintaining up to 98% of their original performance. Additionally we show that our pruned models are on par with those built using knowledge distillation, both in terms of size and performance. Our experiments yield interesting observations such as, (i) the lower layers are most critical to maintain downstream task performance, (ii) some tasks such as paraphrase detection and sentence similarity are more robust to the dropping of layers, and (iii) models trained using a different objective function exhibit different learning patterns and w.r.t the layer dropping.
翻訳日:2022-12-15 08:10:29 公開日:2022-08-13
# 屋内地図作成のための深層学習支援経路計画と地図構築

Deep-Learning-Aided Path Planning and Map Construction for Expediting Indoor Mapping ( http://arxiv.org/abs/2011.02043v2 )

ライセンス: Link先を確認
Elchanan Zwecher, Eran Iceland, Shmuel Y. Hayoun, Ahavatya Revivo, Sean R. Levy, and Ariel Barel(参考訳) 自律的な屋内マッピングの問題は解決される。 目標は、事前定義された露出率を達成するための時間を最小限に抑えることにある。 経路計画と地図構築の両方において、マップ予測として機能する事前学習された生成的深層ニューラルネットワークを用いることにより、マッピングプロセスを迅速化する。 本手法は、2つの異なるフロアプランデータセットに対するフロンティアベースのパスプランナーと組み合わせて検討する。 統合マップ予測器のいくつかの構成についてシミュレーションを行い、その結果、予測を利用することでマッピング時間の大幅な削減が可能となることを明らかにした。 予測が経路計画とマップ構築プロセスの両方に統合された場合、マッピング時間が50%以上削減されることが示されている。

The problem of autonomous indoor mapping is addressed. The goal is to minimize the time to achieve a predefined percentage of exposure with some desired level of certainty. The use of a pre-trained generative deep neural network, acting as a map predictor, in both the path planning and the map construction is proposed in order to expedite the mapping process. This method is examined in combination with several frontier-based path planners for two distinct floorplan datasets. Simulations are run for several configurations of the integrated map predictor, the results of which reveal that by utilizing the prediction a significant reduction in mapping time is possible. When the prediction is integrated in both path planning and map construction processes it is shown that the mapping time may in some cases be cut by over 50%.
翻訳日:2022-09-30 06:13:21 公開日:2022-08-13
# ブロックチェーンによる信頼できるフェデレーション学習

Trustworthy Federated Learning via Blockchain ( http://arxiv.org/abs/2209.04418v1 )

ライセンス: Link先を確認
Zhanpeng Yang, Yuanming Shi, Yong Zhou, Zixin Wang, Kai Yang(参考訳) 自律運転、モノのインターネット、スマートヘルスケアなど、人工知能(AI)の安全クリティカルなシナリオは、信頼できる判断でプライバシとセキュリティを保証するために、信頼できるAIのクリティカルな要件を提起している。 信頼に値するAIの初期段階のブランチとして、フェデレートドラーニング(FL)は、コラボレーティブデバイスよりもグローバルAIモデルをトレーニングするための、有望なプライバシ保護フレームワークと見なされてきた。 しかしながら、悪意のあるデバイスからのビザンチン攻撃や、トレーニングされたグローバルaiモデルの精度を低下または破壊する悪意のあるサーバからのモデル改ざん攻撃など、flフレームワークには依然としてセキュリティ上の課題が存在する。 本稿では,セキュアなグローバルアグリゲーションアルゴリズムを用いて悪意のあるデバイスに抵抗し,悪質サーバからのモデル改ざんを防止するために,複数のエッジサーバ間で高効率かつ低消費電力の実用的なビザンチンフォールトトレランスコンセンサスプロトコルをデプロイすることにより,分散型ブロックチェーンベースのfl(b-fl)アーキテクチャを提案する。 しかし、ネットワークエッジにB-FLシステムを実装するために、ブロックチェーンコンセンサスプロトコルにおける複数ラウンドのクロスバリデーションは、長いトレーニング遅延を引き起こす。 そこで我々は,進行学習ラウンドからなる長期平均トレーニングレイテンシの最小化のために,帯域幅と電力割り当てを共同で検討するネットワーク最適化問題を定式化する。 さらに,ネットワーク最適化問題をマルコフ決定過程に変換し,深層強化学習に基づくアルゴリズムを用いて,計算複雑性の低い高いシステム性能を実現することを提案する。 シミュレーションの結果,b-flはエッジデバイスやサーバからの悪意のある攻撃に抵抗でき,b-flのトレーニング遅延は,ベースラインアルゴリズムと比較して,深い強化学習に基づくアルゴリズムによって著しく低減できることがわかった。

The safety-critical scenarios of artificial intelligence (AI), such as autonomous driving, Internet of Things, smart healthcare, etc., have raised critical requirements of trustworthy AI to guarantee the privacy and security with reliable decisions. As a nascent branch for trustworthy AI, federated learning (FL) has been regarded as a promising privacy preserving framework for training a global AI model over collaborative devices. However, security challenges still exist in the FL framework, e.g., Byzantine attacks from malicious devices, and model tampering attacks from malicious server, which will degrade or destroy the accuracy of trained global AI model. In this paper, we shall propose a decentralized blockchain based FL (B-FL) architecture by using a secure global aggregation algorithm to resist malicious devices, and deploying practical Byzantine fault tolerance consensus protocol with high effectiveness and low energy consumption among multiple edge servers to prevent model tampering from the malicious server. However, to implement B-FL system at the network edge, multiple rounds of cross-validation in blockchain consensus protocol will induce long training latency. We thus formulate a network optimization problem that jointly considers bandwidth and power allocation for the minimization of long-term average training latency consisting of progressive learning rounds. We further propose to transform the network optimization problem as a Markov decision process and leverage the deep reinforcement learning based algorithm to provide high system performance with low computational complexity. Simulation results demonstrate that B-FL can resist malicious attacks from edge devices and servers, and the training latency of B-FL can be significantly reduced by deep reinforcement learning based algorithm compared with baseline algorithms.
翻訳日:2022-09-18 17:03:42 公開日:2022-08-13
# PECAN: 製品品質のコンテンツ対応メモリネットワーク

PECAN: A Product-Quantized Content Addressable Memory Network ( http://arxiv.org/abs/2208.13571v1 )

ライセンス: Link先を確認
Jie Ran, Rui Lin, Jason Chun Lok Li, Jiajun Zhou, Ngai Wong(参考訳) 製品量子化(PQ)のみでフィルタリングと線形変換を実現する新しいディープニューラルネットワーク(DNN)アーキテクチャを提案する。 これにより、コンテントアドレスメモリ(CAM)による自然な実装が行われ、通常のDNN層操作を超越し、単純なテーブルルックアップのみを必要とする。 2つのスキームがエンドツーエンドのPQプロトタイプ、すなわち、複雑さと精度のトレードオフが異なる乗法的および加法的性質の異なる角度と距離に基づく類似性によって開発されている。 さらに、距離ベーススキームは真に乗算自由なDNNソリューションを構成する。 実験は、特にインメモリコンピューティングにおいてハードウェア効率のよいデプロイメントに強く関与する、製品量子化コンテンツアドレス付きメモリネットワーク(pecan)の実現可能性を検証する。

A novel deep neural network (DNN) architecture is proposed wherein the filtering and linear transform are realized solely with product quantization (PQ). This results in a natural implementation via content addressable memory (CAM), which transcends regular DNN layer operations and requires only simple table lookup. Two schemes are developed for the end-to-end PQ prototype training, namely, through angle- and distance-based similarities, which differ in their multiplicative and additive natures with different complexity-accuracy tradeoffs. Even more, the distance-based scheme constitutes a truly multiplier-free DNN solution. Experiments confirm the feasibility of such Product-Quantized Content Addressable Memory Network (PECAN), which has strong implication on hardware-efficient deployments especially for in-memory computing.
翻訳日:2022-09-04 02:08:32 公開日:2022-08-13
# Tinjauan atas Efektivitas Penggunaan Key Opinion Leader (KOL) dalam Penjualan Surat Utang Negara Ritel seri SBR011

Tinjauan atas Efektivitas Penggunaan Key Opinion Leader (KOL) dalam Penjualan Surat Utang Negara Ritel seri SBR011 ( http://arxiv.org/abs/2208.12619v1 )

ライセンス: Link先を確認
Dea Avega Editya(参考訳) インドネシア財務省は2022年5月25日から6月16日にかけて、政府小売社債SBR011の発行を支援するために10人のキーオピニオン指導者を推薦した。 本研究は,KOLオーディエンスからのフィードバックに対するエンゲージメント率,熱意率,感情分析などの指標を用いて,支持の有効性を検討した。 データはソーシャルメディアのinstagramとtiktokのソーシャルプラットフォームから収集され、kolがマーケティングコンテンツを投稿した。 本稿では,SBR011の促進に有効であり,マーケティングキャンペーンに好意的なフィードバックが得られた。

Indonesian Ministry of Finance had endorsed 10 Key Opinion Leaders to help promoting government retail bonds SBR011 during selling period of 25 May-16 June 2022. This study analyzed effectiveness of the endorsement by using several indicators; engagement rate, enthusiasm rate and sentiment analysis of feedbacks from KOL audiens. Data was gathered from social media Instagram and TikTok social platform used by the KOL to post their marketing contents. This paper found that the endorsement is quite effective to promote the SBR011 and yields mostly positive feedback on the marketing campaign.
翻訳日:2022-09-04 02:08:03 公開日:2022-08-13
# 波長多重回折光ネットワークを用いた超並列ユニバーサル線形変換

Massively Parallel Universal Linear Transformations using a Wavelength-Multiplexed Diffractive Optical Network ( http://arxiv.org/abs/2208.10362v1 )

ライセンス: Link先を確認
Jingxi Li, Bijie Bai, Yi Luo, Aydogan Ozcan(参考訳) 入力と出力のそれぞれn_i画素とn_o画素で任意に選択された、複雑な値の線形変換を行うために、ディープラーニングに基づく超並列広帯域回折ニューラルネットワークの設計を報告する。 本発明のブロードバンド回折プロセッサは、N_w波長チャネルで構成され、それぞれが異なるターゲット変換に一意に割り当てられる。 任意選択された線形変換の大規模な集合は、同時にまたは順次に(波長走査)異なる波長の同じ回折ネットワークを通して個別に行うことができる。 このような広帯域回折ネットワークは,材料分散にかかわらず,設計時の回折ニューロン数(n)が2 x n_w x n_i x n_oを超える場合,n_w一意複素値線形変換を無視可能な誤差で近似できることを示す。 さらに,nを増加させることでスペクトル多重化能力(n_w)を増大させることができることを報告し,n_w > 180のこれらの結論を数値解析により確認した。 超並列波長多重回折ネットワークは、統計的推論を行い、ユニークなスペクトル特性を持つオブジェクト/シーンを解析できる高スループットインテリジェントマシンビジョンシステムとハイパースペクトルプロセッサを設計するのに有用である。

We report deep learning-based design of a massively parallel broadband diffractive neural network for all-optically performing a large group of arbitrarily-selected, complex-valued linear transformations between an input and output field-of-view, each with N_i and N_o pixels, respectively. This broadband diffractive processor is composed of N_w wavelength channels, each of which is uniquely assigned to a distinct target transformation. A large set of arbitrarily-selected linear transformations can be individually performed through the same diffractive network at different illumination wavelengths, either simultaneously or sequentially (wavelength scanning). We demonstrate that such a broadband diffractive network, regardless of its material dispersion, can successfully approximate N_w unique complex-valued linear transforms with a negligible error when the number of diffractive neurons (N) in its design matches or exceeds 2 x N_w x N_i x N_o. We further report that the spectral multiplexing capability (N_w) can be increased by increasing N; our numerical analyses confirm these conclusions for N_w > 180, which can be further increased to e.g., ~2000 depending on the upper bound of the approximation error. Massively parallel, wavelength-multiplexed diffractive networks will be useful for designing high-throughput intelligent machine vision systems and hyperspectral processors that can perform statistical inference and analyze objects/scenes with unique spectral properties.
翻訳日:2022-08-28 22:18:21 公開日:2022-08-13
# 教師なし表現学習による垂直フェデレーション学習

Practical Vertical Federated Learning with Unsupervised Representation Learning ( http://arxiv.org/abs/2208.10278v1 )

ライセンス: Link先を確認
Zhaomin Wu, Qinbin Li, Bingsheng He(参考訳) データプライバシに関する社会的懸念が最近高まるにつれて、さまざまなアプリケーションにおける複数のパーティ間でのデータサイロが見られます。 フェデレートされた学習は、複数のパーティが生データを共有せずに機械学習モデルを協調的にトレーニングできる新しい学習パラダイムとして現れます。 垂直的フェデレーション学習(英: Vertical Federated Learning)とは、各パーティが同じサンプルセットの異なる特徴を所有し、単一のパーティだけがラベルを持つ学習である。 異なる政党間のコミュニケーションコストは、実践的な垂直学習システムにとって大きなハードルとなっている。 本稿では,FedOnce という,一対一のコミュニケーションしか必要としない新しいコミュニケーション効率の縦型学習アルゴリズムを提案する。 モデルの精度を高め、プライバシの保証を提供するため、フェデレーション設定における教師なしの学習表現と、モーメント会計士に基づくプライバシ保存技術が特徴である。 10のデータセットに関する総合的な実験により、FedOnceは、最先端の垂直的フェデレーション学習アルゴリズムと比較して、通信コストがはるかに低い密なパフォーマンスを実現している。 一方、われわれのプライバシー保護技術は、同じプライバシー予算の下で最先端のアプローチを著しく上回っている。

As societal concerns on data privacy recently increase, we have witnessed data silos among multiple parties in various applications. Federated learning emerges as a new learning paradigm that enables multiple parties to collaboratively train a machine learning model without sharing their raw data. Vertical federated learning, where each party owns different features of the same set of samples and only a single party has the label, is an important and challenging topic in federated learning. Communication costs among different parties have been a major hurdle for practical vertical learning systems. In this paper, we propose a novel communication-efficient vertical federated learning algorithm named FedOnce, which requires only one-shot communication among parties. To improve model accuracy and provide privacy guarantee, FedOnce features unsupervised learning representations in the federated setting and privacy-preserving techniques based on moments accountant. The comprehensive experiments on 10 datasets demonstrate that FedOnce achieves close performance compared to state-of-the-art vertical federated learning algorithms with much lower communication costs. Meanwhile, our privacy-preserving technique significantly outperforms the state-of-the-art approaches under the same privacy budget.
翻訳日:2022-08-28 22:16:21 公開日:2022-08-13
# グラフ分類のためのグラフニューラルネットワークの逆攻撃の再検討

Revisiting Adversarial Attacks on Graph Neural Networks for Graph Classification ( http://arxiv.org/abs/2208.06651v1 )

ライセンス: Link先を確認
Beini Xie, Heng Chang, Xin Wang, Tian Bian, Shiji Zhou, Daixin Wang, Zhiqiang Zhang, Wenwu Zhu(参考訳) グラフニューラルネットワーク(GNN)は、グラフ分類とさまざまな下流現実世界のアプリケーションにおけるタスクにおいて大きな成功を収めている。 その成功にもかかわらず、既存のアプローチは構造攻撃に限定されるか、ローカル情報に限定される。 これは、グローバルグラフレベル情報を使用したローカルノードレベルの逆例を生成するのが複雑になるため、大きな課題に直面している。 この「グローバル・ローカル」問題に対処するために、グラフ構造とノード特徴を階層的なスタイルで操作することで、逆例を生成する一般的なフレームワークCAMAを提案する。 具体的には,グラフ分類タスクに対応するノードレベルの重要度を生成するために,グラフクラスアクティベーションマッピングとその変種を利用する。 そしてアルゴリズムのヒューリスティックな設計により、ノードレベルとサブグラフレベルの両方の重要性の助けを借りて、目立たない摂動予算の下で特徴的および構造的攻撃を行うことができる。 6つの実世界のベンチマークで4つの最先端グラフ分類モデルを攻撃する実験は、フレームワークの柔軟性と有効性を検証する。

Graph neural networks (GNNs) have achieved tremendous success in the task of graph classification and diverse downstream real-world applications. Despite their success, existing approaches are either limited to structure attacks or restricted to local information. This calls for a more general attack framework on graph classification, which faces significant challenges due to the complexity of generating local-node-level adversarial examples using the global-graph-level information. To address this "global-to-local" problem, we present a general framework CAMA to generate adversarial examples by manipulating graph structure and node features in a hierarchical style. Specifically, we make use of Graph Class Activation Mapping and its variant to produce node-level importance corresponding to the graph classification task. Then through a heuristic design of algorithms, we can perform both feature and structure attacks under unnoticeable perturbation budgets with the help of both node-level and subgraph-level importance. Experiments towards attacking four state-of-the-art graph classification models on six real-world benchmarks verify the flexibility and effectiveness of our framework.
翻訳日:2022-08-16 15:09:57 公開日:2022-08-13
# 日頭操作のための実現可能性層支援機械学習アプローチ

Feasibility Layer Aided Machine Learning Approach for Day-Ahead Operations ( http://arxiv.org/abs/2208.06742v1 )

ライセンス: Link先を確認
Arun Venkatesh Ramesh and Xingpeng Li(参考訳) デイアヘッド演算は、ジェネレータのコミットスケジュールとディスパッチを決定する、複雑で計算集約的な最適化プロセスを含む。 最適化プロセスは、SCUC(Security-Constrained Unit commitment)としても知られる混合整数線形プログラム(MILP)である。 独立系演算子(ISO)はSCUCを毎日実行し、プロセスの高速化には最先端のアルゴリズムを必要とする。 履歴情報の既存のパターンはscucのモデル削減に活用でき、大幅な時間を節約できる。 本稿では,機械学習に基づく分類手法,すなわちロジスティック回帰,ニューラルネットワーク,ランダムフォレスト,K-アネレストをSCUCのモデル化のために検討した。 MLは、高品質なソリューションを保証するために、実行層(FL)と後処理技術によって支援された。 提案手法は,IEEE 24-Busシステム,IEEE-73バスシステム,IEEE 118-Busシステム,500-Busシステム,ポーランド2383-Busシステムなど,いくつかの試験システムで検証されている。 さらに, 改良型IEEE 24-Busシステムを用いた確率的SCUC (SSCUC) のモデル還元実験を行った。 シミュレーション結果は、ml予測がソリューション品質の損失を最小限に抑えるために実現不可能なソリューションにならないことを保証する一方で、コミットスケジュールを特定するための高いトレーニング精度を示す。

Day-ahead operations involves a complex and computationally intensive optimization process to determine the generator commitment schedule and dispatch. The optimization process is a mixed-integer linear program (MILP) also known as security-constrained unit commitment (SCUC). Independent system operators (ISOs) run SCUC daily and require state-of-the-art algorithms to speed up the process. Existing patterns in historical information can be leveraged for model reduction of SCUC, which can provide significant time savings. In this paper, machine learning (ML) based classification approaches, namely logistic regression, neural networks, random forest and K-nearest neighbor, were studied for model reduction of SCUC. The ML was then aided with a feasibility layer (FL) and post-process technique to ensure high-quality solutions. The proposed approach is validated on several test systems namely, IEEE 24-Bus system, IEEE-73 Bus system, IEEE 118-Bus system, 500-Bus system, and Polish 2383-Bus system. Moreover, model reduction of a stochastic SCUC (SSCUC) was demonstrated utilizing a modified IEEE 24-Bus system with renewable generation. Simulation results demonstrate a high training accuracy to identify commitment schedule while FL and post-process ensure ML predictions do not lead to infeasible solutions with minimal loss in solution quality.
翻訳日:2022-08-16 15:09:42 公開日:2022-08-13
# 逆拡張カルマンフィルタ --その2:高非線形・不確実性系

Inverse Extended Kalman Filter -- Part II: Highly Non-Linear and Uncertain Systems ( http://arxiv.org/abs/2208.06683v1 )

ライセンス: Link先を確認
Himali Singh, Arpan Chattopadhyay and Kumar Vijay Mishra(参考訳) 最近の対逆系設計問題は逆ベイズフィルタの開発を動機付けている。 例えば、逆カルマンフィルタ(i-kf)は、最近、敵のカルマンフィルタが推定を追跡し、従って敵の将来のステップを予測するために定式化されている。 本論文の目的は,逆拡張カルマンフィルタ(I-EKF)を提案し,非線形システムにおける逆フィルタリング問題に対処することである。 共用論文(第1部)では、I-EKF(未知の入力を持つ)とI-KF(未知の入力を持つ)の理論を開発した。 本稿では,この理論を,二階和,ガウス和,前方EKFを用いた高非線形モデルに対して展開する。 特に、有界非線形アプローチを用いた逆二階EKFの理論安定性保証を導出する。 システムモデルとフォワードフィルタがディフェンダーに完全に知られているような標準I-EKFの制限に対処するため、Hilbert空間に基づくEKFを再生して、その観測に基づいて未知のシステムダイナミクスを学ぶことを提案する。 数値実験により, 再帰的Clam\'{e}r-Rao下界をベンチマークとして, 提案フィルタの状態推定性能を示す。

Recent counter-adversarial system design problems have motivated the development of inverse Bayesian filters. For example, inverse Kalman filter (I-KF) has been recently formulated to estimate the adversary's Kalman filter tracked estimates and hence, predict the adversary's future steps. The purpose of this paper and the companion paper (Part I) is to address the inverse filtering problem in non-linear systems by proposing an inverse extended Kalman filter (I-EKF). In a companion paper (Part I), we developed the theory of I-EKF (with and without unknown inputs) and I-KF (with unknown inputs). In this paper, we develop this theory for highly non-linear models, which employ second-order, Gaussian sum, and dithered forward EKFs. In particular, we derive theoretical stability guarantees for the inverse second-order EKF using the bounded non-linearity approach. To address the limitation of the standard I-EKFs that the system model and forward filter are perfectly known to the defender, we propose reproducing kernel Hilbert space-based EKF to learn the unknown system dynamics based on its observations, which can be employed as an inverse filter to infer the adversary's estimate. Numerical experiments demonstrate the state estimation performance of the proposed filters using recursive Cram\'{e}r-Rao lower bound as a benchmark.
翻訳日:2022-08-16 15:02:02 公開日:2022-08-13
# 世論市場モデル:ポジティブな介入による極右意見の拡散

Opinion Market Model: Stemming Far-Right Opinion Spread using Positive Interventions ( http://arxiv.org/abs/2208.06620v1 )

ライセンス: Link先を確認
Pio Calderon, Rohit Ram, Marian-Andrei Rizoiu(参考訳) 近年、われわれがソーシャルメディアと呼ぶ世論のエコシステムにおける過激な見解が高まりつつある。 オンラインの過激主義が持続することを許すことは社会的に深刻な結果をもたらし、それを軽減する努力は継続的に検討されている。 肯定的な介入、特定の意見を促進するために意見エコシステムに注意を向ける制御されたシグナルは緩和の道の1つです。 本研究は、オピニオン市場モデル(OMM)を通じて、オピニオン間相互作用と肯定的介入の役割の両方を共同で考慮したオンライン世論エコシステムの2層モデルを通じて、肯定的介入の有効性をテストするプラットフォームを提案する。 第1層は多変量離散時間ホークスプロセスを用いて意見注目市場のサイズをモデル化し、第2層は市場シェアアトラクションモデルを活用し、限定的な注意を付けて意見の協調と市場シェアの競争をモデル化する。 合成データセットでは,提案手法の収束性を示す。 森林火災や気候変動に関する中道・極右意見を含むfacebookとtwitterの議論のデータセットでは、最先端の技術よりも優れた予測性能を示し、潜在的な意見の相互作用を明らかにする能力を示している。 最後に、OMMを用いて、極右意見の抑圧に対する肯定的な介入として、主流メディアの報道の有効性を実証する。

Recent years have seen the rise of extremist views in the opinion ecosystem we call social media. Allowing online extremism to persist has dire societal consequences, and efforts to mitigate it are continuously explored. Positive interventions, controlled signals that add attention to the opinion ecosystem with the aim of boosting certain opinions, are one such pathway for mitigation. This work proposes a platform to test the effectiveness of positive interventions, through the Opinion Market Model (OMM), a two-tier model of the online opinion ecosystem jointly accounting for both inter-opinion interactions and the role of positive interventions. The first tier models the size of the opinion attention market using the multivariate discrete-time Hawkes process; the second tier leverages the market share attraction model to model opinions cooperating and competing for market share given limited attention. On a synthetic dataset, we show the convergence of our proposed estimation scheme. On a dataset of Facebook and Twitter discussions containing moderate and far-right opinions about bushfires and climate change, we show superior predictive performance over the state-of-the-art and the ability to uncover latent opinion interactions. Lastly, we use OMM to demonstrate the effectiveness of mainstream media coverage as a positive intervention in suppressing far-right opinions.
翻訳日:2022-08-16 14:58:49 公開日:2022-08-13
# Adan: より高速な最適化のための適応型Nesterov Momentumアルゴリズム

Adan: Adaptive Nesterov Momentum Algorithm for Faster Optimizing Deep Models ( http://arxiv.org/abs/2208.06677v1 )

ライセンス: Link先を確認
Xingyu Xie and Pan Zhou and Huan Li and Zhouchen Lin and Shuicheng Yan(参考訳) 適応勾配アルゴリズムは重い球加速度の移動平均アイデアを借用し、収束を加速するために正確な勾配の1次および2次モーメントを推定する。 しかし、理論上、重い球加速よりも早く収束するネステロフ加速や、多くの経験的ケースでは、適応勾配条件下では、はるかに研究されていない。 本研究では,深層ニューラルネットワークのトレーニングを効果的に高速化するために,ADAptive Nesterov運動量アルゴリズムであるAdanを提案する。 Adanはまず、バニラネステロフ加速度を再構成し、外挿点における計算勾配の余分な計算とメモリオーバーヘッドを回避する新しいネステロフ運動量推定法(NME)を開発した。 次に、アダンは収束加速のための適応勾配アルゴリズムにおいて勾配の1階と2階のモーメントを推定するためにNMEを採用する。 さらに、アダンは、非凸確率問題(例えば深層学習問題)の確率的勾配複雑性をo(\epsilon^{-3.5})$で満たし、最もよく知られた下界に一致する1階の定常点を1階に持つことを証明する。 大規模な実験結果から、Adanは視覚変換器(ViT)とCNNの両方で対応するSoTAオプティマイザを上回り、ResNet、ConvNext、ViT、Swin、MAE、LSTM、Transformer-XL、BERTなど多くの人気ネットワーク向けに新しいSoTAを設定する。 より驚くべきことに、AdanはSoTAオプティマイザのトレーニングコスト(エポック)の半分をViTやResNetで高いあるいは同等のパフォーマンスを達成するために使用することができ、また1kから32kのような幅広いミニバッチサイズに非常に耐性がある。 トレーニングコストを削減し、さまざまなアーキテクチャでさまざまなオプティマイザを試すエンジニアリングの負担を軽減することで、adanがディープラーニングの開発に貢献できることを願っています。 コードはhttps://github.com/sail-sg/adanでリリースされる。

Adaptive gradient algorithms borrow the moving average idea of heavy ball acceleration to estimate accurate first- and second-order moments of gradient for accelerating convergence. However, Nesterov acceleration which converges faster than heavy ball acceleration in theory and also in many empirical cases is much less investigated under the adaptive gradient setting. In this work, we propose the ADAptive Nesterov momentum algorithm, Adan for short, to effectively speedup the training of deep neural networks. Adan first reformulates the vanilla Nesterov acceleration to develop a new Nesterov momentum estimation (NME) method, which avoids the extra computation and memory overhead of computing gradient at the extrapolation point. Then Adan adopts NME to estimate the first- and second-order moments of the gradient in adaptive gradient algorithms for convergence acceleration. Besides, we prove that Adan finds an $\epsilon$-approximate first-order stationary point within $O(\epsilon^{-3.5})$ stochastic gradient complexity on the nonconvex stochastic problems (e.g., deep learning problems), matching the best-known lower bound. Extensive experimental results show that Adan surpasses the corresponding SoTA optimizers on both vision transformers (ViTs) and CNNs, and sets new SoTAs for many popular networks, e.g., ResNet, ConvNext, ViT, Swin, MAE, LSTM, Transformer-XL, and BERT. More surprisingly, Adan can use half of the training cost (epochs) of SoTA optimizers to achieve higher or comparable performance on ViT and ResNet, e.t.c., and also shows great tolerance to a large range of minibatch size, e.g., from 1k to 32k. We hope Adan can contribute to the development of deep learning by reducing training cost and relieving engineering burden of trying different optimizers on various architectures. Code will be released at https://github.com/sail-sg/Adan.
翻訳日:2022-08-16 14:58:25 公開日:2022-08-13
# BinBert: 微調整で実行可能な変換器によるバイナリコード理解

BinBert: Binary Code Understanding with a Fine-tunable and Execution-aware Transformer ( http://arxiv.org/abs/2208.06692v1 )

ライセンス: Link先を確認
Fiorella Artuso, Marco Mormando, Giuseppe A. Di Luna, Leonardo Querzoni(参考訳) バイナリコード解析の最近のトレンドは、命令埋め込みモデルに基づいたニューラルネットワークの利用を促進する。 命令埋め込みモデルは、アセンブリ命令のシーケンスを埋め込みベクトルに変換するニューラルネットワークである。 埋め込みネットワークがコードからベクターへの変換が部分的にセマンティクスを保存するように訓練された場合、ネットワークは実質的にアセンブリコードモデルを表す。 本稿では,新しいアセンブリコードモデルであるBinBertを紹介する。 BinBertは、アセンブリ命令シーケンスとシンボル実行情報の巨大なデータセットに基づいて事前トレーニングされたトランスフォーマー上に構築されている。 BinBertはアセンブリ命令シーケンスに適用することができ、タスク固有のデータに対するニューラルアーキテクチャの一部として再トレーニングすることができる。 微調整を通じて、BinBertは特定のタスクに事前学習で得られた一般的な知識をどう適用するかを学ぶ。 我々は、アセンブリコードの理解をテストするために特別に設計されたマルチタスクベンチマークでBinBertを評価した。 ベンチマークはいくつかのタスクで構成されており、いくつかは文献から引用したものと、私たちが設計したいくつかの新しいタスクで構成されています。 その結果、binbertはバイナリ命令埋め込みの最先端モデルよりも優れており、バイナリコード理解のバーを高くしていることがわかった。

A recent trend in binary code analysis promotes the use of neural solutions based on instruction embedding models. An instruction embedding model is a neural network that transforms sequences of assembly instructions into embedding vectors. If the embedding network is trained such that the translation from code to vectors partially preserves the semantic, the network effectively represents an assembly code model. In this paper we present BinBert, a novel assembly code model. BinBert is built on a transformer pre-trained on a huge dataset of both assembly instruction sequences and symbolic execution information. BinBert can be applied to assembly instructions sequences and it is fine-tunable, i.e. it can be re-trained as part of a neural architecture on task-specific data. Through fine-tuning, BinBert learns how to apply the general knowledge acquired with pre-training to the specific task. We evaluated BinBert on a multi-task benchmark that we specifically designed to test the understanding of assembly code. The benchmark is composed of several tasks, some taken from the literature, and a few novel tasks that we designed, with a mix of intrinsic and downstream tasks. Our results show that BinBert outperforms state-of-the-art models for binary instruction embedding, raising the bar for binary code understanding.
翻訳日:2022-08-16 14:57:41 公開日:2022-08-13
# 一様ゼロ階予算凸最適化のための近似アルゴリズム

A Near-Optimal Algorithm for Univariate Zeroth-Order Budget Convex Optimization ( http://arxiv.org/abs/2208.06720v1 )

ライセンス: Link先を確認
Fran\c{c}ois Bachoc, Tommaso Cesari, Roberto Colomboni, Andrea Paudice(参考訳) 本稿では,不定凸関数 $f$ を逐次クエリすることで最小化する問題を自然に一般化する。 各タイムステップ$t$ に対して、オプティマイザは、選択したクエリポイント $x_t$ に予算 $b_t$ を投資して、その精度が $x_t$ に投じられた予算の量に依存する$f$ のファジィ評価を得ることができる。 この設定は、値がほぼ長さまたは高価な計算によってのみ決定できる目的の最小化によって動機づけられる。 我々はDyadic Searchと呼ばれるパラメータフリーなアルゴリズムを設計し、ほぼ最適な最適化誤差を保証する。 この分析の副産物として,誤差境界におけるグローバルリプシッツ定数に対する古典的依存は,予算の粒度の成果物であることを示す。 最後に,数値シミュレーションにより理論的知見を示す。

This paper studies a natural generalization of the problem of minimizing a univariate convex function $f$ by querying its values sequentially. At each time-step $t$, the optimizer can invest a budget $b_t$ in a query point $X_t$ of their choice to obtain a fuzzy evaluation of $f$ at $X_t$ whose accuracy depends on the amount of budget invested in $X_t$ across times. This setting is motivated by the minimization of objectives whose values can only be determined approximately through lengthy or expensive computations. We design an any-time parameter-free algorithm called Dyadic Search, for which we prove near-optimal optimization error guarantees. As a byproduct of our analysis, we show that the classical dependence on the global Lipschitz constant in the error bounds is an artifact of the granularity of the budget. Finally, we illustrate our theoretical findings with numerical simulations.
翻訳日:2022-08-16 14:57:22 公開日:2022-08-13
# 複数の不均衡処理効果を推定するためのメタラーニング

Learning to Infer Counterfactuals: Meta-Learning for Estimating Multiple Imbalanced Treatment Effects ( http://arxiv.org/abs/2208.06748v1 )

ライセンス: Link先を確認
Guanglin Zhou and Lina Yao and Xiwei Xu and Chen Wang and Liming Zhu(参考訳) 糖尿病患者は、別の薬を選べばいいのか?」というような、実際に反事実的な質問への回答を定期的に検討している。 ランダム化制御試験(Randomized Control Trials, RCTs)よりも広く蓄積され, 比較的容易に取得できるため, このような疑問に答える上で, 観察的研究の重要性が高まっている。 近年、表現学習やドメイン適応を反実的推論に導入する研究もある。 しかしながら、現在のほとんどの研究はバイナリ処理の設定に焦点を当てている。 いずれも、異なる処理のサンプルサイズが不均衡であると考えておらず、特に一部の処理グループのデータ例は、固有のユーザの好みのために比較的制限されている。 本稿では, 個別治療効果を推定するメタラーニング(MetaITE)のアイデアを取り入れ, 複数の不均衡な治療を考慮し, 上記の研究ギャップを埋めるために, 対物推論のための新しいアルゴリズムフレームワークを設計する。 具体的には,非現実的推論における治療群間のデータエピソードをメタ学習課題とみなす。 十分なサンプルを有する一連の源泉処理群からメタリーナーを訓練し、ターゲット処理において限られたサンプルで勾配降下によりモデルを更新する。 さらに,相補的損失を2つ導入する。 ひとつは、複数のソース治療における教師付き損失である。 異なる治療群間の潜伏分布を整合させる他の損失は, 差を減少させるために提案する。 実世界の2つのデータセットの実験を行い、推測精度と一般化能力を評価する。 実験の結果,モデルメタライトは最先端の手法にマッチする。

We regularly consider answering counterfactual questions in practice, such as "Would people with diabetes take a turn for the better had they choose another medication?". Observational studies are growing in significance in answering such questions due to their widespread accumulation and comparatively easier acquisition than Randomized Control Trials (RCTs). Recently, some works have introduced representation learning and domain adaptation into counterfactual inference. However, most current works focus on the setting of binary treatments. None of them considers that different treatments' sample sizes are imbalanced, especially data examples in some treatment groups are relatively limited due to inherent user preference. In this paper, we design a new algorithmic framework for counterfactual inference, which brings an idea from Meta-learning for Estimating Individual Treatment Effects (MetaITE) to fill the above research gaps, especially considering multiple imbalanced treatments. Specifically, we regard data episodes among treatment groups in counterfactual inference as meta-learning tasks. We train a meta-learner from a set of source treatment groups with sufficient samples and update the model by gradient descent with limited samples in target treatment. Moreover, we introduce two complementary losses. One is the supervised loss on multiple source treatments. The other loss which aligns latent distributions among various treatment groups is proposed to reduce the discrepancy. We perform experiments on two real-world datasets to evaluate inference accuracy and generalization ability. Experimental results demonstrate that the model MetaITE matches/outperforms state-of-the-art methods.
翻訳日:2022-08-16 14:57:04 公開日:2022-08-13
# マルチモーダル対象分布上の逐次モンテカルロ推定器の有限サンプル複雑性

Finite Sample Complexity of Sequential Monte Carlo Estimators on Multimodal Target Distributions ( http://arxiv.org/abs/2208.06672v1 )

ライセンス: Link先を確認
Joseph Mathews and Scott C. Schmidler(参考訳) 我々は,関連するマルコフ核の局所混合時間のみを必要とする逐次モンテカルロ(smc)アルゴリズムの有限サンプル複素性を証明する。 対象の分布がマルチモーダルであり、マルコフ核のグローバル混合が遅いとき、我々の境界は特に有用であり、そのような場合、我々のアプローチは対応するマルコフ連鎖モンテカルロ推定器よりもSMCの利点を確立する。 グローバルミキシングの欠如は、SMC再サンプリング手順で導入されたバイアスを順次制御することで解決される。 これらの結果を用いて,対数-凸分布の混合下での期待値近似のための複雑性境界を求め,対応するマルコフ連鎖サンプリングが指数関数的に遅いいくつかの難解なマルチモーダル問題に対して,smcが完全多項式時間ランダム化近似スキームを提供することを示した。 最後に、同じ問題に対するテンパレートマルコフ鎖の既存の境界に対して、このアプローチによって得られた境界を比較する。

We prove finite sample complexities for sequential Monte Carlo (SMC) algorithms which require only local mixing times of the associated Markov kernels. Our bounds are particularly useful when the target distribution is multimodal and global mixing of the Markov kernel is slow; in such cases our approach establishes the benefits of SMC over the corresponding Markov chain Monte Carlo (MCMC) estimator. The lack of global mixing is addressed by sequentially controlling the bias introduced by SMC resampling procedures. We apply these results to obtain complexity bounds for approximating expectations under mixtures of log-concave distributions and show that SMC provides a fully polynomial time randomized approximation scheme for some difficult multimodal problems where the corresponding Markov chain sampler is exponentially slow. Finally, we compare the bounds obtained by our approach to existing bounds for tempered Markov chains on the same problems.
翻訳日:2022-08-16 14:51:14 公開日:2022-08-13
# 機械学習が誤発見率に到達

Machine learning meets false discovery rate ( http://arxiv.org/abs/2208.06685v1 )

ライセンス: Link先を確認
Ariane Marandon, Lihua Lei, David Mary and Etienne Roquain(参考訳) 古典的な偽発見率(fdr)制御手順は、しばしば柔軟性に欠けるが、強く解釈可能な保証を提供する。 一方、近年の機械学習分類アルゴリズムは、ランダムフォレスト(RF)やニューラルネットワーク(NN)に基づくもので、実用的な性能は高いが、解釈の欠如と理論的保証の欠如がある。 本稿では,fdr制御を用いた適応的新奇性検出手法であるadadetectを導入することで,この2つを満たす。 これは、複数のテスト文献の最近の研究の範囲を高次元の設定にまで広げており、特に Yang et al. (2021) では顕著である。 adadetect は fdr を強く制御し、特定の意味において oracle の 1 を模倣する能力を持つ。 本手法の興味と妥当性は,理論的な結果,いくつかのベンチマークデータセットにおける数値実験,天体物理データへの適用によって実証された。 特に、AdaDetectは任意の分類器と組み合わせて使用することができるが、実世界のRFデータセットやNNの画像では特に効率的である。

Classical false discovery rate (FDR) controlling procedures offer strong and interpretable guarantees, while they often lack of flexibility. On the other hand, recent machine learning classification algorithms, as those based on random forests (RF) or neural networks (NN), have great practical performances but lack of interpretation and of theoretical guarantees. In this paper, we make these two meet by introducing a new adaptive novelty detection procedure with FDR control, called AdaDetect. It extends the scope of recent works of multiple testing literature to the high dimensional setting, notably the one in Yang et al. (2021). AdaDetect is shown to both control strongly the FDR and to have a power that mimics the one of the oracle in a specific sense. The interest and validity of our approach is demonstrated with theoretical results, numerical experiments on several benchmark datasets and with an application to astrophysical data. In particular, while AdaDetect can be used in combination with any classifier, it is particularly efficient on real-world datasets with RF, and on images with NN.
翻訳日:2022-08-16 14:50:55 公開日:2022-08-13
# 粒状方向粗い集合,概念構成,ソフトクラスタリング

Granular Directed Rough Sets, Concept Organization and Soft Clustering ( http://arxiv.org/abs/2208.06623v1 )

ライセンス: Link先を確認
Mani A(参考訳) 上向きの粗い集合は、以前の論文で著者によって紹介され、研究されている。 これは、この研究で2つの異なる粒度の方向で拡張され、驚くほどの代数的意味論である。 顆粒は、弱結果の形式として読むことができる上向性の下での一般化閉包の考え方に基づいている。 これにより注意深い単調を満たす近似作用素が得られるが、pi-群型近似(さらに戦略選択や代数作用素を含む)はより優れた性質を持つ。 この研究は、主に分散認知の視点、現実または仮想の教室学習の文脈、学生中心の教育における概念の構造に動機づけられている。 さらに、(センチネルプロジェクト画像データの研究のように)上向きの関係を含むデータセットのラフクラスタリング技術も提案されている。 この研究は、関連する領域において重要な理論的および実践的な応用が期待されている。

Up-directed rough sets are introduced and studied by the present author in earlier papers. This is extended by her in two different granular directions in this research, with a surprising algebraic semantics. The granules are based on ideas of generalized closure under up-directedness that may be read as a form of weak consequence. This yields approximation operators that satisfy cautious monotony, while pi-groupoidal approximations (that additionally involve strategic choice and algebraic operators) have nicer properties. The study is primarily motivated by possible structure of concepts in distributed cognition perspectives, real or virtual classroom learning contexts, and student-centric teaching. Rough clustering techniques for datasets that involve up-directed relations (as in the study of Sentinel project image data) are additionally proposed. This research is expected to see significant theoretical and practical applications in related domains.
翻訳日:2022-08-16 14:50:35 公開日:2022-08-13
# SNGuess:若年銀河外トランジェントの選択法

SNGuess: A method for the selection of young extragalactic transients ( http://arxiv.org/abs/2208.06534v1 )

ライセンス: Link先を確認
N. Miranda, J.C. Freytag, J. Nordin, R. Biswas, V. Brinnel, C. Fremling, M. Kowalski, A. Mahabal, S. Reusch, J. van Santen(参考訳) 天文学で検出されるトランジェントの増加に伴い、機械学習に基づく分類手法がますます採用されている。 彼らの目標は、通常、過渡性の決定的な分類を得ることであり、良好な性能のためには、通常、大きな観測セットの存在が必要である。 しかし、よく設計されたターゲットモデルでは、少ない計算リソースで分類目標に達することができる。 本稿では,高純度の銀河系近傍の若いトランジェントを見つけるために設計されたモデルであるsnguessについて述べる。 SNGuessは、天文学的なアラートデータから効率的に計算できる一連の機能で動作する。 これらの機能のいくつかは静的であり、アラートメタデータに関連付けられているが、その他の機能はアラートに含まれる測光観測から計算する必要がある。 ほとんどの特徴は、検出後の過渡現象の寿命の初期段階で得られるか、既に計算されるのに十分なほど単純である。 これらの特徴をZTF(Zwicky Transient Facility)から15ヶ月にわたって得られたラベル付き公共警報データの集合に対して計算する。 SNGuesのコアモデルは、勾配押し上げによって訓練された決定木の集合から成り立っている。 SNGuessが2020年4月から2021年8月までの一連のZTFからの警告から提案した候補の約88%が、真に関連する超新星(SNe)であることが判明した。 明るい検出を行うアラートでは、この数字は92%から98%の範囲である。 2020年4月以降、SNGuessによってZTF警告ストリームの潜在的若いSNeとして特定されたトランジェントはAMPEL_ZTF_NEWグループ識別子の下でTransient Name Server (TNS)に公開された。 ZTFによって観測された任意の過渡性に対するSNGuesスコアは、Webサービスを介してアクセスすることができる。 SNGuessのソースコードは公開されている。

With a rapidly rising number of transients detected in astronomy, classification methods based on machine learning are increasingly being employed. Their goals are typically to obtain a definitive classification of transients, and for good performance they usually require the presence of a large set of observations. However, well-designed, targeted models can reach their classification goals with fewer computing resources. This paper presents SNGuess, a model designed to find young extragalactic nearby transients with high purity. SNGuess works with a set of features that can be efficiently calculated from astronomical alert data. Some of these features are static and associated with the alert metadata, while others must be calculated from the photometric observations contained in the alert. Most of the features are simple enough to be obtained or to be calculated already at the early stages in the lifetime of a transient after its detection. We calculate these features for a set of labeled public alert data obtained over a time span of 15 months from the Zwicky Transient Facility (ZTF). The core model of SNGuess consists of an ensemble of decision trees, which are trained via gradient boosting. Approximately 88% of the candidates suggested by SNGuess from a set of alerts from ZTF spanning from April 2020 to August 2021 were found to be true relevant supernovae (SNe). For alerts with bright detections, this number ranges between 92% and 98%. Since April 2020, transients identified by SNGuess as potential young SNe in the ZTF alert stream are being published to the Transient Name Server (TNS) under the AMPEL_ZTF_NEW group identifier. SNGuess scores for any transient observed by ZTF can be accessed via a web service. The source code of SNGuess is publicly available.
翻訳日:2022-08-16 14:49:50 公開日:2022-08-13
# 両側帯域フィードバックを用いたダブルオークション

Double Auctions with Two-sided Bandit Feedback ( http://arxiv.org/abs/2208.06536v1 )

ライセンス: Link先を確認
Soumya Basu and Abishek Sankararaman(参考訳) 二重オークションは、複数の買い手と売り手の間の商品の分散移動を可能にし、多くのオンラインマーケットプレイスの機能を支える。 買い手と売り手は入札を通じてこれらの市場で競い合っているが、しばしば自身のバリュエーションa-prioriを知らない。 入札を通じて割り当てと価格設定が行われるため、参加者の収益性、すなわちそのような市場の持続性は、反復的な相互作用を通じてそれぞれの評価を習得することに大きく依存する。 我々は、買い手側と売り手の双方からの盗聴フィードバックの下で、ダブルオークション市場の研究を開始する。 参加者の間では,'平均価格'が効率的な価格発見の機会があることを確信して示します。 特に、商品を交換する買い手と売り手は、$t$ラウンドで$o(\sqrt{t})$を後悔する。 交換の利益を得られない買い手と売り手は、最低価格差が$\delta$であるような$t$のラウンドにおいて、o(\log{t}/ \delta)$の後悔しか経験しない。 我々は、善の固定価格(double Auctionよりも単純な学習問題)が知られているとしても、ある市場で後悔は達成不可能であることを示すことで、上層境界を拡大する。

Double Auction enables decentralized transfer of goods between multiple buyers and sellers, thus underpinning functioning of many online marketplaces. Buyers and sellers compete in these markets through bidding, but do not often know their own valuation a-priori. As the allocation and pricing happens through bids, the profitability of participants, hence sustainability of such markets, depends crucially on learning respective valuations through repeated interactions. We initiate the study of Double Auction markets under bandit feedback on both buyers' and sellers' side. We show with confidence bound based bidding, and `Average Pricing' there is an efficient price discovery among the participants. In particular, the buyers and sellers exchanging goods attain $O(\sqrt{T})$ regret in $T$ rounds. The buyers and sellers who do not benefit from exchange in turn only experience $O(\log{T}/ \Delta)$ regret in $T$ rounds where $\Delta$ is the minimum price gap. We augment our upper bound by showing that even with a known fixed price of the good -- a simpler learning problem than Double Auction -- $\omega(\sqrt{T})$ regret is unattainable in certain markets.
翻訳日:2022-08-16 14:49:28 公開日:2022-08-13
# 信頼の問題:分散伝達によるディープニューラルネットワークのバックドア検査

Confidence Matters: Inspecting Backdoors in Deep Neural Networks via Distribution Transfer ( http://arxiv.org/abs/2208.06592v1 )

ライセンス: Link先を確認
Tong Wang, Yuan Yao, Feng Xu, Miao Xu, Shengwei An, Ting Wang(参考訳) バックドア攻撃はディープラーニングモデルに対する深刻なセキュリティ上の脅威であり、与えられたモデルがバックドアされたかどうかを検出することが重要なタスクであることが示されている。 既存の防御は、バックドアのトリガーは通常小さなサイズか少数のニューロンの活性化に影響を及ぼすという観察に基づいて構築されている。 しかし、特に先進的なバックドア攻撃においては、上記の観察が破られ、既存の防御性能と適用性が阻害される。 本稿では,新しい観測結果に基づくバックドアディフェンスDTInspectorを提案する。 すなわち、効果的なバックドア攻撃は通常、訓練されたモデルがターゲットとなる動作を高い確率で示すために、有毒なトレーニングサンプルに対する高い予測信頼を必要とする。 この観測に基づいて、DTInspectorはまず、ほとんどの高信頼データの予測を変更可能なパッチを学習し、学習したパッチを低信頼データに適用した後、予測変化の比率をチェックしてバックドアの存在を決定する。 5つのバックドア攻撃、4つのデータセット、3つの先進的な攻撃タイプに関する広範な評価は、提案された防御の有効性を示している。

Backdoor attacks have been shown to be a serious security threat against deep learning models, and detecting whether a given model has been backdoored becomes a crucial task. Existing defenses are mainly built upon the observation that the backdoor trigger is usually of small size or affects the activation of only a few neurons. However, the above observations are violated in many cases especially for advanced backdoor attacks, hindering the performance and applicability of the existing defenses. In this paper, we propose a backdoor defense DTInspector built upon a new observation. That is, an effective backdoor attack usually requires high prediction confidence on the poisoned training samples, so as to ensure that the trained model exhibits the targeted behavior with a high probability. Based on this observation, DTInspector first learns a patch that could change the predictions of most high-confidence data, and then decides the existence of backdoor by checking the ratio of prediction changes after applying the learned patch on the low-confidence data. Extensive evaluations on five backdoor attacks, four datasets, and three advanced attacking types demonstrate the effectiveness of the proposed defense.
翻訳日:2022-08-16 14:40:59 公開日:2022-08-13
# 人間と環境の相互作用を観察した移動ロボットのシーン認識モデルのオンライン改善

Online Refinement of a Scene Recognition Model for Mobile Robots by Observing Human's Interaction with Environments ( http://arxiv.org/abs/2208.06636v1 )

ライセンス: Link先を確認
Shigemichi Matsuzaki, Hiroaki Masuzawa, Jun Miura(参考訳) 本稿では,移動中にロボットが押し付けるフレキシブルな植物部品を考慮した,ロボットナビゲーションのためのシーン認識モデルのオンライン改良手法について述べる。 移動可能な植物が経路に成長すると考えるシーン認識システムでは、障害として認識される移動可能な植物のためにロボットが立ち往生する可能性がある。 しかし、どんな推定方法でも誤分類は避けられない。 本研究では,ロボットの動作中に,意味的セグメンテーションモデルをオンザフライで洗練することができるフレームワークを提案する。 微調整なしでオンラインモデル改良のための重量インプリントに基づく数ショットセグメンテーションを導入する。 トレーニングデータは、人間の植物部位との相互作用を観察することで収集される。 相互作用によって生じるマスクに含まれるノイズの影響を軽減するために、新しい頑健な重量印字を提案する。 提案手法は実世界のデータを用いた実験により評価され, 通常の重量印字よりも優れており, 計算コストの低減を図りながら, モデル蒸留による微調整と競合する結果が得られた。

This paper describes a method of online refinement of a scene recognition model for robot navigation considering traversable plants, flexible plant parts which a robot can push aside while moving. In scene recognition systems that consider traversable plants growing out to the paths, misclassification may lead the robot to getting stuck due to the traversable plants recognized as obstacles. Yet, misclassification is inevitable in any estimation methods. In this work, we propose a framework that allows for refining a semantic segmentation model on the fly during the robot's operation. We introduce a few-shot segmentation based on weight imprinting for online model refinement without fine-tuning. Training data are collected via observation of a human's interaction with the plant parts. We propose novel robust weight imprinting to mitigate the effect of noise included in the masks generated by the interaction. The proposed method was evaluated through experiments using real-world data and shown to outperform an ordinary weight imprinting and provide competitive results to fine-tuning with model distillation while requiring less computational cost.
翻訳日:2022-08-16 14:40:42 公開日:2022-08-13
# 変圧器を用いた医用画像解析:概観

Medical image analysis based on transformer: A Review ( http://arxiv.org/abs/2208.06643v1 )

ライセンス: Link先を確認
Zhaoshan Liu and Lei Shen(参考訳) 変換器は、自然言語処理(NLP)分野を長い間支配してきた。 近年,コンピュータビジョン(cv)分野にトランスフォーマー方式が採用され,有望な結果が得られた。 CVフィールドの重要な分岐として、医療画像解析はトランスフォーマーベースの手法の波と正しく結合する。 本稿では,アテンション機構の原理とトランスの詳細な構造を説明し,トランスがCVフィールドにどのように採用されるかを説明する。 本研究では,トランスフォーマーを用いた医療画像解析アプリケーションを,分類,セグメンテーション,合成,登録,ローカライゼーション,検出,キャプション,復調など,様々なCVタスクのシーケンスに編成する。 主流の分類とセグメンテーションのタスクでは,異なる医用画像モダリティに基づいて,対応する作品をさらに分割する。 作業には13のモダリティと20以上のオブジェクトが含まれています。 また、各モダリティとオブジェクトが占有する比率を可視化し、読者に直感的な印象を与える。 我々は今後,トランスフォーマーを用いた医用画像解析の開発に貢献できることを願っている。

The transformer has dominated the natural language processing (NLP) field for a long time. Recently, the transformer-based method is adopt into the computer vision (CV) field and shows promising results. As an important branch of the CV field, medical image analysis joins the wave of the transformer-based method rightfully. In this paper, we illustrate the principle of the attention mechanism, and the detailed structures of the transformer, and depict how the transformer is adopted into the CV field. We organize the transformer-based medical image analysis applications in the sequence of different CV tasks, including classification, segmentation, synthesis, registration, localization, detection, captioning, and denoising. For the mainstream classification and segmentation tasks, we further divided the corresponding works based on different medical imaging modalities. We include thirteen modalities and more than twenty objects in our work. We also visualize the proportion that each modality and object occupy to give the readers an intuitive impression. We hope our work can contribute to the development of transformer-based medical image analysis in the future.
翻訳日:2022-08-16 14:40:24 公開日:2022-08-13
# 深層学習を用いた前方参照によるビデオ圧縮の新手法

A new way of video compression via forward-referencing using deep learning ( http://arxiv.org/abs/2208.06678v1 )

ライセンス: Link先を確認
S.M.A.K. Rajin, M. Murshed, M. Paul, S.W. Teng, J. Ma(参考訳) 同じシーンの映像フレームで高い時間相関を生かすために、ブロックベースの動き推定と補償技術を用いて、既に符号化された参照フレームから現在のフレームを予測する。 このアプローチは移動物体の翻訳運動を効果的に利用することができるが、他の種類のアフィン運動や物体の閉塞・隠蔽の影響を受けやすい。 近年,映像から特定の行動における人間のポーズの高レベル構造をモデル化し,GAN(Generative Adversarial Network)を用いてポーズを予測することによって,将来的な仮想フレームの生成が進められている。 したがって、人間のポーズの高レベル構造をモデル化することは、人間の行動を予測し、その軌道を決定することによって意味的相関を利用することができる。 ビデオ監視アプリケーションは、人間のポーズの軌跡を推定し、セマンティック相関によって将来のフレームを生成することで、保存された大きな監視データを圧縮できるため、役に立つだろう。 本稿では、既に符号化されたフレームから人間のポーズをモデル化し、現在生成されたフレームを新たな前方参照フレームとして用いることで、新たなビデオ符号化方法を検討する。 提案手法は,移動物体を含むブロックを低残差で予測することにより,従来の後方参照フレームの限界を克服できると考えられる。 実験結果から,提案手法は最大2.83dbpsnrゲインと25.93\%のビットレート節約が可能であることが判明した。

To exploit high temporal correlations in video frames of the same scene, the current frame is predicted from the already-encoded reference frames using block-based motion estimation and compensation techniques. While this approach can efficiently exploit the translation motion of the moving objects, it is susceptible to other types of affine motion and object occlusion/deocclusion. Recently, deep learning has been used to model the high-level structure of human pose in specific actions from short videos and then generate virtual frames in future time by predicting the pose using a generative adversarial network (GAN). Therefore, modelling the high-level structure of human pose is able to exploit semantic correlation by predicting human actions and determining its trajectory. Video surveillance applications will benefit as stored big surveillance data can be compressed by estimating human pose trajectories and generating future frames through semantic correlation. This paper explores a new way of video coding by modelling human pose from the already-encoded frames and using the generated frame at the current time as an additional forward-referencing frame. It is expected that the proposed approach can overcome the limitations of the traditional backward-referencing frames by predicting the blocks containing the moving objects with lower residuals. Experimental results show that the proposed approach can achieve on average up to 2.83 dB PSNR gain and 25.93\% bitrate savings for high motion video sequences
翻訳日:2022-08-16 14:40:07 公開日:2022-08-13
# プログレッシブマルチスケール光電界ネットワーク

Progressive Multi-scale Light Field Networks ( http://arxiv.org/abs/2208.06710v1 )

ライセンス: Link先を確認
David Li, Amitabh Varshney(参考訳) ニューラルネットワークの表現は、画像集合の表現に比べて非常にコンパクトでありながら、放射率と光場を表現できるという大きな可能性を秘めている。 しかし、現在の表現は、デコーディングは単一の詳細レベルでのみ行え、ニューラルネットワークモデル全体をダウンロードする必要があるため、ストリーミングには適していない。 さらに、適切なフィルタリングをせずにニューラルネットワークをサンプリングすることで、高解像度の光電界ネットワークはフリックやエイリアスを示すことができる。 これらの問題を解決するために、複数の詳細レベルを持つ光フィールドを符号化するプログレッシブ・マルチスケール光フィールドネットワークを提案する。 低レベルのディテールは、プログレッシブなストリーミングを可能にし、レンダリング時間を短縮できるニューラルネットワーク重みでエンコードされる。 我々のプログレッシブ・マルチスケール光電界ネットワークは、より低レベルのディテールで小さなアンチエイリアス表現を符号化することでエイリアスに対処する。 さらに、ピクセル単位のディテールにより、ディザリング遷移とフェーブレートレンダリングをサポートすることができます。

Neural representations have shown great promise in their ability to represent radiance and light fields while being very compact compared to the image set representation. However, current representations are not well suited for streaming as decoding can only be done at a single level of detail and requires downloading the entire neural network model. Furthermore, high-resolution light field networks can exhibit flickering and aliasing as neural networks are sampled without appropriate filtering. To resolve these issues, we present a progressive multi-scale light field network that encodes a light field with multiple levels of detail. Lower levels of detail are encoded using fewer neural network weights enabling progressive streaming and reducing rendering time. Our progressive multi-scale light field network addresses aliasing by encoding smaller anti-aliased representations at its lower levels of detail. Additionally, per-pixel level of detail enables our representation to support dithered transitions and foveated rendering.
翻訳日:2022-08-16 14:39:43 公開日:2022-08-13
# 高次元空間における微分可能帰納論理プログラミング

Differentiable Inductive Logic Programming in High-Dimensional Space ( http://arxiv.org/abs/2208.06652v1 )

ライセンス: Link先を確認
Stanis{\l}aw J. Purga{\l}, David M. Cerna, Cezary Kaliszyk(参考訳) インダクティブ論理プログラミング(ILP)による大規模論理プログラムの合成は、典型的には中間的定義を必要とする。 しかし、インテンション述語で仮説空間を散らかすとしばしば性能が低下する。 対照的に、勾配降下はそのような高次元空間内の解を見つける効率的な方法を提供する。 ニューロシンボリック ilp アプローチは、今のところ完全には活用されていない。 本稿では,高次元勾配降下の有効性を生かした大規模述語に基づくILP合成手法を提案する。 10以上の補助的定義を含む記号解を求める。 これは、既存のニューロシンボリックILPシステムの達成を超えており、この分野におけるマイルストーンを構成している。

Synthesizing large logic programs through Inductive Logic Programming (ILP) typically requires intermediate definitions. However, cluttering the hypothesis space with intensional predicates often degrades performance. In contrast, gradient descent provides an efficient way to find solutions within such high-dimensional spaces. Neuro-symbolic ILP approaches have not fully exploited this so far. We propose an approach to ILP-based synthesis benefiting from large-scale predicate invention exploiting the efficacy of high-dimensional gradient descent. We find symbolic solutions containing upwards of ten auxiliary definitions. This is beyond the achievements of existing neuro-symbolic ILP systems, thus constituting a milestone in the field.
翻訳日:2022-08-16 14:27:14 公開日:2022-08-13
# 機械学習における格差の所在

Locating disparities in machine learning ( http://arxiv.org/abs/2208.06680v1 )

ライセンス: Link先を確認
Moritz von Zahn, Oliver Hinz, Stefan Feuerriegel(参考訳) 機械学習は、人口のサブグループ(例えば、年齢、性別、その他の繊細な属性によって定義される)が体系的に不利な、異なる結果をもたらすことが繰り返し証明された。 従来の文献では、機密属性が予め特定された場合の統計的手続きを通じて、このような格差を検出することに重点を置いてきた。 しかし、これはデータセットが高次元であり、それに加えて機密性の高い属性が不明な実世界での適用性を制限する。 そこで本稿では,機械学習における格差の特定を目的とした,ALD(Automatic Location of Disparities)と呼ばれるデータ駆動型フレームワークを提案する。 ALD (1) は任意の機械学習分類器に適用可能である; (2) 異性の定義(統計パリティや等化オッズなど)を演算する; (3) カテゴリー的および連続的な予測器の両方を扱う; (4) 高次元の設定を扱うのに適した; (5) 複雑および多方向の相互作用(例えば60歳以上と女性)から相違が生じる交叉性による相違を識別する。 aldは出力として解釈可能なフェアネスレポートを生成する。 合成と実世界の両方のデータセットに基づくALDの有効性を示す。 結果として、aldは、アルゴリズムの公平さを実践者や研究者が機械学習アルゴリズムの格差を検出するのに役立つ。 さらに、ALDは、アルゴリズムによる監査を行い、個人を差別から保護する実践者を支援する。

Machine learning was repeatedly proven to provide predictions with disparate outcomes, in which subgroups of the population (e.g., defined by age, gender, or other sensitive attributes) are systematically disadvantaged. Previous literature has focused on detecting such disparities through statistical procedures for when the sensitive attribute is specified a priori. However, this limits applicability in real-world settings where datasets are high dimensional and, on top of that, sensitive attributes may be unknown. As a remedy, we propose a data-driven framework called Automatic Location of Disparities (ALD) which aims at locating disparities in machine learning. ALD meets several demands from machine learning practice: ALD (1) is applicable to arbitrary machine learning classifiers; (2) operates on different definitions of disparities (e.g., statistical parity or equalized odds); (3) deals with both categorical and continuous predictors; (4) is suitable to handle high-dimensional settings; and (5) even identifies disparities due to intersectionality where disparities arise from complex and multi-way interactions (e.g., age above 60 and female). ALD produces interpretable fairness reports as output. We demonstrate the effectiveness of ALD based on both synthetic and real-world datasets. As a result, ALD helps practitioners and researchers of algorithmic fairness to detect disparities in machine learning algorithms, so that disparate -- or even unfair -- outcomes can be mitigated. Moreover, ALD supports practitioners in conducting algorithmic audits and protecting individuals from discrimination.
翻訳日:2022-08-16 14:22:38 公開日:2022-08-13
# ノード類似性によるグラフコントラスト学習の強化

Enhancing Graph Contrastive Learning with Node Similarity ( http://arxiv.org/abs/2208.06743v1 )

ライセンス: Link先を確認
Hongliang Chi, Yao Ma(参考訳) グラフニューラルネットワーク(GNN)は、グラフ表現を学習し、様々なグラフ関連タスクを容易にすることに成功した。 しかし、ほとんどのGNN手法は教師付き学習環境を採用しており、ラベル付きデータを得るのが困難であるため、現実のアプリケーションでは必ずしも実現できない。 そのため、グラフ自己教師付き学習が注目を集めている。 グラフコントラスト学習(gcl)は、自己監督学習の代表的なフレームワークである。 一般に、gclは意味的に類似したノード(正のサンプル)と異なる類似のノード(負のサンプル)をアンカーノードと対比してノード表現を学ぶ。 ラベルへのアクセスがなければ、正のサンプルは通常データ拡張によって生成され、負のサンプルはグラフ全体から一様にサンプリングされる。 具体的には、データ拡張はプロセスに関与する正のサンプルの数(典型的には1つの正のサンプルのみが採用される)を自然に制限する。 一方、ランダムサンプリングプロセスは必然的に偽陰性サンプル(アンカーと同じ意味論を共有するサンプル)を選択する。 これらの問題はGCLの学習能力を制限する。 本稿では,上記の課題を解決するための拡張目標を提案する。 まず、すべての正のサンプルと偽陰性のサンプルを含まない、達成不可能な理想的目的を導入する。 この理想的な目的は、正と負のサンプルをサンプリングする分布に基づいて確率形式に変換される。 次に、これらの分布をノード類似度でモデル化し、拡張された目的を導出する。 様々なデータセットに関する包括的実験は、異なる設定下で提案された拡張目的の有効性を示す。

Graph Neural Networks (GNNs) have achieved great success in learning graph representations and thus facilitating various graph-related tasks. However, most GNN methods adopt a supervised learning setting, which is not always feasible in real-world applications due to the difficulty to obtain labeled data. Hence, graph self-supervised learning has been attracting increasing attention. Graph contrastive learning (GCL) is a representative framework for self-supervised learning. In general, GCL learns node representations by contrasting semantically similar nodes (positive samples) and dissimilar nodes (negative samples) with anchor nodes. Without access to labels, positive samples are typically generated by data augmentation, and negative samples are uniformly sampled from the entire graph, which leads to a sub-optimal objective. Specifically, data augmentation naturally limits the number of positive samples that involve in the process (typically only one positive sample is adopted). On the other hand, the random sampling process would inevitably select false-negative samples (samples sharing the same semantics with the anchor). These issues limit the learning capability of GCL. In this work, we propose an enhanced objective that addresses the aforementioned issues. We first introduce an unachievable ideal objective that contains all positive samples and no false-negative samples. This ideal objective is then transformed into a probabilistic form based on the distributions for sampling positive and negative samples. We then model these distributions with node similarity and derive the enhanced objective. Comprehensive experiments on various datasets demonstrate the effectiveness of the proposed enhanced objective under different settings.
翻訳日:2022-08-16 14:22:08 公開日:2022-08-13
# fair mlに対する新しい正規化アプローチ

A Novel Regularization Approach to Fair ML ( http://arxiv.org/abs/2208.06557v1 )

ライセンス: Link先を確認
Norman Matloff and Wenxi Zhang(参考訳) MLの公平な問題に対していくつかの方法が導入されており、そのほとんどは複雑であり、その多くが基礎となるMLのモエトドロジーに非常に特有である。 ここでは、単純で説明が容易で、多くの標準MLアルゴリズムに適用可能な、新しいアプローチを紹介する。 EDF(Explicitly Deweighted Features)は、敏感な変数のプロキシ間の各機能の影響を減らし、各機能に異なる量の重み付けを適用できるようにする。 ユーザはデウェイト化ハイパーパラメータを特定し、ユーティリティ/フェアネストレードオフスペクトルの所定のポイントを達成する。 また,公正なML手法によって得られる保護度を評価するための,新しい簡易な基準も導入する。

A number of methods have been introduced for the fair ML issue, most of them complex and many of them very specific to the underlying ML moethodology. Here we introduce a new approach that is simple, easily explained, and potentially applicable to a number of standard ML algorithms. Explicitly Deweighted Features (EDF) reduces the impact of each feature among the proxies of sensitive variables, allowing a different amount of deweighting applied to each such feature. The user specifies the deweighting hyperparameters, to achieve a given point in the Utility/Fairness tradeoff spectrum. We also introduce a new, simple criterion for evaluating the degree of protection afforded by any fair ML method.
翻訳日:2022-08-16 14:16:20 公開日:2022-08-13
# デモ:RhythmEdge:エッジ上での非接触型心拍推定を実現する

Demo: RhythmEdge: Enabling Contactless Heart Rate Estimation on the Edge ( http://arxiv.org/abs/2208.06572v1 )

ライセンス: Link先を確認
Zahid Hasan, Emon Dey, Sreenivasan Ramasamy Ramamurthy, Nirmalya Roy, Archan Misra(参考訳) 本稿では,HRモニタリングのための低コストでディープラーニングベースのコンタクトレスシステムであるRhythmEdgeの設計と試作を行う。 RhythmEdgeは、コンタクトレスの性質、リアルタイム/オフライン操作、安価で利用可能なセンサーコンポーネント、コンピューティングデバイスを促進することで、既存のアプローチよりもメリットがある。 我々のRhythmEdgeシステムは、適度に制御された屋内環境や屋外環境において、ポータブルで信頼性の高いHR推定に容易にデプロイできる。 rhythmedgeは、顔ビデオ(remote photoplethysmography; rppg)から血液量の変化を検出することで、hrを測定し、市販のリソース制約付きエッジプラットフォームとビデオカメラを使用して即座に評価する。 我々は、異なるアーキテクチャ(NVIDIA Jetson Nano、Google Coral Development Board、Raspberry Pi)と異なる感度、解像度、特性(Webカメラ、アクションカメラ、DSLR)の3つのリソース制約されたプラットフォームにRhythmEdgeをデプロイすることで、RhythmEdgeのスケーラビリティ、柔軟性、互換性を実証する。 rhythmedgeはさらに、縦方向の心臓血管情報を保存し、ユーザーに即時通知を提供する。 ランタイム、メモリ、電力使用量をプロファイリングすることで、3つのエッジコンピューティングプラットフォームにおけるプロトタイプの安定性、レイテンシ、実現可能性を徹底的にテストします。

In this demo paper, we design and prototype RhythmEdge, a low-cost, deep-learning-based contact-less system for regular HR monitoring applications. RhythmEdge benefits over existing approaches by facilitating contact-less nature, real-time/offline operation, inexpensive and available sensing components, and computing devices. Our RhythmEdge system is portable and easily deployable for reliable HR estimation in moderately controlled indoor or outdoor environments. RhythmEdge measures HR via detecting changes in blood volume from facial videos (Remote Photoplethysmography; rPPG) and provides instant assessment using off-the-shelf commercially available resource-constrained edge platforms and video cameras. We demonstrate the scalability, flexibility, and compatibility of the RhythmEdge by deploying it on three resource-constrained platforms of differing architectures (NVIDIA Jetson Nano, Google Coral Development Board, Raspberry Pi) and three heterogeneous cameras of differing sensitivity, resolution, properties (web camera, action camera, and DSLR). RhythmEdge further stores longitudinal cardiovascular information and provides instant notification to the users. We thoroughly test the prototype stability, latency, and feasibility for three edge computing platforms by profiling their runtime, memory, and power usage.
翻訳日:2022-08-16 14:16:08 公開日:2022-08-13
# GEDI: グラフベースのエンドツーエンドデータインプットフレームワーク

GEDI: A Graph-based End-to-end Data Imputation Framework ( http://arxiv.org/abs/2208.06573v1 )

ライセンス: Link先を確認
Katrina Chen, Xiuqin Liang, Zhibin Zhang, Zheng Ma(参考訳) データ計算は、欠落したデータを扱う効果的な方法であり、実際的なアプリケーションでは一般的である。 本研究では,(1)特徴量行列の特徴量間の行方向の類似性と列方向の文脈関係を保存し,(2)特定の下流ラベル予測タスクにインプット処理を調整する,という2つの重要な目標を達成する新しいデータ計算プロセスを提案する。 提案手法はトランスフォーマーネットワークとグラフ構造学習を用いて,観測における特徴と類似点間の文脈関係を反復的に洗練する。 さらに、メタラーニングフレームワークを使用して、下流の予測タスクに影響を及ぼす機能を選択する。 本研究では,実世界の大規模データセットについて実験を行い,提案手法が様々なベンチマーク手法に対してインプテーションとラベル予測性能を一貫して向上させることを示す。

Data imputation is an effective way to handle missing data, which is common in practical applications. In this study, we propose and test a novel data imputation process that achieve two important goals: (1) preserve the row-wise similarities among observations and column-wise contextual relationships among features in the feature matrix, and (2) tailor the imputation process to specific downstream label prediction task. The proposed imputation process uses Transformer network and graph structure learning to iteratively refine the contextual relationships among features and similarities among observations. Moreover, it uses a meta-learning framework to select features that are influential to the downstream prediction task of interest. We conduct experiments on real-world large data sets, and show that the proposed imputation process consistently improves imputation and label prediction performance over a variety of benchmark methods.
翻訳日:2022-08-16 14:15:43 公開日:2022-08-13
# 遅延因子精製のためのアダム調整アンテナBASアルゴリズム

An Adam-adjusting-antennae BAS Algorithm for Refining Latent Factors ( http://arxiv.org/abs/2208.06603v1 )

ライセンス: Link先を確認
Yuanyi Liu, Jia Chen and Di Wu(参考訳) 高次元および不完全行列における潜在情報抽出は重要かつ困難な課題である。 潜在因子分析(LFA)モデルは高次元行列解析をうまく扱うことができる。 近年,超パラメータを高効率で適応的に調整するために,PSOを組み込んだLFAモデルが提案されている。 しかし、PSOの組み入れは早めの問題を引き起こす。 この問題に対処するため, PSO-incorporated LFAモデルにより得られた潜在因子を改良したAdam-Adjusting-Anennae BAS (A2BAS) 最適化アルゴリズムを提案する。 A2BASアルゴリズムは2つのサブアルゴリズムからなる。 第1に,カブトムシのアンテナとステップサイズをadamで調整する改良basアルゴリズムを設計,第2に,全行および列潜性因子を順次最適化する改良basアルゴリズムを実装した。 2つの実高次元行列の実験結果から,本アルゴリズムは早期収束問題を効果的に解くことができることを示した。

Extracting the latent information in high-dimensional and incomplete matrices is an important and challenging issue. The Latent Factor Analysis (LFA) model can well handle the high-dimensional matrices analysis. Recently, Particle Swarm Optimization (PSO)-incorporated LFA models have been proposed to tune the hyper-parameters adaptively with high efficiency. However, the incorporation of PSO causes the premature problem. To address this issue, we propose a sequential Adam-adjusting-antennae BAS (A2BAS) optimization algorithm, which refines the latent factors obtained by the PSO-incorporated LFA model. The A2BAS algorithm consists of two sub-algorithms. First, we design an improved BAS algorithm which adjusts beetles' antennae and step-size with Adam; Second, we implement the improved BAS algorithm to optimize all the row and column latent factors sequentially. With experimental results on two real high-dimensional matrices, we demonstrate that our algorithm can effectively solve the premature convergence issue.
翻訳日:2022-08-16 14:15:25 公開日:2022-08-13
# 重度ボード学習システムによる正確な職業性肺炎の診断

Incoporating Weighted Board Learning System for Accurate Occupational Pneumoconiosis Staging ( http://arxiv.org/abs/2208.06607v1 )

ライセンス: Link先を確認
Kaiguang Yang, Yeping Wang, Qianhao Luo, Xin Liu, Weiling Li(参考訳) 職業性肺気腫症 (OP) は, 患者の肺の健康に重要な課題である。 患者のステージング結果は、ステージング標準と胸部X線に依存している。 基本的には画像分類タスクである。 しかし、opデータの分布は一般に不均衡であり、データはバランスのとれた分布に従い、不正確なステージング結果を引き起こすという仮定の下で提案された分類モデルの影響をほとんど減少させる。 正確なOPステージングを実現するため、我々はこの作業で不均衡なデータを処理できるOPステージングモデルを提案した。 提案モデルでは,胸部X線のテクスチャ特性を抽出するためにグレーレベル共起行列 (GLCM) を採用し,重み付き広義学習システム (WBLS) を用いた分類を実装した。 病院が提供した6つのデータケースに関する実証研究は、不均衡なデータを持つ最先端の分類器よりも、提案モデルの方が優れたオペステージングを実現できることを示している。

Occupational pneumoconiosis (OP) staging is a vital task concerning the lung healthy of a subject. The staging result of a patient is depended on the staging standard and his chest X-ray. It is essentially an image classification task. However, the distribution of OP data is commonly imbalanced, which largely reduces the effect of classification models which are proposed under the assumption that data follow a balanced distribution and causes inaccurate staging results. To achieve accurate OP staging, we proposed an OP staging model who is able to handle imbalance data in this work. The proposed model adopts gray level co-occurrence matrix (GLCM) to extract texture feature of chest X-ray and implements classification with a weighted broad learning system (WBLS). Empirical studies on six data cases provided by a hospital indicate that proposed model can perform better OP staging than state-of-the-art classifiers with imbalanced data.
翻訳日:2022-08-16 14:15:07 公開日:2022-08-13
# 半教師付き時系列分類のための自己教師付きコントラスト表現学習

Self-supervised Contrastive Representation Learning for Semi-supervised Time-Series Classification ( http://arxiv.org/abs/2208.06616v1 )

ライセンス: Link先を確認
Emadeldeen Eldele, Mohamed Ragab, Zhenghua Chen, Min Wu, Chee-Keong Kwoh, Xiaoli Li and Cuntai Guan(参考訳) ラベル付きデータやラベル付きサンプルが少ない場合に時系列表現を学ぶことは、難しい作業である。 近年, コントラスト型自己教師学習は, 異なるデータの拡張ビューを対比することにより, ラベルのないデータから有用な表現を抽出する上で大きな進歩を見せている。 本稿では,ラベルのないデータからコントラスト学習を行う時間的および文脈的コントラスト(ts-tcc)を用いた,新しい時系列表現学習フレームワークを提案する。 具体的には, 時系列特異的な弱・強増強法を提案し, 時間的コントラストモジュールにおける強固な時間関係を学習するために, コンテクストコントラストモジュールを用いて識別表現を学習する。 さらに,コントラスト学習の重要な部分である時系列データ拡張選択の体系的研究を行った。 また、TS-TCCを半教師付き学習環境に拡張し、TS-TCCで学習した表現をさらに改善するために、いくつかのラベル付きデータから恩恵を受けるクラスアウェアTS-TCC(CA-TCC)を提案する。 具体的には,ts-tccが生成するロバストな擬似ラベルを用いて,クラス認識によるコントラスト損失を実現する。 広範な実験により,提案フレームワークで学習した特徴の線形評価は,教師あり訓練と同等に機能することが示された。 さらに,ラベル付きデータと転送学習のシナリオでは高い効率を示す。 コードは \url{https://github.com/emadeldeen24/TS-TCC} で公開されている。

Learning time-series representations when only unlabeled data or few labeled samples are available can be a challenging task. Recently, contrastive self-supervised learning has shown great improvement in extracting useful representations from unlabeled data via contrasting different augmented views of data. In this work, we propose a novel Time-Series representation learning framework via Temporal and Contextual Contrasting (TS-TCC) that learns representations from unlabeled data with contrastive learning. Specifically, we propose time-series specific weak and strong augmentations and use their views to learn robust temporal relations in the proposed temporal contrasting module, besides learning discriminative representations by our proposed contextual contrasting module. Additionally, we conduct a systematic study of time-series data augmentation selection, which is a key part of contrastive learning. We also extend TS-TCC to the semi-supervised learning settings and propose a Class-Aware TS-TCC (CA-TCC) that benefits from the available few labeled data to further improve representations learned by TS-TCC. Specifically, we leverage robust pseudo labels produced by TS-TCC to realize class-aware contrastive loss. Extensive experiments show that the linear evaluation of the features learned by our proposed framework performs comparably with the fully supervised training. Additionally, our framework shows high efficiency in few labeled data and transfer learning scenarios. The code is publicly available at \url{https://github.com/emadeldeen24/TS-TCC}.
翻訳日:2022-08-16 14:14:50 公開日:2022-08-13
# MolFormerによるクラウドベースのリアルタイム分子スクリーニングプラットフォーム

Cloud-Based Real-Time Molecular Screening Platform with MolFormer ( http://arxiv.org/abs/2208.06665v1 )

ライセンス: Link先を確認
Brian Belgodere, Vijil Chenthamarakshan, Payel Das, Pierre Dognin, Toby Kurien, Igor Melnyk, Youssef Mroueh, Inkit Padhi, Mattia Rigotti, Jarret Ross, Yair Schiff, Richard A. Young(参考訳) 高い忠実度で多くの化学タスクを自動化する見込みがあるため、化学言語処理モデルが急速に登場している。 ここでは,ユーザが関心のある分子を仮想的に表示できるクラウドベースのリアルタイムプラットフォームを提案する。 この目的のために、最近提案されたMolFormerと呼ばれる大規模化学言語モデルから推論された分子埋め込みを利用する。 プラットフォームは現在、近隣の検索、化学空間の可視化、プロパティ予測の3つのタスクをサポートしている。 このプラットフォームの機能と結果に基づいて、このようなプラットフォームは化学や化学工学研究の自動化において重要な役割を担い、薬物発見や材料設計のタスクを支援することができると信じている。 プラットフォームのデモは \url{www.ibm.biz/molecular_demo} で公開されている。

With the prospect of automating a number of chemical tasks with high fidelity, chemical language processing models are emerging at a rapid speed. Here, we present a cloud-based real-time platform that allows users to virtually screen molecules of interest. For this purpose, molecular embeddings inferred from a recently proposed large chemical language model, named MolFormer, are leveraged. The platform currently supports three tasks: nearest neighbor retrieval, chemical space visualization, and property prediction. Based on the functionalities of this platform and results obtained, we believe that such a platform can play a pivotal role in automating chemistry and chemical engineering research, as well as assist in drug discovery and material design tasks. A demo of our platform is provided at \url{www.ibm.biz/molecular_demo}.
翻訳日:2022-08-16 14:14:25 公開日:2022-08-13
# 力を合わせてもよろしい。

May the force be with you ( http://arxiv.org/abs/2208.06676v1 )

ライセンス: Link先を確認
Yulan Zhang, Anna C. Gilbert, Stefan Steinerberger(参考訳) 現代の次元減少法は、非線形アトラクション反発力に基づく手法(t-SNE、UMAP、ForceAtlas2、LargeVisなど)で支配されている。 本研究の目的は,このような手法がすべて設計上,その過程で自動的に計算される付加的な特徴,すなわちこれらの力に付随するベクトル場を持つことを実証することである。 本稿では,このベクトル場がさらに高品質な情報を与える方法を示し,モース理論に基づく一般化戦略を提案する。 これらのアイデアの効率性は、合成および実生活データセットにおけるt-SNEを特に用いて説明される。

Modern methods in dimensionality reduction are dominated by nonlinear attraction-repulsion force-based methods (this includes t-SNE, UMAP, ForceAtlas2, LargeVis, and many more). The purpose of this paper is to demonstrate that all such methods, by design, come with an additional feature that is being automatically computed along the way, namely the vector field associated with these forces. We show how this vector field gives additional high-quality information and propose a general refinement strategy based on ideas from Morse theory. The efficiency of these ideas is illustrated specifically using t-SNE on synthetic and real-life data sets.
翻訳日:2022-08-16 14:14:13 公開日:2022-08-13
# 3次元点雲シーンのFew-shot Semantic Segmentationのための双方向特徴グローバリゼーション

Bidirectional Feature Globalization for Few-shot Semantic Segmentation of 3D Point Cloud Scenes ( http://arxiv.org/abs/2208.06671v1 )

ライセンス: Link先を確認
Yongqiang Mao, Zonghao Guo, Xiaonan Lu, Zhiqiang Yuan, Haowen Guo(参考訳) 局所的な点雲情報をグローバル表現に変換する効果的な方法はなく、点特徴の一般化能力を妨げているため、点雲のショットセグメンテーションは依然として難しい課題である。 本研究では,点特徴量とプロトタイプベクトルの類似性を利用した双方向特徴量グローバリゼーション(bfg)手法を提案する。 po2prg (point-to-prototype globalization) により、bfg は局所点特徴をプロトタイプに集約する。 プロトタイプ・ツー・ポイントのグローバル化(Pr2PoG)により、グローバルな認識は、疎いプロトタイプから高密度な特徴への類似度重みに基づく局所的な特徴に埋め込まれる。 グローバル知覚を組み込んだ各クラスのスパースプロトタイプを1つのプロトタイプにまとめ、メートル法学習フレームワークに基づいた、わずかな3dセグメンテーションを行う。 S3DISとScanNetの大規模な実験は、BFGが最先端の手法よりも著しく優れていることを示した。

Few-shot segmentation of point cloud remains a challenging task, as there is no effective way to convert local point cloud information to global representation, which hinders the generalization ability of point features. In this study, we propose a bidirectional feature globalization (BFG) approach, which leverages the similarity measurement between point features and prototype vectors to embed global perception to local point features in a bidirectional fashion. With point-to-prototype globalization (Po2PrG), BFG aggregates local point features to prototypes according to similarity weights from dense point features to sparse prototypes. With prototype-to-point globalization (Pr2PoG), the global perception is embedded to local point features based on similarity weights from sparse prototypes to dense point features. The sparse prototypes of each class embedded with global perception are summarized to a single prototype for few-shot 3D segmentation based on the metric learning framework. Extensive experiments on S3DIS and ScanNet demonstrate that BFG significantly outperforms the state-of-the-art methods.
翻訳日:2022-08-16 13:53:05 公開日:2022-08-13
# ds-mvsnet:深度合成による教師なしマルチビューステレオ

DS-MVSNet: Unsupervised Multi-view Stereo via Depth Synthesis ( http://arxiv.org/abs/2208.06674v1 )

ライセンス: Link先を確認
Jingliang Li, Zhengda Lu, Yiqun Wang, Ying Wang, Jun Xiao(参考訳) 近年,教師付きあるいは教師なしの学習ベースMVS法は,従来の手法と比較して優れた性能を示した。 しかし、これらの手法はコスト体積正規化によって計算された確率体積のみを用いて基準深度を予測し、この方法では確率体積から十分な情報を抽出できない。 さらに、教師なしのメソッドは通常、手順をより複雑にする2ステップまたは追加のインプットを使用しようとする。 本稿では,ds-mvsnet を提案する。これは,ソース深度合成を伴うエンドツーエンドの教師なしmvs構造である。 確率ボリュームの情報をマイニングするために,ソースビューに対して確率ボリュームと深さ仮説をスプラッタ化し,ソース深度を創造的に合成する。 一方,適応ガウスサンプリング法と適応ビンサンプリング法を提案し,奥行き仮説の精度を向上させる。 一方,ソース深度を利用して参照画像を描画し,奥行きの整合性損失と深さの滑らかさ損失を提案する。 これらは、追加入力なしで異なるビューにおける測光的および幾何学的整合性に応じて追加のガイダンスを提供することができる。 最後に、DTUデータセットとTurps & Templesデータセットに関する一連の実験を行い、DS-MVSNetの効率性とロバスト性を最先端の手法と比較した。

In recent years, supervised or unsupervised learning-based MVS methods achieved excellent performance compared with traditional methods. However, these methods only use the probability volume computed by cost volume regularization to predict reference depths and this manner cannot mine enough information from the probability volume. Furthermore, the unsupervised methods usually try to use two-step or additional inputs for training which make the procedure more complicated. In this paper, we propose the DS-MVSNet, an end-to-end unsupervised MVS structure with the source depths synthesis. To mine the information in probability volume, we creatively synthesize the source depths by splattering the probability volume and depth hypotheses to source views. Meanwhile, we propose the adaptive Gaussian sampling and improved adaptive bins sampling approach that improve the depths hypotheses accuracy. On the other hand, we utilize the source depths to render the reference images and propose depth consistency loss and depth smoothness loss. These can provide additional guidance according to photometric and geometric consistency in different views without additional inputs. Finally, we conduct a series of experiments on the DTU dataset and Tanks & Temples dataset that demonstrate the efficiency and robustness of our DS-MVSNet compared with the state-of-the-art methods.
翻訳日:2022-08-16 13:52:50 公開日:2022-08-13
# 深層畳み込みニューラルネットワークによる生体顔認識のモデル化

Modeling Biological Face Recognition with Deep Convolutional Neural Networks ( http://arxiv.org/abs/2208.06681v1 )

ライセンス: Link先を確認
Leonard E. van Dyck, Walter R. Gruber(参考訳) 深層畳み込みニューラルネットワーク(dcnn)は、生物物体認識の最先端の計算モデルとなっている。 彼らの素晴らしい成功は、視覚科学が新たな基盤を壊すのに役立った。 その結果,近年,この成果を生体顔認証分野に移管する試みが始まっている。 この点で顔検出は、顔選択生物領域とニューロンと人工的な層と単位の比較を通して研究することができる。 同様に、顔の識別はin vivoとsilicoの顔空間の表現の比較によって調べることができる。 このミニレビューでは、最初の研究をこの目的にまとめます。 我々は、DCNNは、生物学的顔認識の一般的な階層構造に従う有用なモデルであると主張している。 2つの点において、これらのモデルのユニークな科学的貢献を強調している。 第一に、DCNNにおける顔検出の研究は、フィードフォワードプロセスを通じて、基本顔選択性が自動的に現れることを示唆している。 第二に、DCNNにおける顔の識別に関する研究は、この課題には経験と追加の生成メカニズムが必要であることを示唆している。 この新しい計算手法は、前置詞(アーキテクチャ)と経験(トレーニングデータ)の密接な制御を可能にするため、生物学的顔認証の基盤に関する長年にわたる議論にも影響を及ぼす可能性がある。

Deep Convolutional Neural Networks (DCNNs) have become the state-of-the-art computational models of biological object recognition. Their remarkable success has helped vision science break new ground. Consequently, recent efforts have started to transfer this achievement to the domain of biological face recognition. In this regard, face detection can be investigated through comparisons of face-selective biological areas and neurons to artificial layers and units. Similarly, face identification can be examined through comparisons of in vivo and in silico face space representations. In this mini-review, we summarize the first studies with this aim. We argue that DCNNs are useful models, which follow the general hierarchical organization of biological face recognition. In two spotlights, we emphasize unique scientific contributions of these models. Firstly, studies on face detection in DCNNs propose that elementary face-selectivity emerges automatically through feedforward processes. Secondly, studies on face identification in DCNNs suggest that experience and additional generative mechanisms are required for this challenge. Taken together, as this novel computational approach enables close control of predisposition (i.e., architecture) and experience (i.e., training data), this could also inform longstanding debates on the substrates of biological face recognition.
翻訳日:2022-08-16 13:52:31 公開日:2022-08-13
# マルコフ連鎖を用いた個人用食品消費パターンのシミュレーション

Simulating Personal Food Consumption Patterns using a Modified Markov Chain ( http://arxiv.org/abs/2208.06709v1 )

ライセンス: Link先を確認
Xinyue Pan and Jiangpeng He and Andrew Peng and Fengqing Zhu(参考訳) 食品画像分類は、食品分類を予測するための画像ベースの食事アセスメントの基礎となる。 実生活には多くの異なる食品クラスがあるため、従来のモデルは十分な精度を達成できない。 パーソナライズされた分類器は、個々の食品画像分類の精度を大幅に向上することを目指している。 しかし、公共の個人的食料消費データがないことは、そのようなモデルを訓練する上での課題であることが証明されている。 この問題に対処するために,マルコフ連鎖モデルの改良と自己教師型学習を活用することにより,個人用食品消費データパターンをシミュレートする新しい枠組みを提案する。 提案手法は,限られた初期データから正確な将来データパターンを作成することが可能であり,シミュレーションデータパターンは初期データパターンと密接に相関することができる。 さらに,本手法の有効性を評価する指標として,動的時間ゆがみ距離とkullback-leiblerダイバージェンスを用いた。 実験結果はランダムシミュレーションとマルコフ連鎖法と比較して有望な性能を示す。

Food image classification serves as the foundation of image-based dietary assessment to predict food categories. Since there are many different food classes in real life, conventional models cannot achieve sufficiently high accuracy. Personalized classifiers aim to largely improve the accuracy of food image classification for each individual. However, a lack of public personal food consumption data proves to be a challenge for training such models. To address this issue, we propose a novel framework to simulate personal food consumption data patterns, leveraging the use of a modified Markov chain model and self-supervised learning. Our method is capable of creating an accurate future data pattern from a limited amount of initial data, and our simulated data patterns can be closely correlated with the initial data pattern. Furthermore, we use Dynamic Time Warping distance and Kullback-Leibler divergence as metrics to evaluate the effectiveness of our method on the public Food-101 dataset. Our experimental results demonstrate promising performance compared with random simulation and the original Markov chain method.
翻訳日:2022-08-16 13:52:12 公開日:2022-08-13
# ExpansionNet v2: Image Captioningのための高速エンドツーエンドトレーニングにおけるブロック静的拡張

ExpansionNet v2: Block Static Expansion in fast end to end training for Image Captioning ( http://arxiv.org/abs/2208.06551v1 )

ライセンス: Link先を確認
Jia Cheng Hu, Roberto Cavicchioli, Alessandro Capotondi(参考訳) 深層学習手法における入力長における性能ボトルネックの可能性を探る。 本研究では,入力と異なる長さで特徴付けられる不均一かつ任意に大きな列の集合に対して,入力を分散処理するブロック静的展開を導入する。 そこで本研究では, 画像キャプションにおける従来の手法に比べて, 有効性だけでなく, 6倍の高速化が期待できる拡張ネットv2モデルを提案する。 オンライン評価サーバでは140.8 CIDEr-D,nocaps Validationセットでは72.9 All-CIDEr,オフラインテストスプリットでは143.7 CIDEr-D,nocaps Validationセットでは72.9 All-CIDErである。 ソースコード: https://github.com/jchenghu/expansionnet_v2

Expansion methods explore the possibility of performance bottlenecks in the input length in Deep Learning methods. In this work, we introduce the Block Static Expansion which distributes and processes the input over a heterogeneous and arbitrarily big collection of sequences characterized by a different length compared to the input one. From this method we introduce a new model called ExpansionNet v2, which is trained using our new training strategy, designed to be not only effective but also 6 times faster compared to the standard approach of recent works in Image Captioning. Our new model achieves the state of art performance over the MS-COCO 2014 captioning challenge with a score of 143.7 CIDEr-D in the offline test split, 140.8 CIDEr-D in the online evaluation server and 72.9 All-CIDEr on the nocaps validation set. Source code available at: https://github.com/jchenghu/ExpansionNet_v2
翻訳日:2022-08-16 13:47:14 公開日:2022-08-13
# 教師なしビデオ領域適応のためのメモリ効率の高い時間・ビジュアルグラフモデル

Memory Efficient Temporal & Visual Graph Model for Unsupervised Video Domain Adaptation ( http://arxiv.org/abs/2208.06554v1 )

ライセンス: Link先を確認
Xinyue Hu, Lin Gu, Liangchen Liu, Ruijiang Li, Chang Su, Tatsuya Harada, Yingying Zhu(参考訳) 既存のビデオドメイン適応(DA)メソッドは、ビデオフレームのすべての時間的組み合わせを格納するか、ソースとターゲットのビデオをペアリングする必要がある。 これらの制約に対処するため,メモリ効率のよいグラフベースビデオDA手法を提案する。 ノードはビデオフレームを表し、エッジはフレーム間の時間的または視覚的な類似性を表す。 グラフアテンションネットワークを用いて、個々のフレームの重みを学習し、同時にソースとターゲット映像をドメイン不変グラフ特徴空間にアライメントする。 多数のサブビデオを保存する代わりに,1つのビデオに対してグラフ注目機構を備えたグラフを1つだけ構築し,メモリコストを大幅に削減する。 実験により, 最先端手法と比較して, メモリコストを大幅に削減しつつ, 優れた性能を示した。

Existing video domain adaption (DA) methods need to store all temporal combinations of video frames or pair the source and target videos, which are memory cost expensive and can't scale up to long videos. To address these limitations, we propose a memory-efficient graph-based video DA approach as follows. At first our method models each source or target video by a graph: nodes represent video frames and edges represent the temporal or visual similarity relationship between frames. We use a graph attention network to learn the weight of individual frames and simultaneously align the source and target video into a domain-invariant graph feature space. Instead of storing a large number of sub-videos, our method only constructs one graph with a graph attention mechanism for one video, reducing the memory cost substantially. The extensive experiments show that, compared with the state-of-art methods, we achieved superior performance while reducing the memory cost significantly.
翻訳日:2022-08-16 13:46:56 公開日:2022-08-13
# 画像によるポイント発見:視覚に基づくUAVローカライゼーションのためのエンドツーエンドベンチマーク

Finding Point with Image: An End-to-End Benchmark for Vision-based UAV Localization ( http://arxiv.org/abs/2208.06561v1 )

ライセンス: Link先を確認
Ming Dai, Jiahao Chen, Yusheng Lu, Wenlong Hao, Enhui Zheng(参考訳) 過去には、画像検索がクロスビュー測位とUAV視像定位タスクの主流のソリューションであった。 簡単に言えば、画像検索の方法は、トランジショナルな視点でGPSのような最終的な必要な情報を取得することである。 しかし、画像検索は完全にエンドツーエンドではない。 また,事前に機能ライブラリを準備する必要があること,ギャラリー構築のサンプリング間隔の問題など,大規模アプリケーションの実装が困難になるような冗長な操作もいくつかある。 本稿では、ソースBの画像(衛星ビュー)の対応する位置を、ソースAの画像(ドローンビュー)を介して直接見つけることを目的とした、画像付きポイント(FPI)のエンドツーエンド位置決め方式を提案する。 フレームワークの実現可能性を検証するため,UAV視覚自己ローカライゼーションタスクを解決するために,新しいデータセット(UL14)を構築した。 同時に、エンドツーエンドのトレーニングを実現するためのトランスフォーマーベースのベースラインも構築しています。 さらに、従来の評価手法はFPIの枠組みではもはや適用されない。 したがって、UAVの精度を評価するために、メートルレベル精度(MA)と相対距離スコア(RDS)を提案する。 同時に、FPIと画像検索法を予備的に比較し、FPIの構造は、速度と効率の両方で優れた性能を実現する。 特にfpiの課題は、異なる視点と劇的な空間スケール変換の間に大きな違いがあるため、大きな課題のままである。

In the past, image retrieval was the mainstream solution for cross-view geolocation and UAV visual localization tasks. In a nutshell, the way of image retrieval is to obtain the final required information, such as GPS, through a transitional perspective. However, the way of image retrieval is not completely end-to-end. And there are some redundant operations such as the need to prepare the feature library in advance, and the sampling interval problem of the gallery construction, which make it difficult to implement large-scale applications. In this article we propose an end-to-end positioning scheme, Finding Point with Image (FPI), which aims to directly find the corresponding location in the image of source B (satellite-view) through the image of source A (drone-view). To verify the feasibility of our framework, we construct a new dataset (UL14), which is designed to solve the UAV visual self-localization task. At the same time, we also build a transformer-based baseline to achieve end-to-end training. In addition, the previous evaluation methods are no longer applicable under the framework of FPI. Thus, Metre-level Accuracy (MA) and Relative Distance Score (RDS) are proposed to evaluate the accuracy of UAV localization. At the same time, we preliminarily compare FPI and image retrieval method, and the structure of FPI achieves better performance in both speed and efficiency. In particular, the task of FPI remains great challenges due to the large differences between different views and the drastic spatial scale transformation.
翻訳日:2022-08-16 13:46:40 公開日:2022-08-13
# itsの車両再識別:深層学習を用いた機能融合アプローチ

Enhanced Vehicle Re-identification for ITS: A Feature Fusion approach using Deep Learning ( http://arxiv.org/abs/2208.06579v1 )

ライセンス: Link先を確認
Ashutosh Holla B, Manohara Pai M.M, Ujjwal Verma, Radhika M. Pai(参考訳) 近年,頻繁な交通問題を低減し,より効率的な交通効率を実現するため,堅牢なインテリジェント交通システム(ITS)の開発が世界中で進められている。 ITSの応用として、車両の再識別はコンピュータビジョンとロボティクスの分野において大きな関心を集めている。 畳み込みニューラルネットワーク(convolutional neural network, cnn)に基づく手法を開発し, 咬合, 照明変化, スケールなどの重要な課題に対処するため, 車両の再同定を行う。 コンピュータビジョンにおけるトランスフォーマーの進歩は、さらに性能を高めるために再同定プロセスを探求する機会を開いた。 本稿では,CCTVカメラで車両を再識別するためのフレームワークを開発した。 再同定を行うため,提案手法はCNNと変圧器モデルを用いて学習した車両表現を融合する。 このフレームワークは、CCTVカメラ20台で観測された81のユニークな車両識別を含むデータセットでテストされている。 実験の結果、融合車両の再識別フレームワークは61.73%のmAPが得られるが、これはスタンドアロンのCNNやトランスフォーマーモデルと比較してかなり良い。

In recent years, the development of robust Intelligent transportation systems (ITS) is tackled across the globe to provide better traffic efficiency by reducing frequent traffic problems. As an application of ITS, vehicle re-identification has gained ample interest in the domain of computer vision and robotics. Convolutional neural network (CNN) based methods are developed to perform vehicle re-identification to address key challenges such as occlusion, illumination change, scale, etc. The advancement of transformers in computer vision has opened an opportunity to explore the re-identification process further to enhance performance. In this paper, a framework is developed to perform the re-identification of vehicles across CCTV cameras. To perform re-identification, the proposed framework fuses the vehicle representation learned using a CNN and a transformer model. The framework is tested on a dataset that contains 81 unique vehicle identities observed across 20 CCTV cameras. From the experiments, the fused vehicle re-identification framework yields an mAP of 61.73% which is significantly better when compared with the standalone CNN or transformer model.
翻訳日:2022-08-16 13:46:17 公開日:2022-08-13
# CNNを用いた脳MRI分割における画像バイアスの検討

A Study of Demographic Bias in CNN-based Brain MR Segmentation ( http://arxiv.org/abs/2208.06613v1 )

ライセンス: Link先を確認
Stefanos Ioannou (1), Hana Chockler (1 and 3), Alexander Hammers (2) and Andrew P. King (2) ((1) Department of Informatics, King's College London, U.K., (2) School of Biomedical Engineering and Imaging Sciences, King's College London, U.K., (3) causaLens Ltd., U.K.)(参考訳) 畳み込みニューラルネットワーク(CNN)は、研究のために磁気共鳴(MR)画像における脳構造のセグメンテーションを自動化するためにますます使われている。 他の応用では、CNNモデルはトレーニングセットで表現されていないときに特定の人口集団に対してバイアスを示すことが示されている。 そこで本研究では,脳MRIのセグメンテーションのためのCNNモデルが,不均衡なトレーニングセットでトレーニングした場合に,性差や人種バイアスを含む可能性があるかを検討する。 我々は、白人被験者で異なるレベルの性不均衡を用いて、FastSurferCNNモデルの複数のインスタンスを訓練する。 性別バイアスを評価するために,白人男性と白人女性を対象に,これらのモデルの性能を別々に評価し,さらに黒人男性と黒人女性を対象に,潜在的な人種バイアスを評価する。 セグメンテーションモデルの性能には有意な性差と人種バイアスの影響がある。 バイアスは強い空間成分を持ち、一部の脳領域は他の領域よりも強いバイアスを示す。 その結果、人種偏見は性偏見よりも有意であることが示唆された。 本研究は,cnnベースの脳mrセグメンテーションのためのトレーニングセットを形成する際に,人種と性バランスを考慮することの重要性を示し,バイアスド・リサーチによる既存の健康不平等の維持や悪化を回避できることを示した。

Convolutional neural networks (CNNs) are increasingly being used to automate the segmentation of brain structures in magnetic resonance (MR) images for research studies. In other applications, CNN models have been shown to exhibit bias against certain demographic groups when they are under-represented in the training sets. In this work, we investigate whether CNN models for brain MR segmentation have the potential to contain sex or race bias when trained with imbalanced training sets. We train multiple instances of the FastSurferCNN model using different levels of sex imbalance in white subjects. We evaluate the performance of these models separately for white male and white female test sets to assess sex bias, and furthermore evaluate them on black male and black female test sets to assess potential racial bias. We find significant sex and race bias effects in segmentation model performance. The biases have a strong spatial component, with some brain regions exhibiting much stronger bias than others. Overall, our results suggest that race bias is more significant than sex bias. Our study demonstrates the importance of considering race and sex balance when forming training sets for CNN-based brain MR segmentation, to avoid maintaining or even exacerbating existing health inequalities through biased research study findings.
翻訳日:2022-08-16 13:45:58 公開日:2022-08-13
# コーサリエンシー検出のための2段階グループセマンティクス伝播とコントラスト学習ネットワーク

A Unified Two-Stage Group Semantics Propagation and Contrastive Learning Network for Co-Saliency Detection ( http://arxiv.org/abs/2208.06615v1 )

ライセンス: Link先を確認
Zhenshan Tan, Cheng Chen, Keyu Wen, Yuzhuo Qin, Xiaodong Gu(参考訳) Co-Saliency Detection (CoSOD) は、複数の画像から繰り返しサリエントな物体を発見することを目的としている。 2つの主な課題は、グループセマンティクス抽出とノイズオブジェクト抑圧である。 本稿では,CoSODのための2段階のセマンティクスであるPropagatIonとContrastive Learning NETwork(TopicNet)を提案する。 TopicNetは、最初の課題に対処する2段階のグループセマンティクス伝搬モジュール(TGSP)と、第二の課題に対処するコントラスト学習モジュール(CLM)の2つのサブ構造に分解することができる。 具体的には,グループ内類似機能のコンセンサス表現をキャプチャするimage-to-group propagation module (igp) と,コンセンサス表現の関連性を構築するgroup-to-pixel propagation module (gpp) を設計した。 CLMでは、正のサンプルの設計により、セマンティック一貫性が向上する。 負のサンプルの設計により、ノイズオブジェクトが抑制される。 3つの主要なベンチマークの実験結果から、TopicNetは様々な評価指標で他の競合他社よりも優れています。

Co-saliency detection (CoSOD) aims at discovering the repetitive salient objects from multiple images. Two primary challenges are group semantics extraction and noise object suppression. In this paper, we present a unified Two-stage grOup semantics PropagatIon and Contrastive learning NETwork (TopicNet) for CoSOD. TopicNet can be decomposed into two substructures, including a two-stage group semantics propagation module (TGSP) to address the first challenge and a contrastive learning module (CLM) to address the second challenge. Concretely, for TGSP, we design an image-to-group propagation module (IGP) to capture the consensus representation of intra-group similar features and a group-to-pixel propagation module (GPP) to build the relevancy of consensus representation. For CLM, with the design of positive samples, the semantic consistency is enhanced. With the design of negative samples, the noise objects are suppressed. Experimental results on three prevailing benchmarks reveal that TopicNet outperforms other competitors in terms of various evaluation metrics.
翻訳日:2022-08-16 13:45:36 公開日:2022-08-13
# 畳み込みニューラルネットワークのためのエントロピー誘起プルーニングフレームワーク

Entropy Induced Pruning Framework for Convolutional Neural Networks ( http://arxiv.org/abs/2208.06660v1 )

ライセンス: Link先を確認
Yiheng Lu, Ziyu Guan, Yaming Yang, Maoguo Gong, Wei Zhao, Kaiyuan Feng(参考訳) 画像分類タスクのための畳み込みニューラルネットワークにおいて、構造化プルーニング技術は大きな圧縮性能を達成した。 しかし、既存の手法の大部分は重量指向であり、元のモデルが不十分なトレーニングを受けた場合、その刈り取りの結果は満足できないかもしれない。 すなわち、有用な重量情報を提供するために、完全に訓練されたモデルが必要である。 これは時間を要する可能性があり、プラニング結果はモデルパラメータの更新プロセスに敏感である。 本稿では,各フィルタの重要性を測定するために,平均フィルタ情報エントロピー (AFIE) というメトリクスを提案する。 これは、各畳み込み層の「入出力」行列の低ランク分解、得られた固有値の正規化、情報エントロピーに基づくフィルタ重要性の計算という3つの主要なステップによって計算される。 提案したAFIEを利用することで,提案フレームワークは,元のモデルが十分に訓練されているかどうかに関わらず,各フィルタの安定的な重要度評価を行うことができる。 我々はAlexNet、VGG-16、ResNet-50に基づいてAFIEを実装し、それぞれMNIST、CIFAR-10、ImageNetでテストする。 実験結果は励まされている。 我々は,本手法において,原モデルが1つのエポックでのみ訓練された場合でも,各フィルタの重要度は,モデルが完全に訓練された結果と同一であることを示した。 このことは,本モデルにおける学習プロセスの開始段階でのプルーニング戦略が効果的に機能することを示す。

Structured pruning techniques have achieved great compression performance on convolutional neural networks for image classification task. However, the majority of existing methods are weight-oriented, and their pruning results may be unsatisfactory when the original model is trained poorly. That is, a fully-trained model is required to provide useful weight information. This may be time-consuming, and the pruning results are sensitive to the updating process of model parameters. In this paper, we propose a metric named Average Filter Information Entropy (AFIE) to measure the importance of each filter. It is calculated by three major steps, i.e., low-rank decomposition of the "input-output" matrix of each convolutional layer, normalization of the obtained eigenvalues, and calculation of filter importance based on information entropy. By leveraging the proposed AFIE, the proposed framework is able to yield a stable importance evaluation of each filter no matter whether the original model is trained fully. We implement our AFIE based on AlexNet, VGG-16, and ResNet-50, and test them on MNIST, CIFAR-10, and ImageNet, respectively. The experimental results are encouraging. We surprisingly observe that for our methods, even when the original model is only trained with one epoch, the importance evaluation of each filter keeps identical to the results when the model is fully-trained. This indicates that the proposed pruning strategy can perform effectively at the beginning stage of the training process for the original model.
翻訳日:2022-08-16 13:45:15 公開日:2022-08-13
# ssp-pose:直接カテゴリーレベル物体ポーズ推定のための対称性を考慮した形状事前変形

SSP-Pose: Symmetry-Aware Shape Prior Deformation for Direct Category-Level Object Pose Estimation ( http://arxiv.org/abs/2208.06661v1 )

ライセンス: Link先を確認
Ruida Zhang, Yan Di, Fabian Manhardt, Federico Tombari, Xiangyang Ji(参考訳) カテゴリーレベルのポーズ推定はクラス内の形状変化のために難しい問題である。 近年の手法では、観測された点雲を正規化された物体座標空間にマッピングし、後処理、すなわち梅山アルゴリズムを用いてポーズを復元する。 この二段階戦略の欠点は2つの側面にある。 1) 中間結果の代理監督は, ポーズの学習を直接指導することはできないため, 後処理後のポーズエラーが大きい。 2) 推論速度は後処理ステップによって制限される。 本稿では、これらの欠点に対処するため、カテゴリレベルのポーズ推定のためのエンドツーエンドのトレーニング可能なネットワークSSP-Poseを提案する。 SSP-Poseは、4つの分枝を共有特徴抽出器に積み重ね、この2つの分枝は前モデルと観測例とを変形・整合するように設計され、残りの2つの分枝は、全9自由度ポーズを直接回帰させ、それぞれ対称性再構成と点次不整合マスク予測を行う。 一貫性損失項は自然に利用され、異なるブランチの出力を整列させ、パフォーマンスを促進する。 推論中は、直接ポーズ回帰ブランチのみが必要である。 このように、SSP-Poseはカテゴリレベルのポーズ感性特性を学習し、性能を向上するだけでなく、リアルタイムの推論速度も維持する。 さらに,各カテゴリの対称性情報を用いて,変形前の形状を案内し,マッチングのあいまいさを軽減するための新しい対称性認識損失を提案する。 公開データセットに対する大規模な実験により、SSP-Poseは、リアルタイムの推論速度が約25Hzの競合と比較して、優れた性能を発揮することが示された。

Category-level pose estimation is a challenging problem due to intra-class shape variations. Recent methods deform pre-computed shape priors to map the observed point cloud into the normalized object coordinate space and then retrieve the pose via post-processing, i.e., Umeyama's Algorithm. The shortcomings of this two-stage strategy lie in two aspects: 1) The surrogate supervision on the intermediate results can not directly guide the learning of pose, resulting in large pose error after post-processing. 2) The inference speed is limited by the post-processing step. In this paper, to handle these shortcomings, we propose an end-to-end trainable network SSP-Pose for category-level pose estimation, which integrates shape priors into a direct pose regression network. SSP-Pose stacks four individual branches on a shared feature extractor, where two branches are designed to deform and match the prior model with the observed instance, and the other two branches are applied for directly regressing the totally 9 degrees-of-freedom pose and performing symmetry reconstruction and point-wise inlier mask prediction respectively. Consistency loss terms are then naturally exploited to align the outputs of different branches and promote the performance. During inference, only the direct pose regression branch is needed. In this manner, SSP-Pose not only learns category-level pose-sensitive characteristics to boost performance but also keeps a real-time inference speed. Moreover, we utilize the symmetry information of each category to guide the shape prior deformation, and propose a novel symmetry-aware loss to mitigate the matching ambiguity. Extensive experiments on public datasets demonstrate that SSP-Pose produces superior performance compared with competitors with a real-time inference speed at about 25Hz.
翻訳日:2022-08-16 13:44:52 公開日:2022-08-13
# カプセル映像からの自己完結型エンティティ発見

Self-Contained Entity Discovery from Captioned Videos ( http://arxiv.org/abs/2208.06662v1 )

ライセンス: Link先を確認
Melika Ayoughi, Pascal Mettes, Paul Groth(参考訳) 本稿では、タスク固有の監督やタスク固有の外部知識源を必要とせずに、ビデオにおける視覚的実体発見のタスクを紹介する。 特定の名前をビデオフレーム内のエンティティ(顔、シーン、オブジェクトなど)に割り当てることは、長年の課題です。 一般に、この問題は、エンティティラベルを手動でアノテートすることで、教師付き学習目的として対処される。 この設定のアノテーション負担を回避すべく,映画データベースなどの外部知識源を活用して,いくつかの研究を行った。 効果はあるものの、タスク固有の知識ソースが提供されず、映画やテレビシリーズにしか適用できない場合、このようなアプローチは機能しない。 本研究では,この問題をさらに一歩進めて,ビデオや対応する字幕や字幕から動画の実体を発見することを提案する。 我々は3段階の手法を導入する。 (i)フレームキャプションペアから2部実体名グラフを作成する。 (ii)視覚的な実体の合意を見つけること、及び (iii)エンティティレベルのプロトタイプ構築によりエンティティの割り当てを洗練すること。 この問題に対処するため、我々はFriendsとBig Bang Theory TVシリーズに基づくSC-FriendsとSC-BBTの2つの新しいベンチマークを概説した。 ベンチマークにおける実験は、ビデオに現れるマルチモーダル情報から、どの名前付きエンティティがどの顔やシーンに属しているのかを、監督されたオラクルに近い精度で発見する能力を示しています。 さらに、我々の定性的な例は、将来の作業のための視覚的実体を自己完結した発見の潜在的な課題を示している。 コードとデータはGitHubで公開されている。

This paper introduces the task of visual named entity discovery in videos without the need for task-specific supervision or task-specific external knowledge sources. Assigning specific names to entities (e.g. faces, scenes, or objects) in video frames is a long-standing challenge. Commonly, this problem is addressed as a supervised learning objective by manually annotating faces with entity labels. To bypass the annotation burden of this setup, several works have investigated the problem by utilizing external knowledge sources such as movie databases. While effective, such approaches do not work when task-specific knowledge sources are not provided and can only be applied to movies and TV series. In this work, we take the problem a step further and propose to discover entities in videos from videos and corresponding captions or subtitles. We introduce a three-stage method where we (i) create bipartite entity-name graphs from frame-caption pairs, (ii) find visual entity agreements, and (iii) refine the entity assignment through entity-level prototype construction. To tackle this new problem, we outline two new benchmarks SC-Friends and SC-BBT based on the Friends and Big Bang Theory TV series. Experiments on the benchmarks demonstrate the ability of our approach to discover which named entity belongs to which face or scene, with an accuracy close to a supervised oracle, just from the multimodal information present in videos. Additionally, our qualitative examples show the potential challenges of self-contained discovery of any visual entity for future work. The code and the data are available on GitHub.
翻訳日:2022-08-16 13:44:18 公開日:2022-08-13
# aiによるエンティティのすべてのカテゴリの認識

Recognition of All Categories of Entities by AI ( http://arxiv.org/abs/2208.06590v1 )

ライセンス: Link先を確認
Hiroshi Yamakawa and Yutaka Matsuo(参考訳) 人間レベルのAIは、人間の社会に大きな影響を与える。 しかし、実現時間の見積もりは議論の余地がある。 人間レベルのAIに到達するために、特定のタスクに特化したAIシステムとは対照的に、人工知能(AGI)は技術的に意味のある長期的な目標として設定された。 しかし今や、ディープラーニングの進歩によって、その達成はますます近づいている。 近年の技術発展を考えると、人間レベルの能力を合理的な粒度にマッピングし、現在の技術範囲を特定し、未調査領域を横断する技術的課題を議論し、そのすべてを克服するタイミングを予測する「理解的技術マップアプローチ」を通じて、人間レベルのaiの完成日を議論することは有意義である。 本稿では,日常の直観と科学的実践を包含する存在論的六分儀を総合的な技術地図として捉えるための新しい議論的選択肢を提案する。 世界のモデリングのほとんどは、それをどのように解釈するかという点で、知的対象は遠方実体の認識と時間的進化の予測であり、全ての遠方実体を扱えることは合理的な目標である。 哲学と工学的認知技術の知見に基づいて、比較的近い将来、aiは人間と同じ程度に様々な実体を認識できるようになると予測する。

Human-level AI will have significant impacts on human society. However, estimates for the realization time are debatable. To arrive at human-level AI, artificial general intelligence (AGI), as opposed to AI systems that are specialized for a specific task, was set as a technically meaningful long-term goal. But now, propelled by advances in deep learning, that achievement is getting much closer. Considering the recent technological developments, it would be meaningful to discuss the completion date of human-level AI through the "comprehensive technology map approach," wherein we map human-level capabilities at a reasonable granularity, identify the current range of technology, and discuss the technical challenges in traversing unexplored areas and predict when all of them will be overcome. This paper presents a new argumentative option to view the ontological sextet, which encompasses entities in a way that is consistent with our everyday intuition and scientific practice, as a comprehensive technological map. Because most of the modeling of the world, in terms of how to interpret it, by an intelligent subject is the recognition of distal entities and the prediction of their temporal evolution, being able to handle all distal entities is a reasonable goal. Based on the findings of philosophy and engineering cognitive technology, we predict that in the relatively near future, AI will be able to recognize various entities to the same degree as humans.
翻訳日:2022-08-16 13:41:17 公開日:2022-08-13
# MaskBlock:ベイズアプローチによるトランスファー可能な逆例

MaskBlock: Transferable Adversarial Examples with Bayes Approach ( http://arxiv.org/abs/2208.06538v1 )

ライセンス: Link先を確認
Mingyuan Fan, Cen Chen, Ximeng Liu, Wenzhong Guo(参考訳) 多様なモデルにわたる敵の例(AE)の転送性は、攻撃者がブラックボックスモデルに関する情報にアクセスできないブラックボックスの敵攻撃において重要である。 しかし、工芸品のAEは常に輸送性に乏しい。 本稿では,モデルの一般化能力としてのAEsの転送可能性について,最大推定(MLE)問題を解くことにより,バニラブラックボックスがAEsを攻撃していることを明らかにする。 MLEの場合、結果はおそらく、利用可能なデータが小さい場合、つまりAEsの転送可能性を制限するモデル固有の局所最適化である。 対照的に,aesを後続確率推定問題の最大化問題として再定式化し,限られたデータで結果の一般化を促進するための効果的なアプローチである。 ベイズ後方推定は一般に難解なため、近似推定のためにマスクブロックと呼ばれる単純かつ効果的な手法が開発されている。 さらに, この定式化フレームワークは, 各種攻撃手法の一般化版であることを示す。 広範囲な実験により、マスクブロックは、手作りの敵対的な例の転送性を最大20%向上させることが示されている。

The transferability of adversarial examples (AEs) across diverse models is of critical importance for black-box adversarial attacks, where attackers cannot access the information about black-box models. However, crafted AEs always present poor transferability. In this paper, by regarding the transferability of AEs as generalization ability of the model, we reveal that vanilla black-box attacks craft AEs via solving a maximum likelihood estimation (MLE) problem. For MLE, the results probably are model-specific local optimum when available data is small, i.e., limiting the transferability of AEs. By contrast, we re-formulate crafting transferable AEs as the maximizing a posteriori probability estimation problem, which is an effective approach to boost the generalization of results with limited available data. Because Bayes posterior inference is commonly intractable, a simple yet effective method called MaskBlock is developed to approximately estimate. Moreover, we show that the formulated framework is a generalization version for various attack methods. Extensive experiments illustrate MaskBlock can significantly improve the transferability of crafted adversarial examples by up to about 20%.
翻訳日:2022-08-16 13:34:44 公開日:2022-08-13
# グリア腫瘍分類のための機械学習に基づく放射能と体積解析との比較

Machine Learning Based Radiomics for Glial Tumor Classification and Comparison with Volumetric Analysis ( http://arxiv.org/abs/2208.06739v1 )

ライセンス: Link先を確認
Sevcan Turk, Kaya Oguz, Mehmet Orman, Emre Caliskan, Yesim Ertan, Erkin Ozgiray, Taner Akalin, Ashok Srinivasan, Omer Kitis(参考訳) 目的; 本研究の目的は, 容積解析と比較して, 機械学習をマルチモーダルMRI特徴に応用することにより, グリア腫瘍をグレードII, III, IVカテゴリーに非侵襲的に分類することである。 方法: 3T MRIにて得られたT1強調画像, T2重み画像, FLAIR画像, ADCマップの57例について検討した。 腫瘍は,ITK-SNAPオープンソースツールの半自動セグメンテーションを用いて,腫瘍壊死,嚢胞,浮腫の増強と非増強に区分した。 総腫瘍容積,増悪性腫瘍,浮腫,壊死量および全腫瘍容積に対する比を測定した。 関心事に答えるためにラベル付きデータを用いて支援ベクトルマシン(SVM)分類器と人工知能ニューラルネットワーク(ANN)の訓練を行った。 ROC分析により,予測の特異性,感度,AUCを算出した。 Kruskall Wallis を用いて群間の連続的な測定値の差を評価し, 複数比較のためのポストホックダン補正を行った。 結果: 群間の体積比を比較すると, grade iv と grade ii-iii のグリア腫瘍との間に有意な差が認められた。 グレードIVグリア腫瘍に対する浮腫,腫瘍壊死容積比は,グレードII,IIIより高かった。 ボリューム比分析ではグレードIIとIIIの腫瘍の鑑別が困難であった。 しかし、SVMとANNは、それぞれのグループを98%と96%の精度で正しく分類した。 結論:MRI機能への機械学習手法の適用は、臨床現場で脳腫瘍を非侵襲的に容易に分類するために用いられる。

Purpose; The purpose of this study is to classify glial tumors into grade II, III and IV categories noninvasively by application of machine learning to multi-modal MRI features in comparison with volumetric analysis. Methods; We retrospectively studied 57 glioma patients with pre and postcontrast T1 weighted, T2 weighted, FLAIR images, and ADC maps acquired on a 3T MRI. The tumors were segmented into enhancing and nonenhancing portions, tumor necrosis, cyst and edema using semiautomated segmentation of ITK-SNAP open source tool. We measured total tumor volume, enhancing-nonenhancing tumor, edema, necrosis volume and the ratios to the total tumor volume. Training of a support vector machine (SVM) classifier and artificial neural network (ANN) was performed with labeled data designed to answer the question of interest. Specificity, sensitivity, and AUC of the predictions were computed by means of ROC analysis. Differences in continuous measures between groups were assessed by using Kruskall Wallis, with post hoc Dunn correction for multiple comparisons. Results; When we compared the volume ratios between groups, there was statistically significant difference between grade IV and grade II-III glial tumors. Edema and tumor necrosis volume ratios for grade IV glial tumors were higher than that of grade II and III. Volumetric ratio analysis could not distinguish grade II and III tumors successfully. However, SVM and ANN correctly classified each group with accuracies up to 98% and 96%. Conclusion; Application of machine learning methods to MRI features can be used to classify brain tumors noninvasively and more readily in clinical settings.
翻訳日:2022-08-16 13:34:27 公開日:2022-08-13
# MetricBERT: 自己監督型トリプルトトレーニングによるテキスト表現学習

MetricBERT: Text Representation Learning via Self-Supervised Triplet Training ( http://arxiv.org/abs/2208.06610v1 )

ライセンス: Link先を確認
Itzik Malkiel, Dvir Ginzburg, Oren Barkan, Avi Caciularu, Yoni Weill, Noam Koenigstein(参考訳) 本研究では,‘従来の’マスク付き言語タスクに固執しながら,よく定義された類似度メトリクスにテキストを埋め込むことを学ぶbertベースのモデルであるmetricbertを提案する。 私たちは、MetricBERTが最先端の代替品より優れていることを示すレコメンデーションのために類似性を学習する下流タスクに焦点を当てています。 提案手法とその変種を広範囲に評価し,従来のコントラスト損失,標準コサイン類似性目標,その他6種類のベースラインに対して,トレーニング目標が極めて有益であることを示す。 追加の貢献として、私たちは、ビデオゲームの説明のデータセットと、ドメインエキスパートが作成した類似性アノテーションのテストセットを公開します。

We present MetricBERT, a BERT-based model that learns to embed text under a well-defined similarity metric while simultaneously adhering to the ``traditional'' masked-language task. We focus on downstream tasks of learning similarities for recommendations where we show that MetricBERT outperforms state-of-the-art alternatives, sometimes by a substantial margin. We conduct extensive evaluations of our method and its different variants, showing that our training objective is highly beneficial over a traditional contrastive loss, a standard cosine similarity objective, and six other baselines. As an additional contribution, we publish a dataset of video games descriptions along with a test set of similarity annotations crafted by a domain expert.
翻訳日:2022-08-16 13:33:23 公開日:2022-08-13
# アクティベーションとサリエンシマップによるBERTテキスト類似性の解釈

Interpreting BERT-based Text Similarity via Activation and Saliency Maps ( http://arxiv.org/abs/2208.06612v1 )

ライセンス: Link先を確認
Itzik Malkiel, Dvir Ginzburg, Oren Barkan, Avi Caciularu, Jonathan Weill, Noam Koenigstein(参考訳) 近年,テキスト類似性など,いくつかのアプリケーションで意味のあるテキストの埋め込みを生成するトランスフォーマーモデルへの関心が高まっている。 この分野の著しい進歩にもかかわらず、類似性予測のための説明は、特に教師なしの設定では難しいままである。 本研究では,事前学習したBERTモデルから推定される段落類似性を説明するための教師なし手法を提案する。 一対の段落を見ると,各段落の意味を規定する重要な単語を識別し,各段落間の単語の一致を判定し,両者の類似性を説明する最も重要なペアを検索する。 この手法は, 人的評価によって評価され, 長い段落と複雑な段落からなるデータセット上で実証され, 人間の知覚とよく相関する正確な解釈が得られた。

Recently, there has been growing interest in the ability of Transformer-based models to produce meaningful embeddings of text with several applications, such as text similarity. Despite significant progress in the field, the explanations for similarity predictions remain challenging, especially in unsupervised settings. In this work, we present an unsupervised technique for explaining paragraph similarities inferred by pre-trained BERT models. By looking at a pair of paragraphs, our technique identifies important words that dictate each paragraph's semantics, matches between the words in both paragraphs, and retrieves the most important pairs that explain the similarity between the two. The method, which has been assessed by extensive human evaluations and demonstrated on datasets comprising long and complex paragraphs, has shown great promise, providing accurate interpretations that correlate better with human perceptions.
翻訳日:2022-08-16 13:33:11 公開日:2022-08-13
# ナレッジグラフを用いた会話質問応答のための回答言語化データセット

An Answer Verbalization Dataset for Conversational Question Answerings over Knowledge Graphs ( http://arxiv.org/abs/2208.06734v1 )

ライセンス: Link先を確認
Endri Kacupaj, Kuldeep Singh, Maria Maleshkova, Jens Lehmann(参考訳) 本稿では,知識グラフ(KG)を用いた会話型質問応答のための新しいデータセットを提案する。 KGsに対する質問応答は、現在、シングルターン質問(KGQA)やマルチターン会話質問応答(ConvQA)の回答生成に重点を置いている。 しかし、現実世界のシナリオ(例えばSiri、Alexa、Google Assistantのような音声アシスタント)では、ユーザーは口頭で答えることを好む。 本稿では,既存のconvqaデータセットを複数のパラフレーズの回答で拡張することで,最先端のデータベースに寄与する。 5つのシーケンス・ツー・シーケンスモデルを用いて,文法的正しさを維持しながら応答生成実験を行った。 さらに、特定のカテゴリにおけるモデルの誤予測率を詳述する誤り解析を行う。 提案するデータセットには,汎用性の向上に関する詳細な資料が公開されている。

We introduce a new dataset for conversational question answering over Knowledge Graphs (KGs) with verbalized answers. Question answering over KGs is currently focused on answer generation for single-turn questions (KGQA) or multiple-tun conversational question answering (ConvQA). However, in a real-world scenario (e.g., voice assistants such as Siri, Alexa, and Google Assistant), users prefer verbalized answers. This paper contributes to the state-of-the-art by extending an existing ConvQA dataset with multiple paraphrased verbalized answers. We perform experiments with five sequence-to-sequence models on generating answer responses while maintaining grammatical correctness. We additionally perform an error analysis that details the rates of models' mispredictions in specified categories. Our proposed dataset extended with answer verbalization is publicly available with detailed documentation on its usage for wider utility.
翻訳日:2022-08-16 13:32:57 公開日:2022-08-13
# benchpress: 深いアクティブなベンチマークジェネレータ

BenchPress: A Deep Active Benchmark Genertor ( http://arxiv.org/abs/2208.06555v1 )

ライセンス: Link先を確認
Foivos Tsimpourlas, Pavlos Petoumenos, Min Xu, Chris Cummins, Kim Hazelwood, Ajitha Rajan and Hugh Leather(参考訳) 我々は,ソースコードの特徴空間表現にステアリング可能な,コンパイラ用の最初のMLベンチマークジェネレータであるBenchPressを開発した。 BenchPressは、左と右のコンテキストを共同で観察することで、空または既存のシーケンスの任意の部分に新しいコードを追加することで、コンパイル機能を合成する。 benchpressは、アートシンセサイザー(あるいは実際に人間)が到達できないような、望ましいターゲット機能に向けてベンチマーク生成を行う。 ロジニアベンチマークの特徴を3つの異なる特徴空間でターゲティングすることで、パフォーマンスが向上する。 (a)CLgen-アートMLシンセサイザーの状態。 b)clsmith fuzzer。 (c)SRCIRORミュータ、さらには (d) GitHubから人間が書いたコード。 BenchPressは、下流タスクを改善するベンチマークを生成するために、アクティブな学習でフィーチャースペースを検索する最初のジェネレータである。 ベンチプレス、グローヴズなどの使い方をお見せします。 cpu対gpuのヒューリスティックモデルは、benchpressのベンチマークで他の手法よりも高いスピードアップが得られる。 BenchPressは強力なコードジェネレータである。生成されたサンプルはCLgenの2.33%に比べて86%の割合でコンパイルされる。 空の固定入力から始めると、BenchPressはCLgenよりも10倍ユニークなOpenCLベンチマークを生成する。

We develop BenchPress, the first ML benchmark generator for compilers that is steerable within feature space representations of source code. BenchPress synthesizes compiling functions by adding new code in any part of an empty or existing sequence by jointly observing its left and right context, achieving excellent compilation rate. BenchPress steers benchmark generation towards desired target features that has been impossible for state of the art synthesizers (or indeed humans) to reach. It performs better in targeting the features of Rodinia benchmarks in 3 different feature spaces compared with (a) CLgen - a state of the art ML synthesizer, (b) CLSmith fuzzer, (c) SRCIROR mutator or even (d) human-written code from GitHub. BenchPress is the first generator to search the feature space with active learning in order to generate benchmarks that will improve a downstream task. We show how using BenchPress, Grewe's et al. CPU vs GPU heuristic model can obtain a higher speedup when trained on BenchPress's benchmarks compared to other techniques. BenchPress is a powerful code generator: Its generated samples compile at a rate of 86%, compared to CLgen's 2.33%. Starting from an empty fixed input, BenchPress produces 10x more unique, compiling OpenCL benchmarks than CLgen, which are significantly larger and more feature diverse.
翻訳日:2022-08-16 13:32:19 公開日:2022-08-13
# 外挿によるリーマン加速勾配法

Riemannian accelerated gradient methods via extrapolation ( http://arxiv.org/abs/2208.06619v1 )

ライセンス: Link先を確認
Andi Han, Bamdev Mishra, Pratik Jawanpuria, Junbin Gao(参考訳) 本稿では,多様体上のイテレートを外挿することで,リーマン勾配法に対する単純な加速度法を提案する。 本手法は,リーマン勾配降下法からイテレートが生成される場合,漸近的に最適収束率を達成し,最近提案するリーマン勾配勾配法よりも計算上有利であることを示す。 本実験は, 新規加速戦略の実用的メリットを検証した。

In this paper, we propose a simple acceleration scheme for Riemannian gradient methods by extrapolating iterates on manifolds. We show when the iterates are generated from Riemannian gradient descent method, the accelerated scheme achieves the optimal convergence rate asymptotically and is computationally more favorable than the recently proposed Riemannian Nesterov accelerated gradient methods. Our experiments verify the practical benefit of the novel acceleration strategy.
翻訳日:2022-08-16 13:27:25 公開日:2022-08-13
# 有害ニューロンの同定と精製によるバックドア攻撃に対する防御

Defense against Backdoor Attacks via Identifying and Purifying Bad Neurons ( http://arxiv.org/abs/2208.06537v1 )

ライセンス: Link先を確認
Mingyuan Fan, Yang Liu, Cen Chen, Ximeng Liu, Wenzhong Guo(参考訳) ニューラルネットワークの不透明さによって、感染したニューロンの隠れた注意が引き起こされ、通常の予測をアタッカー・チョーゼンにオーバーライドする。 本稿では,バックドアニューラルネットワークにおける感染ニューロンのマークと浄化のための新しいバックドア防御手法を提案する。 具体的には、まずベニグ・サリエンスと呼ばれる新しい計量を定義する。 神経細胞間の接続を維持するために1次勾配を組み合わせることで、良性塩分は一般的に用いられるバックドア防御の基準よりも高い精度で感染したニューロンを識別することができる。 次に、これらの感染した神経細胞を微調整することで精製する新しい適応正則化(AR)機構を提案する。 異なる大きさのパラメータに適応できるため、ARはニューロンの精製における一般的な正規化機構よりも速くより安定した収束を提供することができる。 広範な実験結果から,本手法は性能劣化を伴わないニューラルネットワークのバックドアを消去できることを示した。

The opacity of neural networks leads their vulnerability to backdoor attacks, where hidden attention of infected neurons is triggered to override normal predictions to the attacker-chosen ones. In this paper, we propose a novel backdoor defense method to mark and purify the infected neurons in the backdoored neural networks. Specifically, we first define a new metric, called benign salience. By combining the first-order gradient to retain the connections between neurons, benign salience can identify the infected neurons with higher accuracy than the commonly used metric in backdoor defense. Then, a new Adaptive Regularization (AR) mechanism is proposed to assist in purifying these identified infected neurons via fine-tuning. Due to the ability to adapt to different magnitudes of parameters, AR can provide faster and more stable convergence than the common regularization mechanism in neuron purifying. Extensive experimental results demonstrate that our method can erase the backdoor in neural networks with negligible performance degradation.
翻訳日:2022-08-16 13:26:18 公開日:2022-08-13
# マルウェア分類における連続学習の限界について

On the Limitations of Continual Learning for Malware Classification ( http://arxiv.org/abs/2208.06568v1 )

ライセンス: Link先を確認
Mohammad Saidur Rahman, Scott E. Coull, Matthew Wright(参考訳) 悪意あるソフトウェア(マルウェア)分類は、日常的に受信された新しいサンプルの量と、新しい脆弱性を利用するマルウェアの進化により、継続学習(CL)体制に固有の課題を提供する。 通常の日、アンチウイルスベンダーは、悪意と良心の両方で何十万ものユニークなソフトウェアを受け取り、マルウェア分類器の寿命を通じて、10億以上のサンプルが簡単に蓄積できる。 問題の規模を考えると、継続的学習技術を用いた逐次トレーニングは、トレーニングとストレージオーバーヘッドを削減する上で大きなメリットをもたらす可能性がある。 しかし、これまでclをマルウェア分類タスクに適用した調査は行われていない。 本稿では,タスクやクラス,ドメインインクリメンタル学習(il)など,一般的なインクリメンタル学習シナリオをカバーする3つのマルウェアタスクに適用可能な11のcl手法について検討する。 具体的には,2つの現実的な大規模マルウェアデータセットを用いて,バイナリマルウェア分類 (domain-il) とマルチクラスマルウェア分類 (task-ilおよびclass-il) におけるcl法の性能評価を行った。 驚くことに、継続的な学習手法は、ほとんどすべての設定でトレーニングデータの単純共同再生を著しく低下させ、場合によっては70ポイント以上精度を低下させた。 格納データの20%を選択的に再生する簡単なアプローチは、ジョイントリプレイに比べて50%のトレーニング時間で、より良いパフォーマンスを実現する。 最後に,CL手法が予期せぬ性能を損なう可能性について論じるとともに,マルウェア分類領域においてより効果的な技術開発へのさらなる研究を促すことを期待する。

Malicious software (malware) classification offers a unique challenge for continual learning (CL) regimes due to the volume of new samples received on a daily basis and the evolution of malware to exploit new vulnerabilities. On a typical day, antivirus vendors receive hundreds of thousands of unique pieces of software, both malicious and benign, and over the course of the lifetime of a malware classifier, more than a billion samples can easily accumulate. Given the scale of the problem, sequential training using continual learning techniques could provide substantial benefits in reducing training and storage overhead. To date, however, there has been no exploration of CL applied to malware classification tasks. In this paper, we study 11 CL techniques applied to three malware tasks covering common incremental learning scenarios, including task, class, and domain incremental learning (IL). Specifically, using two realistic, large-scale malware datasets, we evaluate the performance of the CL methods on both binary malware classification (Domain-IL) and multi-class malware family classification (Task-IL and Class-IL) tasks. To our surprise, continual learning methods significantly underperformed naive Joint replay of the training data in nearly all settings -- in some cases reducing accuracy by more than 70 percentage points. A simple approach of selectively replaying 20% of the stored data achieves better performance, with 50% of the training time compared to Joint replay. Finally, we discuss potential reasons for the unexpectedly poor performance of the CL techniques, with the hope that it spurs further research on developing techniques that are more effective in the malware classification domain.
翻訳日:2022-08-16 13:19:02 公開日:2022-08-13
# 線形非ガウスポリツリーモデルの学習

Learning Linear Non-Gaussian Polytree Models ( http://arxiv.org/abs/2208.06701v1 )

ライセンス: Link先を確認
Daniele Tramontano, Anthea Monod, Mathias Drton(参考訳) グラフィカル因果探索の文脈では、線形非ガウス非巡回モデル(LiNGAM)の汎用的フレームワークを適用し、ポリツリーであるグラフを効率的に学習する新しいアルゴリズムを提案する。 提案手法は,まず無向木構造を学習するChow-Liuアルゴリズムと,エッジを指向する新しいスキームを組み合わせたものである。 向き付けスキームはデータ生成分布のモーメント間の代数的関係を評価し、計算的に安価である。 我々は,提案手法の高次元整合性を確立し,数値実験で異なるアルゴリズムバージョンを比較した。

In the context of graphical causal discovery, we adapt the versatile framework of linear non-Gaussian acyclic models (LiNGAMs) to propose new algorithms to efficiently learn graphs that are polytrees. Our approach combines the Chow--Liu algorithm, which first learns the undirected tree structure, with novel schemes to orient the edges. The orientation schemes assess algebraic relations among moments of the data-generating distribution and are computationally inexpensive. We establish high-dimensional consistency results for our approach and compare different algorithmic versions in numerical experiments.
翻訳日:2022-08-16 13:14:39 公開日:2022-08-13
# UAV-CROWD:UAVの視点から見た暴力的・非暴力的群衆活動シミュレータ

UAV-CROWD: Violent and non-violent crowd activity simulator from the perspective of UAV ( http://arxiv.org/abs/2208.06702v1 )

ライセンス: Link先を確認
Mahieyin Rahmun, Tonmoay Deb, Shahriar Ali Bijoy, Mayamin Hamid Raha(参考訳) 無人航空機(UAV)は近年、特に監視の文脈において大きな注目を集めている。 しかし、空中から暴力的で非暴力的な人間の活動を捉えるビデオデータセットは少ない。 この問題に対処するために,暴力的・非暴力的と分類できる様々な活動に従事する群衆のフォトリアリスティックな合成画像のシーケンスを生成することのできる,新しいベースラインシミュレータを提案する。 群衆グループには、セマンティックセグメンテーションを使用して自動的に計算される境界ボックスがアノテートされています。 シミュレーションは,ランダム化された大規模都市環境を生成でき,150人の群集エージェントが相互作用する中距離コンピュータ上で平均25フレーム/秒を維持できる。 また,提案したシミュレータの合成データを実世界のデータで拡張すると,2種類のモデルで平均5%の精度で映像分類精度が向上することを示した。

Unmanned Aerial Vehicle (UAV) has gained significant traction in the recent years, particularly the context of surveillance. However, video datasets that capture violent and non-violent human activity from aerial point-of-view is scarce. To address this issue, we propose a novel, baseline simulator which is capable of generating sequences of photo-realistic synthetic images of crowds engaging in various activities that can be categorized as violent or non-violent. The crowd groups are annotated with bounding boxes that are automatically computed using semantic segmentation. Our simulator is capable of generating large, randomized urban environments and is able to maintain an average of 25 frames per second on a mid-range computer with 150 concurrent crowd agents interacting with each other. We also show that when synthetic data from the proposed simulator is augmented with real world data, binary video classification accuracy is improved by 5% on average across two different models.
翻訳日:2022-08-16 13:13:56 公開日:2022-08-13
# スパースデータに基づくネットワークレベルの交通流遷移のモデル化

Modeling Network-level Traffic Flow Transitions on Sparse Data ( http://arxiv.org/abs/2208.06646v1 )

ライセンス: Link先を確認
Xiaoliang Lei, Hao Mei, Bin Shi, Hua Wei(参考訳) 都市環境におけるネットワークレベルの交通流の変化のモデル化は、交通、公共安全、都市計画における意思決定に有用である。 交通フローシステムは、時間とともに状態間(例えば、各道路区間の交通量)を移動する動的なプロセスと見なすことができる。 交通信号制御や可逆車線変更のような交通操作を行う現実世界の交通システムでは、システムの状態は、歴史的状態と交通操作の動作の両方に影響される。 本稿では,実環境におけるネットワークレベルのトラヒックフローのモデル化において,利用可能なデータが不足している問題(すなわち,トラヒックシステムの一部のみが観測される)について考察する。 本稿では,スパースデータからネットワークレベルのトラフィックフローを予測できるDTIGNNを提案する。 DTIGNNは交通系を交通信号に影響された動的グラフとしてモデル化し、交通から基本遷移方程式に基づく遷移モデルを学習し、その過程における計算によって将来の交通状態を予測する。 包括的実験により,本手法は最先端の手法より優れ,輸送における意思決定を支援することができることを示した。

Modeling how network-level traffic flow changes in the urban environment is useful for decision-making in transportation, public safety and urban planning. The traffic flow system can be viewed as a dynamic process that transits between states (e.g., traffic volumes on each road segment) over time. In the real-world traffic system with traffic operation actions like traffic signal control or reversible lane changing, the system's state is influenced by both the historical states and the actions of traffic operations. In this paper, we consider the problem of modeling network-level traffic flow under a real-world setting, where the available data is sparse (i.e., only part of the traffic system is observed). We present DTIGNN, an approach that can predict network-level traffic flows from sparse data. DTIGNN models the traffic system as a dynamic graph influenced by traffic signals, learns the transition models grounded by fundamental transition equations from transportation, and predicts future traffic states with imputation in the process. Through comprehensive experiments, we demonstrate that our method outperforms state-of-the-art methods and can better support decision-making in transportation.
翻訳日:2022-08-16 13:09:07 公開日:2022-08-13
# 臨床研究におけるImputation Strategies : アルゴリズムフェアネスへの影響

Imputation Strategies Under Clinical Presence: Impact on Algorithmic Fairness ( http://arxiv.org/abs/2208.06648v1 )

ライセンス: Link先を確認
Vincent Jeanselme, Maria De-Arteaga, Zhe Zhang, Jessica Barrett and Brian Tom(参考訳) 偏りは医療史を際立たせ、辺境の集団に不平等なケアをもたらす。 観測データに欠落するパターンはしばしばこれらのグループ不一致を反映するが、グループ固有の欠落のアルゴリズム的公正さはよく理解されていない。 潜在的な影響にもかかわらず、インプテーションは忘れ去られた前処理のステップであることが多い。 ほとんどの場合、実践者は全体的なパフォーマンスを最適化することでインプテーションの選択をガイドし、この前処理が不平等をいかに強化するかを無視する。 我々の研究は、計算が下流のアルゴリズムの公正性にどのように影響するかを研究することで、この選択に疑問を投げかける。 まず, 臨床的存在メカニズムとグループ特有の欠如パターンとの関係について構造化した見解を示す。 そして,シミュレーションや実世界の実験を通じて,計算選択がグループ性能に悪影響を及ぼし,計算戦略が相違を連続的に減少させることを実証する。 また,本研究の結果から,人口レベルでのインキュベーション戦略の実施が,異なる方法による疎外化集団に影響を及ぼすことが示唆された。 最後に、機械学習パイプラインの無視されたステップから生じる不等式を緩和するための推奨事項を提案する。

Biases have marked medical history, leading to unequal care affecting marginalised groups. The patterns of missingness in observational data often reflect these group discrepancies, but the algorithmic fairness implications of group-specific missingness are not well understood. Despite its potential impact, imputation is too often a forgotten preprocessing step. At best, practitioners guide imputation choice by optimising overall performance, ignoring how this preprocessing can reinforce inequities. Our work questions this choice by studying how imputation affects downstream algorithmic fairness. First, we provide a structured view of the relationship between clinical presence mechanisms and group-specific missingness patterns. Then, through simulations and real-world experiments, we demonstrate that the imputation choice influences marginalised group performance and that no imputation strategy consistently reduces disparities. Importantly, our results show that current practices may endanger health equity as similarly performing imputation strategies at the population level can affect marginalised groups in different ways. Finally, we propose recommendations for mitigating inequity stemming from a neglected step of the machine learning pipeline.
翻訳日:2022-08-16 13:08:46 公開日:2022-08-13
# 臨床データに対する説明可能な人工知能法の実証的比較--外傷性脳損傷を事例として

An Empirical Comparison of Explainable Artificial Intelligence Methods for Clinical Data: A Case Study on Traumatic Brain Injury ( http://arxiv.org/abs/2208.06717v1 )

ライセンス: Link先を確認
Amin Nayebi, Sindhu Tipirneni, Brandon Foreman, Chandan K. Reddy, Vignesh Subbian(参考訳) ディープラーニングアルゴリズムを取り巻く長年にわたる課題は、どのように意思決定するかを解き放ち、理解することだ。 説明可能な人工知能(XAI)は、アルゴリズムの内部機能の説明と、その決定の背後にある理由を、人間のユーザにとって解釈可能で理解可能な方法で提供する方法を提供する。 . これまでに多くのXAIアプローチが開発されており、臨床予測モデルとの関係を明らかにするためにはこれらの戦略の比較分析が必要であると考えられる。 そこで我々はまず,構造化表と時系列生理学的データを用いた外傷性脳損傷(TBI)の短期・長期予後予測モデルを構築した。 6つの異なる解釈手法を用いて、局所的およびグローバルレベルでの予測モデルの両方を記述する。 次に,各戦略のメリットと欠点を批判的に分析し,これらの手法の適用に関心を持つ研究者にとっての意義を強調した。 実装された手法は, 可視性, 忠実性, 安定性など, XAI の特徴の観点から比較した。 以上の結果から,SHAPが最も安定しており,高い忠実度を有するが,理解性に乏しいことが示唆された。 一方、アンカーは最も理解しやすいアプローチであるが、表形式のデータにのみ適用でき、時系列データには適用できない。

A longstanding challenge surrounding deep learning algorithms is unpacking and understanding how they make their decisions. Explainable Artificial Intelligence (XAI) offers methods to provide explanations of internal functions of algorithms and reasons behind their decisions in ways that are interpretable and understandable to human users. . Numerous XAI approaches have been developed thus far, and a comparative analysis of these strategies seems necessary to discern their relevance to clinical prediction models. To this end, we first implemented two prediction models for short- and long-term outcomes of traumatic brain injury (TBI) utilizing structured tabular as well as time-series physiologic data, respectively. Six different interpretation techniques were used to describe both prediction models at the local and global levels. We then performed a critical analysis of merits and drawbacks of each strategy, highlighting the implications for researchers who are interested in applying these methodologies. The implemented methods were compared to one another in terms of several XAI characteristics such as understandability, fidelity, and stability. Our findings show that SHAP is the most stable with the highest fidelity but falls short of understandability. Anchors, on the other hand, is the most understandable approach, but it is only applicable to tabular data and not time series data.
翻訳日:2022-08-16 13:08:28 公開日:2022-08-13
# 自己監督型マッティング特有のポートレートの強化と生成

Self-supervised Matting-specific Portrait Enhancement and Generation ( http://arxiv.org/abs/2208.06601v1 )

ライセンス: Link先を確認
Yangyang Xu Zeyang Zhou and Shengfeng He(参考訳) 我々は、全く異なる視点から、不測のアルファ・マッティング問題を解決した。 入力ポートレート画像が与えられると、対応するアルファマットを推定する代わりに、もう一方の端に焦点を合わせ、この入力を微妙に強化し、既存の任意のマットモデルでアルファマットを簡単に推定できるようにします。 これは GAN モデルの潜在空間を探索することによって達成される。 解釈可能な方向は潜在空間に存在し,意味的画像変換に対応することが実証された。 アルファマッティングにおけるこの性質をさらに探求する。 特に、入力ポートレートをstyleganの潜在コードに反転させ、参照マットングモデルとより互換性のある潜在空間に拡張バージョンが存在するかどうかを検出することを目的としています。 静止空間におけるマルチスケール潜伏ベクトルを4つの補正された損失の下で最適化し, マッチング特異性を確保し, ポートレートに微妙な修正を加える。 提案手法は,任意のマッティングモデルの実際のポートレート画像を洗練し,自動アルファマッティングの性能を大きなマージンで高めることを実証する。 さらに、StyleGANの生成特性を活用し、擬似GTとして扱える拡張されたポートレートデータを生成することを提案する。 高価なアルファマットアノテーションの問題に対処し、既存のモデルのマッチング性能をさらに強化する。 コードは~\url{https://github.com/cnnlstm/StyleGAN_Matting}で入手できる。

We resolve the ill-posed alpha matting problem from a completely different perspective. Given an input portrait image, instead of estimating the corresponding alpha matte, we focus on the other end, to subtly enhance this input so that the alpha matte can be easily estimated by any existing matting models. This is accomplished by exploring the latent space of GAN models. It is demonstrated that interpretable directions can be found in the latent space and they correspond to semantic image transformations. We further explore this property in alpha matting. Particularly, we invert an input portrait into the latent code of StyleGAN, and our aim is to discover whether there is an enhanced version in the latent space which is more compatible with a reference matting model. We optimize multi-scale latent vectors in the latent spaces under four tailored losses, ensuring matting-specificity and subtle modifications on the portrait. We demonstrate that the proposed method can refine real portrait images for arbitrary matting models, boosting the performance of automatic alpha matting by a large margin. In addition, we leverage the generative property of StyleGAN, and propose to generate enhanced portrait data which can be treated as the pseudo GT. It addresses the problem of expensive alpha matte annotation, further augmenting the matting performance of existing models. Code is available at~\url{https://github.com/cnnlstm/StyleGAN_Matting}.
翻訳日:2022-08-16 13:03:16 公開日:2022-08-13
# ULDGNN: グラフニューラルネットワークに基づくフラグメンテーションUI層検出器

ULDGNN: A Fragmented UI Layer Detector Based on Graph Neural Networks ( http://arxiv.org/abs/2208.06658v1 )

ライセンス: Link先を確認
Jiazhi Li, Tingting Zhou, Yunnong Chen, Yanfang Chang, Yankun Zhen, Lingyun Sun and Liuqing Chen(参考訳) UIスクリーンショットからフロントエンドコードをインテリジェントに生成しようとする作業もあるが、レイヤタイプ、位置、サイズ、ビジュアルイメージなどのマルチモーダルUI情報に直接アクセスできるため、人気のあるUIデザインソフトウェアであるSketchでUI設計ドラフトを利用する方が便利かもしれない。 しかし、断片化されたレイヤは、コード生成に関わるすべてのレイヤをマージすることなく、コード品質を低下させる可能性がある。 本稿では,フラグメント層を自動的にマージするパイプラインを提案する。 まず、UIドラフトのレイヤツリーのグラフ表現を構築し、視覚的特徴とグラフニューラルネットワークに基づいて、すべてのフラグメント層を検出する。 次に、フラグメント層をマージするようにルールベースのアルゴリズムが設計される。 提案手法は,新たに構築したデータセットを用いて,UI設計ドラフトのフラグメント層の大部分を抽出し,検出作業において87%の精度を実現し,その後処理アルゴリズムにより,単純で一般的な状況下でアソシエイト層をクラスタリングする。

While some work attempt to generate front-end code intelligently from UI screenshots, it may be more convenient to utilize UI design drafts in Sketch which is a popular UI design software, because we can access multimodal UI information directly such as layers type, position, size, and visual images. However, fragmented layers could degrade the code quality without being merged into a whole part if all of them are involved in the code generation. In this paper, we propose a pipeline to merge fragmented layers automatically. We first construct a graph representation for the layer tree of a UI draft and detect all fragmented layers based on the visual features and graph neural networks. Then a rule-based algorithm is designed to merge fragmented layers. Through experiments on a newly constructed dataset, our approach can retrieve most fragmented layers in UI design drafts, and achieve 87% accuracy in the detection task, and the post-processing algorithm is developed to cluster associative layers under simple and general circumstances.
翻訳日:2022-08-16 13:02:52 公開日:2022-08-13
# アクティブドメイン適応のためのラベル分布シフト対策

Combating Label Distribution Shift for Active Domain Adaptation ( http://arxiv.org/abs/2208.06604v1 )

ライセンス: Link先を確認
Sehyun Hwang, Sohyun Lee, Sungyeon Kim, Jungseul Ok, Suha Kwak(参考訳) 本稿では,未ラベルの対象データに対するアクティブドメイン適応(ADA)の問題について考察する。 ドメイン適応におけるソースとターゲット間のラベル分布ミスマッチから重要な問題に対する最近の分析から着想を得て,ADAで初めてこの問題に対処する手法を考案した。 中心に新しいサンプリング戦略があり、ターゲットの分布全体を最もよく近似し、代表的で多様性があり、不確実であるターゲットデータを求める。 サンプルされたターゲットデータは教師付き学習だけでなく、ソースドメインとターゲットドメインのラベル分布のマッチングにも使用され、パフォーマンスが著しく向上する。 4つの公開ベンチマークにおいて,提案手法は適応シナリオ毎に既存の手法を実質的に上回っている。

We consider the problem of active domain adaptation (ADA) to unlabeled target data, of which subset is actively selected and labeled given a budget constraint. Inspired by recent analysis on a critical issue from label distribution mismatch between source and target in domain adaptation, we devise a method that addresses the issue for the first time in ADA. At its heart lies a novel sampling strategy, which seeks target data that best approximate the entire target distribution as well as being representative, diverse, and uncertain. The sampled target data are then used not only for supervised learning but also for matching label distributions of source and target domains, leading to remarkable performance improvement. On four public benchmarks, our method substantially outperforms existing methods in every adaptation scenario.
翻訳日:2022-08-16 12:56:23 公開日:2022-08-13