このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221014となっている論文です。

PDF登録状況(公開日: 20221014)

TitleAuthorsAbstract論文公表日・翻訳日
# 乱れたスピン系におけるフラックスノイズ

Flux noise in disordered spin systems ( http://arxiv.org/abs/2207.10033v3 )

ライセンス: Link先を確認
Jos\'e Alberto Nava Aquino and Rog\'erio de Sousa(参考訳) 不純物スピンは超伝導ワイヤの表面にランダムに分布し、超伝導量子干渉デバイスにおいて磁束ノイズを引き起こすことが知られており、超伝導量子ビットにおけるデコヒーレンス機構を提供する。 フラックスノイズは実験的によく特徴付けられるが、スピンダイナミクスの基礎となる微視的モデルはまだ不明である。 第一原理理論は、大きなスケールでスピン拡散を捉えるには計算コストがかかりすぎるため、第三原理理論はスピンダイナミクスを単一の現象論的スピン拡散作用素にまとめ、量子ノイズレジームを記述できず、微視的モデルや障害シナリオと接続する。 本稿では,量子構造における一般スピン散逸とフラックスノイズを記述するための中間的"第二原理"法を提案する。 フラックスノイズは、ワイヤの端におけるパラマグノン励起の密度から発生し、パラマグノン-パラマグノン相互作用がスピン拡散を引き起こし、パラマグノンと他の自由度の間の相互作用がスピンエネルギー緩和につながるという解釈につながる。 高周波ではフラックスノイズの上限が得られ、実験で観測された(超)オーミックノイズは相互作用するスピン不純物に由来するものではない。 定常交換により結合された空孔と最近傍スピンのランダム分布を持つ2次元正方格子のハイゼンベルクモデルに適用する。 フラックスノイズの数値計算は、観測されたパワー法則 $a/\omega^{\alpha}$ に従っており、振幅 $a$ と指数 $\alpha$ は温度と不均一性に依存する。 これらの結果はニオブとアルミニウムの実験と比較される。 本手法は,フラックスノイズ実験と微視的ハミルトニアンとの関係を確立し,フラックスノイズ低減のための微視的メカニズムを同定する。

Impurity spins randomly distributed at the surfaces and interfaces of superconducting wires are known to cause flux noise in Superconducting Quantum Interference Devices, providing a mechanism for decoherence in superconducting qubits. While flux noise is well characterised experimentally, the microscopic model underlying spin dynamics remains unknown. First-principles theories are too computationally expensive to capture spin diffusion over large length scales, third-principles approaches lump spin dynamics into a single phenomenological spin-diffusion operator that is not able to describe the quantum noise regime and connect to microscopic models and disorder scenarios. Here we propose an intermediate "second principles" method to describe general spin dissipation and flux noise in the quantum regime. It leads to the interpretation that flux noise arises from the density of paramagnon excitations at the edge of the wire, with paramagnon-paramagnon interactions leading to spin diffusion, and interactions between paramagnons and other degrees of freedom leading to spin energy relaxation. At high frequency we obtain an upper bound for flux noise, showing that the (super)Ohmic noise observed in experiments does not originate from interacting spin impurities. We apply the method to Heisenberg models in two dimensional square lattices with random distribution of vacancies and nearest-neighbour spins coupled by constant exchange. Numerical calculations of flux noise show that it follows the observed power law $A/\omega^{\alpha}$, with amplitude $A$ and exponent $\alpha$ depending on temperature and inhomogeneities. These results are compared to experiments in niobium and aluminium devices. The method establishes a connection between flux noise experiments and microscopic Hamiltonians identifying relevant microscopic mechanisms and guiding strategies for reducing flux noise.
翻訳日:2023-02-04 07:59:25 公開日:2022-10-14
# 三角形ネットワークにおける部分自己検査とランダム性証明

Partial self-testing and randomness certification in the triangle network ( http://arxiv.org/abs/2209.09921v2 )

ライセンス: Link先を確認
Pavel Sekatski, Sadra Boreiri, Nicolas Brunner(参考訳) 量子非局所性は、独立したソースを持つネットワークにおいて入力(すなわち、固定された測定設定を使用する各パーティ)なしで証明することができる。 ここでは、この効果がリングネットワークに与える影響を考察し、観測された相関から基礎となる量子戦略が部分的に特徴づけられるか、自己検定されるかを示す。 これらの結果を三角形ネットワークに適用することにより、レノウらの非局所分布が示される。 [Phys. Rev. 123, 140401 (2019)] (i)すべてのソースは、最小限の絡み合いを生み出す。 (ii)全ての局所測定値が絡み合っていて (iii)各局所的な結果は最小エントロピーである。 したがって、三角ネットワークは真のネットワーク量子非局所性と証明可能なランダム性を可能にする。

Quantum nonlocality can be demonstrated without inputs (i.e. each party using a fixed measurement setting) in a network with independent sources. Here we consider this effect on ring networks, and show that the underlying quantum strategy can be partially characterized, or self-tested, from observed correlations. Applying these results to the triangle network allows us to show that the nonlocal distribution of Renou et al. [Phys. Rev. Lett. 123, 140401 (2019)] requires that (i) all sources produce a minimal amount of entanglement, (ii) all local measurements are entangled, and (iii) each local outcome features a minimal entropy. Hence we show that the triangle network allows for genuine network quantum nonlocality and certifiable randomness.
翻訳日:2023-01-25 23:11:06 公開日:2022-10-14
# 多レベルスピンボーソン模型におけるマルコビアン性と古典性について

On Markovianity and classicality in multilevel spin-boson models ( http://arxiv.org/abs/2210.06199v2 )

ライセンス: Link先を確認
Dariusz Chru\'sci\'nski, Samaneh Hesabi, Davide Lonigro(参考訳) 回転波相互作用による多重モードボソン場に結合した基底状態とおそらく多レベル励起セクターを持つマルチレベルシステムを記述するハミルトンモデルの族によって引き起こされるユニタリおよび縮小進化について詳細に議論する。 ボゾン周波数に対してカップリングが平坦である極限において、任意の基底における鋭い測定の下でマルコフ的であることを明確に証明し、また、その過程が古典的、すなわちコルモゴロフ整合性条件を満たす多時間合同確率分布の族である必要十分条件を見いだし、したがって古典的確率過程によって等価に得ることができる。

We provide a detailed discussion about the unitary and reduced evolution induced by family of Hamiltonian models describing a multilevel system, with a ground state and a possibly multilevel excited sector, coupled to a multimode boson field via a rotating-wave interaction. We prove explicitly that the system, in the limit in which the coupling is flat with respect to the boson frequencies, is Markovian under sharp measurements in arbitrary bases; we also find necessary and sufficient conditions under which the process is classical, i.e. its family of multitime joint probability distributions satisfies the Kolmogorov consistency condition, and may thus be equivalently obtained by a classical stochastic process.
翻訳日:2023-01-22 19:33:00 公開日:2022-10-14
# 機械振動子の光コヒーレントフィードバック制御

Optical coherent feedback control of a mechanical oscillator ( http://arxiv.org/abs/2210.07674v1 )

ライセンス: Link先を確認
Maryse Ernzer, Manel Bosch Aguilera, Matteo Brunelli, Gian-Luca Schmid, Christoph Bruder, Patrick P. Potts and Philipp Treutlein(参考訳) フィードバックは古典的および量子システム制御の両方において強力でユビキタスなテクニックである。 標準的な実装では、システムの状態を測定し、古典的に処理し、抽出した情報を返送する。 しかし、量子物理学では、測定はシステムの状態を読み取るだけでなく、不可逆的に修正する。 システムを実際に測定することなく、コヒーレントに量子信号を処理し、送り返す、異なる種類のフィードバックが可能だ。 これはコヒーレントフィードバックとして知られている。 本稿では,光キャビティ内におけるナノメカニカル膜の運動状態を制御するための光コヒーレントフィードバックプラットフォームの実現について報告する。 コヒーレントフィードバックループは、異なるキャビティモードを介して同じメカニカルモードと2回相互作用する光場で構成され、計測は行われない。 フィードバックループの光位相と遅延を調整することで、機械振動子の運動状態、共鳴周波数、減衰率を制御でき、後者は量子基底状態に近い膜を冷却するために使用する。 本稿では,このスキームの理論的記述と実験的実現について述べる。 我々の理論解析は最適冷却条件を提供し、この新手法が地中冷却を可能にすることを示す。 実験的に、この膜は${20}\,$k環境で$\bar{n}_m = 4.89 \pm 0.14 $ phonons (480\,\mu$k) で冷却できることを示した。 これは未解決のサイドバンド状態における空洞力学のバックアクション冷却の理論的限界より下にある。 我々のフィードバック方式は非常に多用途であり、様々な光学系における量子制御の新しい機会を提供する。

Feedback is a powerful and ubiquitous technique both in classical and quantum system control. In its standard implementation it relies on measuring the state of a system, classically processing and feeding back the extracted information. In quantum physics, however, measurements not only read out the state of the system, but also modify it irreversibly. A different kind of feedback which coherently processes and feeds back quantum signals without actually measuring the system is possible. This is known as coherent feedback. Here, we report on the realization of an optical coherent feedback platform to control the motional state of a nanomechanical membrane in an optical cavity. The coherent feedback loop consists of a light field interacting twice with the same mechanical mode through different cavity modes, without any measurement taking place. Tuning the optical phase and delay of the feedback loop allows us to control the motional state of the mechanical oscillator, its resonance frequency and damping rate, the latter of which we use to cool the membrane close to the quantum ground state. We present here a theoretical description and experimental realization of this scheme. Our theoretical analysis provides the optimal cooling conditions, showing that this new technique enables ground-state cooling. Experimentally, we show that we can cool the membrane to a state with $\bar{n}_m = 4.89 \pm 0.14 $ phonons ($480\,\mu$K) in a ${20}\,$K environment. This lies below the theoretical limit of cavity dynamical backaction cooling in the unresolved sideband regime. Our feedback scheme is very versatile, offering new opportunities for quantum control in a variety of optomechanical systems.
翻訳日:2023-01-22 14:30:45 公開日:2022-10-14
# 利得切替半導体レーザーにおける光位相の分散の確率的速度方程式による発散

Divergence of the variance of the optical phase in gain-switched semiconductor lasers described by stochastic rate equations ( http://arxiv.org/abs/2210.07628v1 )

ライセンス: Link先を確認
Angel Valle(参考訳) 本稿では,ゲインスイッチング単一モード半導体レーザの位相拡散に関する理論的研究を報告する。 我々は電場に対する確率速度方程式を用いて利得スイッチングレーザーの位相統計を解析する。 それらの利用は、光子数が少ない場合に光子数と光相の速度方程式で得られる不安定性を回避する。 しかし, 場方程式と積分すると新たな問題が生じ, 光位相の分散が発散する。 このばらつきは、以前の不安定性のため、光子数と光位相の一般的な方程式の数値積分では観測できない。 位相分散のばらつきは、積分時間ステップが減少するにつれて、この量が一定値に達しないことを意味する。 積分時間ステップが小さくなるにつれて位相差が増大するが, 微小ステップにおいても飽和挙動の兆候がない。 2次元ブラウン運動で問題を類似させることにより、この発散を説明する。 2次元ブラウン運動における極角の分散が発散量であることを、1940年既にポール・L・レヴィが証明していたため、発散が現れるという事実は驚くべきことではない。 その結果,光子数と位相の確率速度方程式は,光子数が少ない場合に位相統計を記述するには適していないことがわかった。 電場に対する確率速度方程式のシミュレーションは、L\`evyの結果と一致するが、測定可能な量に対して無限値が得られるため、非物理的結果を与える。 半導体レーザーから放射される弱コヒーレントパルスを用いて量子鍵分布を考慮できる位相雑音量子乱数生成器および類似の検証プロセスにおいて示唆される検証過程を考察した。

In this paper, we report a theoretical study of the phase diffusion in a gain-switched single-mode semiconductor laser. We use stochastic rate equations for the electrical field to analyze the phase statistics of the gain-switched laser. Their use avoid the instabilities obtained with rate equations for photon number and optical phase when the photon number is small. However we show that a new problem appears when integrating with the field equations: the variance of the optical phase becomes divergent. This divergence can not be observed with the numerical integration of the commonly used equations for photon number and optical phase because of the previous instabilities. The divergence of the phase variance means that this quantity does not reach a fixed value as the integration time step is decreased. We obtain that the phase variance increases as the integration time step decreases with no sign of saturation behaviour even for tiny steps. We explain the divergence by making the analogy of our problem with the 2-dimensional Brownian motion. The fact that the divergence appears is not surprising because already in 1940 Paul L\`evy demonstrated that the variance of the polar angle in a 2-dimensional Brownian motion is a divergent quantity. Our results show that stochastic rate equations for photon number and phase are not appropriated for describing the phase statistics when the photon number is small. Simulation of the stochastic rate equations for the electrical field are consistent with L\`evy's results but gives unphysical results since an infinite value is obtained for a quantity that can be measured. Our results put at stake the validation process suggested in phase-noise quantum random number generators and similar validation processes that could be considered for quantum key distribution using weak coherent pulses emitted by semiconductor lasers.
翻訳日:2023-01-22 14:30:20 公開日:2022-10-14
# 消滅光子の絡み合い

Entanglement of annihilation photons ( http://arxiv.org/abs/2210.07623v1 )

ライセンス: Link先を確認
Alexander Ivashkin, Dzhonrid Abdurashitov, Alexander Baranov, Fedor Guber, Sergey Morozov, Sultan Musin, Alexander Strizhak and Igor Tkachev(参考訳) 本稿では、陽電子電子消滅時に生じる光子対の量子絡み合いに関する新しい実験結果を示す。 実験装置はコンプトン偏光度計のシステムを含み、アンタングルおよびデコヒーレント状態における消滅光子のコンプトン散乱を測定する。 脱コヒーレントな状態は、偏光度の測定に先立って初期光子の1つを前散乱することで作られる。 タングルドにおける消滅光子の偏光相関の直接比較を行い, 分離可能な状態について検討した。 散乱光子の角分布は両方の量子状態において同じであることが判明し、これは量子交叉陽電子放射トモグラフィーの予期せぬ発見である。 さらに、ベルの不等式における相関関数は、絡み合った状態と分離可能な状態でも同じである。 一連の実験で多くの測定が行われたにもかかわらず、消滅光子の絡み合いの実験的な証拠は残っていない。 これらの結果は、量子論における絡み合いと非局所性をテストするベルの定理の普遍性に疑問を呈する、絡み合いと特異な混合量子状態に対する同じコンプトン散乱断面積の最近の理論的予測と一致している。

We present the results of a new experimental study of the quantum entanglement of photon pairs produced in positron-electron annihilation at rest. The experimental setup includes a system of Compton polarimeters to measure the Compton scattering of annihilation photons in entangled and decoherent states. Decoherent states are prepared by pre-scattering of one of the initial photons prior to measurements in polarimeters. For the first time, a direct comparison of the polarization correlations of annihilation photons in the entangled and thus prepared separable states has been carried out. The angular distributions of scattered photons turned out to be the same in both quantum states, which is an unexpected discovery for the quantum-entangled positron emission tomography. Moreover, the correlation function in the Bell's inequality is also the same for entangled and separable states. It follows that, despite numerous measurements in a series of experiments, there is still no experimental proof of the entanglement of annihilation photons. These results are in line with recent theoretical predictions of an identical Compton scattering cross-section for entangled and specific mixed separable quantum states and cast doubt on the universality of the Bell's theorem for testing the entanglement and nonlocality in quantum theory.
翻訳日:2023-01-22 14:29:52 公開日:2022-10-14
# PSI-Moyal方程式

PSI-Moyal equation ( http://arxiv.org/abs/2210.07620v1 )

ライセンス: Link先を確認
E.E. Perepelkin, B.I. Sadovnikov, N.G. Inozemtseva, A.A. Korepanova(参考訳) 放射を伴う古典的および量子系の完全な考察(電磁/重力)は、高運動量の一般化位相空間における数学的記述の関与を必要とする。 量子力学の方程式の分散連鎖に基づいて、第4次力学値の位相空間における密度行列に対するフォン・ノイマン方程式の一般化を構築する。 本稿では,第2階の波動関数から構築した第4階のウィグナー関数の新たな拡張定義を提案する。 4階のウィグナー関数に対する新しい拡張モヤル方程式(PSI-モヤル方程式)を得る。 新しいPSI-Moyal方程式の性質とその解に関する理論が証明されている。 モデル量子システムの例は、詳細に検討されている。

A full consideration of classical and quantum systems with radiation (electromagnetic/gravitational) requires the involvement of a mathematical description in the generalized phase space of high kinematical values. Based on the dispersion chain of equations of quantum mechanics, we construct a generalization of the von Neumann equation for the density matrix in the phase space of fourth-order kinematical values. The paper introduces a new extended definition of the fourth rank Wigner function, which is constructed from the wave functions of the second rank. A new extended Moyal equation (PSI-Moyal equation) for the Wigner function of the fourth rank is obtained. Theorems on the properties of the new PSI-Moyal equation and its solutions are proved. An example of a model quantum system is considered in detail.
翻訳日:2023-01-22 14:29:33 公開日:2022-10-14
# 最大絡み合い状態のデコヒーレンスとクラス

Decoherence and the Classes of Maximally Entangled States ( http://arxiv.org/abs/2210.07618v1 )

ライセンス: Link先を確認
Roman V. Buniy, Robert P. Feger, Thomas W. Kephart(参考訳) 自己相互作用と環境との相互作用は量子系を最大絡み合い状態へと押し上げる傾向がある。 これはデコヒーレンスの定義です。 これらの極大絡み合い状態は、ある絡み合い不変量の値によって一意に記述できるよく定義されたクラスに該当すると主張する。 これらのアイデアを議論した後、多くのジェネリックシステムに対する最大絡み合い状態の例を示し、三部系において最も絡み合ったクラスでコンパクトな状態を構築し、それらが他のn$-partiteシステムに対してどのように構築されるかを提案する。 エンタングルメントクラスの空間をランダムに歩き、デコヒーレンスが実際にどのように機能するかを調べる。

Self-interactions and interaction with the environment tend to push quantum systems toward states of maximal entanglement. This is a definition of decoherence. We argue that these maximally entangled states fall into the well-defined classes that can be uniquely described by the values of certain entanglement invariants. After discussing these ideas we present examples of maximally entangled states for a number of generic systems, construct compact states in the most entangled classes for tripartite systems, and suggest how they may be constructed for other $n$-partite systems. We study random walks through the space of entanglement classes to see how decoherence might work in practice.
翻訳日:2023-01-22 14:29:24 公開日:2022-10-14
# 多世界解釈における自由

Freedom in the many-worlds interpretation ( http://arxiv.org/abs/2210.07596v1 )

ライセンス: Link先を確認
Ovidiu Cristinel Stoica(参考訳) The Multiverse Pandemic』(arXiv:2210.05377)において、ギシンは多世界解釈(MWI)に反対し、自由意志の否定が難しいことに矛盾していると主張している。 1) MWIは決定論的であり、選択を強制し、(2) MWIでは可能なすべての選択肢が発生し、(3) MWIは創造性を制限します。 MWIのこれらの特徴は、実際に見られるよりも自由である、と私は主張する。

In "The Multiverse Pandemic" (arXiv:2210.05377), Gisin makes an interesting case against the many-worlds interpretation (MWI), arguing that it is contradicted by our hard to deny free-will. The counts are: (1) MWI is deterministic, forcing choices on us, (2) in MWI all our possible choices happen, and (3) MWI limits creativity, because everything is entangled with everything else. I argue that each of these features of MWI provides in fact more freedom than it may seem.
翻訳日:2023-01-22 14:29:11 公開日:2022-10-14
# 3次元交感神経冷却と浮遊ナノ粒子の検出

3D sympathetic cooling and detection of levitated nanoparticles ( http://arxiv.org/abs/2210.07583v1 )

ライセンス: Link先を確認
Dmitry S. Bykov, Lorenzo Dania, Florian Goschin, Tracy E. Northup(参考訳) 本研究では, 浮遊シリカナノ粒子の3次元交感神経冷却と質量中心運動の検出を示す。 ナノ粒子はフィードバック冷却粒子に静電結合され、両方の粒子は同じポールトラップに閉じ込められる。 第1の条件では、同感的に冷却された粒子は直接冷却された粒子と熱し、第2の条件では、同感的に冷却された粒子は最低温度に達する。 この結果は、吸収性粒子のような強いレーザー光で照らせない粒子を効率的に冷却して検出する経路を提供し、捕捉されたナノ粒子の配列の動きを制御する方法を提供する。

We demonstrate three-dimensional sympathetic cooling and detection of the center-of-mass motion of a levitated silica nanoparticle. The nanoparticle is electrostatically coupled to a feedback-cooled particle while both particles are trapped in the same Paul trap. We identify two regimes, based on the strength of the cooling: in the first regime, the sympathetically cooled particle thermalizes with the directly cooled one, while in the second regime, the sympathetically cooled particle reaches a minimum temperature. This result provides a route to efficiently cool and detect particles that cannot be illuminated with strong laser light, such as absorptive particles, and paves the way for controlling the motion of arrays of trapped nanoparticles.
翻訳日:2023-01-22 14:29:00 公開日:2022-10-14
# 時間依存結合量子振動子に対する一般力学不変量の定式化とそのユニタリ関係

Formulation of general dynamical invariants and their unitary relations for time-dependent coupled quantum oscillators ( http://arxiv.org/abs/2210.07551v1 )

ライセンス: Link先を確認
Jeong Ryeol Choi(参考訳) 時間依存結合振動子の完全不変作用素は、liouville-von neumann方程式を用いて導かれる。 この不変量と2つの結合しない単純調和振動子の不変量の間のユニタリ関係が表現される。 単純な調和振動子の量子解がよく知られているという事実を考えると、このユニタリ関係は、エンタングルメント、確率密度、標準変数のゆらぎ、デコヒーレンスといった元の系の量子特性を明らかにするのに非常に有用である。 このような量子特性は、単純な調和振動子に属する量子量の数学的表現を逆変換することで特定できる。 点において、元の系における不変作用素の固有関数は、単純な調和振動子に付随するよく知られた固有関数の逆変換によって見つかる。

An exact invariant operator of time-dependent coupled oscillators is derived using the Liouville-von Neumann equation. The unitary relation between this invariant and the invariant of two uncoupled simple harmonic oscillators is represented. If we consider the fact that quantum solutions of the simple harmonic oscillator is well-known, this unitary relation is very useful in clarifying quantum characteristics of the original systems, such as entanglement, probability densities, fluctuations of the canonical variables, and decoherence. We can identify such quantum characteristics by inversely transforming the mathematical representations of quantum quantities belonging to the simple harmonic oscillators. As a case in point, the eigenfunctions of the invariant operator in the original systems are found through inverse transformation of the well-known eigenfunctions associated with the simple harmonic oscillators.
翻訳日:2023-01-22 14:28:41 公開日:2022-10-14
# 半古典的不安定性としてのインフレ

Inflation as a semiclassical instability ( http://arxiv.org/abs/2210.07458v1 )

ライセンス: Link先を確認
Viqar Husain, Muhammad Muzammil(参考訳) 量子化された質量スカラー場を持つ半古典的アインシュタイン方程式は、厳密な静的解を与える。 解における曲率と宇宙定数 $\lambda$ は、スカラー場の固有状態に関連する量子化値として生じる。 線形安定解析は、$\Lambda$の関数である安定かつ不安定なモードを明らかにし、静的宇宙のサイズと曲率に依存しない。 不安定なモードは自然に『エマージェント』宇宙を膨らませる。

We show that the semiclassical Einstein equation with a quantized massive scalar field permits exact static solutions. The curvature and cosmological constant $\Lambda$ in the solution arise as quantized values associated to the eigenstates of the scalar field. Linear stability analysis reveals stable and unstable modes that are functions of $\Lambda$, and independent of the size and curvature of the static universe. The unstable mode leads naturally to an inflating ``emergent" universe.
翻訳日:2023-01-22 14:28:28 公開日:2022-10-14
# 確率エントロピー生成:非単位量子力学におけるゆらぎ関係と可逆性緩和

Stochastic entropy production: Fluctuation relation and irreversibility mitigation in non-unital quantum dynamics ( http://arxiv.org/abs/2210.07866v1 )

ライセンス: Link先を確認
Eliana Fiorelli, Stefano Gherardini, Stefano Marcantoni(参考訳) 本研究では,時間発展が非単位量子写像のクラスによって記述されるオープン量子系の確率エントロピー生成について検討する。 特に、[Phys. Rev. E 92, 032129 (2015)] のように、非平衡ポテンシャルに関係のあるクラウス作用素を考える。 このクラスは熱化と非熱状態の平衡の両方を担っている。 ユニタリ量子写像と異なり、非ユニタリティーは開量子系の前方および後方のダイナミクスを監視下で不均衡に導く。 ここでは、進化の不変状態と通勤する可観測物に集中して、非平衡ポテンシャルが確率エントロピー生成の統計にどのように入るかを示す。 特に、後者に対するゆらぎ関係を証明し、相対的エントロピーの観点からのみその平均を表現するための便利な方法を見出す。 次に,非マルコフ過渡性のある量子ビットの熱化に理論的結果を適用し,[phys. rev. research 2, 033250 (2020)]に導入された可逆性緩和現象をこの文脈で解析する。

In this work, we study the stochastic entropy production in open quantum systems whose time evolution is described by a class of non-unital quantum maps. In particular, as in [Phys. Rev. E 92, 032129 (2015)], we consider Kraus operators that can be related to a nonequilibrium potential. This class accounts for both thermalization and equilibration to a non-thermal state. Unlike unital quantum maps, non-unitality is responsible for an unbalance of the forward and backward dynamics of the open quantum system under scrutiny. Here, concentrating on observables that commute with the invariant state of the evolution, we show how the non-equilibrium potential enters the statistics of the stochastic entropy production. In particular, we prove a fluctuation relation for the latter and we find a convenient way of expressing its average solely in terms of relative entropies. Then, the theoretical results are applied to the thermalization of a qubit with non-Markovian transient, and the phenomenon of irreversibility mitigation, introduced in [Phys. Rev. Research 2, 033250 (2020)], is analyzed in this context.
翻訳日:2023-01-22 14:21:11 公開日:2022-10-14
# 量子センサを用いた空中絶対重力測定 : 古典技術との比較

Airborne absolute gravimetry with a quantum sensor, comparison with classical technologies ( http://arxiv.org/abs/2210.07865v1 )

ライセンス: Link先を確認
Yannick Bidel, Nassim Zahzam, Alexandre Bresson, C\'edric Blanchard, Alexis Bonnin, Jeanne Bernard, Malo Cadoret, Tim Enzlberger Jensen, Ren\'e Forsberg, Corinne Salaun, Sylvain Lucas, Marie Francoise Lequentrec-Lalancette, Didier Rouxel, Germinal Gabalda, Lucia Seoane, Dinh Toan Vu, Sylvain Bonvalot(参考訳) 原子干渉計と2つの相対重力計(古典的なLaCoste\&Romberg(L\&R)と、新しいiMARストラップダウン慣性測定ユニット(IMU))を基にした絶対重力計による空中重力調査を報告する。 飛行条件と濾過条件に応じて0.6~1.3 mgalの量子重力計の測定誤差を推定した。 同様の測定誤差はiMARストラップダウン重力計で得られるが、長期的な安定性は5倍悪い。 従来のL\&Rプラットフォーム重力計は、より大きな測定誤差(3 - 4 mGal)を示す。 航空機による測定は、海洋、陸、アルタイムの重力データと比較されている。 標準偏差を持つ量子重力計に対して, 2 mgal以下の差について十分な一致を得た。 本研究は、浅海や山岳地域のマッピングや、地上および衛星計測と等質な絶対参照を結びつけるために特に興味深い絶対空力重力計の量子技術の可能性を確認する。

We report an airborne gravity survey with an absolute gravimeter based on atom interferometry and two relative gravimeters: a classical LaCoste\&Romberg (L\&R) and a novel iMAR strap-down Inertial Measurement Unit (IMU). We estimated measurement errors for the quantum gravimeter ranging from 0.6 to 1.3 mGal depending on the flight conditions and the filtering used. Similar measurement errors are obtained with iMAR strapdown gravimeter but the long term stability is five times worse. The traditional L\&R platform gravimeter shows larger measurement errors (3 - 4 mGal). Airborne measurements have been compared to marine, land and altimetry derived gravity data. We obtain a good agreement for the quantum gravimeter with standard deviations and means on differences below or equal to 2 mGal. This study confirms the potential of quantum technology for absolute airborne gravimetry which is particularly interesting for mapping shallow water or mountainous areas and for linking ground and satellite measurements with homogeneous absolute referencing.
翻訳日:2023-01-22 14:20:51 公開日:2022-10-14
# 集団式クトリット冷凍機の性能向上

Performance boost of a collective qutrit refrigerator ( http://arxiv.org/abs/2210.07844v1 )

ライセンス: Link先を確認
Dmytro Kolisnyk and Gernot Schaller(参考訳) 弱結合した貯水池によって選択的に駆動される遷移を持つ単一のクトリットは、世界最小の冷蔵庫の1つを実装できる。 貯水池に集合的に結合した$N$等の冷蔵庫の性能を解析する。 量子ブースト(量子ブースト)を観測し、定常冷却電流をn$で2次スケーリングする。 n$がさらに大きくなると、量子加速の原因となる遷移はエネルギー的に不利になるため、スケーリングは線形に減少する。 微調整された量子間相互作用は、すべての$n$と不完全な集合的シナリオの量子加速を維持するために用いられる。

A single qutrit with transitions selectively driven by weakly-coupled reservoirs can implement one of the world's smallest refrigerators. We analyze the performance of $N$ such fridges that are collectively coupled to the reservoirs. We observe a quantum boost, manifest in a quadratic scaling of the steady-state cooling current with $N$. As $N$ grows further, the scaling reduces to linear, since the transitions responsible for the quantum boost become energetically unfavorable. Fine-tuned inter-qutrit interactions may be used to maintain the quantum boost for all $N$ and also for not-perfectly collective scenarios.
翻訳日:2023-01-22 14:20:34 公開日:2022-10-14
# 制御量子系における非線形歪の補償

Compensating for non-linear distortions in controlled quantum systems ( http://arxiv.org/abs/2210.07833v1 )

ライセンス: Link先を確認
Juhi Singh, Robert Zeier, Tommaso Calarco, Felix Motzoi(参考訳) 制御された量子システムの予測設計と最適化は、システムモデルの精度に依存する。 実験プラットフォームにおける入力フィールドの歪みはモデル精度を変化させ、最終的に予測ダイナミクスを阻害する。 これらの歪みは、強い周波数依存を持つ非線形であり、量子力学系と相互作用する場は入力信号に類似しない。 本稿では,任意の長さと大きさの非線形伝達関数に適した歪みを推定するための有効な手法を提案する。 二次推定を用いて,1つのRydberg原子系の数値的な例として,我々の手法を検証した。 提案手法から推定した伝達関数を,量子実験における高忠実度演算を可能にするオープンループ制御最適化アルゴリズムに組み込む。

Predictive design and optimization methods for controlled quantum systems depend on the accuracy of the system model. Any distortion of the input fields in an experimental platform alters the model accuracy and eventually disturbs the predicted dynamics. These distortions can be non-linear with a strong frequency dependence so that the field interacting with the microscopic quantum system has limited resemblance to the input signal. We present an effective method for estimating these distortions which is suitable for non-linear transfer functions of arbitrary lengths and magnitudes provided the available training data has enough spectral components. Using a quadratic estimation, we have successfully tested our approach for a numerical example of a single Rydberg atom system. The transfer function estimated from the presented method is incorporated into an open-loop control optimization algorithm allowing for high-fidelity operations in quantum experiments.
翻訳日:2023-01-22 14:20:24 公開日:2022-10-14
# 単一窒素空洞センタを用いたダイヤモンド表面の遍歴キャリアダイナミクスの探索

Probing itinerant carrier dynamics at the diamond surface using single nitrogen vacancy centers ( http://arxiv.org/abs/2210.07820v1 )

ライセンス: Link先を確認
Marjana Mahdia, James Allred, Zhiyang Yuan, Jared Rovny, and Nathalie P. de Leon(参考訳) ダイヤモンドのカラーセンターは、量子センシング、コンピューティング、ネットワークの分野で広く研究されている。 光学特性、スピン特性、電荷特性は広く研究されているが、イテナントキャリアとの相互作用は比較的解明されていない。 ここでは,ダイヤモンド表面の10nm以内に位置するNV中心をホール捕獲により中性電荷状態に変換することができることを示す。 ホール捕捉率を測定することにより,ダイヤモンド表面の近接により抑制される捕捉断面を抽出する。 距離依存性はキャリア拡散モデルと一致しており、ダイヤモンド表面でも一意的なキャリア寿命は長い可能性があることを示している。 表面近傍nv中心の測定ダイナミクスは、ダイヤモンド表面を特徴付ける新しいツールを提供し、ダイヤモンド装置の電荷輸送を調査する。

Color centers in diamond are widely explored for applications in quantum sensing, computing, and networking. Their optical, spin, and charge properties have been extensively studied, while their interactions with itinerant carriers are relatively unexplored. Here we show that NV centers situated within 10 nm of the diamond surface can be converted to the neutral charge state via hole capture. By measuring the hole capture rate, we extract the capture cross section, which is suppressed by proximity to the diamond surface. The distance dependence is consistent with a carrier diffusion model, indicating that the itinerant carrier lifetime can be long, even at the diamond surface. Measuring dynamics of near-surface NV centers offers a new tool for characterizing the diamond surface and investigating charge transport in diamond devices.
翻訳日:2023-01-22 14:20:14 公開日:2022-10-14
# フィッシャー情報を用いた平均量子ポテンシャルの同定は強い不確実性関係をもたらす

The identification of mean quantum potential with Fisher information leads to a strong uncertainty relation ( http://arxiv.org/abs/2210.07732v1 )

ライセンス: Link先を確認
Yakov Bloch and Eliahu Cohen(参考訳) 古典的フィッシャー情報(情報理論の重要な量)によって満たされるクラマー・ラオ境界は、量子力学のハイゼンベルクの不確実性原理を引き起こすために異なる文脈で示されている。 本稿では,フィッシャー情報を持つボーム力学において重要な概念である平均量子ポテンシャルの同定は,ハイゼンベルクとロベルトソン・シュロッディンガーの不確実性関係よりも一般に強い不確実性原理へと導かれ,そのような同定の有効性を実験的に検証できることを示す。

The Cramer-Rao bound, satisfied by classical Fisher information, a key quantity in information theory, has been shown in different contexts to give rise to the Heisenberg uncertainty principle of quantum mechanics. In this paper, we show that the identification of the mean quantum potential, an important notion in Bohmian mechanics, with the Fisher information, leads, through the Cramer-Rao bound, to an uncertainty principle which is stronger, in general, than both Heisenberg and Robertson-Schrodinger uncertainty relations, allowing to experimentally test the validity of such an identification.
翻訳日:2023-01-22 14:20:02 公開日:2022-10-14
# Bethe-Salpeter境界状態解:半相対論的アプローチの検討

Bethe-Salpeter Bound-State Solutions: Examining Semirelativistic Approaches ( http://arxiv.org/abs/2210.07720v1 )

ライセンス: Link先を確認
Wolfgang Lucha(参考訳) 相対論的量子場理論の形式論において、2粒子境界状態を記述するための適切な枠組み、例えば、すべての通常の(すなわち、非異種な)中間子は、ポアンカル共変同質なベーテ・サルペータ方程式によって与えられる。 しかし、アプリケーションでは、このアプローチは一般的にかなり関係があることが証明されるため、求めている予測を抽出するのは必ずしも容易ではない。 これを考えると、期待できる境界状態スペクトルの粗いアイデアは、完全な正当な第一歩を構成するいくつかの簡単な近似に固執することで得られるかもしれない。 より単純な境界状態方程式から推定される洞察の信頼性は、得られた離散スペクトルに対する厳密な制約を考慮し、容易に検証することができる。 これらのツールの適用は、一般的な可能性のために示されています。

Within the formalism of relativistic quantum field theory an adequate framework for the description of two-particle bound states, such as, for instance, all conventional (i.e., non-exotic) mesons, is provided by the Poincar\'e-covariant homogeneous Bethe-Salpeter equation. In applications, however, this approach usually proves to be rather involved, whence it is not always quite easy to extract the predictions sought. In view of this, a coarse idea of the bound-state spectrum to be expected might be gained by adhering to some simplifying approximations - which constitutes an entirely legitimate first step. The reliability of the insights inferred from the arising simpler bound-state equation may be straightforwardly examined by taking into account a couple of rigorous constraints on the obtained discrete spectrum. Application of these tools is illustrated for popular potentials.
翻訳日:2023-01-22 14:19:50 公開日:2022-10-14
# 機械学習を用いた絡み合いの一般分類

General Classification of Entanglement Using Machine Learning ( http://arxiv.org/abs/2210.07711v1 )

ライセンス: Link先を確認
F. El Ayachi and M. El Baz(参考訳) 純および混合状態に対して、キュービット系における多重粒子の絡み合いの分類を導入する。 この分類は、部分的トレース操作に対する前記絡み合いの堅牢性に基づいている。 次に、現在の機械学習とディープラーニング技術を用いて、各実行中の異なる種類の絡み合いの量を計算することなく、2、3、および4つの量子ビットのランダムな状態を自動的に分類する。 この手法は純粋な状態の場合、高い精度、ほぼ完全な精度を示す。 予想通り、この精度は多かれ少なかれ混合状態を扱う場合や関係者数を増やす場合に低下する。

A classification of multipartite entanglement in qubit systems is introduced for pure and mixed states. The classification is based on the robustness of the said entanglement against partial trace operation. Then we use current machine learning and deep learning techniques to automatically classify a random state of two, three and four qubits without the need to compute the amount of the different types of entanglement in each run; rather this is done only in the learning process. The technique shows high, near perfect, accuracy in the case of pure states. As expected, this accuracy drops, more or less, when dealing with mixed states and when increasing the number of parties involved.
翻訳日:2023-01-22 14:19:34 公開日:2022-10-14
# 非ガウス的資源状態を持つ論理ゲートで調製した「オーディンガー猫状態」 : 有限のスクイージングと効率のモノトンに対する効果

Schr\"odinger cat states prepared by logical gate with non-Gaussian resource state: effect of finite squeezing and efficiency versus monotones ( http://arxiv.org/abs/2210.07705v1 )

ライセンス: Link先を確認
A. V. Baeva and I. V. Sokolov(参考訳) 非ガウス的資源として使用される理想的な立方相状態の絡み合いに基づく量子測定誘導ゲートは、相平面上のターゲット状態の2つの高忠実な 'copies'' の形でShr\"odinger cat状態を生成することができる[N.I. Masalaeva, I.V. Sokolov, Phys. A 424, 127846 (2022)]。 本研究では,資源状態の有限初期スクイーズがゲート性能に及ぼす影響について検討する。 我々はゲート出力状態の正確な解を示し、出力猫状態の品質がスキューズの増加にほとんど影響しないような、実験で利用可能なスクイーズレベルが存在することを示す。 一方, スクイージングにより, 期待したアシラ測定結果の確率は低下する。 条件付きスキームの全体的な効率は成功の確率を考慮すべきであるため、ウィグナー対数ネガティヴィイや非ガウス性のような資源状態の非ガウス性の測定は、量子絡み合いとその後の射影測定に基づいて非ガウス門の効率を評価するために直接適用できない。

Quantum measurement-induced gate based on entanglement with ideal cubic phase state used as a non-Gaussian resource is able to produce Shr\"odinger cat state in the form of two high fidelity ``copies'' of the target state on phase plane [N.I. Masalaeva, I.V. Sokolov, Phys. Lett. A 424, 127846 (2022)]. In this work we examine the effect of finite initial squeezing of the resource state on the gate performance. We present exact solution for the gate output state and demonstrate that there exists a degree of squeezing, available in experiment, such that the output cat state quality almost does not impove with the further increase of squeezing. On the other hand, the probability of the expected ancilla measurement outcome decreases with squeezing. Since an overall efficiency of the conditional scheme should account for the probability of success, we argue that such measures of non-Gaussianity of the resource state as Wigner logarithmic negativiy and non-Gaussianity may not be directly applicable to assess the efficiency of non-Gaussian gates based on quantum entanglement and subsequent projective measurement.
翻訳日:2023-01-22 14:19:25 公開日:2022-10-14
# サブバンド間ポラリトンに対する磁場によるキャビティ保護

Magnetic-field-induced cavity protection for intersubband polaritons ( http://arxiv.org/abs/2210.08026v1 )

ライセンス: Link先を確認
Daniele De Bernardis, Mathieu Jeannin, Jean-Michel Manceau, Raffaele Colombelli, Alessandro Tredicucci, and Iacopo Carusotto(参考訳) 我々は、光学キャビティに強く結合した乱れドープ量子におけるサブバンド間遷移に対する強垂直磁場の影響を分析する。 磁場は、ローレンツ型からガウス型への量子井戸の界面粗さのため、サブバンド間光遷移の線形状を変化させる。 この方法では、新しい形態の磁場によるキャビティ保護が設定され、ポラリトン線幅をキャビティ寄与のみに強く還元する。 非線形ポラリトンダイナミクスの基礎研究およびポラリトンレーザーへの技術応用に対する我々の研究結果の意義が最終的に強調された。

We analyse the effect of a strong perpendicular magnetic field on an intersubband transition in a disordered doped quantum well strongly coupled to an optical cavity. The magnetic field changes the lineshape of the intersubband optical transition due to the interface roughness of the quantum well from a Lorentzian to a Gaussian one. In this regime, a novel form of magnetic-field-induced cavity protection sets in, which strongly reduces the polariton linewidth to the cavity contribution only. Implications of our results for fundamental studies of nonlinear polariton dynamics and for technological applications to polariton lasers are finally highlighted.
翻訳日:2023-01-22 14:12:59 公開日:2022-10-14
# 整数特性多項式分解とヒルベルト空間のフラグメンテーション

Integer characteristic polynomial factorization and Hilbert space fragmentation ( http://arxiv.org/abs/2210.08019v1 )

ライセンス: Link先を確認
Nicolas Regnault and B. Andrei Bernevig(参考訳) ヒルベルト空間の断片化を伴うモデルは、(指数的に)多くの動的に非連結な部分空間によって特徴づけられるが、従来の対称性とは関係なく、非自明なクリロフ部分空間によって捉えられる。 これらの部分空間は通常、カオスから可積分性、量子多体傷まで、幅広い熱化特性を示す。 しかし、今のところそれらは適切に定義されておらず、ハミルトニアンを与えると容易に見つけられる。 この研究において、整数表現を持つハミルトニアンは、凝縮物質における多くの(最も)有理モデルの共通の特徴である。 整数特性多項式分解の同値性と整数ベクトルから生成されるクリロフ部分空間の存在を示す。 ペアホッピングモデルを考えると、因子化特性がヒルベルト空間のフラグメンテーションを顕在化する方法としてどのように利用できるかを示す。 与えられた (\ne 0, \pi$) 運動量セクターで働くときに関係するシクロトミック場に基づくような、他の整数環の一般化について議論する。

Models with Hilbert space fragmentation are characterized by (exponentially) many dynamically disconnected subspaces, not associated with conventional symmetries but captured by nontrivial Krylov subspaces. These subspaces usually exhibit a whole range of thermalization properties, from chaotic to integrable, to quantum many-body scars. However, so far, they have not been properly defined, nor can they be easily found, given a Hamiltonian. In this work, we consider Hamiltonians that have integer representations, a common feature of many (most) celebrated models in condensed matter. We show the equivalence of the integer characteristic polynomial factorization and the existence of Krylov subspaces generated from integer vectors. Considering the pair-hopping model, we illustrate how the factorization property can be used as a method to unveil Hilbert space fragmentation. We discuss the generalization over other rings of integers, for example those based on the cyclotomic field which are relevant when working in a given ($\ne 0, \pi$) momentum sector.
翻訳日:2023-01-22 14:12:50 公開日:2022-10-14
# ナノワイヤネットワークにおける論理的Majoranaゼロモード

Logical Majorana zero modes in a nanowire network ( http://arxiv.org/abs/2210.07997v1 )

ライセンス: Link先を確認
Sayandip Dhara, Garry Goldstein, Claudio Chamon, Eduardo R. Mucciolo(参考訳) 本稿では,2次元ナノワイヤネットワークの各接合部において物理マヨラナ準ゼロモードを用いて論理マヨラナゼロモードを構築する方式を提案する。 ワイヤーネットワークは、Yang et al. arXiv:1808.04825による、ゲート電圧を介してハニカム格子上にKekul\e vortexパターンを印字する提案を実現する方法である。 我々は, 時間反転対称性を破ることなく, 複雑な点ではなく, マヨラナフェルミオンを用いた人工'グラフェン'系を実現するために, 特定の種類の接合が必要とされることを示した。 私たちが提案するジャンクション (i)レンガの壁やハニカム格子の各箇所で正確に1つの物理的マヨラナ(準)ゼロモードをトラップし、 (ii) このモードで隣接する3つのサイトすべてとハイブリダイゼーションできる。 これらの接合の格子を用いて、ワイヤの電子的・密結合モデルから開始し、kekul\'e渦に対応する電圧パターンをインプリントし、ボルテックスコアにおける論理マヨラナゼロモードの出現を観測する。 また、この励起を実験的に実現できるパラメータの範囲も提供する。

We present a scheme to use physical Majorana quasi-zero modes at each junction of a two-dimensional nanowire network to build a logical Majorana zero mode, the location of which is controllable through gate voltages. The wire-network is a way to realize a proposal by Yang et al. arXiv:1808.04825 to imprint a Kekul\'e vortex pattern on a honeycomb lattice via gate voltages. We show that a specific type of junction -- other than a naive Y- or T-junction -- is needed to realize, without breaking time-reversal symmetry, an artificial ``graphene'' system with Majorana fermions instead of complex ones at each site. The junction we propose (i) traps exactly one physical Majorana (quasi-)zero mode at each site of either a brick wall or honeycomb lattice and (ii) allows this mode to hybridize with all three neighboring sites. Using a lattice of these junctions and starting from an electronic, tight-binding model for the wires, we imprint the voltage patterns corresponding to the Kekul\'e vortex and observe the emergence of the logical Majorana zero mode at the vortex core. We also provide the range of parameters where this excitation could be realized experimentally.
翻訳日:2023-01-22 14:12:30 公開日:2022-10-14
# 限られた資源を持つ量子コンピュータにおけるスカラー場理論のシミュレーション

Simulating scalar field theories on quantum computers with limited resources ( http://arxiv.org/abs/2210.07985v1 )

ライセンス: Link先を確認
Andy C. Y. Li, Alexandru Macridin, Stephen Mrenna, Panagiotis Spentzouris(参考訳) 量子ビットコンピュータ上で$\phi^4$格子スカラー場理論を実装する量子アルゴリズムを提案する。 フィールドは離散化されたフィールド振幅基底で表現される。 進化作用素の実装に必要な量子ビットと基本ゲートの数は、格子の大きさに比例する。 このアルゴリズムは、正規および破断した対称性の位相の両方において、幅広い入力パラメータに対する効率的な$\phi^4$状態準備を可能にする。 これらの状態は変分進化法と断熱進化法を組み合わせて調製される。 第一に、$\phi^4$自己相互作用を含む局所ハミルトニアンの基底状態は、短い変動回路を用いて作成される。 次に、この状態は格子点間のカップリングを断続的に切り替えることで進化する。 局所ハミルトニアンを定義するパラメータは調整可能であり、アルゴリズムの入力を構成する。 状態準備に必要な断熱時間を短縮するために,これらのパラメータを最適化する手法を提案する。 破壊対称性状態を作成するためには、相転移臨界線を横切ることと、破壊対称性基底状態の退化によって生じる断熱進化問題を、断熱過程中に徐々に停止する補助外界を用いて解決することができる。 断熱進化における外部磁場の時間依存性は, 崩壊した対称性基底状態の縮退に対処するために重要であることを示す。 逆誤差耐性に対する断熱的な時間依存性は、線形に減少するものと比較して指数関数的に減少する場強度を用いて、二次から線形へと減少することができる。

We present a quantum algorithm for implementing $\phi^4$ lattice scalar field theory on qubit computers. The field is represented in the discretized field amplitude basis. The number of qubits and elementary gates required by the implementation of the evolution operator is proportional to the lattice size. The algorithm allows efficient $\phi^4$ state preparation for a large range of input parameters in both the normal and broken symmetry phases. The states are prepared using a combination of variational and adiabatic evolution methods. First, the ground state of a local Hamiltonian, which includes the $\phi^4$ self-interaction, is prepared using short variational circuits. Next, this state is evolved by switching on the coupling between the lattice sites adiabatically. The parameters defining the local Hamiltonian are adjustable and constitute the input of our algorithm. We present a method to optimize these parameters in order to reduce the adiabatic time required for state preparation. For preparing broken symmetry states, the adiabatic evolution problems caused by crossing the phase transition critical line and by the degeneracy of the broken symmetry ground state can be addressed using an auxiliary external field which gradually turns off during the adiabatic process. We show that the time dependence of the external field during the adiabatic evolution is important for addressing the broken symmetry ground state degeneracy. The adiabatic time dependence on the inverse error tolerance can be reduced from quadratic to linear by using a field strength that decreases exponentially in time relative to one that decreases linearly.
翻訳日:2023-01-22 14:12:06 公開日:2022-10-14
# フェルミオン性ランダム二次リウビリアンのスペクトルおよび定常特性

Spectral and steady-state properties of fermionic random quadratic Liouvillians ( http://arxiv.org/abs/2210.07959v1 )

ライセンス: Link先を確認
Jo\~ao Costa, Pedro Ribeiro, Andrea de Luca, Toma\v{z} Prosen, and Lucas S\'a(参考訳) リンドブラッド形式の二次フェルミオンリウビリアン作用素によって記述される一般マルコフ散逸系のスペクトルおよび定常特性について検討した。 ハミルトン力学は一般のランダム二次作用素、すなわちクラス d の特徴のない超伝導体によってモデル化され、マルコフ散逸は $m$ のランダム線型ジャンプ作用素によって記述される。 フェルミオンあたりの散逸強度と散逸チャネルの比を$m=M/(2N_F)$とすることにより、単粒子スペクトルの支持が1つまたは2つの連結成分を持つ2つの異なる位相を求める。 強い散逸状態では、この遷移は$m=1/2$で起こり、大きな時間力学を規定する定常状態とスペクトルギャップの両方の質的変化と一致している。 この閾値を超えると、スペクトルギャップと定常純度は、最近研究された完全ジェネリック(すなわち非量子)の場合と定性的に一致する。 m=1/2$以下では、スペクトルギャップは熱力学的極限で閉じ、定常状態はエルゴードと非エルゴードに分解され、非単調定常状態純度は散逸強度の関数として生じる。 以上の結果から, 完全ランダムなリウビリアンに対して以前に観測された普遍的特徴のいくつかは, 十分に多くのジャンプ作用素に対して汎用的であることが示された。 一方, 消散チャネル数が減少すると, システムは非エルゴディックな特徴を示すことができ, 強いシステム環境結合が存在する場合でも, 保護された部分空間における消散を抑制することができる。

We study spectral and steady-state properties of generic Markovian dissipative systems described by quadratic fermionic Liouvillian operators of the Lindblad form. The Hamiltonian dynamics is modeled by a generic random quadratic operator, i.e., as a featureless superconductor of class D, whereas the Markovian dissipation is described by $M$ random linear jump operators. By varying the dissipation strength and the ratio of dissipative channels per fermion, $m=M/(2N_F)$, we find two distinct phases where the support of the single-particle spectrum has one or two connected components. In the strongly dissipative regime, this transition occurs for $m=1/2$ and is concomitant with a qualitative change in both the steady-state and the spectral gap that rules the large-time dynamics. Above this threshold, the spectral gap and the steady-state purity qualitatively agree with the fully generic (i.e., non-quadratic) case studied recently. Below $m=1/2$, the spectral gap closes in the thermodynamic limit and the steady-state decouples into an ergodic and a nonergodic sector yielding a non-monotonic steady-state purity as a function of the dissipation strength. Our results show that some of the universal features previously observed for fully random Liouvillians are generic for a sufficiently large number of jump operators. On the other hand, if the number of dissipation channels is decreased the system can exhibit nonergodic features, rendering it possible to suppress dissipation in protected subspaces even in the presence of strong system-environment coupling.
翻訳日:2023-01-22 14:11:44 公開日:2022-10-14
# トランスモン量子の1次元マクスウェル・シュロディンガーハイブリッドシミュレーション

One-Dimensional Maxwell-Schrodinger Hybrid Simulation of Transmon Qubits ( http://arxiv.org/abs/2210.07923v1 )

ライセンス: Link先を確認
Thomas E. Roth and Samuel T. Elkin(参考訳) トランスモン量子ビット(qubits)は、現在量子情報処理技術開発のために追求されている、最も人気のある実験プラットフォームの一つである。 これらの装置では、マイクロ波パルスがトランスモン量子ビットの状態の制御と測定に使用される。 現在、これらの目的のためのマイクロ波パルスの設計は、トランスモンが応用されたマイクロ波場をどのように変更できるかを無視する単純な理論および/または数値モデルによって行われている。 本研究では,半古典的maxwell-schrodingerハイブリッド法の定式化と有限要素時間領域離散化を行い,伝送線路系に容量結合したトランスモン量子ビットのダイナミクスを記述する。 このマクスウェル・シュロディンガー法を用いて,トランスモン量子ビットの状態の制御と測定を特徴付ける数値計算を行った。 提案手法は, 関連するオペレーティングシステムにおける標準的な理論予測と一致し, 理論モデルが故障する状況において, 物理的に有意な結果が得られることを示す。 将来的には,より広範な運用体制を探索し,トランスモンキュービットのより効果的な制御および測定プロトコルを探索することができる。

Transmon quantum bits (qubits) are one of the most popular experimental platforms currently being pursued for developing quantum information processing technologies. In these devices, applied microwave pulses are used to control and measure the state of the transmon qubit. Currently, the design of the microwave pulses for these purposes is done through simple theoretical and/or numerical models that neglect how the transmon can modify the applied microwave field. In this work, we present the formulation and finite element time domain discretization of a semiclassical Maxwell-Schrodinger hybrid method for describing the dynamics of a transmon qubit capacitively coupled to a transmission line system. Numerical results are presented using this Maxwell-Schrodinger method to characterize the control and measurement of the state of a transmon qubit. We show that our method matches standard theoretical predictions in relevant operating regimes, and also show that our method produces physically meaningful results in situations where the theoretical models break down. In the future, our method can be used to explore broader operating regimes to search for more effective control and measurement protocols for transmon qubits.
翻訳日:2023-01-22 14:11:17 公開日:2022-10-14
# ホップ代数ゲージ理論からのフラックスアタッチメントを持つ修正トーリック符号モデル

Modified toric code models with flux attachment from Hopf algebra gauge theory ( http://arxiv.org/abs/2210.07909v1 )

ライセンス: Link先を確認
Aaron Conlon, Domenico Pellegrino, J.K. Slingerland(参考訳) キタエフのトーリック符号はゲージ理論の有限ゲージ群を用いて構成される。 そのようなゲージ理論は、任意の有限次元半単純ホップ代数に一般化されたゲージ群で一般化することができる。 これはトーリックコードの一般化にも繋がる。 ここでは、ゲージ群が不変であるが、ゲージ理論の構成を変更する非自明な準三角構造(R-行列)を備える単純な場合を考える。 例えば、群上の函数の空間は非可換代数となる。 また、トーリック符号と同じ位相型であるトーリック符号を一般化する単純なハミルトニアンモデルを得るが、モデル内の弦作用素によって生成される様々な粒子種は、R-行列に依存する方法で置換される。 $\mathbb{Z}_{N}$ゲージ理論の場合、非自明な R-行列の導入はフラックスアタッチメントに相当する。

Kitaev's toric code is constructed using a finite gauge group from gauge theory. Such gauge theories can be generalized with the gauge group generalized to any finite-dimensional semisimple Hopf algebra. This also leads to generalizations of the toric code. Here we consider the simple case where the gauge group is unchanged but furnished with a non-trivial quasitriangular structure (R-matrix), which modifies the construction of the gauge theory. This leads to some interesting phenomena; for example, the space of functions on the group becomes a non-commutative algebra. We also obtain simple Hamiltonian models generalizing the toric code, which are of the same overall topological type as the toric code, except that the various species of particles created by string operators in the model are permuted in a way that depends on the R-matrix. In the case of $\mathbb{Z}_{N}$ gauge theory, we find that the introduction of a non-trivial R-matrix amounts to flux attachment.
翻訳日:2023-01-22 14:10:56 公開日:2022-10-14
# 量子ワーク分布のエントロピー

Entropy of the quantum work distribution ( http://arxiv.org/abs/2210.07896v1 )

ライセンス: Link先を確認
Anthony Kiely, Eoin O'Connor, Thom\'as Fogarty, Gabriel T. Landi, Steve Campbell(参考訳) 量子系における仕事の統計は、2点測定方式で定量化することができる。 ワーク分布のシャノンエントロピーは、初期対角エントロピーに依存する一般的な上限と、コヒーレンスの相対エントロピーに関連する純粋量子項をどのように認めるかを示す。 このアプローチは、様々な設定で基礎となる物理の強いシグネチャを捉えていることを実証する。 特に, aubry-andr\e-harperモデルに関する詳細な研究を行い, 作業分布のエントロピーが, 統計的瞬間から明らかでない局在遷移の物理を非常に明確に伝達することを示した。

The statistics of work done on a quantum system can be quantified by the two-point measurement scheme. We show how the Shannon entropy of the work distribution admits a general upper bound depending on the initial diagonal entropy, and a purely quantum term associated to the relative entropy of coherence. We demonstrate that this approach captures strong signatures of the underlying physics in a diverse range of settings. In particular, we carry out a detailed study of the Aubry-Andr\'e-Harper model and show that the entropy of the work distribution conveys very clearly the physics of the localization transition, which is not apparent from the statistical moments.
翻訳日:2023-01-22 14:10:40 公開日:2022-10-14
# 量子ホップフィールドニューラルネットワークの最適記憶容量

Optimal storage capacity of quantum Hopfield neural networks ( http://arxiv.org/abs/2210.07894v1 )

ライセンス: Link先を確認
Lukas B\"odeker, Eliana Fiorelli and Markus M\"uller(参考訳) 量子ニューラルネットワークは、量子機械学習の創発的分野の柱を形成する。 ここでは、崩壊した初期状態からパターンや記憶を検索できる連想記憶を実現する古典的ネットワークの量子一般化が提案されている。 量子連想記憶を多数のパターンで分析し、量子ネットワークが確実に保存できる最大パターン数、すなわち記憶容量を決定することは、難しいオープンな問題である。 本研究では,量子ニューラルネットワークモデルの最大記憶容量を評価する一般的な手法を提案し,検討する。 古典的領域においてガードナーのアプローチとして知られるものを一般化することにより、古典的スピングラスの理論をクエンチされたパターン変数を持つ量子ネットワークの最適記憶容量の導出に利用する。 例として,結合型人工ニューロンを実現するスピン1/2粒子を相互作用させたオープンシステム量子連想メモリに適用する。 このシステムは、コヒーレント量子力学と競合する散逸的検索力学から生じるマルコフ時間の進化を経る。 非平衡相図をマッピングし, 温度とハミルトニアンダイナミクスが貯蔵容量に及ぼす影響について検討した。 本手法は,量子連想記憶の記憶容量を体系的に評価する方法である。

Quantum neural networks form one pillar of the emergent field of quantum machine learning. Here, quantum generalisations of classical networks realizing associative memories - capable of retrieving patterns, or memories, from corrupted initial states - have been proposed. It is a challenging open problem to analyze quantum associative memories with an extensive number of patterns, and to determine the maximal number of patterns the quantum networks can reliably store, i.e. their storage capacity. In this work, we propose and explore a general method for evaluating the maximal storage capacity of quantum neural network models. By generalizing what is known as Gardner's approach in the classical realm, we exploit the theory of classical spin glasses for deriving the optimal storage capacity of quantum networks with quenched pattern variables. As an example, we apply our method to an open-system quantum associative memory formed of interacting spin-1/2 particles realizing coupled artificial neurons. The system undergoes a Markovian time evolution resulting from a dissipative retrieval dynamics that competes with a coherent quantum dynamics. We map out the non-equilibrium phase diagram and study the effect of temperature and Hamiltonian dynamics on the storage capacity. Our method opens an avenue for a systematic characterization of the storage capacity of quantum associative memories.
翻訳日:2023-01-22 14:10:29 公開日:2022-10-14
# 光ハーベスティング複合体としての拡張星グラフ:周辺エネルギー欠陥チューニングによる励起吸収速度向上

The extended star graph as a light-harvesting-complex prototype: excitonic absorption speedup by peripheral energy defect tuning ( http://arxiv.org/abs/2210.17524v1 )

ライセンス: Link先を確認
Saad Yalouz and Vincent Pouthier(参考訳) 我々は、拡張星ネットワークの周囲に一様に分布する光励起の量子力学(長さ$n_b$の分枝)について研究する。 より具体的には、ここでは、ネットワークのコアにおけるエネルギー吸収に関する問題と、調節可能なエネルギー振幅$\Delta$で周辺欠陥を包含することで、このプロセスをどのように改善(あるいは改善)するかという問題に対処する。 数値シミュレーションにより,ネットワークアーキテクチャに依存するエネルギー欠陥$\delta^*$の最適値の存在が明らかになった。 この値付近では、$L_B \leq L_B^*$と$L_B^* \approx 12.5/\ln(N_B)$とすると、吸収過程は強いスピードアップ(すなわち吸収時間の減少)を示す。 分析/数値的な開発は、この特徴を解釈するために行われる。 このスピードアップの起源は、2つの上バンド励起固有状態のハイブリダイゼーションにあることを示す。 このハイブリダイゼーションは、$L_B \leq L_B^*$の場合には重要であり、$L_B > L_B^*$の場合にはほぼ完全に消滅する。 これらの構造則は、効率的な光励起吸収の実現に特化した分子ナノネットワークの実用的な設計のガイドとなる可能性がある。

We study the quantum dynamics of a photo-excitation uniformly distributed at the periphery of an extended star network (with $N_B$ branches of length $L_B$). More specifically, we address here the question of the energy absorption at the core of the network and how this process can be improved (or not) by the inclusion of peripheral defects with a tunable energy amplitude $\Delta$. Our numerical simulations reveal the existence of optimal value of energy defect $\Delta^*$ which depends on the network architecture. Around this value, the absorption process presents a strong speedup (i.e. reduction of the absorption time) provided that $L_B \leq L_B^*$ with $L_B^* \approx 12.5/\ln(N_B) $. Analytical/numerical developments are then conducted to interpret this feature. We show that the origin of this speedup takes place in the hybridization of two upper-band excitonic eigenstates. This hybridization is important when $L_B \leq L_B^*$ and vanishes almost totally when $L_B > L_B^*$. These structural rules we draw here could represent a potential guide for the practical design of molecular nano-network dedicated to the realisation of efficient photo-excitation absorption.
翻訳日:2023-01-22 14:03:31 公開日:2022-10-14
# 波動粒子双対の電気力学的起源

The electrodynamic origin of the wave-particle duality ( http://arxiv.org/abs/2210.09033v1 )

ライセンス: Link先を確認
\'Alvaro Garc\'ia L\'opez(参考訳) 電気力学的自己相互作用によるパイロット波の導出について述べる。 この目的のために、電場を点質量として記述する現在のパラダイムを放棄する。 Li\enard-Wiechertポテンシャルから始まり、慣性が電磁起源を持つと仮定すると、非線形時間遅れ振動子の運動方程式が得られる。 電磁帯電された拡張粒子の小さな摂動に対する一様運動の応答を解析し、その結果、非常に激しい振動が解き放たれることを示した。 これらの振動の周波数はディラックの相対論的波動方程式に現れるジッタベグング周波数と密接に関連している。 最後に、粒子の自己エネルギーを計算する。 残りのエネルギーと運動エネルギーは別として、量子ポテンシャルに現れるのと同じ基本的な物理定数を示す新たな貢献を明らかにする。

A derivation of pilot waves from electrodynamic self-interactions is presented. For this purpose, we abandon the current paradigm that describes electrodynamic bodies as point masses. Beginning with the Li\'enard-Wiechert potentials, and assuming that inertia has an electromagnetic origin, the equation of motion of a nonlinear time-delayed oscillator is obtained. We analyze the response of the uniform motion of the electromagnetic charged extended particle to small perturbations, showing that very violent oscillations are unleashed as a result. The frequency of these oscillations is intimately related to the zitterbewegung frequency appearing in Dirac's relativistic wave equation. Finally, we compute the self-energy of the particle. Apart from the rest and the kinetic energy, we uncover a new contribution presenting the same fundamental physical constants that appear in the quantum potential.
翻訳日:2023-01-22 14:03:09 公開日:2022-10-14
# 相対的な事実は存在しない。 関係量子力学は量子力学とは相容れない。 Aur\elien Drezetの批判に対する反応

Relative facts do not exist. Relational Quantum Mechanics is Incompatible with Quantum Mechanics. Response to the critique by Aur\'elien Drezet ( http://arxiv.org/abs/2210.09025v1 )

ライセンス: Link先を確認
Jay Lawrence, Marcin Markiewicz and Marek \.Zukowski(参考訳) このコメントでは、Aur\'elien Drezet [arXiv:2209.01237] による関係量子力学 (RQM) に関する最近の論文 [arXiv:2208.11793] の批判に答える。 ここで, rqm の批判的分析は rqm の最近の定式化に基づいていることを指摘し, 批判の論文は rqm の仮定にも議論にも基づかないことを指摘した。

In this comment we answer to the recent critique of our article [arXiv:2208.11793] about Relational Quantum Mechanics (RQM) by Aur\'elien Drezet [arXiv:2209.01237]. Here we point out that our critical analysis of RQM was precisely based on the most recent formulation of RQM, and that the theses found in the critique are based on neither RQM assumptions nor on our arguments.
翻訳日:2023-01-22 14:02:58 公開日:2022-10-14
# 量子ネットワークユーティリティの最大化

Quantum Network Utility Maximization ( http://arxiv.org/abs/2210.08135v1 )

ライセンス: Link先を確認
Gayane Vardoyan, Stephanie Wehner(参考訳) Network Utility Maximization (NUM) は、古典的な通信プロトコルを設計し分析するための強力な手法を研究者に提供する数学的フレームワークである。 NUMはまた、リソース割り当て問題を解決するための分散アルゴリズムの開発を可能とし、同時にネットワークのユーザに対して公平な処理の保証を提供する。 ここでは、NUMの概念を量子ネットワークに拡張し、3つの量子ユーティリティ関数を提案します。 我々は,量子ユーザが有用性を認識できるいくつかの方法の理解と,分散量子システムにおいて複数のユーザを同時に維持する構造的かつ理論的動機付けのある方法の探求を両立する。 量子数値構成を用いて、絡み合い生成に単一光子スキームを用いるネットワークのための最適化フレームワークを開発し、我々が検討するネットワークトポロジ内のレート忠実性トレードオフを探求しながら、リソース割り当て問題を解決する。 我々は、蒸留可能な絡み合いと秘密鍵分数に基づく2つのユーティリティ関数が互いに密接に一致していることを学び、我々が研究している最適化問題に対する同様の解決策を導出する。 第3のユーティリティは、絡み合いのネガティビティに基づいて、より有利な数学的特性を持ち、エンド・ツー・エンドの忠実性を重視した従来の2つのユーティリティに比べて、ユーザが絡み合うリソースを受け取る率により高い価値を置く傾向にあります。 これらの対照的な振る舞いは、異なる量子応用に対する量子ネットワークユーティリティ定義の適合性に関するアイデアを提供する。

Network Utility Maximization (NUM) is a mathematical framework that has endowed researchers with powerful methods for designing and analyzing classical communication protocols. NUM has also enabled the development of distributed algorithms for solving the resource allocation problem, while at the same time providing certain guarantees, e.g., that of fair treatment, to the users of a network. We extend here the notion of NUM to quantum networks, and propose three quantum utility functions -- each incorporating a different entanglement measure. We aim both to gain an understanding of some of the ways in which quantum users may perceive utility, as well as to explore structured and theoretically-motivated methods of simultaneously servicing multiple users in distributed quantum systems. Using our quantum NUM constructions, we develop an optimization framework for networks that use the single-photon scheme for entanglement generation, which enables us to solve the resource allocation problem while exploring rate-fidelity tradeoffs within the network topologies that we consider. We learn that two of our utility functions, which are based on distillable entanglement and secret key fraction, are in close agreement with each other and produce similar solutions to the optimization problems we study. Our third utility, based on entanglement negativity, has more favorable mathematical properties, and tends to place a higher value on the rate at which users receive entangled resources, compared to the two previous utilities, which put a higher emphasis on end-to-end fidelity. These contrasting behaviors thus provide ideas regarding the suitability of quantum network utility definitions to different quantum applications.
翻訳日:2023-01-22 14:02:49 公開日:2022-10-14
# 量子コンピュータ上での周期ポテンシャルのgibbsサンプリング

Gibbs Sampling of Periodic Potentials on a Quantum Computer ( http://arxiv.org/abs/2210.08104v1 )

ライセンス: Link先を確認
Arsalan Motamedi and Pooya Ronagh(参考訳) 機械学習の応用に動機づけられ,高次元トーラス上で定義される連続実数値関数からギブスサンプリングを行う量子アルゴリズムを提案する。 このアルゴリズムは線形系や偏微分方程式の解法に依存し、エネルギー関数を計算した量子オラクルへのゼロ次クエリを実行する。 次に,アルゴリズムの問合せとゲートの複雑さを分析し,そのアルゴリズムが近似誤差(全変動距離)と変数数への多項式依存に大きく依存していることを証明する。

Motivated by applications in machine learning, we present a quantum algorithm for Gibbs sampling from a continuous real-valued function defined on a high dimensional torus. Our algorithm relies on techniques for solving linear systems and partial differential equations and performs zeroeth order queries to a quantum oracle computing the energy function. We then analyze the query and gate complexity of our algorithm and prove that the algorithm has a polylogarithmic dependence on approximation error (in total variation distance) and a polynomial dependence on the number of variables, although it suffers from an exponentially poor dependence on temperature.
翻訳日:2023-01-22 14:02:08 公開日:2022-10-14
# 低繰り返しfsレーザーパルスによる局所窒素空洞中心の生成

Localized Nitrogen-Vacancy centers generated by low-repetition rate fs-laser pulses ( http://arxiv.org/abs/2210.08071v1 )

ライセンス: Link先を確認
Charlie Oncebay, Juliana M. P. Almeida, Gustavo F. B. Almeida, Sergio R. Muniz, Cleber R. Mendon\c{c}a(参考訳) 何百ものダイヤモンドの不純物や欠陥の中で、窒素空孔(NV)中心は量子技術やナノセンシングのプラットフォームとして最も興味深いものの一つである。 伝統的に、合成ダイヤモンドには高エネルギーの電子や窒素イオンが照射され、これらの色中心を生成する。 NV中心の正確な位置決めのために、ダイヤモンド中の空間局在NV中心を生成する代替アプローチとしてfsレーザー照射が提案されている。 しかし, これまでに報告された研究の多くは, 高繰り返しfsレーザーを用いた。 本研究では,照射条件がnv$^-$の生成に及ぼす影響について検討した。 具体的には,Ti:サファイアレーザー増幅器の1kHz繰り返し動作から,150 fsのパルスを775nmで照射した場合のパルス流束,レーザー集束,パルス数を変化させた。 光検出磁気共鳴法 (ODMR) を用いて生成したNV中心を解析し, スペクトルに大きさのゼロフィールド分裂を呈し, アブレーション過程で生じる格子ひずみが量子情報応用に有用であることを示す。

Among hundreds of impurities and defects in diamond, the nitrogen-vacancy (NV) center is one of the most interesting to be used as a platform for quantum technologies and nanosensing. Traditionally, synthetic diamond is irradiated with high-energy electrons or nitrogen ions to generate these color-centers. For precise positioning of the NV centers, fs-laser irradiation has been proposed as an alternative approach to produce spatially localized NV centers in diamond. However, most of the studies reported so far used high-repetition rate fs-laser systems. Here, we studied the influence of the irradiation conditions on the generation of NV$^-$. Specifically, we varied pulse fluence, laser focusing, and the number of pulses upon irradiation with 150 fs pulses at 775 nm from a Ti:sapphire laser amplifier operating at 1 kHz repetition rate. Optically Detected Magnetic Resonance (ODMR) was used to investigate the produced NV centers, revealing a sizeable zero-field splitting in the spectra and indicating the conditions in which the lattice strain produced in the ablation process may be deleterious for quantum information applications.
翻訳日:2023-01-22 14:01:47 公開日:2022-10-14
# 中間回路計測とリセットによるQubit-Reuseコンパイル

Qubit-reuse compilation with mid-circuit measurement and reset ( http://arxiv.org/abs/2210.08039v1 )

ライセンス: Link先を確認
Matthew DeCross, Eli Chertkov, Megan Kohagen, Michael Foss-Feig(参考訳) トラップイオンや超伝導量子ビットをベースとした多くの商用量子コンピュータは、現在、中間回路の測定とリセットを行うことができる。 量子誤り訂正に不可欠なことに加えて、この能力は量子ビットをできるだけ早く測定し、再セットし、回路内の他の場所で再利用することで、多くの種類の量子アルゴリズムを実行するために必要な量子ビットの数を減らすのに役立つ。 本稿では、量子回路を入力とし、量子ビットの再利用により実行に要するキュービットが少ないコンパイル回路を出力として生成する、量子ビット再利用の考え方を紹介する。 本稿では,厳密な制約プログラミング最適化モデルと厳密なヒューリスティックの2つのアルゴリズムを提案する。 本稿では、状態準備を測定値と交換し、逆転時間と逆転時間とすることで得られる二重回路の概念を導入し、その二重回路を実行するために最適な量子ビット再使用コンパイルが同じ数の量子ビットを必要とすることを示す。 これらのアルゴリズムは, 1次元および2次元の時間進化回路など, 関連する様々な量子回路上での性能を概説し, ランダムな3規則グラフ上のMaxCut問題に適用した量子断熱最適化アルゴリズム(QAOA)の性能を数値的に評価する。 これらの手法の実用的メリットを実証するため,20量子量子量子H1-1トラップイオン量子プロセッサ上での80量子QAOA MaxCut回路をqubit-reuseコンパイルアルゴリズムを用いて実験的に実現した。

A number of commercially available quantum computers, such as those based on trapped-ion or superconducting qubits, can now perform mid-circuit measurements and resets. In addition to being crucial for quantum error correction, this capability can help reduce the number of qubits needed to execute many types of quantum algorithms by measuring qubits as early as possible, resetting them, and reusing them elsewhere in the circuit. In this work, we introduce the idea of qubit-reuse compilation, which takes as input a quantum circuit and produces as output a compiled circuit that requires fewer qubits to execute due to qubit reuse. We present two algorithms for performing qubit-reuse compilation: an exact constraint programming optimization model and a greedy heuristic. We introduce the concept of dual circuits, obtained by exchanging state preparations with measurements and vice versa and reversing time, and show that optimal qubit-reuse compilation requires the same number of qubits to execute a circuit as its dual. We illustrate the performance of these algorithms on a variety of relevant near-term quantum circuits, such as one-dimensional and two-dimensional time-evolution circuits, and numerically benchmark their performance on the quantum adiabatic optimization algorithm (QAOA) applied to the MaxCut problem on random three-regular graphs. To demonstrate the practical benefit of these techniques, we experimentally realize an 80-qubit QAOA MaxCut circuit on the 20-qubit Quantinuum H1-1 trapped ion quantum processor using qubit-reuse compilation algorithms.
翻訳日:2023-01-22 14:01:09 公開日:2022-10-14
# 非Fungible Token(NFT)コレクションの予測 : 文脈生成的アプローチ

Predicting Non-Fungible Token (NFT) Collections: A Contextual Generative Approach ( http://arxiv.org/abs/2210.15493v1 )

ライセンス: Link先を確認
Wesley Joon-Wie Tann, Akhil Vuputuri, Ee-Chien Chang(参考訳) 非フランジブルトークン(non-fungible tokens, nfts)は、アートやコレクションなどの現実世界のオブジェクトを表すブロックチェーンに格納されたデジタル資産である。 数十億ドル規模の市場であり、2022年にはNTTコレクションの数が100%増加した。 各コレクションは、特定のテーマの多くのトークンを含んでおり、独特の特徴を持っている。 本稿では,NFTコレクションのこれらの多様な特徴を学習し,新たに作成したコレクションの潜在的な市場価値予測を生成するコンテキスト生成手法を提案する。 NFTを一連のトランザクションとしてモデル化します。 まず、教師なし学習を用いて、様々なコレクションの特徴を捉える意味のある文脈を導出する。 次に、これらの文脈を利用して、市場資本化の異なる確立されたNFTコレクションのキャラクタリゼーションを改善する。 最後に、新しいコレクションが初期段階にある場合、このアプローチは、この新興コレクションの将来のトランザクションシリーズを生成する。 包括的実験により,本手法はNFTコレクションの潜在的価値を密接に予測することを示した。

Non-fungible tokens (NFTs) are digital assets stored on a blockchain representing real-world objects such as art or collectibles. It is a multibillion-dollar market, where the number of NFT collections increased over 100% in 2022; there are currently more than 80K collections on the Ethereum blockchain. Each collection, containing numerous tokens of a particular theme, has its unique characteristics. In this paper, we take a contextual generative approach that learns these diverse characteristics of NFT collections and generates the potential market value predictions of newly minted ones. We model NFTs as a series of transactions. First, meaningful contexts capturing the characteristics of various collections are derived using unsupervised learning. Next, our generative approach leverages these contexts to learn better characterizations of established NFT collections with differing market capitalization values. Finally, given a new collection in an early stage, the approach generates future transaction series for this emerging collection. Comprehensive experiments demonstrate that our approach closely predicts the potential value of NFT collections.
翻訳日:2022-10-30 12:11:38 公開日:2022-10-14
# M-Linear Attention と Repetition Penalty を併用したハイブリッド型強化医療報告

Hybrid Reinforced Medical Report Generation with M-Linear Attention and Repetition Penalty ( http://arxiv.org/abs/2210.13729v1 )

ライセンス: Link先を確認
Wenting Xu, Zhenghua Xu, Junyang Chen, Chang Qi, Thomas Lukasiewicz(参考訳) 医師の負担を軽減するために、ディープラーニングベースの自動医療レポート生成は、入力画像をエンコードするために深層畳み込みニューラルネットワーク(CNN)を使用し、視覚的特徴を医療報告に自動的にデコードするためにリカレントニューラルネットワーク(RNN)を使用する、近年ますます多くの研究成果を惹きつけている。 しかし、これらの最先端の手法には、主に3つの欠点がある。 (i)包括的最適化 (ii)低次・一次元の注意機構、及び (iii) 繰り返す世代。 本稿では,m-linear attention と繰り返しペナルティ機構 (HReMRG-MR) を併用したハイブリッド型医療報告生成手法を提案する。 具体的には、異なる重みを持つハイブリッド報酬を用いて、シングルメトリックベースの報酬の制限を緩和する。 また,最適重み組合せを近似する線形複雑度探索アルゴリズムを提案する。 さらに,m-linear attention module を用いて高次特徴相互作用を探索し,マルチモーダル推論を実現する一方,繰り返しペナルティはモデルの学習過程における繰り返し項に罰則を適用する。 2つの公開データセットに関する大規模な実験的研究は、HReMRG-MRがすべての指標で最先端のベースラインを大幅に上回っていることを示している。 また,提案する成分すべての有効性を証明するため,一連のアブレーション実験を行った。 また,提案手法が最高の性能を評価しながら探索時間を著しく短縮できることを示すために,報奨探索実験を行った。

To reduce doctors' workload, deep-learning-based automatic medical report generation has recently attracted more and more research efforts, where deep convolutional neural networks (CNNs) are employed to encode the input images, and recurrent neural networks (RNNs) are used to decode the visual features into medical reports automatically. However, these state-of-the-art methods mainly suffer from three shortcomings: (i) incomprehensive optimization, (ii) low-order and unidimensional attention mechanisms, and (iii) repeated generation. In this article, we propose a hybrid reinforced medical report generation method with m-linear attention and repetition penalty mechanism (HReMRG-MR) to overcome these problems. Specifically, a hybrid reward with different weights is employed to remedy the limitations of single-metric-based rewards. We also propose a search algorithm with linear complexity to approximate the best weight combination. Furthermore, we use m-linear attention modules to explore high-order feature interactions and to achieve multi-modal reasoning, while a repetition penalty applies penalties to repeated terms during the model's training process. Extensive experimental studies on two public datasets show that HReMRG-MR greatly outperforms the state-of-the-art baselines in terms of all metrics. We also conducted a series of ablation experiments to prove the effectiveness of all our proposed components. We also performed a reward search toy experiment to give evidence that our proposed search approach can significantly reduce the search time while approximating the best performance.
翻訳日:2022-10-30 12:02:00 公開日:2022-10-14
# COFFEE:説明可能なリコメンデーションにおける個人化テキスト生成の非現実的公正性

COFFEE: Counterfactual Fairness for Personalized Text Generation in Explainable Recommendation ( http://arxiv.org/abs/2210.15500v1 )

ライセンス: Link先を確認
Nan Wang, Shaoliang Nie, Qifan Wang, Yi-Chia Wang, Maziar Sanjabi, Jingzhou Liu, Hamed Firooz, Hongning Wang(参考訳) パーソナライズされたテキスト生成は、レコメンデーションの説明生成、会話システムなど、幅広い産業的応用がある。 パーソナライズされたテキストジェネレータは通常、eコマースプラットフォームで収集されたレビューなど、ユーザの書いたテキストでトレーニングされる。 しかし, 歴史的, 社会的, 行動的理由から, テキストの言語的品質と, 性別, 人種などのユーザの保護された属性を関連付けるバイアスが存在する可能性がある。 ジェネレータはこれらの相関を識別し、継承し、ユーザの保護された属性を識別してテキストを生成する。 適切な介入がなければ、このようなバイアスはユーザの信頼とシステムへの依存に悪影響を及ぼす可能性がある。 より広い視点から見ると、自動生成コンテンツのバイアスは、オンラインユーザーがユーザーとの対話を通じてどのように書くかに関する社会的ステレオタイプを強化することができる。 本研究では,パーソナライズされたテキスト生成の妥当性について,説明可能なレコメンデーションの設定において検討する。 パーソナライズされた説明文の言語的品質に関する測度特異的な反ファクトフェアネスを達成するための一般的な枠組みを開発する。 本稿では, 対実的推論のための非絡み合い表現の学習を提案し, 公正度最適化のための報酬を慎重に設計した新しいポリシー学習アルゴリズムを開発した。 このフレームワークは、言語品質測定の任意の仕様の公平性を達成するために適用でき、既存のモデルや現実世界の設定に適応することができる。 大規模実験により,高次性能を保ちながら公平性を達成する上で,本手法が優れていることを示す。

Personalized text generation has broad industrial applications, such as explanation generation for recommendations, conversational systems, etc. Personalized text generators are usually trained on user written text, e.g., reviews collected on e-commerce platforms. However, due to historical, social, or behavioral reasons, there may exist bias that associates certain linguistic quality of user written text with the users' protected attributes such as gender, race, etc. The generators can identify and inherit these correlations and generate texts discriminately w.r.t. the users' protected attributes. Without proper intervention, such bias can adversarially influence the users' trust and reliance on the system. From a broader perspective, bias in auto-generated contents can reinforce the social stereotypes about how online users write through interactions with the users. In this work, we investigate the fairness of personalized text generation in the setting of explainable recommendation. We develop a general framework for achieving measure-specific counterfactual fairness on the linguistic quality of personalized explanations. We propose learning disentangled representations for counterfactual inference and develop a novel policy learning algorithm with carefully designed rewards for fairness optimization. The framework can be applied for achieving fairness on any given specifications of linguistic quality measures, and can be adapted to most of existing models and real-world settings. Extensive experiments demonstrate the superior ability of our method in achieving fairness while maintaining high generation performance.
翻訳日:2022-10-30 12:01:07 公開日:2022-10-14
# analogvnn:フォトニックニューラルネットワークのモデリングと最適化のための完全モジュール型フレームワーク

AnalogVNN: A fully modular framework for modeling and optimizing photonic neural networks ( http://arxiv.org/abs/2210.10048v1 )

ライセンス: Link先を確認
Vivswan Shah, Nathan Youngblood(参考訳) 本稿では,光電子ノイズ,精度の制限,および光ネットワーク加速器に存在する信号正規化の効果をシミュレートするpytorchを基盤としたシミュレーションフレームワークである analogvnn を提案する。 このフレームワークを用いて、最大9層、約170万パラメータの線形および畳み込みニューラルネットワークを訓練し、最適化するとともに、アナログフォトニックニューラルネットワークにおける正規化、活性化関数、精度の低下、ノイズの影響精度に関する洞察を得る。 PyTorchにある同じレイヤ構造設計に従うことで、AnalogVNNフレームワークは、ほとんどのデジタルニューラルネットワークモデルを、ほんの数行のコードでアナログモデルに変換することができ、PyTorchを通じて利用可能なオープンソースの最適化、ディープラーニング、GPUアクセラレーションライブラリを最大限に活用することができる。

In this paper, we present AnalogVNN, a simulation framework built on PyTorch which can simulate the effects of optoelectronic noise, limited precision, and signal normalization present in photonic neural network accelerators. We use this framework to train and optimize linear and convolutional neural networks with up to 9 layers and ~1.7 million parameters, while gaining insights into how normalization, activation function, reduced precision, and noise influence accuracy in analog photonic neural networks. By following the same layer structure design present in PyTorch, the AnalogVNN framework allows users to convert most digital neural network models to their analog counterparts with just a few lines of code, taking full advantage of the open-source optimization, deep learning, and GPU acceleration libraries available through PyTorch.
翻訳日:2022-10-23 20:26:23 公開日:2022-10-14
# 心拍数推定のためのマルチヘッドクロスアテンションppgとモーション信号融合

Multi-Head Cross-Attentional PPG and Motion Signal Fusion for Heart Rate Estimation ( http://arxiv.org/abs/2210.11415v1 )

ライセンス: Link先を確認
Panagiotis Kasnesis, Lazaros Toumanidis, Alessio Burrello, Christos Chatzigeorgiou and Charalampos Z. Patrikakis(参考訳) 現在、Hearth Rate(HR)モニタリングは、光胸腺撮影(PPG)センサーを利用する、ほとんどすべての手首を縫うデバイスの主要な特徴である。 しかし、腕の動きはPPGに基づく人事追跡の性能に影響を及ぼす。 この問題は一般に、慣性測定ユニットによって生成されたデータとPSG信号を融合することで解決される。 このように、ディープラーニングアルゴリズムが提案されているが、ウェアラブルデバイスにデプロイするには複雑すぎると考えられ、結果の説明可能性に欠ける。 本研究では,時間的畳み込みとマルチヘッド・クロスアテンションを利用して,センサ融合の有効性を向上し,説明可能性への一歩を踏み出す新しいディープラーニングモデルPULSEを提案する。 我々は,3つの公開データセット上でのPULSEの性能を評価し,最も広範なデータセットであるPG-DaLiAにおいて平均絶対誤差を7.56%削減した。 最後に,ppgと動きデータに注意モジュールを適用することで,パルスの説明可能性と効果を示す。

Nowadays, Hearth Rate (HR) monitoring is a key feature of almost all wrist-worn devices exploiting photoplethysmography (PPG) sensors. However, arm movements affect the performance of PPG-based HR tracking. This issue is usually addressed by fusing the PPG signal with data produced by inertial measurement units. Thus, deep learning algorithms have been proposed, but they are considered too complex to deploy on wearable devices and lack the explainability of results. In this work, we present a new deep learning model, PULSE, which exploits temporal convolutions and multi-head cross-attention to improve sensor fusion's effectiveness and achieve a step towards explainability. We evaluate the performance of PULSE on three publicly available datasets, reducing the mean absolute error by 7.56% on the most extensive available dataset, PPG-DaLiA. Finally, we demonstrate the explainability of PULSE and the benefits of applying attention modules to PPG and motion data.
翻訳日:2022-10-23 20:25:49 公開日:2022-10-14
# recipemind:カスケードセットトランスフォーマーを用いた食品ペアリングからレシピ完成までの成分選択の誘導

RecipeMind: Guiding Ingredient Choices from Food Pairing to Recipe Completion using Cascaded Set Transformer ( http://arxiv.org/abs/2210.10628v1 )

ライセンス: Link先を確認
Mogan Gim, Donghee Choi, Kana Maruyama, Jihun Choi, Hajung Kim, Donghyeon Park and Jaewoo Kang(参考訳) そこで本研究では,ユーザが料理を作るための材料を選択・収集するための下流タスクであるレシピ・アイデアのための計算手法を提案する。 そこで本研究では,食品親和性スコア予測モデルである recipemind を開発した。 食品親和性スコア予測に基づくレシピマインドを訓練し,評価するために,成分共起スコアを含む大規模データセットを構築した。 recipemindはレシピイデオレーションでデプロイされ、ユーザーが追加の材料を提案することで、最初の材料セットを拡張するのに役立つ。 実験と質的な分析は、料理分野におけるRecipeMindの補助的役割を果たす可能性を示している。

We propose a computational approach for recipe ideation, a downstream task that helps users select and gather ingredients for creating dishes. To perform this task, we developed RecipeMind, a food affinity score prediction model that quantifies the suitability of adding an ingredient to set of other ingredients. We constructed a large-scale dataset containing ingredient co-occurrence based scores to train and evaluate RecipeMind on food affinity score prediction. Deployed in recipe ideation, RecipeMind helps the user expand an initial set of ingredients by suggesting additional ingredients. Experiments and qualitative analysis show RecipeMind's potential in fulfilling its assistive role in cuisine domain.
翻訳日:2022-10-23 20:18:27 公開日:2022-10-14
# 人工知能と商業リース契約の再交渉は、コビッド19号によるパンデミック関連事件の影響を受けている。 プロジェクトA.I.A.Co

Artificial intelligence and renegotiation of commercial lease contracts affected by pandemic-related contingencies from Covid-19. The project A.I.A.Co ( http://arxiv.org/abs/2210.09515v1 )

ライセンス: Link先を確認
Maurizio Parton, Marco Angelone, Carlo Metta, Stefania D'Ovidio, Roberta Massarelli, Luca Moscardelli, Gianluca Amato(参考訳) 本稿では、人工知能(AI)を用いて、継続する実行契約の運命、あるいは遅延または周期的な実行に関するCovid-19緊急時に提起された法的問題、あるいはより一般的には例外的な出来事や事態に対処する可能性を検討することを目的とする。 イタリア法制度が「維持」救済を許すかどうかをまず検討し、双方の利益の効果的な保護を確保しつつ、事態に対処し、契約の終了を避ける。 次に、AIベースの予測フレームワークの完全かつ技術的な説明を行い、治安判事(訴訟の過程で)と当事者(法廷外での手続において)が商業リース契約のレンタルを再決定することを支援することを目的としています。 このフレームワークはA.I.A.Coと呼ばれている。 Covid-19に対する契約法のための人工知能は、「Fondo Integrativo Speciale per la Ricerca」というイタリアの認可のもと開発された。

This paper aims to investigate the possibility of using artificial intelligence (AI) to resolve the legal issues raised by the Covid-19 emergency about the fate of continuing execution contracts, or those with deferred or periodic execution, as well as, more generally, to deal with exceptional events and contingencies. We first study whether the Italian legal system allows for ''maintenance'' remedies to cope with contingencies and to avoid the termination of the contract, while ensuring effective protection of the interests of both parties. We then give a complete and technical description of an AI-based predictive framework, aimed at assisting both the Magistrate (in the course of litigation) and the parties themselves (in out-of-court proceedings) in the redetermination of the rent of commercial lease contracts. This framework, called A.I.A.Co. for Artificial Intelligence for contract law Against Covid-19, has been developed under the Italian grant ''Fondo Integrativo Speciale per la Ricerca''.
翻訳日:2022-10-19 15:50:01 公開日:2022-10-14
# フルフィールド原子分解能画像のフーリエ変換における周期的アーティファクトの低減

Periodic Artifact Reduction in Fourier transforms of Full Field Atomic Resolution Images ( http://arxiv.org/abs/2210.09024v1 )

ライセンス: Link先を確認
Robert Hovden, Yi Jiang, Huolin L. Xin, Lena F. Kourkoutis(参考訳) 離散フーリエ変換は高分解能走査/透過電子顕微鏡(S/TEM)で使用される最も日常的なツールの一つである。 しかし、フーリエ変換を計算するとき、周期境界条件が課され、画像のエッジ間の鋭い不連続が相互空間軸に沿ってクロスパターンアーティファクトを引き起こす。 このアーティファクトは、原子分解能画像の相互格子ピークの解析に干渉することができる。 本稿では,最近開発された周期プラス滑らかな分解手法が,エッジの不連続に起因するアーティファクトの簡易かつ効率的な除去手法であることを示す。 この方法では、画像のエッジによって設定された境界条件でポアソン方程式を解く滑らかな背景を減じることで、エッジアーティファクトを減少させる。 伝統的な窓付きフーリエ変換とは異なり、周期プラス平滑分解は画像全体の視野から鋭い相互格子ピークを維持する。

The discrete Fourier transform is among the most routine tools used in high-resolution scanning / transmission electron microscopy (S/TEM). However, when calculating a Fourier transform, periodic boundary conditions are imposed and sharp discontinuities between the edges of an image cause a cross patterned artifact along the reciprocal space axes. This artifact can interfere with the analysis of reciprocal lattice peaks of an atomic resolution image. Here we demonstrate that the recently developed Periodic Plus Smooth Decomposition technique provides a simple, efficient method for reliable removal of artifacts caused by edge discontinuities. In this method, edge artifacts are reduced by subtracting a smooth background that solves Poisson's equation with boundary conditions set by the image's edges. Unlike the traditional windowed Fourier transforms, Periodic Plus Smooth Decomposition maintains sharp reciprocal lattice peaks from the image's entire field of view.
翻訳日:2022-10-18 22:00:57 公開日:2022-10-14
# 機械学習アルゴリズムを用いた関節リウマチ患者の薬物効果予測

Prediction of drug effectiveness in rheumatoid arthritis patients based on machine learning algorithms ( http://arxiv.org/abs/2210.08016v1 )

ライセンス: Link先を確認
Shengjia Chen (1), Nikunj Gupta (2), Woodward B. Galbraith (3), Valay Shah (4), Jacopo Cirrone (5) ((1) Grossman School of Medicine, New York University, (2) Tandon School of Engineering, New York University, (3) Center for Data Science, New York University, (4) Courant Institute of Mathematical Sciences, New York University, (5) Center for Data Science, New York University, and Colton Center for Autoimmunity, NYU Grossman School of Medicine)(参考訳) 関節リウマチ(ra)は、患者の免疫系が誤って自身の組織を標的にした場合に生じる自己免疫疾患である。 機械学習(ML)は、患者の電子健康記録(EHR)のパターンを識別し、患者の結果を改善する最良の臨床治療を予測する可能性がある。 本研究は2つの主な目標を持つ \textbf{d}rug \textbf{r}esponse \textbf{p}rediction (drp) フレームワークを導入した。 1)表型臨床データから情報を抽出するデータ処理パイプラインを設計し、機能的使用のために前処理し、 2)RA患者の薬物に対する反応を予測し,分類モデルの性能を評価する。 そこで本研究では,欧州関節リウマチ学会(Eular)基準に基づく新たな2段階MLフレームワークを提案し,その有効性をモデル化する。 425例のRA患者から得られたデータを用いて,本モデルを開発した。 この評価では、同じデータソースから124人の患者(30\%)のサブセットを使用した。 テストセットの評価において、二段階のDRPは二項分類のための他のエンドツーエンドの分類モデルよりも分類精度が向上する。 提案手法は, 抗TNF治療に反応しない群を同定し, EHR情報に基づく臨床診断を支援するための完全なパイプラインを提供する。 我々のモデルをテストするためのコードと架空のデータセットは、 \url{ https://github.com/Gaskell-1206/Ensemble_DRP} で与えられる。

Rheumatoid arthritis (RA) is an autoimmune condition caused when patients' immune system mistakenly targets their own tissue. Machine learning (ML) has the potential to identify patterns in patient electronic health records (EHR) to forecast the best clinical treatment to improve patient outcomes. This study introduced a \textbf{D}rug \textbf{R}esponse \textbf{P}rediction (DRP) framework with two main goals: 1) design a data processing pipeline to extract information from tabular clinical data, and then preprocess it for functional use, and 2) predict RA patient's responses to drugs and evaluate classification models' performance. We propose a novel two-stage ML framework based on European Alliance of Associations for Rheumatology (EULAR) criteria cutoffs to model drug effectiveness. Our model Stacked-Ensemble DRP was developed and cross-validated using data from 425 RA patients. The evaluation used a subset of 124 patients (30\%) from the same data source. In the evaluation of the test set, two-stage DRP leads to improved classification accuracy over other end-to-end classification models for binary classification. Our proposed method provides a complete pipeline to predict disease activity scores and identify the group that does not respond well to anti-TNF treatments, thus showing promise in supporting clinical decisions based on EHR information. Codes and sample fictional datasets to test our model are given at \url{ https://github.com/Gaskell-1206/Ensemble_DRP}.
翻訳日:2022-10-18 22:00:02 公開日:2022-10-14
# 微分可能なハイブリッド交通シミュレーション

Differentiable Hybrid Traffic Simulation ( http://arxiv.org/abs/2210.08046v1 )

ライセンス: Link先を確認
Sanghyun Son, Yi-Ling Qiao, Jason Sewall, Ming C. Lin(参考訳) 本稿では,マクロモデルとミクロモデルのハイブリッドモデルを用いてトラフィックをシミュレートし,トラヒック制御とフロー最適化のためのニューラルネットワークに直接統合可能な,新しい微分可能なハイブリッドトラヒックシミュレータを提案する。 これは、時間ステップと不均質レーン間のトラフィック状態の勾配を計算できる、マクロおよびハイブリッドモデルのための最初の微分可能なトラフィックシミュレータである。 ハイブリッド・フレームワークにおける2種類の交通モデル間の勾配流を計算するために,車線を異なる方法で橋渡しする新しい中間変換成分を提案する。 分析的な勾配を使ってプロセス全体を加速し、拡張性を高めることも示しています。 これらの勾配により、我々のシミュレータは、既存のアルゴリズムよりも、交通工学で生じる複雑な学習と制御の問題に対して、より効率的でスケーラブルなソリューションを提供できる。 プロジェクトのhttps://sites.google.com/umd.edu/diff-hybrid-traffic-simを参照。

We introduce a novel differentiable hybrid traffic simulator, which simulates traffic using a hybrid model of both macroscopic and microscopic models and can be directly integrated into a neural network for traffic control and flow optimization. This is the first differentiable traffic simulator for macroscopic and hybrid models that can compute gradients for traffic states across time steps and inhomogeneous lanes. To compute the gradient flow between two types of traffic models in a hybrid framework, we present a novel intermediate conversion component that bridges the lanes in a differentiable manner as well. We also show that we can use analytical gradients to accelerate the overall process and enhance scalability. Thanks to these gradients, our simulator can provide more efficient and scalable solutions for complex learning and control problems posed in traffic engineering than other existing algorithms. Refer to https://sites.google.com/umd.edu/diff-hybrid-traffic-sim for our project.
翻訳日:2022-10-18 21:59:42 公開日:2022-10-14
# ジャストラウンド:動的ロコモーションのメモリ効率向上を実現する量子化された観測空間

Just Round: Quantized Observation Spaces Enable Memory Efficient Learning of Dynamic Locomotion ( http://arxiv.org/abs/2210.08065v1 )

ライセンス: Link先を確認
Lev Grossman and Brian Plancher(参考訳) 深部強化学習(DRL)は、複雑なロボット動作を合成するための最も強力なツールの1つである。 しかし、DRLモデルのトレーニングは信じられないほど計算とメモリ集約であり、大きなトレーニングデータセットとバッファを再生する必要がある。 これは、環境に適応するためにエッジで学ぶ必要がある次世代のフィールドロボットにとって、課題となる。 本稿では,観測空間の量子化によってこの問題に対処し始める。 本手法は,4つのロボットロコモーションタスクと2つの最先端DRLアルゴリズム,PPO(On-policy Proximal Policy Optimization)とSAC(Off-policy Soft Actor-Critic)を用いて評価し,学習性能に影響を与えることなく,観測空間の量子化が全体のメモリコストを最大4.2倍削減することを発見した。

Deep reinforcement learning (DRL) is one of the most powerful tools for synthesizing complex robotic behaviors. But training DRL models is incredibly compute and memory intensive, requiring large training datasets and replay buffers to achieve performant results. This poses a challenge for the next generation of field robots that will need to learn on the edge to adapt to their environment. In this paper, we begin to address this issue through observation space quantization. We evaluate our approach using four simulated robot locomotion tasks and two state-of-the-art DRL algorithms, the on-policy Proximal Policy Optimization (PPO) and off-policy Soft Actor-Critic (SAC) and find that observation space quantization reduces overall memory costs by as much as 4.2x without impacting learning performance.
翻訳日:2022-10-18 21:34:44 公開日:2022-10-14
# 多段階Frank-Wolfe法

A Multistep Frank-Wolfe Method ( http://arxiv.org/abs/2210.08110v1 )

ライセンス: Link先を確認
Zhaoyue Chen, Yifan Sun(参考訳) frank-wolfeアルゴリズムは、構造的に制約された機械学習アプリケーションでの使用に対する多くの関心を取り戻した。 しかし、フランク・ウルフアルゴリズムの主な制限は、ジグザグ動作による局所収束性が遅いことである。 我々は,フランク=ウルフ法におけるジグザゲング現象を離散化の成果として観察し,トランケーション誤差が$O(\Delta^p)$として崩壊する多段階フランク=ウルフ変法を提案する。 この戦略はメソッドを"安定化"し、行検索やモメンタムのようなツールにより多くのメリットをもたらす。 しかし,runge-kutta型離散化スキームの最悪のケース収束率は,バニラ・フランク・ウルフ法では,$k$に依存するレートでは改善できないことが示唆された。 しかし,本解析は,最適化手法におけるフロー解析の知識の増大に寄与し,多段階手法の究極的有用性に留意すべき点である。

The Frank-Wolfe algorithm has regained much interest in its use in structurally constrained machine learning applications. However, one major limitation of the Frank-Wolfe algorithm is the slow local convergence property due to the zig-zagging behavior. We observe the zig-zagging phenomenon in the Frank-Wolfe method as an artifact of discretization, and propose multistep Frank-Wolfe variants where the truncation errors decay as $O(\Delta^p)$, where $p$ is the method's order. This strategy "stabilizes" the method, and allows tools like line search and momentum to have more benefits. However, our results suggest that the worst case convergence rate of Runge-Kutta-type discretization schemes cannot improve upon that of the vanilla Frank-Wolfe method for a rate depending on $k$. Still, we believe that this analysis adds to the growing knowledge of flow analysis for optimization methods, and is a cautionary tale on the ultimate usefulness of multistep methods.
翻訳日:2022-10-18 21:34:27 公開日:2022-10-14
# グラデーション・フローの改善でバニラgcnsを再び素晴らしいものに

Old can be Gold: Better Gradient Flow can Make Vanilla-GCNs Great Again ( http://arxiv.org/abs/2210.08122v1 )

ライセンス: Link先を確認
Ajay Jaiswal, Peihao Wang, Tianlong Chen, Justin F. Rousseau, Ying Ding, Zhangyang Wang(参考訳) グラフ構造化データのモデリングにおいて、GCN(Graph Convolutional Networks)が大きな成功を収めたにもかかわらず、現在のGCNの大部分は、過度なスムースティングと情報のスキャッシングという非常に難しい問題と、勾配の消失と過度な適合によって引き起こされる従来の困難により、浅い。 従来の研究は主に深部GCNのトレーニングにおける過密化現象と過密化現象の研究に焦点が当てられていた。 驚くべきことに、CNNやRNNと比較して、深いGCNのトレーニング容易性に対する健全な勾配流の影響を理解することには非常に注意が向けられている。 本稿では,まず,深層gcnsの準標準性能を理解するための勾配流の新しい視点と,健全な勾配流の促進によりトレーニング性が大幅に向上し,バニラgcnsの最先端(sota)レベル性能を達成することができることを仮定する。 次に、GCNのグロロット初期化を盲目的に採用することは最適ではなく、アイソメトリの原理に基づいて、バニラ-GCNのトポロジーを意識した等尺初期化スキームを導出する。 さらに,スキップ接続のアドホック付加とは対照的に,スキップ接続を持つバニラgcnsの勾配誘導動的リワイリングを用いることを提案する。 本手法は,各層内の勾配流を用いてオンデマンドスキップ接続を適応的に導入する。 複数のデータセットにまたがって、我々の手法は深いバニラGCNの勾配流を改善するとともに、その性能を大幅に向上し、快適に競争し、多くの最先端の手法を上回ります。 コードはhttps://github.com/VITA-Group/GradientGCN.comで入手できる。

Despite the enormous success of Graph Convolutional Networks (GCNs) in modeling graph-structured data, most of the current GCNs are shallow due to the notoriously challenging problems of over-smoothening and information squashing along with conventional difficulty caused by vanishing gradients and over-fitting. Previous works have been primarily focused on the study of over-smoothening and over-squashing phenomena in training deep GCNs. Surprisingly, in comparison with CNNs/RNNs, very limited attention has been given to understanding how healthy gradient flow can benefit the trainability of deep GCNs. In this paper, firstly, we provide a new perspective of gradient flow to understand the substandard performance of deep GCNs and hypothesize that by facilitating healthy gradient flow, we can significantly improve their trainability, as well as achieve state-of-the-art (SOTA) level performance from vanilla-GCNs. Next, we argue that blindly adopting the Glorot initialization for GCNs is not optimal, and derive a topology-aware isometric initialization scheme for vanilla-GCNs based on the principles of isometry. Additionally, contrary to ad-hoc addition of skip-connections, we propose to use gradient-guided dynamic rewiring of vanilla-GCNs} with skip connections. Our dynamic rewiring method uses the gradient flow within each layer during training to introduce on-demand skip-connections adaptively. We provide extensive empirical evidence across multiple datasets that our methods improve gradient flow in deep vanilla-GCNs and significantly boost their performance to comfortably compete and outperform many fancy state-of-the-art methods. Codes are available at: https://github.com/VITA-Group/GradientGCN.
翻訳日:2022-10-18 21:33:50 公開日:2022-10-14
# ハミルトン・ヤコビ・ベルマン方程式と凸q-ラーニングの連続時間におけるモデルフリーキャラクタリゼーション

Model-Free Characterizations of the Hamilton-Jacobi-Bellman Equation and Convex Q-Learning in Continuous Time ( http://arxiv.org/abs/2210.08131v1 )

ライセンス: Link先を確認
Fan Lu, Joel Mathias, Sean Meyn and Karanjit Kalsi(参考訳) convex q-learningは強化学習への最近のアプローチであり、収束のための強固な理論の可能性と、政策や価値関数構造に関する事前知識を活用する可能性に動機づけられている。 本稿では,有限水平最適制御目標を用いた連続時間領域におけるアルゴリズム設計について検討する。 主な貢献は (i)アルゴリズム設計はハミルトン・ヤコビ・ベルマン方程式のモデルフリーな特徴づけを定義する新しいQ-ODEに基づいている。 (ii)q-odeは,先行研究に現れる近似を避けた凸q-ラーニングの新しい定式化を動機付ける。 このアルゴリズムで使用されるベルマン誤差は、測定ノイズの存在下で有益であるフィルタ測定によって定義される。 (iii) 離散時間設定からの最近の結果の非自明な拡張により、制約領域の有界性を評価する。 (iv)この理論は、その理論が理想的に適合する分散型エネルギー資源の資源配分への応用において示される。

Convex Q-learning is a recent approach to reinforcement learning, motivated by the possibility of a firmer theory for convergence, and the possibility of making use of greater a priori knowledge regarding policy or value function structure. This paper explores algorithm design in the continuous time domain, with finite-horizon optimal control objective. The main contributions are (i) Algorithm design is based on a new Q-ODE, which defines the model-free characterization of the Hamilton-Jacobi-Bellman equation. (ii) The Q-ODE motivates a new formulation of Convex Q-learning that avoids the approximations appearing in prior work. The Bellman error used in the algorithm is defined by filtered measurements, which is beneficial in the presence of measurement noise. (iii) A characterization of boundedness of the constraint region is obtained through a non-trivial extension of recent results from the discrete time setting. (iv) The theory is illustrated in application to resource allocation for distributed energy resources, for which the theory is ideally suited.
翻訳日:2022-10-18 21:33:13 公開日:2022-10-14
# delphi研究から特定された人工知能命名法 : 信頼と自律システム導入の障壁に関する鍵となる問題

Artificial Intelligence Nomenclature Identified From Delphi Study on Key Issues Related to Trust and Barriers to Adoption for Autonomous Systems ( http://arxiv.org/abs/2210.09086v1 )

ライセンス: Link先を確認
Thomas E. Doyle and Victoria Tucci and Calvin Zhu and Yifei Zhang and Basem Yassa and Sajjad Rashidiani and Md Asif Khan and Reza Samavi and Michael Noseworthy and Steven Yule(参考訳) 従来の研究領域にまたがる人工知能の急速な統合は、命名法の融合を生み出した。 クロス学際的なチームは複雑な機械学習の課題に協力するので、文献における基本的な定義のコンセンサスを見つけることがより根本的な問題である。 自律システムの導入に対する信頼と障壁に関する問題を定義するためのDelphiプロセスのステップとして、私たちの研究はまず、人工知能を使った経験を持つ工学、コンピュータサイエンス、医学、航空宇宙、防衛の分野から国際専門家のパネルからトップの関心を集め、ランク付けしました。 本稿では,専門的フィードバックから得られた命名法の文献定義について概説する。

The rapid integration of artificial intelligence across traditional research domains has generated an amalgamation of nomenclature. As cross-discipline teams work together on complex machine learning challenges, finding a consensus of basic definitions in the literature is a more fundamental problem. As a step in the Delphi process to define issues with trust and barriers to the adoption of autonomous systems, our study first collected and ranked the top concerns from a panel of international experts from the fields of engineering, computer science, medicine, aerospace, and defence, with experience working with artificial intelligence. This document presents a summary of the literature definitions for nomenclature derived from expert feedback.
翻訳日:2022-10-18 21:25:24 公開日:2022-10-14
# ToupleGDD: 深層強化学習による影響最大化の詳細な解法

ToupleGDD: A Fine-Designed Solution of Influence Maximization by Deep Reinforcement Learning ( http://arxiv.org/abs/2210.07500v1 )

ライセンス: Link先を確認
Tiantian Chen, Siwen Yan, Jianxiong Guo, Weili Wu(参考訳) オンラインソーシャルプラットフォームはますます普及し、ソーシャルネットワーク上の情報の普及は、業界や学術界の注目を集めている。 ネットワークに最大影響を与えるノードの小さなサブセットを選択することを目指して、影響最大化(im)の問題が広く研究されている。 シードセットが与えられた影響を計算するのは#Pハードであるため、ヒューリスティックおよび近似アルゴリズムを含む最先端の手法は、理論的保証、時間効率、一般化などの大きな困難に直面している。 これにより、大規模ネットワークやより複雑なアプリケーションに適応できない。 人工知能やその他の分野におけるDeep Reinforcement Learning(DRL)の最近の成果により、組合せ最適化の問題を解決するためにDRLを活用することに多くの研究が注がれている。 本稿では,ネットワーク埋め込みのための3つの結合グラフニューラルネットワークとパラメータ学習のための二重深度Q-networksを組み合わせた,新しいエンドツーエンドDRLフレームワークであるToupleGDDを提案する。 従来のDRLによるIM問題を解決する努力は、ネットワーク全体のサブグラフ上でモデルをトレーニングし、グラフ全体のパフォーマンスをテストすることで、異なるネットワーク間でモデルのパフォーマンスが不安定になる。 しかし,本モデルでは,ランダムに生成したいくつかのグラフをトレーニングし,全く異なるネットワーク上でテストし,最先端の手法に非常に近い結果を得ることができる。 さらに,我々のモデルは小さな予算で訓練され,テスト中の様々な大予算でうまく動作し,強力な一般化能力を示す。 最後に,合成および現実的なデータセットについて拡張実験を行い,実験結果からモデルの有効性と優越性が証明された。

Online social platforms have become more and more popular, and the dissemination of information on social networks has attracted wide attention of the industries and academia. Aiming at selecting a small subset of nodes with maximum influence on networks, the Influence Maximization (IM) problem has been extensively studied. Since it is #P-hard to compute the influence spread given a seed set, the state-of-art methods, including heuristic and approximation algorithms, faced with great difficulties such as theoretical guarantee, time efficiency, generalization, etc. This makes it unable to adapt to large-scale networks and more complex applications. With the latest achievements of Deep Reinforcement Learning (DRL) in artificial intelligence and other fields, a lot of works has focused on exploiting DRL to solve the combinatorial optimization problems. Inspired by this, we propose a novel end-to-end DRL framework, ToupleGDD, to address the IM problem in this paper, which incorporates three coupled graph neural networks for network embedding and double deep Q-networks for parameters learning. Previous efforts to solve the IM problem with DRL trained their models on the subgraph of the whole network, and then tested their performance on the whole graph, which makes the performance of their models unstable among different networks. However, our model is trained on several small randomly generated graphs and tested on completely different networks, and can obtain results that are very close to the state-of-the-art methods. In addition, our model is trained with a small budget, and it can perform well under various large budgets in the test, showing strong generalization ability. Finally, we conduct entensive experiments on synthetic and realistic datasets, and the experimental results prove the effectiveness and superiority of our model.
翻訳日:2022-10-18 21:23:30 公開日:2022-10-14
# 経験的原子間ポテンシャルからニューラルネットワークへのドメイン知識注入による材料特性予測

Injecting Domain Knowledge from Empirical Interatomic Potentials to Neural Networks for Predicting Material Properties ( http://arxiv.org/abs/2210.08047v1 )

ライセンス: Link先を確認
Zeren Shui, Daniel S. Karls, Mingjian Wen, Ilia A. Nikiforov, Ellad B. Tadmor, George Karypis(参考訳) 何十年もの間、原子論的モデリングはナノテクノロジーから創薬まで様々な分野で材料の挙動を予測する上で重要な役割を担ってきた。 この領域で最も正確な手法は密度汎関数理論(DFT)のような第一原理の量子力学計算に根ざしている。 これらの手法は計算的に禁止されているため、伝統的に実践者は物質中の原子間の相互作用を概ねモデル化する経験的原子間ポテンシャル(eips)として知られる物理的動機づけのある閉形式式を定義することに焦点を合わせてきた。 近年、量子力学(DFT-labeled)データに基づいてトレーニングされたニューラルネットワーク(NN)ベースのポテンシャルが、従来のEIPのより正確な代替品として出現している。 しかし、これらのモデルの一般化性はラベル付きトレーニングデータ量に大きく依存しており、汎用用途に適したモデルを生成するには不十分であることが多い。 本稿では,ラベルなしのトレーニングインスタンスを利用して,従来のeipsからnnsへドメイン知識を注入し,その一般化可能性を高めるための2つの汎用的戦略を提案する。 第1の戦略は、弱教師付き学習に基づいて、EIP上で補助分類器を訓練し、最高の性能のEIPを選択して、NNのトレーニングにおいて、地上のDFTエネルギーを補うためのエネルギーを生成する。 第2の戦略は、転送学習に基づいて、まずNNを手軽に入手可能なEIPエネルギーのセットで事前訓練し、次いで地上のDFTエネルギーで微調整する。 3つのベンチマークデータセットの実験結果によると、最初の戦略はベースラインNNのパフォーマンスを5%から51%改善し、もう1つはベースラインNNのパフォーマンスを最大55%改善した。 これらを組み合わせることでパフォーマンスがさらに向上する。

For decades, atomistic modeling has played a crucial role in predicting the behavior of materials in numerous fields ranging from nanotechnology to drug discovery. The most accurate methods in this domain are rooted in first-principles quantum mechanical calculations such as density functional theory (DFT). Because these methods have remained computationally prohibitive, practitioners have traditionally focused on defining physically motivated closed-form expressions known as empirical interatomic potentials (EIPs) that approximately model the interactions between atoms in materials. In recent years, neural network (NN)-based potentials trained on quantum mechanical (DFT-labeled) data have emerged as a more accurate alternative to conventional EIPs. However, the generalizability of these models relies heavily on the amount of labeled training data, which is often still insufficient to generate models suitable for general-purpose applications. In this paper, we propose two generic strategies that take advantage of unlabeled training instances to inject domain knowledge from conventional EIPs to NNs in order to increase their generalizability. The first strategy, based on weakly supervised learning, trains an auxiliary classifier on EIPs and selects the best-performing EIP to generate energies to supplement the ground-truth DFT energies in training the NN. The second strategy, based on transfer learning, first pretrains the NN on a large set of easily obtainable EIP energies, and then fine-tunes it on ground-truth DFT energies. Experimental results on three benchmark datasets demonstrate that the first strategy improves baseline NN performance by 5% to 51% while the second improves baseline performance by up to 55%. Combining them further boosts performance.
翻訳日:2022-10-18 21:23:01 公開日:2022-10-14
# 多人数模倣学習のためのコンパチブル・デモの抽出

Eliciting Compatible Demonstrations for Multi-Human Imitation Learning ( http://arxiv.org/abs/2210.08073v1 )

ライセンス: Link先を確認
Kanishk Gandhi, Siddharth Karamcheti, Madeline Liao, Dorsa Sadigh(参考訳) 人間による実演からの模倣学習は、ロボット操作の学習ポリシーに対する強力なアプローチである。 模倣学習のための理想的なデータセットは均質かつ低分散であり、タスクを実行するための単一の最適な方法を反映している。 このマルチモーダル性は、人間のユーザにとって不適切であり、タスクのバリエーションは、例えば、下手、横手、オブジェクトの把握、横手、下手など、意識以下の選択として表される。 しかし、このミスマッチはインタラクティブな模倣学習の課題であり、ユーザシーケンスは、新しい、おそらく矛盾するデモを反復的に収集することによってポリシーを改善する。 実証機非互換性の問題に対処するため、本研究はアプローチを設計する。 1)基本方針に基づく新たな実演の適合性を測定すること、及び 2) 新しいユーザから互換性のあるデモを積極的に引き出す。 本研究は,Franka Emika Panda アームを用いた長期的,厳密な操作,および実世界の「フードメッキ」作業を必要とする2つのシミュレーション課題にまたがって,ポストホックフィルタリングによる非互換なデモンストレーションを識別し,新しいユーザからの互換性のあるデモを積極的に引き出すことにより,シミュレーションおよび実環境におけるタスク成功率の向上を図っている。

Imitation learning from human-provided demonstrations is a strong approach for learning policies for robot manipulation. While the ideal dataset for imitation learning is homogenous and low-variance -- reflecting a single, optimal method for performing a task -- natural human behavior has a great deal of heterogeneity, with several optimal ways to demonstrate a task. This multimodality is inconsequential to human users, with task variations manifesting as subconscious choices; for example, reaching down, then across to grasp an object, versus reaching across, then down. Yet, this mismatch presents a problem for interactive imitation learning, where sequences of users improve on a policy by iteratively collecting new, possibly conflicting demonstrations. To combat this problem of demonstrator incompatibility, this work designs an approach for 1) measuring the compatibility of a new demonstration given a base policy, and 2) actively eliciting more compatible demonstrations from new users. Across two simulation tasks requiring long-horizon, dexterous manipulation and a real-world "food plating" task with a Franka Emika Panda arm, we show that we can both identify incompatible demonstrations via post-hoc filtering, and apply our compatibility measure to actively elicit compatible demonstrations from new users, leading to improved task success rates across simulated and real environments.
翻訳日:2022-10-18 21:16:29 公開日:2022-10-14
# 深層学習を用いたデジタル画像鑑定

Digital Image Forensics using Deep Learning ( http://arxiv.org/abs/2210.09052v1 )

ライセンス: Link先を確認
Akash Nagaraj, Mukund Sood, Vivek Kapoor, Yash Mathur, Bishesh Sinha(参考訳) 証拠がある場合の犯罪行為の調査中、手元にある問題は、ビデオの信頼性を判断し、ビデオが本物であることを確かめることである。 今日、映像を認証する方法の1つは、問題の画像やビデオの撮影に使われたカメラを特定することである。 これを行う非常に一般的な方法は、画像メタデータを使用することだが、ビデオコンテンツの変更や、2つの異なるカメラからのコンテンツのスプライシングによって、このデータは簡単に偽造することができる。 この問題に提案された解の多さを考えると、まだ十分解決されていない。 本研究の目的は,フィルタを用いて画像に残されている情報のトレースを用いて,どのカメラが画像の撮影に使用されたかを特定するアルゴリズムを構築することである。 この問題を解決することは、刑事裁判や民事裁判、さらにはニュース報道で使われる証拠の検証に大きな影響を与えるだろう。

During the investigation of criminal activity when evidence is available, the issue at hand is determining the credibility of the video and ascertaining that the video is real. Today, one way to authenticate the footage is to identify the camera that was used to capture the image or video in question. While a very common way to do this is by using image meta-data, this data can easily be falsified by changing the video content or even splicing together content from two different cameras. Given the multitude of solutions proposed to this problem, it is yet to be sufficiently solved. The aim of our project is to build an algorithm that identifies which camera was used to capture an image using traces of information left intrinsically in the image, using filters, followed by a deep neural network on these filters. Solving this problem would have a big impact on the verification of evidence used in criminal and civil trials and even news reporting.
翻訳日:2022-10-18 21:05:40 公開日:2022-10-14
# LESS: LiDAR ポイントクラウドのためのラベル効率の良いセマンティックセグメンテーション

LESS: Label-Efficient Semantic Segmentation for LiDAR Point Clouds ( http://arxiv.org/abs/2210.08064v1 )

ライセンス: Link先を確認
Minghua Liu, Yin Zhou, Charles R. Qi, Boqing Gong, Hao Su, Dragomir Anguelov(参考訳) LiDAR点雲のセマンティックセグメンテーションは自動運転において重要な課題である。 しかしながら、従来の教師付きメソッドによる深層モデルのトレーニングには、ラベル付けにコストがかかる大きなデータセットが必要になる。 ラベル効率のよいセグメンテーションアプローチによって、モデルを新しい運用ドメインにスケールアップしたり、稀なケースでのパフォーマンスを向上させることが重要です。 先行研究の多くは屋内シーンに焦点を当てているが,lidar point cloudを用いた屋外シーンを対象としたラベル効率の高い意味セグメンテーションパイプラインを提案する最初の例である。 本手法は,半教師あり学習を伴う効率的なラベリングプロセスを共同設計し,ほぼすべての3次元意味セグメンテーションバックボーンに適用できる。 具体的には,屋外場面の幾何学的パターンを利用してヒューリスティックな前セグメントを持ち,手作業によるラベリングを低減し,学習目標とラベリングプロセスを同時に設計する。 学習段階において、我々はプロトタイプ学習を活用してより記述的な点埋め込みを求め、マルチスキャン蒸留を用いて時間的に集約された点雲からよりリッチな意味を活用し、単一スキャンモデルの性能を向上させる。 提案手法は,SemanticKITTIとnuScenesデータセットに基づいて評価し,既存のラベル効率の手法よりも優れていることを示す。 非常に限定的な人間のアノテーション(例えば0.1%のポイントラベル)では、提案手法は100%のラベルを持つ完全教師付きアノテーションよりも高い競争力を持つ。

Semantic segmentation of LiDAR point clouds is an important task in autonomous driving. However, training deep models via conventional supervised methods requires large datasets which are costly to label. It is critical to have label-efficient segmentation approaches to scale up the model to new operational domains or to improve performance on rare cases. While most prior works focus on indoor scenes, we are one of the first to propose a label-efficient semantic segmentation pipeline for outdoor scenes with LiDAR point clouds. Our method co-designs an efficient labeling process with semi/weakly supervised learning and is applicable to nearly any 3D semantic segmentation backbones. Specifically, we leverage geometry patterns in outdoor scenes to have a heuristic pre-segmentation to reduce the manual labeling and jointly design the learning targets with the labeling process. In the learning step, we leverage prototype learning to get more descriptive point embeddings and use multi-scan distillation to exploit richer semantics from temporally aggregated point clouds to boost the performance of single-scan models. Evaluated on the SemanticKITTI and the nuScenes datasets, we show that our proposed method outperforms existing label-efficient methods. With extremely limited human annotations (e.g., 0.1% point labels), our proposed method is even highly competitive compared to the fully supervised counterpart with 100% labels.
翻訳日:2022-10-18 20:47:31 公開日:2022-10-14
# 深層強化学習剤の適応パッチ飼料化

Adaptive patch foraging in deep reinforcement learning agents ( http://arxiv.org/abs/2210.08085v1 )

ライセンス: Link先を確認
Nathan J. Wispinski, Andrew Butcher, Kory W. Mathewson, Craig S. Chapman, Matthew M. Botvinick, Patrick M. Pilarski(参考訳) パッチ採餌は生物学で最も研究されている行動最適化の課題の1つである。 しかし、生物学的知能に重要であるにもかかわらず、この行動最適化問題は人工知能研究で研究されている。 パッチフォアリングは、既知の最適解を持つため、特に研究に適しており、深層強化学習における現在の技術を見つけるのが困難である。 本稿では,生態パッチ採餌作業における深層強化学習エージェントについて検討する。 そこで,本研究では,機械学習エージェントが生物飼料と類似したパターンに適応して飼料にパッチを施し,時間的ディスカウントを考慮すれば最適なパッチ飼料化行動にアプローチできることを初めて示す。 最後に, 生物捕食の神経機構に関する実験的および理論的研究を補完する, 非ヒト捕食霊長類からの単一細胞記録に類似したエージェントの内部動態を示す。 この研究は、生態学的に有効な圧力と複雑な環境で相互作用するエージェントが共通の解決策に到達し、生物学的および人工的なエージェントの適応的、インテリジェントな振る舞いの背後に基礎的な計算が出現することを示唆している。

Patch foraging is one of the most heavily studied behavioral optimization challenges in biology. However, despite its importance to biological intelligence, this behavioral optimization problem is understudied in artificial intelligence research. Patch foraging is especially amenable to study given that it has a known optimal solution, which may be difficult to discover given current techniques in deep reinforcement learning. Here, we investigate deep reinforcement learning agents in an ecological patch foraging task. For the first time, we show that machine learning agents can learn to patch forage adaptively in patterns similar to biological foragers, and approach optimal patch foraging behavior when accounting for temporal discounting. Finally, we show emergent internal dynamics in these agents that resemble single-cell recordings from foraging non-human primates, which complements experimental and theoretical work on the neural mechanisms of biological foraging. This work suggests that agents interacting in complex environments with ecologically valid pressures arrive at common solutions, suggesting the emergence of foundational computations behind adaptive, intelligent behavior in both biological and artificial agents.
翻訳日:2022-10-18 20:40:38 公開日:2022-10-14
# 米国における高分解能合成住宅エネルギー利用状況

High-resolution synthetic residential energy use profiles for the United States ( http://arxiv.org/abs/2210.08103v1 )

ライセンス: Link先を確認
Swapna Thorve, Young Yun Baek, Samarth Swarup, Henning Mortveit, Achla Marathe, Anil Vullikanti, Madhav Marathe(参考訳) 効率的なエネルギー消費は、気候変動とグリッドの近代化の時代に持続可能なエネルギー目標を達成するために不可欠である。 したがって、需要対応イベントを計画したり、天候、電力価格、電気自動車、太陽、エネルギー消費に対する占有スケジュールの影響を分析したりするために、家庭などの細かい解像度でエネルギーをどのように消費するかを理解することが不可欠である。 しかし、詳細な研究を可能にする詳細なエネルギー利用データへの可用性とアクセスは稀である。 本稿では,米国各地の住宅地を対象とした,大規模・総合的・住宅用エネルギー利用データセットを,数百万世帯を対象に公開する。 データは、合成世帯の時給エネルギー利用プロファイルからなり、温度制御負荷(TCL)に分解され、家電の使用となる。 基盤となるフレームワークはボトムアップアプローチで構築されている。 多様なオープンソースの調査と第一原理モデルがエンドユースモデリングに使われている。 合成データセットの広範な検証は、報告されたエネルギー利用データとの比較を通じて行われている。 米国向けの詳細な、オープンで高解像度の住宅エネルギー利用データセットを提示する。

Efficient energy consumption is crucial for achieving sustainable energy goals in the era of climate change and grid modernization. Thus, it is vital to understand how energy is consumed at finer resolutions such as household in order to plan demand-response events or analyze the impacts of weather, electricity prices, electric vehicles, solar, and occupancy schedules on energy consumption. However, availability and access to detailed energy-use data, which would enable detailed studies, has been rare. In this paper, we release a unique, large-scale, synthetic, residential energy-use dataset for the residential sector across the contiguous United States covering millions of households. The data comprise of hourly energy use profiles for synthetic households, disaggregated into Thermostatically Controlled Loads (TCL) and appliance use. The underlying framework is constructed using a bottom-up approach. Diverse open-source surveys and first principles models are used for end-use modeling. Extensive validation of the synthetic dataset has been conducted through comparisons with reported energy-use data. We present a detailed, open, high-resolution, residential energy-use dataset for the United States.
翻訳日:2022-10-18 20:40:19 公開日:2022-10-14
# VHetNets for AIとAI for VHetNets:ユビキタスIoTの異常検出ケーススタディ

VHetNets for AI and AI for VHetNets: An Anomaly Detection Case Study for Ubiquitous IoT ( http://arxiv.org/abs/2210.08132v1 )

ライセンス: Link先を確認
Weili Wang, Omid Abbasi, Halim Yanikomeroglu, Chengchao Liang, Lun Tang, and Qianbin Chen(参考訳) 垂直異種ネットワーク(VHetNets)と人工知能(AI)は6Gおよびそれ以上のネットワークにおいて重要な役割を果たす。 本稿では,VHetNetsとAIのシナジーを実現するために,AIネイティブなVHetNetsアーキテクチャを提案する。 IoT(Internet of Things)における異常検出は、侵入検出、状態監視、デバイスアクティビティ分析、セキュリティ監視など、多くの分野で必要とされる主要なAIサービスである。 従来の異常検出技術は主に、異常検出を他のネットワーク管理機能とは独立して、リソースの制約された終端ノードと分散データ分散のため、ユビキタスIoTでは直接使用できないスタンドアロンサービスとみなす。 本稿では,ユビキタスIoTのための異常検出サービスを提供する,AIネイティブなVHetNets対応フレームワークを開発した。 まず、分散AIモデルのトレーニングに使用されるVHetNetsが、ユビキタスIoT、すなわちAIのためのVHetNetsに異常検出サービスを提供する可能性について論じる。 その後、VHetNetsにおける自動的かつインテリジェントなネットワーク管理機能、すなわちVHetNetsにおけるAI機能の実現を支援するためのAIアプローチの適用について検討する。 最後に、提案するAIネイティブなVHetNets対応異常検出フレームワークの有効性と有効性を示すケーススタディを示す。

Vertical heterogenous networks (VHetNets) and artificial intelligence (AI) play critical roles in 6G and beyond networks. This article presents an AI-native VHetNets architecture to enable the synergy of VHetNets and AI, thereby supporting varieties of AI services while facilitating automatic and intelligent network management. Anomaly detection in Internet of Things (IoT) is a major AI service required by many fields, including intrusion detection, state monitoring, device-activity analysis, security supervision and so on. Conventional anomaly detection technologies mainly consider the anomaly detection as a standalone service that is independent of any other network management functionalities, which cannot be used directly in ubiquitous IoT due to the resource constrained end nodes and decentralized data distribution. In this article, we develop an AI-native VHetNets-enabled framework to provide the anomaly detection service for ubiquitous IoT, whose implementation is assisted by intelligent network management functionalities. We first discuss the possibilities of VHetNets used for distributed AI model training to provide anomaly detection service for ubiquitous IoT, i.e., VHetNets for AI. After that, we study the application of AI approaches in helping provide automatic and intelligent network management functionalities for VHetNets, i.e., AI for VHetNets, whose aim is to facilitate the efficient implementation of anomaly detection service. Finally, a case study is presented to demonstrate the efficiency and effectiveness of the proposed AI-native VHetNets-enabled anomaly detection framework.
翻訳日:2022-10-18 20:40:02 公開日:2022-10-14
# マルチトレーナー対話型強化学習システム

Multi-trainer Interactive Reinforcement Learning System ( http://arxiv.org/abs/2210.08050v1 )

ライセンス: Link先を確認
Zhaori Guo, Timothy J. Norman, and Enrico H. Gerding(参考訳) 対話型強化学習は,人間フィードバックによるエージェントトレーニングを効果的に促進する。 しかし、そのような方法は、しばしば、人間教師がエージェントが取るべき正しい行動が何であるかを知ることを要求する。 言い換えれば、もし人間の教師が常に信頼できるとは限らないなら、その訓練を通じてエージェントを一貫して導くことはできない。 本稿では,マルチトレーナー・インタラクティブ強化学習(MTIRL)という,複数の非完全トレーナーからのバイナリフィードバックを,報酬分散環境におけるエージェントトレーニングに対するより信頼性の高い報酬に集約する,より効果的な対話型強化学習システムを提案する。 特に, 学習者フィードバックアグリゲーション実験の結果, 多数決, 重み付け投票, ベイズ法と比較すると, 集計法が最も精度が高いことがわかった。 最後に, MTIRLが評価モデルで訓練した政策が, レビューモデルなしでの政策よりも, 最適ポリシーに近いことを示すために, グリッドワールド実験を行った。

Interactive reinforcement learning can effectively facilitate the agent training via human feedback. However, such methods often require the human teacher to know what is the correct action that the agent should take. In other words, if the human teacher is not always reliable, then it will not be consistently able to guide the agent through its training. In this paper, we propose a more effective interactive reinforcement learning system by introducing multiple trainers, namely Multi-Trainer Interactive Reinforcement Learning (MTIRL), which could aggregate the binary feedback from multiple non-perfect trainers into a more reliable reward for an agent training in a reward-sparse environment. In particular, our trainer feedback aggregation experiments show that our aggregation method has the best accuracy when compared with the majority voting, the weighted voting, and the Bayesian method. Finally, we conduct a grid-world experiment to show that the policy trained by the MTIRL with the review model is closer to the optimal policy than that without a review model.
翻訳日:2022-10-18 20:03:55 公開日:2022-10-14
# ハイブリッドフェデレーション学習のための2次アルゴリズム

A Primal-Dual Algorithm for Hybrid Federated Learning ( http://arxiv.org/abs/2210.08106v1 )

ライセンス: Link先を確認
Tom Overman, Garrett Blum, Diego Klabjan(参考訳) クライアントが機能とサンプルの両方のサブセットしか持たないハイブリッド連合学習の方法は非常に少ない。 しかし、このシナリオは実践的な環境では非常に重要です。 フェンシェル双対性に係わるハイブリッドフェデレート学習のための高速でロバストなアルゴリズムを提案する。 我々は,モデルが多種多様な実践的手法で集中的に訓練されたように,アルゴリズムを同じ解に収束させることを証明した。 さらに,フェデレート学習における一般的な手法であるFedAvgに対して,アルゴリズムの性能改善を示す実験結果を提供する。 また、クライアントデータを保護するためのプライバシーの考慮と必要な手順も提供します。

Very few methods for hybrid federated learning, where clients only hold subsets of both features and samples, exist. Yet, this scenario is very important in practical settings. We provide a fast, robust algorithm for hybrid federated learning that hinges on Fenchel Duality. We prove the convergence of the algorithm to the same solution as if the model was trained centrally in a variety of practical regimes. Furthermore, we provide experimental results that demonstrate the performance improvements of the algorithm over a commonly used method in federated learning, FedAvg. We also provide privacy considerations and necessary steps to protect client data.
翻訳日:2022-10-18 20:03:38 公開日:2022-10-14
# 命令生成モデルによる治療効果の部分的同定

Partial Identification of Treatment Effects with Implicit Generative Models ( http://arxiv.org/abs/2210.08139v1 )

ライセンス: Link先を確認
Vahid Balazadeh, Vasilis Syrgkanis, Rahul G. Krishnan(参考訳) 本稿では,部分的同定の問題,観察データからの治療効果の限界の推定について考察する。 離散処理変数や特定の因果グラフ(例:インストゥルメンタル変数)で研究されているが、近年ではディープジェネレーティブモデリングのツールを使って部分的識別が研究されている。 本研究では,連続確率変数と離散確率変数からなる暗黙的生成モデルを用いて,一般因果グラフにおける平均処理効果(ates)を部分的同定する新しい手法を提案する。 連続処理によるateは一般に非正規性であるため、応答関数の部分微分を利用して、一様平均処理微分 (uniform average treatment derivative, uatd) と呼ばれるateの正則近似を定義する。 このアルゴリズムは線形構造因果モデル(SCM)においてATEの厳密な境界に収束することを示す。 非線形SCMに対して、UATDの使用はATEを直接最適化する手法よりも厳密で安定した境界をもたらすことを実証的に示す。

We consider the problem of partial identification, the estimation of bounds on the treatment effects from observational data. Although studied using discrete treatment variables or in specific causal graphs (e.g., instrumental variables), partial identification has been recently explored using tools from deep generative modeling. We propose a new method for partial identification of average treatment effects(ATEs) in general causal graphs using implicit generative models comprising continuous and discrete random variables. Since ATE with continuous treatment is generally non-regular, we leverage the partial derivatives of response functions to define a regular approximation of ATE, a quantity we call uniform average treatment derivative (UATD). We prove that our algorithm converges to tight bounds on ATE in linear structural causal models (SCMs). For nonlinear SCMs, we empirically show that using UATD leads to tighter and more stable bounds than methods that directly optimize the ATE.
翻訳日:2022-10-18 20:03:28 公開日:2022-10-14
# google universalイメージ埋め込みのための3位ソリューション

3rd Place Solution for Google Universal Image Embedding ( http://arxiv.org/abs/2210.09296v1 )

ライセンス: Link先を確認
Nobuaki Aoki, Yasumasa Namba(参考訳) 本稿では,Google Universal Image Embedding Competition on Kaggleの3位となるソリューションを提案する。 我々はOpenCLIPのViT-H/14をArcFaceのバックボーンに使用し、2段階のトレーニングを行った。 第1ステージは凍結バックボーンで行われ、第2ステージはモデルトレーニング全体である。 プライベートなリーダーボードで0.692平均精度@5を達成します。 コードはhttps://github.com/yasumasanamba/google-universal-image-embeddingで利用可能

This paper presents the 3rd place solution to the Google Universal Image Embedding Competition on Kaggle. We use ViT-H/14 from OpenCLIP for the backbone of ArcFace, and trained in 2 stage. 1st stage is done with freezed backbone, and 2nd stage is whole model training. We achieve 0.692 mean Precision @5 on private leaderboard. Code available at https://github.com/YasumasaNamba/google-universal-image-embedding
翻訳日:2022-10-18 19:54:18 公開日:2022-10-14
# マルチドメイン学習のための予算対応アダプタにおけるパラメータ共有

Parameter Sharing in Budget-Aware Adapters for Multi-Domain Learning ( http://arxiv.org/abs/2210.08101v1 )

ライセンス: Link先を確認
Samuel Felipe dos Santos, Rodrigo Berriel, Thiago Oliveira-Santos, Nicu Sebe, Jurandy Almeida(参考訳) ディープラーニングは、いくつかのコンピュータビジョンタスクやドメインで最先端のパフォーマンスを達成した。 それでもそれでも高い計算コストと、新しいドメインごとに学習する必要があるかなりの量のパラメータを必要としています。 このような要件は、リソース制限された環境での使用を妨げ、ソフトウェアとハードウェアの最適化を要求する。 マルチドメイン学習は、元のドメインの知識を維持しながら、新しいドメインに適応することでこの問題に対処する。 多くのマルチドメイン学習アプローチの制限の一つは、通常、ユーザーが利用できるリソースを考慮に入れないことである。 近年,ユーザのニーズに合った計算複雑性とパラメータの量を削減する作業が提案されているが,すべてのドメインを同時に扱うためには,元のモデル全体が必要である。 本研究は,ユーザ定義予算に適応し,ドメイン間のパラメータ共有を奨励する手法を提案する。 したがって、どのドメインにも使われないフィルタをテスト時にネットワークからプルすることができる。 提案手法は,テスト時に複数のドメインを少ないパラメータで処理し,ベースラインモデルよりも計算複雑性を低減しながら,リソース制限デバイスへの適応性を向上する。

Deep learning has achieved state-of-the-art performance on several computer vision tasks and domains. Nevertheless, it still demands a high computational cost and a significant amount of parameters that need to be learned for each new domain. Such requirements hinder the use in resource-limited environments and demand both software and hardware optimization. Multi-domain learning addresses this problem by adapting to new domains while retaining the knowledge of the original domain. One limitation of most multi-domain learning approaches is that they usually are not designed for taking into account the resources available to the user. Recently, some works that can reduce computational complexity and amount of parameters to fit the user needs have been proposed, but they need the entire original model to handle all the domains together. This work proposes a method capable of adapting to a user-defined budget while encouraging parameter sharing among domains. Hence, filters that are not used by any domain can be pruned from the network at test time. The proposed approach innovates by better adapting to resource-limited devices while being able to handle multiple domains at test time with fewer parameters and lower computational complexity than the baseline model.
翻訳日:2022-10-18 19:02:57 公開日:2022-10-14
# クロスモーダル一貫性を持つインスタンスセグメンテーション

Instance Segmentation with Cross-Modal Consistency ( http://arxiv.org/abs/2210.08113v1 )

ライセンス: Link先を確認
Alex Zihao Zhu, Vincent Casser, Reza Mahjourian, Henrik Kretzschmar, S\"oren Pirk(参考訳) オブジェクトインスタンスのセグメンテーションは、ロボット工学や自動運転における安全クリティカルな応用を含む、機械知覚における重要なタスクである。 本稿では,カメラやライダーなどの複数のセンサモダリティから測定値を活用する新しいインスタンスセグメンテーション手法を提案する。 本手法は,シーンの濃密なセグメンテーションを生じさせる各画素や点への埋め込みを予測することを学ぶ。 具体的には,センサモダリティと時間領域をまたいだコントラスト学習をシーン内の点に適用する。 この定式化は,センサのモダリティをまたいで,視点の変動に不変で一貫性のある埋め込みをモデルに学習させることを実証する。 さらに、オブジェクトがシーンを動き回るにつれて、埋め込みが安定していることが示されます。 これは安定したインスタンスマスクを提供するだけでなく、オブジェクト追跡のような下流タスクに貴重な信号を提供することもできる。 本手法は都市景観とkitti-360データセットを用いて評価する。 さらに多くのアブレーション研究を行い,コントラスト損失に対する追加入力を適用する際の利点を示す。

Segmenting object instances is a key task in machine perception, with safety-critical applications in robotics and autonomous driving. We introduce a novel approach to instance segmentation that jointly leverages measurements from multiple sensor modalities, such as cameras and LiDAR. Our method learns to predict embeddings for each pixel or point that give rise to a dense segmentation of the scene. Specifically, our technique applies contrastive learning to points in the scene both across sensor modalities and the temporal domain. We demonstrate that this formulation encourages the models to learn embeddings that are invariant to viewpoint variations and consistent across sensor modalities. We further demonstrate that the embeddings are stable over time as objects move around the scene. This not only provides stable instance masks, but can also provide valuable signals to downstream tasks, such as object tracking. We evaluate our method on the Cityscapes and KITTI-360 datasets. We further conduct a number of ablation studies, demonstrating benefits when applying additional inputs for the contrastive loss.
翻訳日:2022-10-18 19:02:43 公開日:2022-10-14
# ポイントクラウドに基づく6dofポーズ推定のためのキーポイントカスケード投票

Keypoint Cascade Voting for Point Cloud Based 6DoF Pose Estimation ( http://arxiv.org/abs/2210.08123v1 )

ライセンス: Link先を確認
Yangzheng Wu, Alireza Javaheri, Mohsen Zand, Michael Greenspan(参考訳) 本稿では,RGB情報のない入力として純無秩序のクラウド幾何を用いる6DoFオブジェクトポーズ推定法を提案する。 提案手法であるrcvpose3dは,セマンティクスセグメンテーションのタスクとキーポイント回帰のタスクを分離し,両者の有効性を高め,究極のパフォーマンスを向上させる新しいアーキテクチャに基づいている。 また、効果が示されるキーポイント推定の量を後退させる際の損失関数に対する異なるキーポイント間のペアワイズ制約や、学習段階と推論段階の両方を高める新たな投票者自信スコアも導入する。 提案したRCVPose3Dは,Occlusion LINEMOD (74.5%) およびYCB-Video (96.9%) データセットの最先端性能を実現し,既存の純粋なRGBおよびRGB-Dベースの手法よりも優れ,RGB+ポイントクラウド手法との競合性も高い。

We propose a novel keypoint voting 6DoF object pose estimation method, which takes pure unordered point cloud geometry as input without RGB information. The proposed cascaded keypoint voting method, called RCVPose3D, is based upon a novel architecture which separates the task of semantic segmentation from that of keypoint regression, thereby increasing the effectiveness of both and improving the ultimate performance. The method also introduces a pairwise constraint in between different keypoints to the loss function when regressing the quantity for keypoint estimation, which is shown to be effective, as well as a novel Voter Confident Score which enhances both the learning and inference stages. Our proposed RCVPose3D achieves state-of-the-art performance on the Occlusion LINEMOD (74.5%) and YCB-Video (96.9%) datasets, outperforming existing pure RGB and RGB-D based methods, as well as being competitive with RGB plus point cloud methods.
翻訳日:2022-10-18 19:02:30 公開日:2022-10-14
# デブラリング用メタトランスファー

Meta Transferring for Deblurring ( http://arxiv.org/abs/2210.08036v1 )

ライセンス: Link先を確認
Po-Sheng Liu, Fu-Jen Tsai, Yan-Tsung Peng, Chung-Chi Tsai, Chia-Wen Lin, Yen-Yu Lin(参考訳) 従来のデブロアリング手法のほとんどは、ぼやけた画像とその鋭い画像に基づいて訓練された汎用モデルで構築された。 しかし、これらのアプローチは、トレーニングセットとテストセットのドメインギャップによって、準最適に振る舞う結果をもたらす可能性がある。 本稿では,動的シーンのデブラリングにグラウンド真理を用いずにテスト時間適応を実現するためのリブラルデブラルメタトランスファースキームを提案する。 実世界のシナリオでは、基礎的真理は通常、推論時に利用できないため、ぼやけた入力ビデオを利用して、比較的鋭いパッチを疑似基底的真理として見つけて使用する。 さらに,ぼやけた入力から均質なぼやけを抽出して擬似シャープに転送し,数回の勾配更新でメタラーニングやテストタイム適応のための擬似ぼやけパッチを得るための再現モデルを提案する。 reblur-deblurメタラーニング方式は,dvd,reds,realblurベンチマークデータセットの最先端デブラリングモデルを改善することができる。

Most previous deblurring methods were built with a generic model trained on blurred images and their sharp counterparts. However, these approaches might have sub-optimal deblurring results due to the domain gap between the training and test sets. This paper proposes a reblur-deblur meta-transferring scheme to realize test-time adaptation without using ground truth for dynamic scene deblurring. Since the ground truth is usually unavailable at inference time in a real-world scenario, we leverage the blurred input video to find and use relatively sharp patches as the pseudo ground truth. Furthermore, we propose a reblurring model to extract the homogenous blur from the blurred input and transfer it to the pseudo-sharps to obtain the corresponding pseudo-blurred patches for meta-learning and test-time adaptation with only a few gradient updates. Extensive experimental results show that our reblur-deblur meta-learning scheme can improve state-of-the-art deblurring models on the DVD, REDS, and RealBlur benchmark datasets.
翻訳日:2022-10-18 18:52:14 公開日:2022-10-14
# 幼児運動評価のための半教師付きボディパーシングと姿勢推定

Semi-supervised Body Parsing and Pose Estimation for Enhancing Infant General Movement Assessment ( http://arxiv.org/abs/2210.08054v1 )

ライセンス: Link先を確認
Haomiao Ni, Yuan Xue, Liya Ma, Qian Zhang, Xiaoye Li, Xiaolei Huang(参考訳) 乳児運動ビデオ(IMV)の一般運動評価(GMA)は、乳幼児の脳性麻痺(CP)の早期発見に有効な方法である。 本稿では、画像シーケンス認識のためのエンドツーエンドのトレーニング可能なニューラルネットワークを応用して、GMAの優れた結果が得られることを実証し、さらに、幼児の身体解析とポーズ推定情報による生動画の増強により、パフォーマンスが著しく向上することを示した。 半教師付きモデル siamparsenet (spn) を,フレーム内ボディ部分のセグメンテーションとフレーム間ラベル伝搬の2つの枝からなる半教師付きモデルとして提案する。 トレーニング中、2つのブランチは、ラベル付きフレームのみの入力ペアとラベル付きフレームとラベルなしフレームの両方の入力との交互にトレーニングされる。 また、FVGAN(Factized Video Generative Adversarial Network)を用いて、新しいラベル付きフレームを合成し、トレーニングデータの強化も検討した。 テストでは、マルチソース推論機構を採用し、テストフレームの最終結果がセグメンテーションブランチまたは近くのキーフレームからの伝搬を介して取得されます。 本研究では,SPNとFVGANを併用した2つの幼児運動ビデオデータセット上で,SPNを用いた身体解析実験を行った。 さらに,SPNは幼児のポーズ推定作業に容易に適応できることを示す。 最後に,GMA法の臨床応用について検討する。 我々はGMAアノテーションを用いた新しい臨床IMVデータセットを収集し、最初の2つのデータセットで訓練された身体解析とポーズ推定のためのSPNモデルが新しい臨床データセットによく適合し、その結果がCRNNベースのGMA予測性能を大幅に向上することを示した。

General movement assessment (GMA) of infant movement videos (IMVs) is an effective method for early detection of cerebral palsy (CP) in infants. We demonstrate in this paper that end-to-end trainable neural networks for image sequence recognition can be applied to achieve good results in GMA, and more importantly, augmenting raw video with infant body parsing and pose estimation information can significantly improve performance. To solve the problem of efficiently utilizing partially labeled IMVs for body parsing, we propose a semi-supervised model, termed SiamParseNet (SPN), which consists of two branches, one for intra-frame body parts segmentation and another for inter-frame label propagation. During training, the two branches are jointly trained by alternating between using input pairs of only labeled frames and input of both labeled and unlabeled frames. We also investigate training data augmentation by proposing a factorized video generative adversarial network (FVGAN) to synthesize novel labeled frames for training. When testing, we employ a multi-source inference mechanism, where the final result for a test frame is either obtained via the segmentation branch or via propagation from a nearby key frame. We conduct extensive experiments for body parsing using SPN on two infant movement video datasets, where SPN coupled with FVGAN achieves state-of-the-art performance. We further demonstrate that SPN can be easily adapted to the infant pose estimation task with superior performance. Last but not least, we explore the clinical application of our method for GMA. We collected a new clinical IMV dataset with GMA annotations, and our experiments show that SPN models for body parsing and pose estimation trained on the first two datasets generalize well to the new clinical dataset and their results can significantly boost the CRNN-based GMA prediction performance.
翻訳日:2022-10-18 18:51:57 公開日:2022-10-14
# 医用画像分割と少数ショット領域適応のための視覚変換器の最適化

Optimizing Vision Transformers for Medical Image Segmentation and Few-Shot Domain Adaptation ( http://arxiv.org/abs/2210.08066v1 )

ライセンス: Link先を確認
Qianying Liu, Chaitanya Kaul, Christos Anagnostopoulos, Roderick Murray-Smith, Fani Deligianni(参考訳) コンピュータビジョンへの変換器の適応は、画像コンテキスト情報のモデリングが入力特徴と関連して2次計算複雑性をもたらすため、簡単ではない。 既存の方法の多くは、imagenetのような巨大なデータセットの広範な事前トレーニングを必要とするため、医療などの分野への応用は効果が低い。 cnnは、畳み込みフィルタが効果的に局所依存をモデル化し、必要なパラメータを大幅に削減できるため、コンピュータビジョンタスクにおいて支配的なアーキテクチャである。 しかし、畳み込みフィルタはより複雑な相互作用を処理できない。 さらに、トレーニング後に重みが固定され、視覚入力の変化を考慮していない。 コンボリューションと階層変換を用いたハイブリッドビジュアルトランスフォーマーの研究に触発されて,コンボリューショナル・スウィン・ウネット(CS-Unet)トランスフォーマーブロックを提案し,パッチ埋め込み,プロジェクション,フィードフォワードネットワーク,サンプリングおよびスキップ接続に関連する設定を最適化する。 cs-unetはスクラッチからトレーニングでき、各機能プロセスフェーズにおける畳み込みの優位性を継承する。 正確な空間情報をエンコードし、様々なスケールでオブジェクトの概念に寄与する階層表現を生成する。 実験によると、CS-Unetは事前トレーニングなしで、パラメータが少ない2つの医療用CTおよびMRIデータセットに対して、最先端の他のデータセットを大きなマージンで上回っている。 さらに、光学ディスクとポリプ画像セグメント化に関する2つの領域適応実験により、本手法が高度に一般化可能であり、異なるソースの画像間の領域ギャップを効果的に橋渡しすることを示した。

The adaptation of transformers to computer vision is not straightforward because the modelling of image contextual information results in quadratic computational complexity with relation to the input features. Most of existing methods require extensive pre-training on massive datasets such as ImageNet and therefore their application to fields such as healthcare is less effective. CNNs are the dominant architecture in computer vision tasks because convolutional filters can effectively model local dependencies and reduce drastically the parameters required. However, convolutional filters cannot handle more complex interactions, which are beyond a small neighbour of pixels. Furthermore, their weights are fixed after training and thus they do not take into consideration changes in the visual input. Inspired by recent work on hybrid visual transformers with convolutions and hierarchical transformers, we propose Convolutional Swin-Unet (CS-Unet) transformer blocks and optimise their settings with relation to patch embedding, projection, the feed-forward network, up sampling and skip connections. CS-Unet can be trained from scratch and inherits the superiority of convolutions in each feature process phase. It helps to encode precise spatial information and produce hierarchical representations that contribute to object concepts at various scales. Experiments show that CS-Unet without pre-training surpasses other state-of-the-art counterparts by large margins on two medical CT and MRI datasets with fewer parameters. In addition, two domain-adaptation experiments on optic disc and polyp image segmentation further prove that our method is highly generalizable and effectively bridges the domain gap between images from different sources.
翻訳日:2022-10-18 18:51:24 公開日:2022-10-14
# 高精度PVソーラーパネルの畳み込みニューラルネットワークを用いた故障検出方式

A Fault Detection Scheme Utilizing Convolutional Neural Network for PV Solar Panels with High Accuracy ( http://arxiv.org/abs/2210.09226v1 )

ライセンス: Link先を確認
Mary Pa, Amin Kazemi(参考訳) 太陽エネルギーは再生可能エネルギー技術の1つであり、ほぼ世界中で実現可能である。 しかし、太陽光発電システムの効率向上は依然として大きな課題である。 本稿では、太陽系のロバスト性を高めるために、太陽電池モジュールの画像を分割する訓練された畳み込みニューラルネットワーク(cnn)に基づく故障検出手法を提案する。 バイナリ分類では、PVセルの入力画像を2つのカテゴリ(欠陥または正常)に分類する。 さらにネットワークの能力を評価するために、欠陥のあるPV細胞はシャドー、クラック、ダストのような細胞に組織化され、モデルは複数の分類に利用される。 提案したCNNモデルの成功率は、バイナリ分類では91.1%、マルチ分類では88.6%である。 そこで,提案する訓練済みcnnモデルは,同じデータセットを用いた先行研究で提示されたcnnモデルを著しく上回っている。 提案するcnnに基づく故障検出モデルは, 単純かつ効果的であり, 太陽電池パネルの故障検出に適用可能である。

Solar energy is one of the most dependable renewable energy technologies, as it is feasible almost everywhere globally. However, improving the efficiency of a solar PV system remains a significant challenge. To enhance the robustness of the solar system, this paper proposes a trained convolutional neural network (CNN) based fault detection scheme to divide the images of photovoltaic modules. For binary classification, the algorithm classifies the input images of PV cells into two categories (i.e. faulty or normal). To further assess the network's capability, the defective PV cells are organized into shadowy, cracked, or dusty cells, and the model is utilized for multiple classifications. The success rate for the proposed CNN model is 91.1% for binary classification and 88.6% for multi-classification. Thus, the proposed trained CNN model remarkably outperforms the CNN model presented in a previous study which used the same datasets. The proposed CNN-based fault detection model is straightforward, simple and effective and could be applied in the fault detection of solar panel.
翻訳日:2022-10-18 18:08:53 公開日:2022-10-14
# 抽象的神経要約における自己反復

Self-Repetition in Abstractive Neural Summarizers ( http://arxiv.org/abs/2210.08145v1 )

ライセンス: Link先を確認
Nikita Salkar, Thomas Trikalinos, Byron C. Wallace, Ani Nenkova(参考訳) 神経要約器の出力における自己反復の定量的・定性的な分析を行う。 我々は、同じ系の複数の出力に現れる長さ 4 以上の n-gram の数として自己反復を測定する。 我々は,5つのデータセットを微調整した3つの人気アーキテクチャ(BART,T5,Pegasus)の挙動を分析する。 回帰分析では、3つのアーキテクチャは入力の出力サマリーにまたがってコンテントを繰り返す確率が異なることが分かり、BARTは特に自己反復しがちである。 より抽象的なデータや公式言語を特徴とするデータに対する微調整は、より高い自己反復率と関連付けられる。 質的分析では、システムは、要約されるコンテンツとは無関係な広告や廃棄者などのアーティファクトや、微調整領域で一般的な公式句を生成する。 自己反復のコーパスレベル分析へのアプローチは,実践者が要約者の訓練データをクリーンアップし,最終的に自己反復の量を最小化する手法をサポートするのに役立つかもしれない。

We provide a quantitative and qualitative analysis of self-repetition in the output of neural summarizers. We measure self-repetition as the number of n-grams of length four or longer that appear in multiple outputs of the same system. We analyze the behavior of three popular architectures (BART, T5, and Pegasus), fine-tuned on five datasets. In a regression analysis, we find that the three architectures have different propensities for repeating content across output summaries for inputs, with BART being particularly prone to self-repetition. Fine-tuning on more abstractive data, and on data featuring formulaic language, is associated with a higher rate of self-repetition. In qualitative analysis we find systems produce artefacts such as ads and disclaimers unrelated to the content being summarized, as well as formulaic phrases common in the fine-tuning domain. Our approach to corpus-level analysis of self-repetition may help practitioners clean up training data for summarizers and ultimately support methods for minimizing the amount of self-repetition.
翻訳日:2022-10-18 18:06:37 公開日:2022-10-14
# 18F-FDG PET/CTのケースド・アンサンブル畳み込みニューラルネットワークによる全体腫瘍分節化

Whole-body tumor segmentation of 18F -FDG PET/CT using a cascaded and ensembled convolutional neural networks ( http://arxiv.org/abs/2210.08068v1 )

ライセンス: Link先を確認
Ludovic Sibille, Xinrui Zhan, and Lei Xiang(参考訳) 背景: PET/CT定量化のための重要な初期処理ステップは, 正確な特徴抽出, 腫瘍の特徴解析, 腫瘍ステージング, 画像ベースの治療反応評価を可能にする腫瘍病変の分節化である。 しかし、手動病変の分節は膨大な労力とコストに関係しており、臨床のルーチンでは実現不可能である。 目的: この研究の目的は,AutoPET課題の文脈において,癌疑い領域を自動的に18F-FDG PET/CT画像に分割するディープニューラルネットワークの性能を報告することであった。 方法: 3d unet cnnの積層アンサンブルがpet/ct画像を固定6mmの解像度で処理するカスケード手法を開発した。 残留層からなる精製装置網は6mmセグメンテーションマスクを元の解像度に増強した。 結果: モデルのトレーニングには930例が使用された。 50%は組織学的に証明された癌患者で,50%は健康管理であった。 84例の層状化試験で, dice=0.68 が得られた。 手動および自動代謝腫瘍量(mtv)は高い相関を示した(r2 = 0.969,slope = 0.947)。 平均推定時間は89.7秒であった。 結論: 提案アルゴリズムは, 全18F-FDG PET/CT画像において, 癌を疑う領域を正確に分割する。

Background: A crucial initial processing step for quantitative PET/CT analysis is the segmentation of tumor lesions enabling accurate feature ex-traction, tumor characterization, oncologic staging, and image-based therapy response assessment. Manual lesion segmentation is however associated with enormous effort and cost and is thus infeasible in clinical routine. Goal: The goal of this study was to report the performance of a deep neural network designed to automatically segment regions suspected of cancer in whole-body 18F-FDG PET/CT images in the context of the AutoPET challenge. Method: A cascaded approach was developed where a stacked ensemble of 3D UNET CNN processed the PET/CT images at a fixed 6mm resolution. A refiner network composed of residual layers enhanced the 6mm segmentation mask to the original resolution. Results: 930 cases were used to train the model. 50% were histologically proven cancer patients and 50% were healthy controls. We obtained a dice=0.68 on 84 stratified test cases. Manual and automatic Metabolic Tumor Volume (MTV) were highly correlated (R2 = 0.969,Slope = 0.947). Inference time was 89.7 seconds on average. Conclusion: The proposed algorithm accurately segmented regions suspicious for cancer in whole-body 18F -FDG PET/CT images.
翻訳日:2022-10-18 18:01:00 公開日:2022-10-14
# 直接ボリュームレンダリングによる医用ボリューム可視化のためのディープラーニングによる超解法

Deep Learning based Super-Resolution for Medical Volume Visualization with Direct Volume Rendering ( http://arxiv.org/abs/2210.08080v1 )

ライセンス: Link先を確認
Sudarshan Devkota, Sumanta Pattanaik(参考訳) 現代のディスプレイシステムは高品質なレンダリングを必要とする。 しかし、高解像度のレンダリングには大量のデータサンプルが必要であり、計算コストがかかる。 近年のディープラーニングによる画像とビデオの超解像技術は,低解像度でレンダリングされたフレームの高忠実化アップスケーリングのために,そのようなネットワークを高解像度に研究する動機となっている。 本研究は,直接ボリュームレンダリングによる医用ボリューム可視化の超解像に焦点をあてる一方で,他のレンダリング技術によるボリューム可視化にも応用できる。 提案手法では,カラー情報とボリュームレンダラーから収集した他の補足機能を用いて,高解像度空間への低解像度レンダリングの効率的なアップスケーリングを学習する。 さらに,時間安定性を向上させるため,ボリュームレンダリングにおける履歴サンプル蓄積のための時間的再投影手法も実装した。

Modern-day display systems demand high-quality rendering. However, rendering at higher resolution requires a large number of data samples and is computationally expensive. Recent advances in deep learning-based image and video super-resolution techniques motivate us to investigate such networks for high-fidelity upscaling of frames rendered at a lower resolution to a higher resolution. While our work focuses on super-resolution of medical volume visualization performed with direct volume rendering, it is also applicable for volume visualization with other rendering techniques. We propose a learning-based technique where our proposed system uses color information along with other supplementary features gathered from our volume renderer to learn efficient upscaling of a low-resolution rendering to a higher-resolution space. Furthermore, to improve temporal stability, we also implement the temporal reprojection technique for accumulating history samples in volumetric rendering.
翻訳日:2022-10-18 18:00:40 公開日:2022-10-14
# 医用ボリュームレンダリングのための参照ベースカラー転送

Reference Based Color Transfer for Medical Volume Rendering ( http://arxiv.org/abs/2210.08083v1 )

ライセンス: Link先を確認
Sudarshan Devkota, Summanta Pattanaik(参考訳) 医療画像の利点は大きい。 医療画像は十分な解剖学的情報を提供し、医療従事者が効果的な疾患診断を行い、最善の治療法を決定するのを手助けする。 CTスキャン、X線、MRI画像などの従来の単色医療画像から解剖学的構造の色のついた3D表現への移行により、医療専門家が貴重な医療情報を抽出する能力がさらに向上する。 本研究で提案する枠組みは,2つの医用画像(有色基準画像,単色ct画像,mri画像)間の深い意味的対応を見つけ,色伝達を行うことから始まる。 本稿では,この基準ベースのカラー化手法を拡張し,グレースケールの医用画像のスタックからカラーボリュームレンダリングを行う。 また,優れた参照画像の選択を支援するために,効果的な参照画像レコメンデーションシステムを提案する。 提案手法では,カラー医用ボリュームの可視化に成功し,転送機能とユーザインタラクションの手間を省き,ボリュームレンダリングのための色と不透明度パラメータを求める。

The benefits of medical imaging are enormous. Medical images provide considerable amounts of anatomical information and this facilitates medical practitioners in performing effective disease diagnosis and deciding upon the best course of medical treatment. A transition from traditional monochromatic medical images like CT scans, X-Rays or MRI images to a colored 3D representation of the anatomical structure further enhances the capabilities of medical professionals in extracting valuable medical information. The proposed framework in our research starts with performing color transfer by finding deep semantic correspondence between two medical images: a colored reference image, and a monochromatic CT scan or an MRI image. We extend this idea of reference-based colorization technique to perform colored volume rendering from a stack of grayscale medical images. Furthermore, we also propose to use an effective reference image recommendation system to aid in the selection of good reference images. With our approach, we successfully perform colored medical volume visualization and essentially eliminate the painstaking process of user interaction with a transfer function to obtain color and opacity parameters for volume rendering.
翻訳日:2022-10-18 18:00:23 公開日:2022-10-14
# 特徴抽出から見たcnnの近似解析

Approximation analysis of CNNs from feature extraction view ( http://arxiv.org/abs/2210.09041v1 )

ライセンス: Link先を確認
Han Feng, Jianfei Li, Ding-Xuan Zhou(参考訳) ディープニューラルネットワークに基づくディープラーニングは、多くの実用的なアプリケーションで非常に成功したが、ネットワークアーキテクチャと構造のために十分な理論的理解が欠けている。 本稿では,多チャンネル畳み込みニューラルネットワーク(cnns)による線形特徴抽出の解析を行い,フーリエ変換,ウェーブレット,冗長辞書符号化といった従来の線形変換に対するディープラーニングのパワーを実証する。 さらに,マルチチャネルCNNを用いて線形特徴抽出を効率的に行う方法を示す。 これは高次元関数を近似するために必要不可欠な次元を下げるために適用することができる。 このようなディープネットワークをチャネルに実装し,それに続く完全接続層で関数近似を行う速度についても検討した。 線形特徴をマルチレゾリューション畳み込みに分解する調和解析は,本研究において重要な役割を担っている。 それにもかかわらず、行列の専用ベクトル化が構築され、1次元CNNと2次元CNNを橋渡しし、対応する2次元解析を行うことができる。

Deep learning based on deep neural networks has been very successful in many practical applications, but it lacks enough theoretical understanding due to the network architectures and structures. In this paper, we establish the analysis for linear feature extraction by deep multi-channel convolutional neural networks(CNNs), which demonstrates the power of deep learning over traditional linear transformations, like Fourier, Wavelets, and Redundant dictionary coding methods. Moreover, we give an exact construction presenting how linear features extraction can be conducted efficiently with multi-channel CNNs. It can be applied to lower the essential dimension for approximating a high-dimensional function. Rates of function approximation by such deep networks implemented with channels and followed by fully-connected layers are investigated as well. Harmonic analysis for factorizing linear features into multi-resolution convolutions plays an essential role in our work. Nevertheless, a dedicate vectorization of matrices is constructed, which bridges 1D CNN and 2D CNN and allows us have corresponding 2D analysis.
翻訳日:2022-10-18 17:50:20 公開日:2022-10-14
# Pishgu: グラフ同型と注意的畳み込みによるユニバーサルパス予測アーキテクチャ

Pishgu: Universal Path Prediction Architecture through Graph Isomorphism and Attentive Convolution ( http://arxiv.org/abs/2210.08057v1 )

ライセンス: Link先を確認
Ghazal Alinezhad Noghre, Vinit Katariya, Armin Danesh Pazho, Christopher Neff, Hamed Tabkhi(参考訳) 経路予測は、自動運転やビデオ監視、環境モニタリングなど、いくつかのリアルタイムアプリケーションにとって重要なタスクである。 既存のアプローチのほとんどは計算集約的であり、狭い領域(例えば特定の主題の特定の視点)のみを対象としている。 しかし、多くのリアルタイムアプリケーションは、異なる対象(車、歩行者)、視点(バードアイ、ハイアングル)、そしてシーン(サイドウォーク、ハイウェイ)にまたがるユニバーサルパス予測器を要求する。 本稿では,環境問題を考慮した注意経路予測のための普遍グラフ同型法であるpishguを提案する。 pishguはグラフ同型ネットワークを活用し、各フレームの被写体内の相互依存性をキャプチャする。 また、注目モジュールは、対象者とその周辺領域の本質的な関係を表すために採用されている。 我々は,複数の公用車両(鳥眼ビュー)と歩行者(鳥眼ビューおよび高角ビュー)の経路予測データセットへのアプローチの適用性を評価する。 ピシュグの普遍的解法は、既存の領域に着目した手法よりも、42%、61%、歩行者ハイアングルビューが23%、FDEが22%、それぞれ最先端の結果が得られている。 さらに、各データセットのドメイン固有の詳細を分析し、経路予測とモデル解釈への影響を理解する。 我々のモデルは経路予測問題の単一解であり、複数の領域で新しい標準を定義するが、それでも最先端のモデルに匹敵する複雑さを持ち、現実のアプリケーションに適している。 また、複数の組み込みプロセッサ上の3つのドメインすべてに対して、レイテンシとスループットを報告します。

Path prediction is an essential task for several real-world real-time applications, from autonomous driving and video surveillance to environmental monitoring. Most existing approaches are computation-intensive and only target a narrow domain (e.g., a specific point of view for a particular subject). However, many real-time applications demand a universal path predictor that can work across different subjects (vehicles, pedestrians), perspectives (bird's-eye, high-angle), and scenes (sidewalk, highway). This article proposes Pishgu, a universal graph isomorphism approach for attentive path prediction that accounts for environmental challenges. Pishgu captures the inter-dependencies within the subjects in each frame by taking advantage of Graph Isomorphism Networks. In addition, an attention module is adopted to represent the intrinsic relations of the subjects of interest with their surroundings. We evaluate the adaptability of our approach to multiple publicly available vehicle (bird's-eye view) and pedestrian (bird's-eye and high-angle view) path prediction datasets. Pishgu's universal solution outperforms existing domain-focused methods by producing state-of-the-art results for vehicle bird's-eye view by 42% and 61% and pedestrian high-angle views by 23% and 22% in terms of ADE and FDE, respectively. Moreover, we analyze the domain-specific details for various datasets to understand their effect on path prediction and model interpretation. Although our model is a single solution for path prediction problems and defines a new standard in multiple domains, it still has a comparable complexity to state-of-the-art models, which makes it suitable for real-world application. We also report the latency and throughput for all three domains on multiple embedded processors.
翻訳日:2022-10-18 17:49:12 公開日:2022-10-14
# 自律運転における教師なし知覚と予測に触発された動き

Motion Inspired Unsupervised Perception and Prediction in Autonomous Driving ( http://arxiv.org/abs/2210.08061v1 )

ライセンス: Link先を確認
Mahyar Najibi, Jingwei Ji, Yin Zhou, Charles R. Qi, Xinchen Yan, Scott Ettinger, Dragomir Anguelov(参考訳) 現代の自動運転システムにおける学習に基づく知覚と予測モジュールは、通常、高価な人間のアノテーションに依存し、いくつかの事前定義された対象カテゴリのみを知覚するように設計されている。 このクローズドセットのパラダイムは、非常にダイナミックな世界で、自動運転車が任意の種類の交通参加者とその動きを処理する必要がある安全クリティカルな自動運転タスクには不十分である。 この困難に対処するため,本稿では,オープンセットの移動物体を理解するために,人間の監督を伴わずに知覚と予測モデルを訓練する,新しい挑戦的な方向を開拓する。 提案フレームワークは自己学習フローを用いて自動メタラベリングパイプラインを起動し,自動監視を実現する。 waymo open datasetにおける3次元検出実験では,従来の教師なしのアプローチを著しく上回っており,教師なしのシーンフローと競合する。 さらに,提案手法は,オープンセット3次元検出と軌道予測に非常に有望な結果をもたらし,全教師ありシステムの安全ギャップを閉じる可能性も確認できることを示した。

Learning-based perception and prediction modules in modern autonomous driving systems typically rely on expensive human annotation and are designed to perceive only a handful of predefined object categories. This closed-set paradigm is insufficient for the safety-critical autonomous driving task, where the autonomous vehicle needs to process arbitrarily many types of traffic participants and their motion behaviors in a highly dynamic world. To address this difficulty, this paper pioneers a novel and challenging direction, i.e., training perception and prediction models to understand open-set moving objects, with no human supervision. Our proposed framework uses self-learned flow to trigger an automated meta labeling pipeline to achieve automatic supervision. 3D detection experiments on the Waymo Open Dataset show that our method significantly outperforms classical unsupervised approaches and is even competitive to the counterpart with supervised scene flow. We further show that our approach generates highly promising results in open-set 3D detection and trajectory prediction, confirming its potential in closing the safety gap of fully supervised systems.
翻訳日:2022-10-18 17:48:42 公開日:2022-10-14
# Pseudo AIのバイアス

Pseudo AI Bias ( http://arxiv.org/abs/2210.08141v1 )

ライセンス: Link先を確認
Xiaoming Zhai, Joseph Krajcik(参考訳) Pseudo Artificial Intelligence bias (PAIB) は、社会における不必要なAIの恐れを生じさせ、AIアプリケーションの利点にアクセスし、共有する際の永続的な不平等と格差を悪化させ、AI研究に投資する社会的資本を無駄にする文学において広く普及している。 本研究は,文献中の出版物を体系的にレビューし,以下の3種類のpaibを提示する。 a)誤解 b) 擬似機械バイアス,及び c) 過剰な期待。 我々は、AIの恐怖を軽減するためにAIアプリケーションのユーザを認定すること、AIアプリケーションのカスタマイズされたユーザーガイダンスを提供すること、バイアスを監視するための体系的なアプローチの開発など、PAIBの結果と解決策について議論した。 我々は,誤解,疑似機械バイアス,アルゴリズム予測の過度な発見によるPAIBは社会的に有害であると結論付けた。

Pseudo Artificial Intelligence bias (PAIB) is broadly disseminated in the literature, which can result in unnecessary AI fear in society, exacerbate the enduring inequities and disparities in access to and sharing the benefits of AI applications, and waste social capital invested in AI research. This study systematically reviews publications in the literature to present three types of PAIBs identified due to: a) misunderstandings, b) pseudo mechanical bias, and c) over-expectations. We discussed the consequences of and solutions to PAIBs, including certifying users for AI applications to mitigate AI fears, providing customized user guidance for AI applications, and developing systematic approaches to monitor bias. We concluded that PAIB due to misunderstandings, pseudo mechanical bias, and over-expectations of algorithmic predictions is socially harmful.
翻訳日:2022-10-18 17:42:26 公開日:2022-10-14
# 分割誘導型領域適応による高効率深度補完

Segmentation-guided Domain Adaptation for Efficient Depth Completion ( http://arxiv.org/abs/2210.09213v1 )

ライセンス: Link先を確認
Fabian M\"arkert, Martin Sunkel, Anselm Haselhoff, Stefan Rudolph(参考訳) 全深度情報と効率的な推定器は、自動走行作業の現場理解において重要な要素となっている。 LiDARをベースとした深度補完の大きな問題は、非相関なLiDAR点雲のスパースの性質によって提供されるコヒーレントな情報の欠如による畳み込みの効率の悪さである。 この問題は、教師あり訓練のための高価な深度データ取得によって強化される。 本稿では,vgg05-like CNNアーキテクチャに基づく効率的な深度補完モデルを提案するとともに,知識を合成データから実世界のデータへ伝達する半教師付きドメイン適応手法を提案し,データ効率の向上と大規模データベースの必要性を低減する。 空間的コヒーレンスを高めるために,セグメンテーションを付加的な情報源として用いる学習プロセスを指導する。 提案手法の有効性と精度を,KITTIデータセットを用いて評価した。 提案手法は,計算フットプリントを著しく低くしながら,従来手法の効率的かつ低パラメータ状態を改善する。

Complete depth information and efficient estimators have become vital ingredients in scene understanding for automated driving tasks. A major problem for LiDAR-based depth completion is the inefficient utilization of convolutions due to the lack of coherent information as provided by the sparse nature of uncorrelated LiDAR point clouds, which often leads to complex and resource-demanding networks. The problem is reinforced by the expensive aquisition of depth data for supervised training. In this work, we propose an efficient depth completion model based on a vgg05-like CNN architecture and propose a semi-supervised domain adaptation approach to transfer knowledge from synthetic to real world data to improve data-efficiency and reduce the need for a large database. In order to boost spatial coherence, we guide the learning process using segmentations as additional source of information. The efficiency and accuracy of our approach is evaluated on the KITTI dataset. Our approach improves on previous efficient and low parameter state of the art approaches while having a noticeably lower computational footprint.
翻訳日:2022-10-18 17:32:38 公開日:2022-10-14
# MMTSA:効率的な人間活動認識のためのマルチモーダル時間セグメント注意ネットワーク

MMTSA: Multimodal Temporal Segment Attention Network for Efficient Human Activity Recognition ( http://arxiv.org/abs/2210.09222v1 )

ライセンス: Link先を確認
Ziqi Gao, Jianguo Chen, Junliang Xing, Shwetak Patel, Yuanchun Shi, Xin Liu, Yuntao Wang(参考訳) マルチモーダルセンサ(視覚、非視覚、ウェアラブルなど)は、アクティビティを認識するための堅牢な知覚システムを開発するために補完的な情報を提供する。 しかし、既存のアルゴリズムの多くは、高密度サンプリングとヘテロジニアスなサブネットワークを使用して、一様特徴を抽出し、フレームワークの最後に融合し、データの冗長性、補完的なマルチモーダル情報の欠如、高い計算コストを引き起こす。 本稿では,マルチモーダル・テンポラルセグメント・アテンション・ネットワーク(mmtsa)と呼ばれる人間の活動認識のための,rgbおよびimuウェアラブル・センサ(加速度計,ジャイロスコープなど)に基づく新しいマルチモーダル・ニューラル・アーキテクチャを提案する。 MMTSAはまず,Gramian Angular Field (GAF) に基づくマルチモーダルデータ同型機構を用いて,新しいマルチモーダルスパースサンプリング法を適用し,冗長性を低減する。 さらに,マルチモーダル機能を効果的かつ効率的に融合するためのmmtsaにおけるセグメント間アテンションモジュールを提案する。 本研究では,3つの公開データセットを厳密に評価することにより,行動認識における imu データイメージングと注意機構の重要性を実証し,従来の最先端手法よりも優れた改善(mmactデータセットで11.13\%$)を実現する。 コードはhttps://github.com/THU-CS-PI/MMTSAで公開されている。

Multimodal sensors (e.g., visual, non-visual, and wearable) provide complementary information to develop robust perception systems for recognizing activities. However, most existing algorithms use dense sampling and heterogeneous sub-network to extract unimodal features and fuse them at the end of their framework, which causes data redundancy, lack of complementary multimodal information and high computational cost. In this paper, we propose a new novel multimodal neural architecture based on RGB and IMU wearable sensors (e.g., accelerometer, gyroscope) for human activity recognition called Multimodal Temporal Segment Attention Network (MMTSA). MMTSA first employs a multimodal data isomorphism mechanism based on Gramian Angular Field (GAF) and then applies a novel multimodal sparse sampling method to reduce redundancy. Moreover, we propose an inter-segment attention module in MMTSA to fuse multimodal features effectively and efficiently. We demonstrate the importance of imu data imaging and attention mechanism in human activity recognition by rigorous evaluation on three public datasets, and achieve superior improvements ($11.13\%$ on the MMAct dataset) than the previous state-of-the-art methods. The code is available at: https://github.com/THU-CS-PI/MMTSA.
翻訳日:2022-10-18 17:31:56 公開日:2022-10-14
# oViT: ヴィジュアルトランスフォーマーのための正確な2階プルーニングフレームワーク

oViT: An Accurate Second-Order Pruning Framework for Vision Transformers ( http://arxiv.org/abs/2210.09223v1 )

ライセンス: Link先を確認
Denis Kuznedelev, Eldar Kurtic, Elias Frantar, Dan Alistarh(参考訳) Vision Transformer (ViT)ファミリーのモデルは最近、ImageNetのような画像分類タスクでブレークスルー結果を提供している。 それでもなお、デプロイの障壁に直面しており、特にその正確さは、刈り取りのような圧縮技術によって深刻な影響を受ける可能性がある。 本稿では,視覚変換器 (ViT) モデルの重み空間化のための新しい最先端手法である Optimal ViT Surgeon (oViT) を導入することでこの問題に対処する。 技術的レベルでは、oViTは2階情報を活用する新しい重み付けアルゴリズムを導入し、特にViTの文脈において高精度かつ効率的に適合する。 我々は、この正確なワンショットプルーナーを、ViTの段階的なプルーニング、拡張、回復スケジュールの詳細な調査で補完し、ViT圧縮の成功に不可欠であることを示す。 我々は,古典的ViTモデルやDeiTモデル,XCiT,EfficientFormer,Swinなどの新しい変種について広範な実験を行い,本手法の有効性を検証した。 さらに、最近提案された高精度ResNetにも関係しています。 その結果,vitファミリーモデルは高いスパース率(例えば$\geq 75\%$)で精度に影響を及ぼすこと,また高いスパース率でかなりのマージンで従来の手法を上回ることなどが確認された。 さらに,本手法は構造化プルーニング法や量子化法と互換性があり,スパース性を考慮した推論エンジンの高速化に繋がることを示す。

Models from the Vision Transformer (ViT) family have recently provided breakthrough results across image classification tasks such as ImageNet. Yet, they still face barriers to deployment, notably the fact that their accuracy can be severely impacted by compression techniques such as pruning. In this paper, we take a step towards addressing this issue by introducing Optimal ViT Surgeon (oViT), a new state-of-the-art method for the weight sparsification of Vision Transformers (ViT) models. At the technical level, oViT introduces a new weight pruning algorithm which leverages second-order information, specifically adapted to be both highly-accurate and efficient in the context of ViTs. We complement this accurate one-shot pruner with an in-depth investigation of gradual pruning, augmentation, and recovery schedules for ViTs, which we show to be critical for successful ViT compression. We validate our method via extensive experiments on classical ViT and DeiT models, as well as on newer variants, such as XCiT, EfficientFormer and Swin. Moreover, our results are even relevant to recently-proposed highly-accurate ResNets. Our results show for the first time that ViT-family models can in fact be pruned to high sparsity levels (e.g. $\geq 75\%$) with low impact on accuracy ($\leq 1\%$ relative drop), and that our approach outperforms prior methods by significant margins at high sparsities. In addition, we show that our method is compatible with structured pruning methods and quantization, and that it can lead to significant speedups on a sparsity-aware inference engine.
翻訳日:2022-10-18 17:31:30 公開日:2022-10-14
# WILD-SCAV: Unity3Dベースの環境におけるFPSゲームAIのベンチマーク

WILD-SCAV: Benchmarking FPS Gaming AI on Unity3D-based Environments ( http://arxiv.org/abs/2210.09026v1 )

ライセンス: Link先を確認
Xi Chen, Tianyu Shi, Qingpeng Zhao, Yuchen Sun, Yunfei Gao, Xiangjun Wang(参考訳) 深層強化学習(RL)の最近の進歩は、アーケード学習環境、MuJoCo、ViZDoomなどのシミュレーション環境において複雑な意思決定能力を示している。 しかし、これらはより複雑な問題に対してほとんど拡張できない。主な原因は、トレーニングやテストを行う環境における複雑さとバリエーションの欠如である。 さらに、長期的な探査研究を促進するために、オープンワールド環境に拡張できない。 現実的なタスク解決能力を学ぶためには、より多様性と複雑さのある環境を開発する必要がある。 WILD-SCAVは3次元オープンワールドFPS(First-Person Shooter)ゲームに基づく強力で拡張可能な環境である。 エージェントは3d環境を知覚し、ナビゲートし、計画し、競争し、人間のような方法で協力することを学ぶことができる。 WILD-SCAVは、異なる地形を持つ構成可能なマップ、構築構造と分布、協調的で競争的なタスクを持つマルチエージェント設定など、さまざまな複雑さもサポートしている。 構成可能な複雑性、マルチタスク、マルチエージェントシナリオに関する実験結果は、様々なRLアルゴリズムのベンチマークにおいてWILD-SCAVの有効性を示すとともに、汎用的なタスク解決能力を持つインテリジェントエージェントが生まれる可能性を示している。 オープンソースコードへのリンクはhttps://github.com/inspirai/wilderness-scavengerにあります。

Recent advances in deep reinforcement learning (RL) have demonstrated complex decision-making capabilities in simulation environments such as Arcade Learning Environment, MuJoCo, and ViZDoom. However, they are hardly extensible to more complicated problems, mainly due to the lack of complexity and variations in the environments they are trained and tested on. Furthermore, they are not extensible to an open-world environment to facilitate long-term exploration research. To learn realistic task-solving capabilities, we need to develop an environment with greater diversity and complexity. We developed WILD-SCAV, a powerful and extensible environment based on a 3D open-world FPS (First-Person Shooter) game to bridge the gap. It provides realistic 3D environments of variable complexity, various tasks, and multiple modes of interaction, where agents can learn to perceive 3D environments, navigate and plan, compete and cooperate in a human-like manner. WILD-SCAV also supports different complexities, such as configurable maps with different terrains, building structures and distributions, and multi-agent settings with cooperative and competitive tasks. The experimental results on configurable complexity, multi-tasking, and multi-agent scenarios demonstrate the effectiveness of WILD-SCAV in benchmarking various RL algorithms, as well as it is potential to give rise to intelligent agents with generalized task-solving abilities. The link to our open-sourced code can be found here https://github.com/inspirai/wilderness-scavenger.
翻訳日:2022-10-18 17:05:28 公開日:2022-10-14
# 都市鉄道交通システムにおけるcovid-19の短期旅客流量予測のためのst-former

ST-former for short-term passenger flow prediction during COVID-19 in urban rail transit system ( http://arxiv.org/abs/2210.09043v1 )

ライセンス: Link先を確認
Shuxin Zhang and Jinlei Zhang and Lixing Yang and Chengcheng Wang and Ziyou Gao(参考訳) 都市鉄道交通の正確な旅客流量予測は,特に流行時のインテリジェント交通システムの性能向上に不可欠である。 旅客流の複雑な時空間依存性を動的にモデル化する方法は, 流行時の正確な旅客流予測を達成する上で重要な課題である。 そこで本稿では,covid-19に特化したエンコーダ・デコーダ・フレームワークを用いて,新しいトランスフォーマアーキテクチャであるstformerを提案する。 具体的には,計算コストの低い乗客フローの複数時間依存性をモデル化するために,Causal-Convolution ProbSparse Self-Attention (CPSA) と呼ばれる修正自己注意機構を開発した。 複雑で動的な空間依存を捉えるために,複数のグラフを自己適応的に活用し,新しい適応多グラフ畳み込みネットワーク(AMGCN)を導入する。 さらに、Multi-source Data Fusionブロックは、乗客フローデータ、COVID-19確認ケースデータ、関連するソーシャルメディアデータを融合して、乗客フローへの影響を研究する。 実世界の乗客フローデータセットの実験は、STフォーマーが他の11の最先端手法よりも優れていることを示した。 モデル構造の有効性と信頼性を検証するため,いくつかのアブレーション実験を行った。 URTシステムの運用に関して重要な洞察を与えることができる。

Accurate passenger flow prediction of urban rail transit is essential for improving the performance of intelligent transportation systems, especially during the epidemic. How to dynamically model the complex spatiotemporal dependencies of passenger flow is the main issue in achieving accurate passenger flow prediction during the epidemic. To solve this issue, this paper proposes a brand-new transformer-based architecture called STformer under the encoder-decoder framework specifically for COVID-19. Concretely, we develop a modified self-attention mechanism named Causal-Convolution ProbSparse Self-Attention (CPSA) to model the multiple temporal dependencies of passenger flow with low computational costs. To capture the complex and dynamic spatial dependencies, we introduce a novel Adaptive Multi-Graph Convolution Network (AMGCN) by leveraging multiple graphs in a self-adaptive manner. Additionally, the Multi-source Data Fusion block fuses the passenger flow data, COVID-19 confirmed case data, and the relevant social media data to study the impact of COVID-19 to passenger flow. Experiments on real-world passenger flow datasets demonstrate the superiority of ST-former over the other eleven state-of-the-art methods. Several ablation studies are carried out to verify the effectiveness and reliability of our model structure. Results can provide critical insights for the operation of URT systems.
翻訳日:2022-10-18 16:56:55 公開日:2022-10-14
# ラグランジアンニューラルネットワーク検証のためのZonotopeドメイン

Zonotope Domains for Lagrangian Neural Network Verification ( http://arxiv.org/abs/2210.08069v1 )

ライセンス: Link先を確認
Matt Jordan, Jonathan Hayase, Alexandros G. Dimakis, Sewoong Oh(参考訳) ニューラルネットワーク検証は、与えられた入力範囲に対するニューラルネットワークの出力に対する証明可能なバウンダリを提供することを目的としている。 この領域の著名な先行研究は、ネットワーク内の中間ニューロン間の依存関係を保持する抽象的領域を用いて境界を生成するか、最適化問題としてフレーム検証を行い、ラグランジアン法を用いて緩和を解く。 後者の技法の鍵となる欠点は、各ニューロンが独立して処理され、重要なニューロンの相互作用が無視されることである。 この2つのスレッドをマージし、ラグランジュ分解内でゾノトペを使用するアプローチを提案する。 重要な点として,深層ニューラルネットワークの検証問題を,複数の2層ニューラルネットワークの検証に分解することができる。 これらの問題のそれぞれが困難であることは証明できるが、効率的な二重昇降手順に適応可能な効率的な緩和方法を提供する。 我々の手法は線形プログラミングとラグランジアンに基づく検証技術の両方を時間的・拘束的密度で改善する境界を与える。

Neural network verification aims to provide provable bounds for the output of a neural network for a given input range. Notable prior works in this domain have either generated bounds using abstract domains, which preserve some dependency between intermediate neurons in the network; or framed verification as an optimization problem and solved a relaxation using Lagrangian methods. A key drawback of the latter technique is that each neuron is treated independently, thereby ignoring important neuron interactions. We provide an approach that merges these two threads and uses zonotopes within a Lagrangian decomposition. Crucially, we can decompose the problem of verifying a deep neural network into the verification of many 2-layer neural networks. While each of these problems is provably hard, we provide efficient relaxation methods that are amenable to efficient dual ascent procedures. Our technique yields bounds that improve upon both linear programming and Lagrangian-based verification techniques in both time and bound tightness.
翻訳日:2022-10-18 16:56:02 公開日:2022-10-14
# 移動ペナル化ベイズ最適化と風力エネルギーシステムへの応用

Movement Penalized Bayesian Optimization with Application to Wind Energy Systems ( http://arxiv.org/abs/2210.08087v1 )

ライセンス: Link先を確認
Shyam Sundhar Ramesh, Pier Giuseppe Sessa, Andreas Krause, Ilija Bogunovic(参考訳) 文脈ベイズ最適化(CBO)は、風力エネルギーシステムにおいて重要な応用である、逐次的な意思決定側情報のための強力なフレームワークである。 この設定では、学習者は各ラウンドのコンテキスト(例えば気象条件)を受け取り、アクション(例えばタービンパラメータ)を選択する必要がある。 標準アルゴリズムは、各ラウンドの意思決定を切り替えるコストを前提としない。 しかし、多くの実用的なアプリケーションでは、このような変更に伴うコストが最小化されるべきである。 本稿では,移動コスト問題を伴うエピソディックcboを紹介し,coester and lee (2019) の計量タスクシステムに対するオンライン学習手法に基づき,ガウス過程の信頼度境界を用いたランダム化ミラー降下アルゴリズムを提案する。 各エピソードのオフライン最適シーケンスとパフォーマンスを比較し、厳格な後悔の保証を提供する。 さらに,航空機風力エネルギーシステムにおける高度最適化の実際の重要な応用について,我々のアプローチを実証する。 かなりの移動コストが存在する場合、我々のアルゴリズムは標準のCBOアルゴリズムより一貫して優れる。

Contextual Bayesian optimization (CBO) is a powerful framework for sequential decision-making given side information, with important applications, e.g., in wind energy systems. In this setting, the learner receives context (e.g., weather conditions) at each round, and has to choose an action (e.g., turbine parameters). Standard algorithms assume no cost for switching their decisions at every round. However, in many practical applications, there is a cost associated with such changes, which should be minimized. We introduce the episodic CBO with movement costs problem and, based on the online learning approach for metrical task systems of Coester and Lee (2019), propose a novel randomized mirror descent algorithm that makes use of Gaussian Process confidence bounds. We compare its performance with the offline optimal sequence for each episode and provide rigorous regret guarantees. We further demonstrate our approach on the important real-world application of altitude optimization for Airborne Wind Energy Systems. In the presence of substantial movement costs, our algorithm consistently outperforms standard CBO algorithms.
翻訳日:2022-10-18 16:55:44 公開日:2022-10-14
# PDE発見と演算子学習のためのカーネルアプローチ

A Kernel Approach for PDE Discovery and Operator Learning ( http://arxiv.org/abs/2210.08140v1 )

ライセンス: Link先を確認
Da Long, Nicole Mrvaljevic, Shandian Zhe, and Bamdad Hosseini(参考訳) 本稿では,カーネル法を用いて偏微分方程式(PDE)を学習し,解くための3段階の枠組みを提案する。 メッシュ上のノイズの多いPDE解とソース/バウンダリ項のペアからなるトレーニングセットが与えられた場合、カーネルスムーシングは、そのソリューションのデータと近似デリバティブを分解するために使用される。 この情報は、PDEの代数形式を学ぶために、カーネル回帰モデルで使用される。 学習されたPDEはカーネルベースのソルバ内で使われ、PDEの解を新しいソース/バウンダリ項で近似し、演算子学習フレームワークを構成する。 提案手法は数学的に解釈可能で,解析に適しており,実装に便利である。 数値実験により,この手法を最先端のアルゴリズムと比較し,空間変動係数を持つPDEに対して,少量のトレーニングデータに対して優れた性能を示す。

This article presents a three-step framework for learning and solving partial differential equations (PDEs) using kernel methods. Given a training set consisting of pairs of noisy PDE solutions and source/boundary terms on a mesh, kernel smoothing is utilized to denoise the data and approximate derivatives of the solution. This information is then used in a kernel regression model to learn the algebraic form of the PDE. The learned PDE is then used within a kernel based solver to approximate the solution of the PDE with a new source/boundary term, thereby constituting an operator learning framework. The proposed method is mathematically interpretable and amenable to analysis, and convenient to implement. Numerical experiments compare the method to state-of-the-art algorithms and demonstrate its superior performance on small amounts of training data and for PDEs with spatially variable coefficients.
翻訳日:2022-10-18 16:55:26 公開日:2022-10-14
# 産業用冷却システムにおけるオートエンコーダに基づく異常検出と故障位置の解明

Autoencoder based Anomaly Detection and Explained Fault Localization in Industrial Cooling Systems ( http://arxiv.org/abs/2210.08011v1 )

ライセンス: Link先を確認
Stephanie Holly, Robin Heel, Denis Katic, Leopold Schoeffl, Andreas Stiftinger, Peter Holzner, Thomas Kaufmann, Bernhard Haslhofer, Daniel Schall, Clemens Heitzinger and Jana Kemnitz(参考訳) 大規模産業用冷却システムにおける異常検出は、高データ次元、不整合センサ記録、ラベルの欠如により非常に困難である。 これらのシステムにおける自動異常検出の技術は、一般的に専門家の知識としきい値に依存する。 しかし、データは孤立し、複雑で多変量関係は無視される。 本研究では,大規模産業用冷却システムにおける多変量時系列データに適した異常検出のための自動エンコーダに基づくエンドツーエンドワークフローを提案する。 総再構成誤差(全センサ信号を含むオートエンコーダ再構成誤差)のしきい値を用いてシステム障害を特定する。 障害位置推定のために,各センサ信号に対する個別復元誤差(自動エンコーダ再構成誤差)を算出し,全体の再構成誤差に最も寄与する信号の同定を行う。 専門家の知識は、影響を受けるサブシステムへの根本原因分析と割り当てを可能にするルックアップテーブルを介して提供される。 4倍のクロスバリデーションアプローチと,ドメインの専門家が提示した閾値に基づいてラベルを自動生成することで,34個のセンサを8ヶ月の期間で冷却システムユニットで実証した。 4倍のクロスバリデーションを用いてF1スコアが0.56に到達したのに対し,オートエンコーダの結果は,自動生成ラベル(CS:0.62)と比較して高い一貫性スコア(CS:0.92)を示した。 主な異常はオートエンコーダによって発見され、自動的にラベルが作成され、ログファイルにも記録された。 さらに,本解析では,本異常の最も影響が大きいコンポーネントを,極めて一貫した方法で強調した。

Anomaly detection in large industrial cooling systems is very challenging due to the high data dimensionality, inconsistent sensor recordings, and lack of labels. The state of the art for automated anomaly detection in these systems typically relies on expert knowledge and thresholds. However, data is viewed isolated and complex, multivariate relationships are neglected. In this work, we present an autoencoder based end-to-end workflow for anomaly detection suitable for multivariate time series data in large industrial cooling systems, including explained fault localization and root cause analysis based on expert knowledge. We identify system failures using a threshold on the total reconstruction error (autoencoder reconstruction error including all sensor signals). For fault localization, we compute the individual reconstruction error (autoencoder reconstruction error for each sensor signal) allowing us to identify the signals that contribute most to the total reconstruction error. Expert knowledge is provided via look-up table enabling root-cause analysis and assignment to the affected subsystem. We demonstrated our findings in a cooling system unit including 34 sensors over a 8-months time period using 4-fold cross validation approaches and automatically created labels based on thresholds provided by domain experts. Using 4-fold cross validation, we reached a F1-score of 0.56, whereas the autoencoder results showed a higher consistency score (CS of 0.92) compared to the automatically created labels (CS of 0.62) -- indicating that the anomaly is recognized in a very stable manner. The main anomaly was found by the autoencoder and automatically created labels and was also recorded in the log files. Further, the explained fault localization highlighted the most affected component for the main anomaly in a very consistent manner.
翻訳日:2022-10-18 16:39:28 公開日:2022-10-14
# どこから始める? フェデレーション学習における事前学習と初期化の影響について

Where to Begin? On the Impact of Pre-Training and Initialization in Federated Learning ( http://arxiv.org/abs/2210.08090v1 )

ライセンス: Link先を確認
John Nguyen, Jianyu Wang, Kshitiz Malik, Maziar Sanjabi, Michael Rabbat(参考訳) 連合学習の暗黙の挑戦は異質性の存在である。 \emph{Data heterogeneity} は、異なるクライアントのデータが全く異なる分散に従う可能性があるという事実を指す。 \emph{System heterogeneity} は、クライアントデバイスが異なるシステム機能を持っているという事実を指す。 かなりの数の最適化手法がこの課題に対処する。 文献では、経験的評価は通常ランダム初期化から連邦訓練を開始する。 しかし、フェデレーション学習の多くの実用的な応用において、サーバーは、フェデレーショントレーニングを開始する前にモデルの事前トレーニングに使用できるトレーニングタスクのプロキシデータにアクセスすることができる。 4つの標準フェデレーション学習ベンチマークデータセットを用いて、フェデレーション学習における事前学習モデルから始めることの影響を実証研究する。 当然ながら、事前訓練されたモデルから始めると、目標エラー率に達するのに必要なトレーニング時間を短縮し、ランダム初期化から始める場合よりも正確なモデルのトレーニング(最大40%)を可能にする。 驚くべきことに、事前訓練された初期化からフェデレート学習を始めることで、データとシステムの不均一性が低下する。 我々は、ランダムおよび事前学習初期化から始める際に、フェデレーション最適化手法の提案と評価を行うことを推奨する。 この研究は、フェデレート最適化における不均一性の役割を理解するために、いくつかの疑問を提起する。

An oft-cited challenge of federated learning is the presence of heterogeneity. \emph{Data heterogeneity} refers to the fact that data from different clients may follow very different distributions. \emph{System heterogeneity} refers to the fact that client devices have different system capabilities. A considerable number of federated optimization methods address this challenge. In the literature, empirical evaluations usually start federated training from random initialization. However, in many practical applications of federated learning, the server has access to proxy data for the training task that can be used to pre-train a model before starting federated training. We empirically study the impact of starting from a pre-trained model in federated learning using four standard federated learning benchmark datasets. Unsurprisingly, starting from a pre-trained model reduces the training time required to reach a target error rate and enables the training of more accurate models (up to 40\%) than is possible when starting from random initialization. Surprisingly, we also find that starting federated learning from a pre-trained initialization reduces the effect of both data and system heterogeneity. We recommend that future work proposing and evaluating federated optimization methods evaluate the performance when starting from random and pre-trained initializations. We also believe this study raises several questions for further work on understanding the role of heterogeneity in federated optimization.
翻訳日:2022-10-18 16:38:58 公開日:2022-10-14
# 量子不確かさをもつ非線形ダイナミクスの方程式発見のためのベイズスプライン学習

Bayesian Spline Learning for Equation Discovery of Nonlinear Dynamics with Quantified Uncertainty ( http://arxiv.org/abs/2210.08095v1 )

ライセンス: Link先を確認
Luning Sun, Daniel Zhengyu Huang, Hao Sun, Jian-Xun Wang(参考訳) 非線形力学は科学や工学の応用においてユビキタスであるが、ほとんどの複雑な系の物理学は十分に理解されていない。 測定データから解釈可能な制御方程式の発見は、複雑な動的システムの振る舞いを理解し予測するのに役立つ。 この分野では、最近広範な研究がなされているが、かなりノイズの多い非常にスパースなデータから明確なモデル形式をしっかりと蒸留することができる。 さらに、ノイズデータから同定されたシステムの不確実性を定量化し、伝播することは困難であり、関連する文献は限られている。 このギャップを埋めるために,不確実性を定量化したスパース・ノイズデータから,非線形(時空間)時間力学の擬似支配方程式を同定する新しいベイズスプライン学習フレームワークを開発した。 提案手法では,データ不足や測定ノイズに対処するためにスプラインベースを用いて,導関数群を精度良く計算し,候補モデル用語のライブラリを形成する。 方程式残差は、トレーニング可能なパラメータの後方分布を近似するために近似ベイズ不確実性校正技術が使用されるベイズ的方法でスプライン学習に使用される。 分散性を促進するために,L0の分散性制約を体系的に近似するために,代替方向最適化戦略を用いて逐次連続型ベイズ学習手法を開発した。 提案アルゴリズムは正準常微分方程式と偏微分方程式によって制御される複数の非線形力学系上で評価され, 提案手法の利点/優位性を最先端法との比較により示す。

Nonlinear dynamics are ubiquitous in science and engineering applications, but the physics of most complex systems is far from being fully understood. Discovering interpretable governing equations from measurement data can help us understand and predict the behavior of complex dynamic systems. Although extensive work has recently been done in this field, robustly distilling explicit model forms from very sparse data with considerable noise remains intractable. Moreover, quantifying and propagating the uncertainty of the identified system from noisy data is challenging, and relevant literature is still limited. To bridge this gap, we develop a novel Bayesian spline learning framework to identify parsimonious governing equations of nonlinear (spatio)temporal dynamics from sparse, noisy data with quantified uncertainty. The proposed method utilizes spline basis to handle the data scarcity and measurement noise, upon which a group of derivatives can be accurately computed to form a library of candidate model terms. The equation residuals are used to inform the spline learning in a Bayesian manner, where approximate Bayesian uncertainty calibration techniques are employed to approximate posterior distributions of the trainable parameters. To promote the sparsity, an iterative sequential-threshold Bayesian learning approach is developed, using the alternative direction optimization strategy to systematically approximate L0 sparsity constraints. The proposed algorithm is evaluated on multiple nonlinear dynamical systems governed by canonical ordinary and partial differential equations, and the merit/superiority of the proposed method is demonstrated by comparison with state-of-the-art methods.
翻訳日:2022-10-18 16:38:38 公開日:2022-10-14
# 変分推論と自己連想記憶の関係について

On the Relationship Between Variational Inference and Auto-Associative Memory ( http://arxiv.org/abs/2210.08013v1 )

ライセンス: Link先を確認
Louis Annabi, Alexandre Pitti and Mathias Quoy(参考訳) 本稿では、自動連想記憶の変分推論式を提案し、知覚的推論とメモリ検索を同じ数学的枠組みに組み合わせることを可能にする。 この定式化では、潜在表現に対する事前の確率分布をメモリ依存にすることで、推論プロセスを予め格納された表現へと引き出す。 次に,変動推論に対するニューラルネットワークのアプローチを,このフレームワークに適用する方法について検討する。 本稿では,変分オートエンコーダや予測符号化のような反復的推論に依存する手法を比較し,新しい自己連想型メモリモデルの設計に両手法を組み合わせることを提案する。 CIFAR10とCLEVRの画像データセット上で得られたアルゴリズムを評価し,ホップフィールドネットワーク,エンド・ツー・エンドメモリネットワーク,ニューラルチューリングマシンなどの他の連想記憶モデルと比較した。

In this article, we propose a variational inference formulation of auto-associative memories, allowing us to combine perceptual inference and memory retrieval into the same mathematical framework. In this formulation, the prior probability distribution onto latent representations is made memory dependent, thus pulling the inference process towards previously stored representations. We then study how different neural network approaches to variational inference can be applied in this framework. We compare methods relying on amortized inference such as Variational Auto Encoders and methods relying on iterative inference such as Predictive Coding and suggest combining both approaches to design new auto-associative memory models. We evaluate the obtained algorithms on the CIFAR10 and CLEVR image datasets and compare them with other associative memory models such as Hopfield Networks, End-to-End Memory Networks and Neural Turing Machines.
翻訳日:2022-10-18 16:04:44 公開日:2022-10-14
# 知識蒸留法によるメラノーマ検出

Knowledge Distillation approach towards Melanoma Detection ( http://arxiv.org/abs/2210.08086v1 )

ライセンス: Link先を確認
Md. Shakib Khan, Kazi Nabiul Alam, Abdur Rab Dhruba, Hasib Zunair, Nabeel Mohammed(参考訳) メラノーマはすべての皮膚がんの中で最も危険であると考えられている。 悪性黒色腫の早期発見と、患者へのタイムリーな治療を可能にするシステムを構築する必要がある。 近年の手法は、画像認識や、メラノーマや非メラノーマなどの皮膚病変の画像にタグを付ける機械学習に基づくシステムに向けられている。 これらの手法は精度の面で有望な結果を示すが、トレーニングにはかなりコストがかかるため、臨床設定やメモリ制約デバイスにこれらのモデルをデプロイする能力に疑問を呈する。 この問題に対処するために、数百と比較して10未満のレイヤが少ない単純でパフォーマンスの高いモデルを構築することに重点を置いています。 学習可能なパラメータは少ないが、42.5Mと比較して0.26万 (M) であり、皮膚内視鏡画像からメラノーマを検出することが目的である。 まず,ResNet-50を用いて教師モデルを訓練し,メラノーマを検出する。 教師モデルを用いて, 約0.26mパラメータを有する蒸留学生ネットワーク (dsnet) と呼ばれる学生モデルを, 91.7%の精度で学習する。 mobilenet, vgg-16, inception-v3, efficientnet-b0, resnet-50, resnet-101などのimagenet事前学習モデルと比較した。 我々のアプローチは、他のトレーニング済みモデルと比べて、14.55秒に比べて2.57秒の推論ランタイムでうまく機能している。 DSNet (0.26Mパラメータ) は, 精度, リコール, F1スコア間のメラノーマ, 非メラノーマの検出において, 有効Net-B0 (4Mパラメータ) よりも常に優れていた。

Melanoma is regarded as the most threatening among all skin cancers. There is a pressing need to build systems which can aid in the early detection of melanoma and enable timely treatment to patients. Recent methods are geared towards machine learning based systems where the task is posed as image recognition, tag dermoscopic images of skin lesions as melanoma or non-melanoma. Even though these methods show promising results in terms of accuracy, they are computationally quite expensive to train, that questions the ability of these models to be deployable in a clinical setting or memory constraint devices. To address this issue, we focus on building simple and performant models having few layers, less than ten compared to hundreds. As well as with fewer learnable parameters, 0.26 million (M) compared to 42.5M using knowledge distillation with the goal to detect melanoma from dermoscopic images. First, we train a teacher model using a ResNet-50 to detect melanoma. Using the teacher model, we train the student model known as Distilled Student Network (DSNet) which has around 0.26M parameters using knowledge distillation achieving an accuracy of 91.7%. We compare against ImageNet pre-trained models such MobileNet, VGG-16, Inception-V3, EfficientNet-B0, ResNet-50 and ResNet-101. We find that our approach works well in terms of inference runtime compared to other pre-trained models, 2.57 seconds compared to 14.55 seconds. We find that DSNet (0.26M parameters), which is 15 times smaller, consistently performs better than EfficientNet-B0 (4M parameters) in both melanoma and non-melanoma detection across Precision, Recall and F1 scores
翻訳日:2022-10-18 16:04:29 公開日:2022-10-14
# ニューラルネットワーク回路

Neural Attentive Circuits ( http://arxiv.org/abs/2210.08031v1 )

ライセンス: Link先を確認
Nasim Rahaman and Martin Weiss and Francesco Locatello and Chris Pal and Yoshua Bengio and Bernhard Sch\"olkopf and Erran Li and Nicolas Ballas(参考訳) 近年の研究では、さまざまなデータモダリティにまたがるタスクの実行をトレーニング可能な汎用神経アーキテクチャが開発されている。 汎用モデルは通常、基盤となるデータ構造についての仮定がほとんどなく、大規模データシステムでうまく機能することが知られている。 同時に、疎相互作用モジュールを使用してデータを表現するモジュールニューラルアーキテクチャへの関心も高まっている。 これらのモデルはより堅牢で、計算効率が高く、新しいデータへのサンプル効率の良い適応が可能である。 しかし、それらはデータについてドメイン固有の仮定をし、モジュールの振舞い(パラメータ化)と接続性(レイアウト)を共同で学べるかという課題を提示する傾向にある。 本研究では,神経モジュールのパラメータ化と疎結合をドメイン知識を使わずに共同で学習する,ニューラルネットワーク回路(NAC)と呼ばれる汎用のモジュール型ニューラルネットワークを提案する。 nacは、モジュール構成を決定する1つと、入力で実行するもう1つの2つの2つのシステムの組み合わせとして、最もよく理解されている。 我々はNACがNLVR2データセット上の多様で意味のあるモジュール構成を、追加の監督なしに学習できることを定性的に示す。 このようにモジュラリティを組み込むことで、NACはCIFARおよびCUBsデータセットへの低ショット適応を約10%改善し、Tiny ImageNet-RでのOOD堅牢性を約2.5%改善した。 さらに,nacsは3%未満のパフォーマンスを損なうことなく,推論時に8倍のスピードアップを達成できることがわかった。 最後に、NACは、ポイントクラウド分類、シンボル処理、ASCIIバイトからのテキスト分類にまたがる多様なデータモダリティの競合的な結果が得られることを発見し、その汎用性を確認する。

Recent work has seen the development of general purpose neural architectures that can be trained to perform tasks across diverse data modalities. General purpose models typically make few assumptions about the underlying data-structure and are known to perform well in the large-data regime. At the same time, there has been growing interest in modular neural architectures that represent the data using sparsely interacting modules. These models can be more robust out-of-distribution, computationally efficient, and capable of sample-efficient adaptation to new data. However, they tend to make domain-specific assumptions about the data, and present challenges in how module behavior (i.e., parameterization) and connectivity (i.e., their layout) can be jointly learned. In this work, we introduce a general purpose, yet modular neural architecture called Neural Attentive Circuits (NACs) that jointly learns the parameterization and a sparse connectivity of neural modules without using domain knowledge. NACs are best understood as the combination of two systems that are jointly trained end-to-end: one that determines the module configuration and the other that executes it on an input. We demonstrate qualitatively that NACs learn diverse and meaningful module configurations on the NLVR2 dataset without additional supervision. Quantitatively, we show that by incorporating modularity in this way, NACs improve upon a strong non-modular baseline in terms of low-shot adaptation on CIFAR and CUBs dataset by about 10%, and OOD robustness on Tiny ImageNet-R by about 2.5%. Further, we find that NACs can achieve an 8x speedup at inference time while losing less than 3% performance. Finally, we find NACs to yield competitive results on diverse data modalities spanning point-cloud classification, symbolic processing and text-classification from ASCII bytes, thereby confirming its general purpose nature.
翻訳日:2022-10-18 15:46:55 公開日:2022-10-14
# TestAug: 機能ベースのNLPテストを拡張するフレームワーク

TestAug: A Framework for Augmenting Capability-based NLP Tests ( http://arxiv.org/abs/2210.08097v1 )

ライセンス: Link先を確認
Guanqun Yang, Mirazul Haque, Qiaochu Song, Wei Yang, Xueqing Liu(参考訳) 最近提案された機能ベースのnlpテストは、モデル開発者がnlpモデルの機能テストを可能にし、従来のホールドアウトメカニズムでは検出できない機能障害を明らかにする。 しかしながら、機能ベースのテストに関する既存の作業は、テストケースを作成するために広範囲な手作業とドメインの専門知識を必要とします。 本稿では, GPT-3 エンジンを用いたテストケース生成の低コスト化について検討する。 さらに,GPT-3から無効な出力を除去し,テンプレートに出力を拡大してより多くのテストケースを生成する分類器を提案する。 1) TestAugは、既存の作業よりも多くのバグを見つけることができ、(2) TestAugのテストケースはより多様性があり、(3) TestAugは、テストスイートを作成するための手作業を大幅に節約します。 TestAugのコードとデータは、プロジェクトのWebサイト(https://guanqun-yang.github.io/testaug/)とGitHub(https://github.com/guanqun-yang/testaug)で確認できます。

The recently proposed capability-based NLP testing allows model developers to test the functional capabilities of NLP models, revealing functional failures that cannot be detected by the traditional heldout mechanism. However, existing work on capability-based testing requires extensive manual efforts and domain expertise in creating the test cases. In this paper, we investigate a low-cost approach for the test case generation by leveraging the GPT-3 engine. We further propose to use a classifier to remove the invalid outputs from GPT-3 and expand the outputs into templates to generate more test cases. Our experiments show that TestAug has three advantages over the existing work on behavioral testing: (1) TestAug can find more bugs than existing work; (2) The test cases in TestAug are more diverse; and (3) TestAug largely saves the manual efforts in creating the test suites. The code and data for TestAug can be found at our project website (https://guanqun-yang.github.io/testaug/) and GitHub (https://github.com/guanqun-yang/testaug).
翻訳日:2022-10-18 15:44:07 公開日:2022-10-14
# TweetNERD - ツイートのエンティティリンクベンチマークを終了する

TweetNERD -- End to End Entity Linking Benchmark for Tweets ( http://arxiv.org/abs/2210.08129v1 )

ライセンス: Link先を確認
Shubhanshu Mishra, Aman Saini, Raheleh Makki, Sneha Mehta, Aria Haghighi, Ali Mollahosseini(参考訳) 名前付きエンティティ認識・曖昧化(NERD)システムは、情報検索、質問応答、イベント検出、その他の自然言語処理(NLP)アプリケーションの基礎となっている。 我々は2010-2021年に340K以上のつぶやきのデータセットであるTweetNERDを紹介し、ツイート上でNERDシステムのベンチマークを行う。 これは、ツイート上でNERDのための最大かつ最も時間的に多様性のあるオープンソースデータセットベンチマークであり、この分野の研究を促進するために使用できる。 我々は、名前付きエンティティ認識(ner)、true spans(el)とのエンティティリンク、end to end entity link(end2end)の3つのオタクタスクに対するtweetnerdによる評価設定を説明し、特定のtweetnerd分割に関する既存の公開メソッドのパフォーマンスを提供する。 TweetNERD は https://doi.org/10.5281/zenodo.6617192 under Creative Commons Attribution 4.0 International (CC BY 4.0) ライセンスで利用可能である。 詳細はhttps://github.com/twitter-research/TweetNERDを参照。

Named Entity Recognition and Disambiguation (NERD) systems are foundational for information retrieval, question answering, event detection, and other natural language processing (NLP) applications. We introduce TweetNERD, a dataset of 340K+ Tweets across 2010-2021, for benchmarking NERD systems on Tweets. This is the largest and most temporally diverse open sourced dataset benchmark for NERD on Tweets and can be used to facilitate research in this area. We describe evaluation setup with TweetNERD for three NERD tasks: Named Entity Recognition (NER), Entity Linking with True Spans (EL), and End to End Entity Linking (End2End); and provide performance of existing publicly available methods on specific TweetNERD splits. TweetNERD is available at: https://doi.org/10.5281/zenodo.6617192 under Creative Commons Attribution 4.0 International (CC BY 4.0) license. Check out more details at https://github.com/twitter-research/TweetNERD.
翻訳日:2022-10-18 15:43:48 公開日:2022-10-14
# Re3: Recursive RepromptingとRevisionで長いストーリーを生成する

Re3: Generating Longer Stories With Recursive Reprompting and Revision ( http://arxiv.org/abs/2210.06774v2 )

ライセンス: Link先を確認
Kevin Yang, Yuandong Tian, Nanyun Peng, Dan Klein(参考訳) 我々は,2千語以上の長文を自動生成する問題を考察する。 短いストーリーの以前の作業と比較して、長距離プロットのコヒーレンスと関連性は、ここではより中心的な課題である。 我々はこれらの課題に対処するためにRecursive Reprompting and Revision framework(Re3)を提案する。 (a)汎用言語モデルに構築された網羅的計画を構築するよう促し、 b)計画と現在のストーリー状態の両方から文脈情報を言語モデルプロンプトに繰り返し注入することにより、ストーリーパスを生成する。 その後、我々は修正する。 (c)プロットコヒーレンスと前提関連性のために異なる継続を格付けし、最後に (d)事実整合性のための最良の継続を編集する。 同じベースモデルから直接生成された類似の長さのストーリーと比較して、人間はre3のストーリーのかなり多くを(絶対的な増加の14%)コヒーレントなオーバーアーキシングプロットと判断し、与えられた初期前提(20%)に関連付けた。

We consider the problem of automatically generating longer stories of over two thousand words. Compared to prior work on shorter stories, long-range plot coherence and relevance are more central challenges here. We propose the Recursive Reprompting and Revision framework (Re3) to address these challenges by (a) prompting a general-purpose language model to construct a structured overarching plan, and (b) generating story passages by repeatedly injecting contextual information from both the plan and current story state into a language model prompt. We then revise by (c) reranking different continuations for plot coherence and premise relevance, and finally (d) editing the best continuation for factual consistency. Compared to similar-length stories generated directly from the same base model, human evaluators judged substantially more of Re3's stories as having a coherent overarching plot (by 14% absolute increase), and relevant to the given initial premise (by 20%).
翻訳日:2022-10-18 13:17:09 公開日:2022-10-14
# ニューラルフィードバックループの後方到達性のためのハイブリッドパーティショニング戦略

A Hybrid Partitioning Strategy for Backward Reachability of Neural Feedback Loops ( http://arxiv.org/abs/2210.07918v1 )

ライセンス: Link先を確認
Nicholas Rober, Michael Everett, Songan Zhang, Jonathan P. How(参考訳) ニューラルネットワークが、我々が輸送、医療、セキュリティに頼っているシステムに統合されるにつれて、これらのコンテキスト内で安全に使用できるように、その振る舞いを分析する方法を開発することがますます重要になる。 本稿では,ニューラルネットワーク制御系,すなわち神経フィードバックループを用いたクローズドループシステムの安全性を,後方到達性解析を用いて検証する。 すなわち、状態空間の危険な領域を束縛する特定のターゲットセットに繋がる状態の集合である、バックプロジェクション(BP)セットオーバー近似(BPOAs)を計算する。 システムの安全性は、BPOAに対して現在の状態をチェックすることで証明することができる。 BPの過剰近似は正確なBP集合を計算するよりもかなり速いが、緩和された問題は保守性をもたらす。 保守性に対抗するために、分割戦略を用いて問題を一連のサブプロブレムに分割し、それぞれが未分割問題よりも保守的でない。 本稿では、ターゲットセット分割(TSP)とバックリーチ可能なセット分割(BRSP)の両方を用いて、BRSPを用いた場合に存在する推定誤差の低い境界を克服するハイブリッドパーティショニング手法を提案する。 数値計算の結果, BRSP や TSP と比較すると, 推定誤差のほぼ次数減少を示す。

As neural networks become more integrated into the systems that we depend on for transportation, medicine, and security, it becomes increasingly important that we develop methods to analyze their behavior to ensure that they are safe to use within these contexts. The methods used in this paper seek to certify safety for closed-loop systems with neural network controllers, i.e., neural feedback loops, using backward reachability analysis. Namely, we calculate backprojection (BP) set over-approximations (BPOAs), i.e., sets of states that lead to a given target set that bounds dangerous regions of the state space. The system's safety can then be certified by checking its current state against the BPOAs. While over-approximating BPs is significantly faster than calculating exact BP sets, solving the relaxed problem leads to conservativeness. To combat conservativeness, partitioning strategies can be used to split the problem into a set of sub-problems, each less conservative than the unpartitioned problem. We introduce a hybrid partitioning method that uses both target set partitioning (TSP) and backreachable set partitioning (BRSP) to overcome a lower bound on estimation error that is present when using BRSP. Numerical results demonstrate a near order-of-magnitude reduction in estimation error compared to BRSP or TSP given the same computation time.
翻訳日:2022-10-17 18:26:06 公開日:2022-10-14
# FP16-INT8混合後の量子化によるマルチコアMCUにおけるRNN音声の高速化

Accelerating RNN-based Speech Enhancement on a Multi-Core MCU with Mixed FP16-INT8 Post-Training Quantization ( http://arxiv.org/abs/2210.07692v1 )

ライセンス: Link先を確認
Manuele Rusci, Marco Fariselli, Martin Croome, Francesco Paci, Eric Flamand(参考訳) 本稿では,1+8の汎用RISC-Vコアを持つMCU上で,リカレントニューラルネットワーク(RNN)に基づく音声強調アルゴリズムの設計と展開を行うための最適化手法を提案する。 低レイテンシ実行を実現するために,ベクトル化された8ビット整数 (INT8) と16ビット浮動小数点 (FP16) 演算ユニットを備えたLSTMまたはGRU再帰ブロックの並列計算を手動で管理するソフトウェアパイプラインを提案する。 完全精度モデルに対して最小限の精度劣化を確保するため,FP16に残っていた残層を8ビットに圧縮する新しいFP16-INT8混合精度ポストトライニング量子化(PTQ)方式を提案する。 実験は、Valentiniデータセットでトレーニングされた複数のLSTMとGRUベースのSEモデルで行われ、最大1.24Mパラメータが特徴である。 提案手法により,損失のないfp16ベースラインに対して最大4倍の高速化が可能となった。 PESQのスコアを平均0.3下げる均一な8ビット量子化とは異なり、Mixed-Precision PTQスキームは、1.4-1.7倍のメモリ節約を実現しつつ、わずか0.06の低劣化をもたらす。 この圧縮により、オンチップの非揮発性メモリに大容量のモデルを取り付けることで外部メモリの電力コストを削減し、MCUの電源電圧を0.8Vから0.65Vに削減し、MCUの省電力化を実現した。 我々の設計は、より小さなモデルと量子化対応のトレーニングを利用するシングルコアのMCUにデプロイされた最先端のSEソリューションよりも10倍エネルギー効率が高い。

This paper presents an optimized methodology to design and deploy Speech Enhancement (SE) algorithms based on Recurrent Neural Networks (RNNs) on a state-of-the-art MicroController Unit (MCU), with 1+8 general-purpose RISC-V cores. To achieve low-latency execution, we propose an optimized software pipeline interleaving parallel computation of LSTM or GRU recurrent blocks, featuring vectorized 8-bit integer (INT8) and 16-bit floating-point (FP16) compute units, with manually-managed memory transfers of model parameters. To ensure minimal accuracy degradation with respect to the full-precision models, we propose a novel FP16-INT8 Mixed-Precision Post-Training Quantization (PTQ) scheme that compresses the recurrent layers to 8-bit while the bit precision of remaining layers is kept to FP16. Experiments are conducted on multiple LSTM and GRU based SE models trained on the Valentini dataset, featuring up to 1.24M parameters. Thanks to the proposed approaches, we speed-up the computation by up to 4x with respect to the lossless FP16 baselines. Differently from a uniform 8-bit quantization that degrades the PESQ score by 0.3 on average, the Mixed-Precision PTQ scheme leads to a low-degradation of only 0.06, while achieving a 1.4-1.7x memory saving. Thanks to this compression, we cut the power cost of the external memory by fitting the large models on the limited on-chip non-volatile memory and we gain a MCU power saving of up to 2.5x by reducing the supply voltage from 0.8V to 0.65V while still matching the real-time constraints. Our design results 10x more energy efficient than state-of-the-art SE solutions deployed on single-core MCUs that make use of smaller models and quantization-aware training.
翻訳日:2022-10-17 18:25:43 公開日:2022-10-14
# 開放シナリオにおけるトランスフォーマーベース音声合成器の寄与

Transformer-Based Speech Synthesizer Attribution in an Open Set Scenario ( http://arxiv.org/abs/2210.07546v1 )

ライセンス: Link先を確認
Emily R. Bartusiak, Edward J. Delp(参考訳) 音声合成法は、詐欺、偽造、誤情報キャンペーンに使用できる現実的な音声を生成することができる。 このような攻撃に対して,合成音声を検出する法医学的手法が重要である。 法医学的帰属法は、音声信号の作成に用いられる特定の音声合成法(すなわち音声合成法)を識別するため、合成音声信号の性質についてさらに多くの情報を提供する。 現実的な音声合成器の増加に伴い,学習中に見えない新しい合成器に一般化する音声帰属法を提案する。 そこで我々は,閉集合シナリオと開集合シナリオの両方における音声合成者の属性について検討する。 言い換えれば、一部の音声合成器は「既知の」合成器(すなわち閉集合の一部)であり、他のものは「知られていない」合成器(すなわち開集合の一部)であると考える。 音声信号をスペクトログラムとして表現し、マルチクラス分類のための閉集合上にコンパクト属性変換器(CAT)と呼ばれる提案手法を訓練する。 そして、その分析結果をオープンセットに拡張し、合成音声信号を未知の合成器の両方に属性付ける。 学習した猫の潜在空間にt-distributed stochastic neighbor embedded (tsne) を用いて,未知の合成器を識別する。 さらに,ポリ-1損失の定式化について検討した。 提案手法は,各音声合成者に対して,クローズド・オープン両方のシナリオにおいて,合成音声信号の属性付けに成功している。

Speech synthesis methods can create realistic-sounding speech, which may be used for fraud, spoofing, and misinformation campaigns. Forensic methods that detect synthesized speech are important for protection against such attacks. Forensic attribution methods provide even more information about the nature of synthesized speech signals because they identify the specific speech synthesis method (i.e., speech synthesizer) used to create a speech signal. Due to the increasing number of realistic-sounding speech synthesizers, we propose a speech attribution method that generalizes to new synthesizers not seen during training. To do so, we investigate speech synthesizer attribution in both a closed set scenario and an open set scenario. In other words, we consider some speech synthesizers to be "known" synthesizers (i.e., part of the closed set) and others to be "unknown" synthesizers (i.e., part of the open set). We represent speech signals as spectrograms and train our proposed method, known as compact attribution transformer (CAT), on the closed set for multi-class classification. Then, we extend our analysis to the open set to attribute synthesized speech signals to both known and unknown synthesizers. We utilize a t-distributed stochastic neighbor embedding (tSNE) on the latent space of the trained CAT to differentiate between each unknown synthesizer. Additionally, we explore poly-1 loss formulations to improve attribution results. Our proposed approach successfully attributes synthesized speech signals to their respective speech synthesizers in both closed and open set scenarios.
翻訳日:2022-10-17 18:23:24 公開日:2022-10-14
# intel labsのego4d challenge 2022 - オーディオとビジュアルのダイアリゼーションのためのベースラインの改善

Intel Labs at Ego4D Challenge 2022: A Better Baseline for Audio-Visual Diarization ( http://arxiv.org/abs/2210.07764v1 )

ライセンス: Link先を確認
Kyle Min(参考訳) 本稿では,Ego4D Challenge 2022におけるAVD(Audio-Visual Diarization)の取り組みについて述べる。 具体的には、公式のベースラインに対して複数の技術的改善を加えます。 まず,モデルの学習方式を変更することにより,カメラ装着者の音声活動の検出性能を向上させる。 第2に,カメラ装着者の音声活動にのみ適用した場合,オフザシェルフ音声活動検出モデルにより,偽陽性を効果的に除去できることを見出した。 最後に、よりアクティブな話者検出が、より優れたAVD結果をもたらすことを示す。 最終手法はEgo4Dのテストセットの65.9%のDERを取得し,全てのベースラインを著しく上回る結果となった。 Ego4D Challenge 2022で1位を獲得した。

This report describes our approach for the Audio-Visual Diarization (AVD) task of the Ego4D Challenge 2022. Specifically, we present multiple technical improvements over the official baselines. First, we improve the detection performance of the camera wearer's voice activity by modifying the training scheme of its model. Second, we discover that an off-the-shelf voice activity detection model can effectively remove false positives when it is applied solely to the camera wearer's voice activities. Lastly, we show that better active speaker detection leads to a better AVD outcome. Our final method obtains 65.9% DER on the test set of Ego4D, which significantly outperforms all the baselines. Our submission achieved 1st place in the Ego4D Challenge 2022.
翻訳日:2022-10-17 18:22:57 公開日:2022-10-14
# 歌声ニューラルボーコーダの階層的拡散モデル

Hierarchical Diffusion Models for Singing Voice Neural Vocoder ( http://arxiv.org/abs/2210.07508v1 )

ライセンス: Link先を確認
Naoya Takahashi, Mayank Kumar, Singh, Yuki Mitsufuji(参考訳) 最近の深層生成モデルの進歩により、音声領域におけるニューラルボコーダの品質が向上した。 しかし、ピッチ、ラウドネス、発音の表現が多種多様であるため、高品質な歌声の生成は依然として困難である。 本研究では,音声ニューラルボコーダの歌唱における階層的拡散モデルを提案する。 提案手法は, 異なるサンプリングレートで動作する複数の拡散モデルで構成され, 最低サンプリングレートのモデルはピッチなどの正確な低周波成分の生成に重点を置いており, その他のモデルは, サンプリングレートの低いデータと音響特性に基づいて, より高いサンプリングレートで波形を段階的に生成する。 実験結果から,提案手法は複数の歌手に対して高品質な歌唱音声を生成し,同様の計算コストで最先端のニューラルボコーダより優れていた。

Recent progress in deep generative models has improved the quality of neural vocoders in speech domain. However, it remains challenging to generate high-quality singing voice due to a wider variety of musical expressions in pitch, loudness, and pronunciations. In this work, we propose a hierarchical diffusion model for singing voice neural vocoders. The proposed method consists of multiple diffusion models operating in different sampling rates; the model at the lowest sampling rate focuses on generating accurate low frequency components such as pitch, and other models progressively generate the waveform at the higher sampling rates based on the data at the lower sampling rate and acoustic features. Experimental results show that the proposed method produces high-quality singing voice for multiple singers, outperforming state-of-the-art neural vocoders with a similar range of computational costs.
翻訳日:2022-10-17 18:22:12 公開日:2022-10-14
# 不確実性を考慮した信頼度証明を用いた安全モデルに基づく強化学習

Safe Model-Based Reinforcement Learning with an Uncertainty-Aware Reachability Certificate ( http://arxiv.org/abs/2210.07553v1 )

ライセンス: Link先を確認
Dongjie Yu, Wenjun Zou, Yujie Yang, Haitong Ma, Shengbo Eben Li, Jingliang Duan and Jianyu Chen(参考訳) 制約満足度ポリシーを解決する安全強化学習(RL)は、ロボット工学のような現実世界の課題において、RLのより広範な安全クリティカルな応用に有望な手段を提供する。 すべての安全なRL手法の中で、モデルに基づく手法は、高いサンプル効率のためにトレーニング時間違反をさらに軽減する。 しかしながら、モデルの不確実性に対する安全性の欠如は、安全なモデルベースのRL、特に訓練時間の安全性において問題となっている。 本稿では, モデルの不確実性に対処し, 頑健な安全状態を特徴付けるための分布到達性証明(DRC)とそのベルマン方程式を提案する。 さらに, DRCとそれに対応するシールドポリシーの制約を解決するために, 安全なRLフレームワークを構築した。 また,保護ポリシーを活用しつつ,安全性を保ち,高いリターンを同時に達成するためのライン探索手法を考案する。 制約付きトラッキングやナビゲーションのような古典的ベンチマークに関する総合的な実験は、提案アルゴリズムがトレーニング中に制約違反をはるかに少なく、同等のリターンを達成することを示している。

Safe reinforcement learning (RL) that solves constraint-satisfactory policies provides a promising way to the broader safety-critical applications of RL in real-world problems such as robotics. Among all safe RL approaches, model-based methods reduce training time violations further due to their high sample efficiency. However, lacking safety robustness against the model uncertainties remains an issue in safe model-based RL, especially in training time safety. In this paper, we propose a distributional reachability certificate (DRC) and its Bellman equation to address model uncertainties and characterize robust persistently safe states. Furthermore, we build a safe RL framework to resolve constraints required by the DRC and its corresponding shield policy. We also devise a line search method to maintain safety and reach higher returns simultaneously while leveraging the shield policy. Comprehensive experiments on classical benchmarks such as constrained tracking and navigation indicate that the proposed algorithm achieves comparable returns with much fewer constraint violations during training.
翻訳日:2022-10-17 18:21:58 公開日:2022-10-14
# 複数の音源を持つ分岐最適輸送の理論と近似解法

Theory and Approximate Solvers for Branched Optimal Transport with Multiple Sources ( http://arxiv.org/abs/2210.07702v1 )

ライセンス: Link先を確認
Peter Lippmann, Enrique Fita Sanmart\'in, Fred A. Hamprecht(参考訳) 分岐最適輸送 (branched optimal transport, bot) は、エッジに沿った輸送コストが部分加法的である最適輸送の一般化である。 この部分付加性は、同じ経路に沿った輸送量の増加をモデル化し、分岐輸送ネットワークを好んでいる。 本稿では、有限個のソースとシンクを$\mathbb{R}^2$で接続するBOTネットワークのNPハード最適化について検討する。 まず、トポロジーを与えられた多数のソースとシンクに対して、ボットネットワークの最適な形状を効率的に見つける方法を示す。 第二に、分岐点で3つ以上の辺が交わるトポロジーは決して最適ではないと主張する。 第3に、ユークリッド平面に対して得られた結果は、2次元リーマン多様体上の最適輸送ネットワークに直接一般化することを示した。 最後に,幾何最適化とネットワークトポロジの組合せ最適化を組み合わせた,単純かつ効果的な近似ボットソルバを提案する。

Branched Optimal Transport (BOT) is a generalization of optimal transport in which transportation costs along an edge are subadditive. This subadditivity models an increase in transport efficiency when shipping mass along the same route, favoring branched transportation networks. We here study the NP-hard optimization of BOT networks connecting a finite number of sources and sinks in $\mathbb{R}^2$. First, we show how to efficiently find the best geometry of a BOT network for many sources and sinks, given a topology. Second, we argue that a topology with more than three edges meeting at a branching point is never optimal. Third, we show that the results obtained for the Euclidean plane generalize directly to optimal transportation networks on two-dimensional Riemannian manifolds. Finally, we present a simple but effective approximate BOT solver combining geometric optimization with a combinatorial optimization of the network topology.
翻訳日:2022-10-17 18:21:41 公開日:2022-10-14
# (1,1)-クラスタ編集は多項式時間可解である

(1,1)-Cluster Editing is Polynomial-time Solvable ( http://arxiv.org/abs/2210.07722v1 )

ライセンス: Link先を確認
Gregory Gutin and Anders Yeo(参考訳) グラフ $H$ がclique グラフであれば、$H$ はclique の頂点非共役和である。 abu-khzam (2017) は $(a,d)$-{cluster editing} 問題を導入し、固定自然数 $a,d$ に対して、グラフ $g$ と頂点重み $a^*:\ v(g)\rightarrow \{0,1,\dots,a\}$ と $d^*{}:\ v(g)\rightarrow \{0,1,\dots,d\}$ が与えられたとき、$g$ が $v\in v(g)$ に対して最大$d^*(v)$ edges インシデントを削除できるかどうかを判断する。 komusiewicz と uhlmann (2012) と abu-khzam (2017) による結果は、すべてのペアに対して$a,d$ と$a=d=1.$ abu-khzam (2017) から離れて$(a,d)$-{cluster editing} の複雑性(p または np完全)の二分法を提供し、$(1,1)$-{cluster editing} が p にあると推測した。 (i)最大次数3の$C_3$-freeおよび$C_4$-freeグラフに真に5つの多項式時間還元を与える。 (ii)最大次数の$c_3$-free と $c_4$-free グラフ上で$(1,1)$-{cluster editing} を解く多項式時間アルゴリズムを設計する。

A graph $H$ is a clique graph if $H$ is a vertex-disjoin union of cliques. Abu-Khzam (2017) introduced the $(a,d)$-{Cluster Editing} problem, where for fixed natural numbers $a,d$, given a graph $G$ and vertex-weights $a^*:\ V(G)\rightarrow \{0,1,\dots, a\}$ and $d^*{}:\ V(G)\rightarrow \{0,1,\dots, d\}$, we are to decide whether $G$ can be turned into a cluster graph by deleting at most $d^*(v)$ edges incident to every $v\in V(G)$ and adding at most $a^*(v)$ edges incident to every $v\in V(G)$. Results by Komusiewicz and Uhlmann (2012) and Abu-Khzam (2017) provided a dichotomy of complexity (in P or NP-complete) of $(a,d)$-{Cluster Editing} for all pairs $a,d$ apart from $a=d=1.$ Abu-Khzam (2017) conjectured that $(1,1)$-{Cluster Editing} is in P. We resolve Abu-Khzam's conjecture in affirmative by (i) providing a serious of five polynomial-time reductions to $C_3$-free and $C_4$-free graphs of maximum degree at most 3, and (ii) designing a polynomial-time algorithm for solving $(1,1)$-{Cluster Editing} on $C_3$-free and $C_4$-free graphs of maximum degree at most 3.
翻訳日:2022-10-17 18:21:26 公開日:2022-10-14
# 広帯域分散ニューラルネットワークアーキテクチャと身体センサネットワークへの応用

Bandwidth-efficient distributed neural network architectures with application to body sensor networks ( http://arxiv.org/abs/2210.07750v1 )

ライセンス: Link先を確認
Thomas Strypsteen, Alexander Bertrand(参考訳) 本稿では,通信帯域幅制約のあるセンサネットワーク内で効率的な推論を行う分散ニューラルネットワークアーキテクチャを設計するための概念設計手法について述べる。 異なるセンサチャネルは複数のセンサデバイスに分散され、帯域制限された通信チャネル上でデータを交換して解決しなければならない。 私たちの設計手法は,ユーザが定義した集中型ニューラルネットワークから始まり,チャネルを異なるノードに分散した分散アーキテクチャに変換する。 分散ネットワークは、2つの並列分岐で構成され、その出力は核融合中心で融合される。 第1のブランチは局所的なノード固有の分類器から分類結果を収集し、第2のブランチは各ノードの信号を圧縮し、融合センターで分類するためにマルチチャネルの時系列を再構築する。 局所的な分類が十分でない場合、圧縮経路を動的に活性化することにより帯域幅のゲインを改善する。 本手法をエミュレートされた脳波センサネットワークにおけるモータ実行タスクで検証し,その結果の帯域精度トレードオフを分析する。 実験の結果,提案手法により,最大20倍の帯域幅削減が可能となり,最小損失(最大2%)の分類精度が向上した。 提案手法は,低消費電力センサネットワークに適した分散帯域効率ネットワークに,集中型アーキテクチャを円滑に変換する方法を提供する。 本論文の応用はウェアラブル・ブレイン・コンピュータ・インタフェースに焦点をあてるが,提案手法は他のセンサ・ネットワークのようなアプリケーションにも応用できる。

In this paper, we describe a conceptual design methodology to design distributed neural network architectures that can perform efficient inference within sensor networks with communication bandwidth constraints. The different sensor channels are distributed across multiple sensor devices, which have to exchange data over bandwidth-limited communication channels to solve, e.g., a classification task. Our design methodology starts from a user-defined centralized neural network and transforms it into a distributed architecture in which the channels are distributed over different nodes. The distributed network consists of two parallel branches of which the outputs are fused at the fusion center. The first branch collects classification results from local, node-specific classifiers while the second branch compresses each node's signal and then reconstructs the multi-channel time series for classification at the fusion center. We further improve bandwidth gains by dynamically activating the compression path when the local classifications do not suffice. We validate this method on a motor execution task in an emulated EEG sensor network and analyze the resulting bandwidth-accuracy trade-offs. Our experiments show that the proposed framework enables up to a factor 20 in bandwidth reduction with minimal loss (up to 2%) in classification accuracy compared to the centralized baseline on the demonstrated motor execution task. The proposed method offers a way to smoothly transform a centralized architecture to a distributed, bandwidth-efficient network amenable for low-power sensor networks. While the application focus of this paper is on wearable brain-computer interfaces, the proposed methodology can be applied in other sensor network-like applications as well.
翻訳日:2022-10-17 18:20:32 公開日:2022-10-14
# 不均一クライアントを用いたフェデレーションベストアーム識別

Federated Best Arm Identification with Heterogeneous Clients ( http://arxiv.org/abs/2210.07780v1 )

ライセンス: Link先を確認
Zhirui Chen, P. N. Karthik, Vincent Y. F. Tan, and Yeow Meng Chee(参考訳) 本研究は,各クライアントが腕の部分集合にアクセスでき,各アームが独立してガウス観測を行う場合に,中央サーバと複数のクライアントで連携した多腕バンディット設定における最適なアーム識別について検討する。 任意のタイミングで腕から得られる報酬は、腕にアクセスする全てのクライアントに対して、この時点で発生した観測の平均として定義される。 最終目標は、各クライアントの最高のアーム(平均報酬が最も大きい腕)を最小の停止時間で識別することであり、エラー確率の上限(すなわち、"em fixed-confidence regime})である。 各クライアントの最適なアームを見つけるために、期待される時間の成長率に低いバウンダリを提供する。 さらに,最善のアームを求める推定時間上の上限が乗算定数まで下限と一致するアルゴリズムであれば,任意の2連続する通信時間インスタントの比率は有界でなければならず,その結果は独立利害関係であることを示す。 次に、最も優れた武器を見つけるのに必要な通信ラウンドの期待数に基づいて、最初の既知の下限を提供する。 指数関数時間でのみ通信し、期待時間上の漸近上界を導出し、最良アームと期待される通信ラウンド数を求める、よく知られた「emトラックアンドストップ」戦略に基づく新しいアルゴリズムを提案する。

We study best arm identification in a federated multi-armed bandit setting with a central server and multiple clients, when each client has access to a {\em subset} of arms and each arm yields independent Gaussian observations. The {\em reward} from an arm at any given time is defined as the average of the observations generated at this time across all the clients that have access to the arm. The end goal is to identify the best arm (the arm with the largest mean reward) of each client with the least expected stopping time, subject to an upper bound on the error probability (i.e., the {\em fixed-confidence regime}). We provide a lower bound on the growth rate of the expected time to find the best arm of each client. Furthermore, we show that for any algorithm whose upper bound on the expected time to find the best arms matches with the lower bound up to a multiplicative constant, the ratio of any two consecutive communication time instants must be bounded, a result that is of independent interest. We then provide the first-known lower bound on the expected number of {\em communication rounds} required to find the best arms. We propose a novel algorithm based on the well-known {\em Track-and-Stop} strategy that communicates only at exponential time instants, and derive asymptotic upper bounds on its expected time to find the best arms and the expected number of communication rounds, where the asymptotics is one of vanishing error probabilities.
翻訳日:2022-10-17 18:20:05 公開日:2022-10-14
# SensoGripを用いた深層学習による失読自動検出

Automated dysgraphia detection by deep learning with SensoGrip ( http://arxiv.org/abs/2210.07659v1 )

ライセンス: Link先を確認
Mugdim Bublin, Franz Werner, Andrea Kerschbaumer, Gernot Korak, Sebastian Geyer, Lena Rettinger, Erna Schoenthaler(参考訳) 筆跡学習障害であるDysgraphiaは、子どもの学術的結果、日常生活、全体的な幸福感に重大な影響を及ぼす。 画像診断の早期発見は、標的とした介入の早期開始を可能にする。 デジタルタブレットを用いた機械学習アルゴリズムによる失書検出に関する研究がいくつか行われている。 しかし、これらの研究は、古典的な機械学習アルゴリズムに手動の特徴抽出と選択、および二分分類を応用した。 本研究では,SEMSスコア(0と12)をディープラーニングで予測することにより,手書き能力の微調整を検討した。 提案手法は,手動による特徴抽出と選択の代わりに,99%以上の精度とルート平均平方誤差を1より低くする。 さらに、タブレットの代わりに手書きのダイナミクスをキャプチャするセンサーを備えた、SensoGripというスマートペンを使って、より現実的なシナリオでの文字評価を可能にしました。

Dysgraphia, a handwriting learning disability, has a serious negative impact on children's academic results, daily life and overall wellbeing. Early detection of dysgraphia allows for an early start of a targeted intervention. Several studies have investigated dysgraphia detection by machine learning algorithms using a digital tablet. However, these studies deployed classical machine learning algorithms with manual feature extraction and selection as well as binary classification: either dysgraphia or no dysgraphia. In this work, we investigated fine grading of handwriting capabilities by predicting SEMS score (between 0 and 12) with deep learning. Our approach provide accuracy more than 99% and root mean square error lower than one, with automatic instead of manual feature extraction and selection. Furthermore, we used smart pen called SensoGrip, a pen equipped with sensors to capture handwriting dynamics, instead of a tablet, enabling writing evaluation in more realistic scenarios.
翻訳日:2022-10-17 18:14:08 公開日:2022-10-14
# ハイブリッド分散最適化: 高速収束に一階とゼロ階の最適化を併用

Hybrid Decentralized Optimization: First- and Zeroth-Order Optimizers Can Be Jointly Leveraged For Faster Convergence ( http://arxiv.org/abs/2210.07703v1 )

ライセンス: Link先を確認
Shayan Talaei, Giorgi Nadiradze, Dan Alistarh(参考訳) 分散最適化は、機械学習トレーニングをスピードアップするための標準的な方法の1つとなり、この分野の研究のほとんどは、分散1次、勾配ベースの方法に焦点を当てている。 しかし、計算にバウンドされたノードが一階の勾配に基づく最適化を実装できない場合もあるが、共同最適化タスクには貢献できない設定もある。 本稿では,ハイブリッド分散最適化の研究を開始し,0階ノードと1階ノードの最適化能力を持つノードが分散システムに共存する環境について検討し,データ分散に関する最適化課題を共同で解決しようと試みる。 基本的に、適切なパラメータ設定の下では、そのようなシステムはノイズゼロオーダーエージェントに耐えるだけでなく、情報を無視するのではなく、最適化プロセスにそのようなエージェントを組み込むことのメリットも示している。 我々のアプローチの核心は、ノイズやバイアスのある勾配推定器による分散最適化の新しい分析であり、これは独立した関心を持つかもしれない。 標準最適化タスクの実験結果から,ハイブリッド一階次最適化が実現可能であることを示す。

Distributed optimization has become one of the standard ways of speeding up machine learning training, and most of the research in the area focuses on distributed first-order, gradient-based methods. Yet, there are settings where some computationally-bounded nodes may not be able to implement first-order, gradient-based optimization, while they could still contribute to joint optimization tasks. In this paper, we initiate the study of hybrid decentralized optimization, studying settings where nodes with zeroth-order and first-order optimization capabilities co-exist in a distributed system, and attempt to jointly solve an optimization task over some data distribution. We essentially show that, under reasonable parameter settings, such a system can not only withstand noisier zeroth-order agents but can even benefit from integrating such agents into the optimization process, rather than ignoring their information. At the core of our approach is a new analysis of distributed optimization with noisy and possibly-biased gradient estimators, which may be of independent interest. Experimental results on standard optimization tasks confirm our analysis, showing that hybrid first-zeroth order optimization can be practical.
翻訳日:2022-10-17 18:13:53 公開日:2022-10-14
# close the gate:クライアントサイド深層出力解析に基づく連合学習におけるバックドアモデルの検出

Close the Gate: Detecting Backdoored Models in Federated Learning based on Client-Side Deep Layer Output Analysis ( http://arxiv.org/abs/2210.07714v1 )

ライセンス: Link先を確認
Phillip Rieger (1), Torsten Krau{\ss} (2), Markus Miettinen (1), Alexandra Dmitrienko (2), Ahmad-Reza Sadeghi (1) ((1) Technical University Darmstadt, (2) University of W\"urzburg)(参考訳) Federated Learning(FL)は、ディープニューラルネットワーク(DNN)を異なるクライアントから複数のデータソースで協調的にトレーニングするスキームである。 データを共有するのではなく、各クライアントがモデルをローカルにトレーニングすることで、プライバシが向上する。 しかし最近では、個々の顧客が訓練されたモデルにバックドアを注入できるいわゆる標的毒殺攻撃が提案されている。 これらのバックドア攻撃に対する既存の防御は、バックドアを緩和するための差分プライバシーのような技術に依存するか、個々のモデルの重みを分析し、これらの防御を特定のデータ分布に制限する外れ値検出方法を適用するかのいずれかである。 しかし、モデルのパラメータにノイズを加えるか、良性な外れ値を除くことで、協調的に訓練されたモデルの精度が低下する可能性がある。 さらに、サーバがクライアントのモデルを検査できるようにすると、既存の知識抽出方法によるプライバシーリスクが生じる。 我々は,クライアントのデータを利用してアグリゲーション前の個々のモデルを分析することで,バックドア攻撃を緩和するモデルである \textit{crowdguard}を提案する。 データ漏洩を防ぐため、サーバは個々のモデルをセキュアなエンクレーブに送信し、クライアントが配置したTrusted Execution Environmentsで動作する。 良性モデルと有毒モデルとを効果的に区別するために、異なるクライアントのデータが独立して同一に分散されていなくても(非IID)、DNNの隠蔽層の出力を分析するために「textit{HLBIM}」と呼ばれる新しい計量を導入する。 非IIDシナリオにおいても有毒なモデルの検出を効果的に行うことができることを示す。

Federated Learning (FL) is a scheme for collaboratively training Deep Neural Networks (DNNs) with multiple data sources from different clients. Instead of sharing the data, each client trains the model locally, resulting in improved privacy. However, recently so-called targeted poisoning attacks have been proposed that allow individual clients to inject a backdoor into the trained model. Existing defenses against these backdoor attacks either rely on techniques like Differential Privacy to mitigate the backdoor, or analyze the weights of the individual models and apply outlier detection methods that restricts these defenses to certain data distributions. However, adding noise to the models' parameters or excluding benign outliers might also reduce the accuracy of the collaboratively trained model. Additionally, allowing the server to inspect the clients' models creates a privacy risk due to existing knowledge extraction methods. We propose \textit{CrowdGuard}, a model filtering defense, that mitigates backdoor attacks by leveraging the clients' data to analyze the individual models before the aggregation. To prevent data leaks, the server sends the individual models to secure enclaves, running in client-located Trusted Execution Environments. To effectively distinguish benign and poisoned models, even if the data of different clients are not independently and identically distributed (non-IID), we introduce a novel metric called \textit{HLBIM} to analyze the outputs of the DNN's hidden layers. We show that the applied significance-based detection algorithm combined can effectively detect poisoned models, even in non-IID scenarios.
翻訳日:2022-10-17 18:13:32 公開日:2022-10-14
# IoTデバイスに影響を与える多目的マルウェアのための軽量移動目標防御フレームワーク

A Lightweight Moving Target Defense Framework for Multi-purpose Malware Affecting IoT Devices ( http://arxiv.org/abs/2210.07719v1 )

ライセンス: Link先を確認
Jan von der Assen, Alberto Huertas Celdr\'an, Pedro Miguel S\'anchez S\'anchez, Jordan Cede\~no, G\'er\^ome Bovet, Gregorio Mart\'inez P\'erez, Burkhard Stiller(参考訳) モノのインターネット(IoT)デバイスに影響を与えるマルウェアは、現実のシナリオにおけるこのパラダイムの関連性により、急速に増加している。 専門文献は、リモートコントロール、データ漏洩、暗号化、コード隠蔽など、さまざまな悪意のあるアクションを実行することができる多目的マルウェアの傾向も発見した。 この種のマルウェアに対してIoTデバイスを保護することは、よく知られた脆弱性とCPU、メモリ、ストレージの制限のために難しい。 これを改善するために、移動目標防御(MTD)パラダイムが10年前に提案され、有望な結果を示しているが、多目的マルウェアを扱うIoT MTDソリューションが不足している。 そこで本研究では,IoTデバイスのネットワーク,データ,実行環境を変える4つのMTDメカニズムを提案する。 さらに、軽量でiot指向のmtdフレームワークを提供し、mtdメカニズムをいつ、どのようにデプロイするかを決定する。 最後に,多目的マルウェアの影響を受けやすい1つのIoTスペクトルセンサを用いた実環境シナリオにおいて,フレームワークとMTD機構の効率性と有効性を評価する。

Malware affecting Internet of Things (IoT) devices is rapidly growing due to the relevance of this paradigm in real-world scenarios. Specialized literature has also detected a trend towards multi-purpose malware able to execute different malicious actions such as remote control, data leakage, encryption, or code hiding, among others. Protecting IoT devices against this kind of malware is challenging due to their well-known vulnerabilities and limitation in terms of CPU, memory, and storage. To improve it, the moving target defense (MTD) paradigm was proposed a decade ago and has shown promising results, but there is a lack of IoT MTD solutions dealing with multi-purpose malware. Thus, this work proposes four MTD mechanisms changing IoT devices' network, data, and runtime environment to mitigate multi-purpose malware. Furthermore, it presents a lightweight and IoT-oriented MTD framework to decide what, when, and how the MTD mechanisms are deployed. Finally, the efficiency and effectiveness of the framework and MTD mechanisms are evaluated in a real-world scenario with one IoT spectrum sensor affected by multi-purpose malware.
翻訳日:2022-10-17 18:13:03 公開日:2022-10-14
# スムースおよび非凸確率分散最適化のための最適収束率の再検討

Revisiting Optimal Convergence Rate for Smooth and Non-convex Stochastic Decentralized Optimization ( http://arxiv.org/abs/2210.07863v1 )

ライセンス: Link先を確認
Kun Yuan, Xinmeng Huang, Yiming Chen, Xiaohan Zhang, Yingya Zhang, Pan Pan(参考訳) 分散最適化は、大規模機械学習におけるコミュニケーションの節約に有効である。 理論的な保証と経験的成功で多くのアルゴリズムが提案されているが、分散最適化における性能限界、特にネットワークトポロジーとその関連する重み行列が最適収束率に与える影響は、完全には理解されていない。 Lu と Sa, 2021) は近年,線形グラフ上で定義された重み行列を用いた非凸確率分散最適化の最適速度を提供してきたが,一般重み行列を用いた最適速度はいまだ不明である。 本稿では,非凸確率分散最適化を再検討し,一般重み行列による最適収束率を確立する。 さらに,非凸損失関数がPolyak-Lojasiewicz (PL) 条件をさらに満たす場合の最適速度も確立する。 既存の文献分析の系統に従うと、これらの結果が得られない。 代わりに、Ring-Latticeグラフを利用して、グラフの直径と重み行列接続の最適関係を維持しながら、一般的な重み行列を許容する。 最後に,より穏やかな条件下で上述の2つの最適速度をほぼ満たす新しい分散アルゴリズムを開発した。

Decentralized optimization is effective to save communication in large-scale machine learning. Although numerous algorithms have been proposed with theoretical guarantees and empirical successes, the performance limits in decentralized optimization, especially the influence of network topology and its associated weight matrix on the optimal convergence rate, have not been fully understood. While (Lu and Sa, 2021) have recently provided an optimal rate for non-convex stochastic decentralized optimization with weight matrices defined over linear graphs, the optimal rate with general weight matrices remains unclear. This paper revisits non-convex stochastic decentralized optimization and establishes an optimal convergence rate with general weight matrices. In addition, we also establish the optimal rate when non-convex loss functions further satisfy the Polyak-Lojasiewicz (PL) condition. Following existing lines of analysis in literature cannot achieve these results. Instead, we leverage the Ring-Lattice graph to admit general weight matrices while maintaining the optimal relation between the graph diameter and weight matrix connectivity. Lastly, we develop a new decentralized algorithm to nearly attain the above two optimal rates under additional mild conditions.
翻訳日:2022-10-17 18:12:45 公開日:2022-10-14
# O(1)$コンセンサスレートによる分散学習のためのコミュニケーション効率の良いトポロジ

Communication-Efficient Topologies for Decentralized Learning with $O(1)$ Consensus Rate ( http://arxiv.org/abs/2210.07881v1 )

ライセンス: Link先を確認
Zhuoqing Song, Weijian Li, Kexin Jin, Lei Shi, Ming Yan, Wotao Yin, Kun Yuan(参考訳) 分散最適化は分散学習における新たなパラダイムであり、エージェントは中央サーバなしでピアツーピア通信によってネットワーク全体のソリューションを実現する。 通信は計算よりも遅い傾向があるため、各エージェントが各イテレーション毎に数個のエージェントと通信する場合、より多くのエージェントや中央サーバよりも速いイテレーションを完了することができる。 しかし、ネットワーク全体のソリューションに到達するためのイテレーションの総数は、エージェントの情報が通信によって‘mixed’される速度に影響される。 一般的な通信トポロジは、恒星や完全グラフのような大きな最大度を持つか、情報(リングやグリッドなど)を混ぜるには効果がないことがわかった。 そこで本研究では,混合効率を測定するためのネットワークサイズ非依存コンセンサス率と(ほぼ)一定次数を持つ新しい位相群であるequitopoを提案する。 提案されたファミリーでは、EquiStatic は$\Theta(\ln(n))$ の次数を持ち、$n$ はネットワークサイズであり、時間依存の一ピア位相の列 EquiDyn は定数次数 1 を持つ。 特定のランダムサンプリング手順によってEquiDynを生成する。 どちらもn$独立のコンセンサス率を達成している。 我々は、分散SGDと分散勾配追跡に適用し、より高速な通信とより優れた収束を得る。 私たちのコードはBlueFogを通じて実装され、 \url{https://github.com/kexinjinnn/EquiTopo}で利用可能です。

Decentralized optimization is an emerging paradigm in distributed learning in which agents achieve network-wide solutions by peer-to-peer communication without the central server. Since communication tends to be slower than computation, when each agent communicates with only a few neighboring agents per iteration, they can complete iterations faster than with more agents or a central server. However, the total number of iterations to reach a network-wide solution is affected by the speed at which the agents' information is ``mixed'' by communication. We found that popular communication topologies either have large maximum degrees (such as stars and complete graphs) or are ineffective at mixing information (such as rings and grids). To address this problem, we propose a new family of topologies, EquiTopo, which has an (almost) constant degree and a network-size-independent consensus rate that is used to measure the mixing efficiency. In the proposed family, EquiStatic has a degree of $\Theta(\ln(n))$, where $n$ is the network size, and a series of time-dependent one-peer topologies, EquiDyn, has a constant degree of 1. We generate EquiDyn through a certain random sampling procedure. Both of them achieve an $n$-independent consensus rate. We apply them to decentralized SGD and decentralized gradient tracking and obtain faster communication and better convergence, theoretically and empirically. Our code is implemented through BlueFog and available at \url{https://github.com/kexinjinnn/EquiTopo}
翻訳日:2022-10-17 18:12:24 公開日:2022-10-14
# e2r:階層学習に触発された新しい探索手法による把持軌跡の多種多様な再現

E2R: a Hierarchical-Learning inspired Novelty-Search method to generate diverse repertoires of grasping trajectories ( http://arxiv.org/abs/2210.07887v1 )

ライセンス: Link先を確認
Johann Huber, Oumar Sane, Alex Coninx, Faiz Ben Amar, Stephane Doncieux(参考訳) ロボットハンドリング(robotic grasping)とは、ロボットシステムが表面に力やトルクを加えることで物体を拾う作業である。 データ駆動アプローチの最近の進歩にもかかわらず、把持は未解決の問題である。 このタスクのほとんどの作業は、探索問題を避けるために、事前と重い制約に依存しています。 ノベルティ・サーチ(英: Novelty Search, NS)は、最も新しい個人の選択に取って代わる進化的アルゴリズムである。 このような手法は、既にハード探査問題に関する有望な結果を示している。 そこで本研究では,プラットフォームに依存しない大規模軌跡データを生成するnsベースの手法を提案する。 階層的学習パラダイムに着想を得た本手法は,行動空間をよりスムーズにするためのアプローチと熟考を分離する。 3つの異なるロボット・グルーパー・セットアップおよびいくつかの標準オブジェクトを用いた実験により、我々の手法は、軌跡把握の多様なレパートリーを生成し、高いラン率を得るとともに、アプローチと理解の両面でより良い多様性をもたらすことを示す。 生成されたソリューションのいくつかは実際のロボットにうまくデプロイされ、得られたレパートリーの活用性を示している。

Robotics grasping refers to the task of making a robotic system pick an object by applying forces and torques on its surface. Despite the recent advances in data-driven approaches, grasping remains an unsolved problem. Most of the works on this task are relying on priors and heavy constraints to avoid the exploration problem. Novelty Search (NS) refers to evolutionary algorithms that replace selection of best performing individuals with selection of the most novel ones. Such methods have already shown promising results on hard exploration problems. In this work, we introduce a new NS-based method that can generate large datasets of grasping trajectories in a platform-agnostic manner. Inspired by the hierarchical learning paradigm, our method decouples approach and prehension to make the behavioral space smoother. Experiments conducted on 3 different robot-gripper setups and on several standard objects shows that our method outperforms state-of-the-art for generating diverse repertoire of grasping trajectories, getting a higher successful run ratio, as well as a better diversity for both approach and prehension. Some of the generated solutions have been successfully deployed on a real robot, showing the exploitability of the obtained repertoires.
翻訳日:2022-10-17 18:11:56 公開日:2022-10-14
# 反応ロボット制御の推論としての階層的ポリシー

Hierarchical Policy Blending as Inference for Reactive Robot Control ( http://arxiv.org/abs/2210.07890v1 )

ライセンス: Link先を確認
Kay Hansel, Julen Urain, Jan Peters and Georgia Chalvatzaki(参考訳) 乱雑で密集した動的環境における動き生成はロボット工学の中心的なテーマであり、多目的意思決定問題として表現されている。 現在のアプローチは、安全性とパフォーマンスのトレードオフです。 一方、反応政策は環境変化に対する迅速な対応を最適以下の行動のリスクで保証する。 一方、計画に基づく動き生成は実現可能な軌道を提供するが、高い計算コストは制御周波数を制限し、安全性を損なう可能性がある。 反応ポリシーと計画の利点を組み合わせるために,階層的な動き生成手法を提案する。 さらに,階層モデルと確率的最適化を形式化する確率的推論手法を採用する。 このアプローチは確率的かつリアクティブな専門家ポリシーの重み付け積として実現され,タスク水平線上で最適な重み付けを適応的に計算するために計画が使用される。 この確率的最適化は局所最適を回避し、乱雑で密度の高い環境における経路を見つける実行可能な反応性計画を提案する。 平面ナビゲーションと6DoF操作の広範な実験により,提案手法は筋活動制御とオンライン再計画の両方に優れることが示された。

Motion generation in cluttered, dense, and dynamic environments is a central topic in robotics, rendered as a multi-objective decision-making problem. Current approaches trade-off between safety and performance. On the one hand, reactive policies guarantee fast response to environmental changes at the risk of suboptimal behavior. On the other hand, planning-based motion generation provides feasible trajectories, but the high computational cost may limit the control frequency and thus safety. To combine the benefits of reactive policies and planning, we propose a hierarchical motion generation method. Moreover, we adopt probabilistic inference methods to formalize the hierarchical model and stochastic optimization. We realize this approach as a weighted product of stochastic, reactive expert policies, where planning is used to adaptively compute the optimal weights over the task horizon. This stochastic optimization avoids local optima and proposes feasible reactive plans that find paths in cluttered and dense environments. Our extensive experimental study in planar navigation and 6DoF manipulation shows that our proposed hierarchical motion generation method outperforms both myopic reactive controllers and online re-planning methods.
翻訳日:2022-10-17 18:11:31 公開日:2022-10-14
# alpha$qboost:反復的に重み付けされた断熱訓練された分類器

$\alpha$QBoost: An Iteratively Weighted Adiabatic Trained Classifier ( http://arxiv.org/abs/2210.07984v1 )

ライセンス: Link先を確認
Salvatore Certo, Andrew Vlasic, Daniel Beaulieu(参考訳) 古典的手法に対する大幅な改善を示す、アダイアバタリー学習アンサンブルモデルの新たな実装が導出されている。 特に、この新しいアルゴリズムの実証的な結果は、より高いパフォーマンスを提供するだけでなく、より少ない分類器でより安定性を提供することを示している。 全体としては, 統計モデルの安定性を強化し, 分散とバイアスの最小化, バランスを保ちつつ, 前者の収束までの時間を短縮することで, 未知のデータに対する性能の向上が期待できることを示す。

A new implementation of an adiabatically-trained ensemble model is derived that shows significant improvements over classical methods. In particular, empirical results of this new algorithm show that it offers not just higher performance, but also more stability with less classifiers, an attribute that is critically important in areas like explainability and speed-of-inference. In all, the empirical analysis displays that the algorithm can provide an increase in performance on unseen data by strengthening stability of the statistical model through further minimizing and balancing variance and bias, while decreasing the time to convergence over its predecessors.
翻訳日:2022-10-17 18:11:12 公開日:2022-10-14
# 退化はok:不明瞭な分布をもつネットワーク収益管理に対する対数的後悔

Degeneracy is OK: Logarithmic Regret for Network Revenue Management with Indiscrete Distributions ( http://arxiv.org/abs/2210.07996v1 )

ライセンス: Link先を確認
Jiashuo Jiang, Will Ma and Jiawei Zhang(参考訳) 我々は、従来のネットワーク収益管理(NRM)問題について、意思決定を受理/退避し、IIDの到着を$T$で検討する。 各到着は、決定論的リソース消費ベクトルを持つが、ランダムな値が一定間隔にわたって連続的に分布する、有限個の可能なカテゴリに満たさなければならない分布形式を考える。 我々は、このモデルの下で、これ以上の仮定なしに$o(\log^2 t)$ regretを実現するオンラインアルゴリズムを開発した。 我々は,2次成長仮定のみで改良された$O(\log T)$ regretを実現するオンラインアルゴリズムを開発した。 我々の知る限り、これらは「非退化」の仮定なしで連続分布NEMモデルにおいて対数レベルの後悔を達成する最初の結果である。 その結果,新たな手法として,自発的後悔のバウンディング,オフラインアロケーションの‘半流動’緩和,‘二重収束’のバウンドの改善などが得られた。

We study the classical Network Revenue Management (NRM) problem with accept/reject decisions and $T$ IID arrivals. We consider a distributional form where each arrival must fall under a finite number of possible categories, each with a deterministic resource consumption vector, but a random value distributed continuously over an interval. We develop an online algorithm that achieves $O(\log^2 T)$ regret under this model, with no further assumptions. We develop another online algorithm that achieves an improved $O(\log T)$ regret, with only a second-order growth assumption. To our knowledge, these are the first results achieving logarithmic-level regret in a continuous-distribution NRM model without further ``non-degeneracy'' assumptions. Our results are achieved via new techniques including: a new method of bounding myopic regret, a ``semi-fluid'' relaxation of the offline allocation, and an improved bound on the ``dual convergence''.
翻訳日:2022-10-17 18:11:01 公開日:2022-10-14
# 一般サム確率ゲームのnash平衡学習のための分散政策勾配

Decentralized Policy Gradient for Nash Equilibria Learning of General-sum Stochastic Games ( http://arxiv.org/abs/2210.07651v1 )

ライセンス: Link先を確認
Yan Chen and Tao Li(参考訳) 遷移確率密度関数が未知な一般確率ゲームにおけるナッシュ平衡学習について検討する。 エージェントは現在の環境状態において行動し、その共同行動は環境状態の遷移と即時報酬に影響を与える。 各エージェントは、環境状態とその即時報酬のみを観察し、他人の行動や即時報酬について不明である。 重み付き漸近的ナッシュ均衡の概念を確率1および確率で導入する。 正確な擬似勾配を持つ場合、ナッシュ平衡と変分不等式の問題の等価性による2ループアルゴリズムを設計する。 外ループでは、構成された変分不等式を解決するために、内部ループに1つの呼び出し外勾配アルゴリズムを用いて、近似パラメータを更新し、構築された強い単調変分不等式を逐次更新する。 関連するMinty変分不等式が解を持つならば、設計アルゴリズムはk^{1/2}-重み付けされた漸近的ナッシュ平衡に収束する。 さらに、未知の擬似勾配の場合、擬似勾配のG(PO)MDP勾配推定器がモンテカルロシミュレーションによって提供される分散化アルゴリズムを提案する。 k^{1/4}-重み付き漸近ナッシュ平衡への確率の収束が達成される。

We study Nash equilibria learning of a general-sum stochastic game with an unknown transition probability density function. Agents take actions at the current environment state and their joint action influences the transition of the environment state and their immediate rewards. Each agent only observes the environment state and its own immediate reward and is unknown about the actions or immediate rewards of others. We introduce the concepts of weighted asymptotic Nash equilibrium with probability 1 and in probability. For the case with exact pseudo gradients, we design a two-loop algorithm by the equivalence of Nash equilibrium and variational inequality problems. In the outer loop, we sequentially update a constructed strongly monotone variational inequality by updating a proximal parameter while employing a single-call extra-gradient algorithm in the inner loop for solving the constructed variational inequality. We show that if the associated Minty variational inequality has a solution, then the designed algorithm converges to the k^{1/2}-weighted asymptotic Nash equilibrium. Further, for the case with unknown pseudo gradients, we propose a decentralized algorithm, where the G(PO)MDP gradient estimator of the pseudo gradient is provided by Monte-Carlo simulations. The convergence to the k^{1/4} -weighted asymptotic Nash equilibrium in probability is achieved.
翻訳日:2022-10-17 18:05:33 公開日:2022-10-14
# G2A2:属性と異常を自動生成するグラフジェネレータ

G2A2: An Automated Graph Generator with Attributes and Anomalies ( http://arxiv.org/abs/2210.07449v1 )

ライセンス: Link先を確認
Saikat Dey, Sonal Jha, Wu-chun Feng(参考訳) 多くのデータマイニングアプリケーションは、リレーショナルな情報を表現するために動的属性グラフを使用しているが、セキュリティとプライバシの懸念から、動的属性グラフとして表現できる利用可能なデータセットが多数存在する。 このようなデータセットが利用可能であっても、ディープラーニングモデルのトレーニングに使用できる基礎的な真実は持っていない。 そこで、属性と異常を持つ自動グラフ生成器g2a2を紹介し、(1)2つの独立したエンティティセット間の時間発展的な接続を表現する動的二部グラフを生成する確率モデル、(2)ドメイン間のグラフ異常の一般的な特性をキャプチャする新しいアルゴリズムを用いた異常の現実的な注入、(3)既存の実世界のデータセットから学んだ現実的な属性を生成する深い生成モデルを提案する。 3つの実世界グラフに対するg2a2生成グラフのリアリズムを評価するのにmmd(maximum mean discrepancy)メトリックを用いることで、g2a2はmmd距離を最大6倍にすることでクロネッカーグラフ生成を上回る。

Many data-mining applications use dynamic attributed graphs to represent relational information; but due to security and privacy concerns, there is a dearth of available datasets that can be represented as dynamic attributed graphs. Even when such datasets are available, they do not have ground truth that can be used to train deep-learning models. Thus, we present G2A2, an automated graph generator with attributes and anomalies, which encompasses (1) probabilistic models to generate a dynamic bipartite graph, representing time-evolving connections between two independent sets of entities, (2) realistic injection of anomalies using a novel algorithm that captures the general properties of graph anomalies across domains, and (3) a deep generative model to produce realistic attributes, learned from an existing real-world dataset. Using the maximum mean discrepancy (MMD) metric to evaluate the realism of a G2A2-generated graph against three real-world graphs, G2A2 outperforms Kronecker graph generation by reducing the MMD distance by up to six-fold (6x).
翻訳日:2022-10-17 18:04:33 公開日:2022-10-14
# 分散データマイニングのための通信効率の高いadam型アルゴリズム

Communication-Efficient Adam-Type Algorithms for Distributed Data Mining ( http://arxiv.org/abs/2210.07454v1 )

ライセンス: Link先を確認
Wenhan Xian, Feihu Huang, Heng Huang(参考訳) 分散データマイニングは、ひとつの集中型サーバではなく、さまざまなワーカノードで分割、計算されるビッグデータを使用して、ハードデータマイニングタスクを効果的かつ効率的に処理する、新たな研究トピックである。 それでも、ネットワーク帯域幅が制限されたり、モデルのサイズが大きくなると、分散学習手法は通信ボトルネックに陥ることが多い。 この課題を解決するために,近年,複数の最適化アルゴリズムの通信コストを削減するために,勾配圧縮法が多数提案されている。 しかし、DNNの訓練性能に優れたため広く採用されている適応勾配法への勾配圧縮の適用は、Sketched-SGDと同様の理想的な圧縮率や収束率を達成できない。 そこで,本稿では,d$ がパラメータ次元である場合の通信コストを $o(d)$ から $o(\log(d))$ に下げる有望な圧縮手法であるsketchingを用いた,新しい分散adam型アルゴリズム(\emph{i.e.}, sketchedamsgrad)を提案する。 我々の理論解析において、我々の新しいアルゴリズムは、反復ごとに$O(k \log(d))$の通信コストで、$O(\frac{1}{\sqrt{nT}} + \frac{1}{(k/d)^2 T})$の高速収束率を達成することを証明している。 シングルマシンのAMSGradと比較して、我々のアルゴリズムは、労働者数$n$に対して線形スピードアップを達成することができる。 分散パラダイムにおける各種DNNのトレーニング実験の結果,アルゴリズムの有効性が検証された。

Distributed data mining is an emerging research topic to effectively and efficiently address hard data mining tasks using big data, which are partitioned and computed on different worker nodes, instead of one centralized server. Nevertheless, distributed learning methods often suffer from the communication bottleneck when the network bandwidth is limited or the size of model is large. To solve this critical issue, many gradient compression methods have been proposed recently to reduce the communication cost for multiple optimization algorithms. However, the current applications of gradient compression to adaptive gradient method, which is widely adopted because of its excellent performance to train DNNs, do not achieve the same ideal compression rate or convergence rate as Sketched-SGD. To address this limitation, in this paper, we propose a class of novel distributed Adam-type algorithms (\emph{i.e.}, SketchedAMSGrad) utilizing sketching, which is a promising compression technique that reduces the communication cost from $O(d)$ to $O(\log(d))$ where $d$ is the parameter dimension. In our theoretical analysis, we prove that our new algorithm achieves a fast convergence rate of $O(\frac{1}{\sqrt{nT}} + \frac{1}{(k/d)^2 T})$ with the communication cost of $O(k \log(d))$ at each iteration. Compared with single-machine AMSGrad, our algorithm can achieve the linear speedup with respect to the number of workers $n$. The experimental results on training various DNNs in distributed paradigm validate the efficiency of our algorithms.
翻訳日:2022-10-17 18:04:11 公開日:2022-10-14
# ウェアラブルデータの多変量解析のための潜時流れ

Latent Temporal Flows for Multivariate Analysis of Wearables Data ( http://arxiv.org/abs/2210.07475v1 )

ライセンス: Link先を確認
Magda Amiridi, Gregory Darnell, Sean Jewell(参考訳) ウェアラブルデバイスからのセンサ信号の豊富な生理データとしての利用が増加し、個人の健康状態の変化を特定する健康モニタリングシステムの開発への関心が高まっている。 実際、センサー信号のための機械学習モデルは、異常の早期検出、妊婦の追跡、副作用の予測など、さまざまな医療関連アプリケーションを可能にした。 しかし、これらのモデルは、基礎となるセンサー信号の高次元特性を考慮できない。 本稿では,この設定に合わせた多変量時系列モデリング手法であるLatent Temporal Flowsを紹介する。 一連の列は、観測できない時間変化の低次元潜在ベクトルの多変量確率モデルから生成されると仮定する。 潜時流れは、観測されたシーケンスのディープオートエンコーダマッピングによる低次元潜時表現への変換を同時に回復し、正規化フローを通じて時間条件付き確率モデルの推定を行う。 apple heart and movement study(ah&m)のデータを用いて、これらの困難な信号に対する予測性能を示す。 さらに,本モデルで学習した2次元および3次元の表現を解析することにより,低レベル信号のみを用いて,被験者の主指標である $\text{VO}_2\text{max}$ を同定できることを示す。 最後に,提案手法が複数の実世界のデータセットにおいて,計算効率の向上を享受しながら,マルチステップ予測ベンチマーク(少なくとも10~%のパフォーマンス改善)において,最先端の手法を一貫して上回っていることを示す。

Increased use of sensor signals from wearable devices as rich sources of physiological data has sparked growing interest in developing health monitoring systems to identify changes in an individual's health profile. Indeed, machine learning models for sensor signals have enabled a diverse range of healthcare related applications including early detection of abnormalities, fertility tracking, and adverse drug effect prediction. However, these models can fail to account for the dependent high-dimensional nature of the underlying sensor signals. In this paper, we introduce Latent Temporal Flows, a method for multivariate time-series modeling tailored to this setting. We assume that a set of sequences is generated from a multivariate probabilistic model of an unobserved time-varying low-dimensional latent vector. Latent Temporal Flows simultaneously recovers a transformation of the observed sequences into lower-dimensional latent representations via deep autoencoder mappings, and estimates a temporally-conditioned probabilistic model via normalizing flows. Using data from the Apple Heart and Movement Study (AH&MS), we illustrate promising forecasting performance on these challenging signals. Additionally, by analyzing two and three dimensional representations learned by our model, we show that we can identify participants' $\text{VO}_2\text{max}$, a main indicator and summary of cardio-respiratory fitness, using only lower-level signals. Finally, we show that the proposed method consistently outperforms the state-of-the-art in multi-step forecasting benchmarks (achieving at least a $10\%$ performance improvement) on several real-world datasets, while enjoying increased computational efficiency.
翻訳日:2022-10-17 18:03:43 公開日:2022-10-14
# グラフニューラルネットワークの再検討

Revisiting Heterophily For Graph Neural Networks ( http://arxiv.org/abs/2210.07606v1 )

ライセンス: Link先を確認
Sitao Luan, Chenqing Hua, Qincheng Lu, Jiaqi Zhu, Mingde Zhao, Shuyuan Zhang, Xiao-Wen Chang, Doina Precup(参考訳) グラフニューラルネットワーク(GNN)は、関係帰納バイアス(ホモフィリー仮定)に基づいたグラフ構造を用いて、基本ニューラルネットワーク(NN)を拡張する。 GNNは、現実世界のタスクにおいてNNより優れていると一般的に信じられているが、最近の研究では、NNと比較してパフォーマンスが不十分な、非自明なデータセット群が特定されている。 ヘテロフィリーは、この経験的観察の主要な原因と考えられており、それに対応するために多くの研究が進められている。 本稿では,まず,広く使用されているホモフィリメトリックを再検討し,グラフラベル一貫性のみを考慮に入れることが欠点であることを指摘する。 次に,ポストアグリゲーションノードの類似性の観点からヘテロフィリシスを研究し,既存のものと比較して有利な新しいホモフィリメトリックを定義する。 そこで本研究では, 局所的多様化操作により, 有害なヘテロフィリー症例が効果的に対処できることを実証する。 そこで我々は,アダプティブ・チャネル・ミキシング (ACM) を提案し,アグリゲーション, 多様化, アイデンティティ・チャネルをノードワイズに適応的に活用し, 多様なノードヘテロフィリー状況に対して, よりリッチなローカライズされた情報を抽出する。 ACMは、異種グラフ上のノード分類タスクのための一般的なユニチャネルフレームワークよりも強力で、ベースラインのGNN層で容易に実装できる。 10のベンチマークノード分類タスクで評価すると、ACMが強化したベースラインは、計算負荷を伴わずに、ほとんどのタスクで最先端のGNNよりも高いパフォーマンスを実現している。

Graph Neural Networks (GNNs) extend basic Neural Networks (NNs) by using graph structures based on the relational inductive bias (homophily assumption). While GNNs have been commonly believed to outperform NNs in real-world tasks, recent work has identified a non-trivial set of datasets where their performance compared to NNs is not satisfactory. Heterophily has been considered the main cause of this empirical observation and numerous works have been put forward to address it. In this paper, we first revisit the widely used homophily metrics and point out that their consideration of only graph-label consistency is a shortcoming. Then, we study heterophily from the perspective of post-aggregation node similarity and define new homophily metrics, which are potentially advantageous compared to existing ones. Based on this investigation, we prove that some harmful cases of heterophily can be effectively addressed by local diversification operation. Then, we propose the Adaptive Channel Mixing (ACM), a framework to adaptively exploit aggregation, diversification and identity channels node-wisely to extract richer localized information for diverse node heterophily situations. ACM is more powerful than the commonly used uni-channel framework for node classification tasks on heterophilic graphs and is easy to be implemented in baseline GNN layers. When evaluated on 10 benchmark node classification tasks, ACM-augmented baselines consistently achieve significant performance gain, exceeding state-of-the-art GNNs on most tasks without incurring significant computational burden.
翻訳日:2022-10-17 18:03:17 公開日:2022-10-14
# 実効的マルチエージェント深部強化学習のための分布回帰推定

Distributional Reward Estimation for Effective Multi-Agent Deep Reinforcement Learning ( http://arxiv.org/abs/2210.07636v1 )

ライセンス: Link先を確認
Jifeng Hu, Yanchao Sun, Hechang Chen, Sili Huang, haiyin piao, Yi Chang, Lichao Sun(参考訳) マルチエージェント強化学習は、環境との相互作用によって生成されたサンプルを用いて最適なポリシーを探索できるため、ロボット工学や自動走行など、実際に注目を集めている。 しかし、高い報酬の不確実性は、高品質な報酬フィードバックを得るのは通常高価で、実現不可能であるため、満足いくモデルをトレーニングしたいときに依然として問題となる。 この問題に対処するため,従来の手法は主に受動報酬補正に重点を置いていた。 同時に、近年のアクティブ報酬推定手法は、報酬の不確実性の影響を減らすためのレシピであることが証明されている。 本稿では,効果的なマルチエージェント強化学習(DRE-MARL)のための分散リワード推定フレームワークを提案する。 本研究の目的は,安定トレーニングのための多行動分岐報酬推定と政策重み付け報酬アグリゲーションを設計することである。 具体的には、すべてのアクションブランチ上での報酬分布をモデル化するためのマルチアクションブランチ報酬推定を設計する。 そして,訓練中に報奨アグリゲーションを利用して安定した更新信号を得る。 我々の直感は、行動のあらゆる可能性について考慮することは、政策を学ぶのに有用である。 DRE-MARLの優位性は,有効性とロバスト性の両方の観点から,SOTAベースラインと比較して,ベンチマークマルチエージェントシナリオを用いて実証される。

Multi-agent reinforcement learning has drawn increasing attention in practice, e.g., robotics and automatic driving, as it can explore optimal policies using samples generated by interacting with the environment. However, high reward uncertainty still remains a problem when we want to train a satisfactory model, because obtaining high-quality reward feedback is usually expensive and even infeasible. To handle this issue, previous methods mainly focus on passive reward correction. At the same time, recent active reward estimation methods have proven to be a recipe for reducing the effect of reward uncertainty. In this paper, we propose a novel Distributional Reward Estimation framework for effective Multi-Agent Reinforcement Learning (DRE-MARL). Our main idea is to design the multi-action-branch reward estimation and policy-weighted reward aggregation for stabilized training. Specifically, we design the multi-action-branch reward estimation to model reward distributions on all action branches. Then we utilize reward aggregation to obtain stable updating signals during training. Our intuition is that consideration of all possible consequences of actions could be useful for learning policies. The superiority of the DRE-MARL is demonstrated using benchmark multi-agent scenarios, compared with the SOTA baselines in terms of both effectiveness and robustness.
翻訳日:2022-10-17 18:02:49 公開日:2022-10-14
# トランザクションモニタリングにおける機械学習 - xAIの展望

Machine Learning in Transaction Monitoring: The Prospect of xAI ( http://arxiv.org/abs/2210.07648v1 )

ライセンス: Link先を確認
Julie Gerlings and Ioanna Constantiou(参考訳) 銀行は金融犯罪のリスクを軽減するための社会的責任と規制要件を持っている。 リスク軽減は主に、トランザクション監視(tm)による顧客活動の監視によって行われる。 近年、機械学習(ML)は不審な顧客行動を特定するために提案されており、MLモデルとその出力の信頼性と説明可能性に関する複雑な社会技術的含意を提起している。 しかし、感度のためにはほとんど研究されていない。 このギャップを埋めるために、機械学習が自動化と拡張をサポートすることが、eXplainable Artificial Intelligence (xAI)を構築するためのTMプロセスと利害関係者の要求にどのように影響するか、という経験的研究を提示する。 本研究により,xAI要求はTMプロセスの責任者に依存し,TMの強化や自動化によって変化することがわかった。 文脈に関連のある説明は監査を大いに支援し、調査員の判断のバイアスを減らせる可能性がある。 これらの結果から,TMにおけるMLの採用を適切に促進するためのxAIのユースケース特異的アプローチが示唆された。

Banks hold a societal responsibility and regulatory requirements to mitigate the risk of financial crimes. Risk mitigation primarily happens through monitoring customer activity through Transaction Monitoring (TM). Recently, Machine Learning (ML) has been proposed to identify suspicious customer behavior, which raises complex socio-technical implications around trust and explainability of ML models and their outputs. However, little research is available due to its sensitivity. We aim to fill this gap by presenting empirical research exploring how ML supported automation and augmentation affects the TM process and stakeholders' requirements for building eXplainable Artificial Intelligence (xAI). Our study finds that xAI requirements depend on the liable party in the TM process which changes depending on augmentation or automation of TM. Context-relatable explanations can provide much-needed support for auditing and may diminish bias in the investigator's judgement. These results suggest a use case-specific approach for xAI to adequately foster the adoption of ML in TM.
翻訳日:2022-10-17 18:02:28 公開日:2022-10-14
# ワンショットタスク一般化のための抽象実行可能軌道変換

Abstract-to-Executable Trajectory Translation for One-Shot Task Generalization ( http://arxiv.org/abs/2210.07658v1 )

ライセンス: Link先を確認
Stone Tao, Xiaochen Li, Tongzhou Mu, Zhiao Huang, Yuzhe Qin and Hao Su(参考訳) 複雑な物理的環境での長距離ロボット政策の訓練は、ロボット操作のような多くのアプリケーションにとって不可欠である。 しかし、目に見えないタスクに一般化できるポリシーを学ぶことは難しい。 本研究では,計画生成と計画実行を分離してワンショットタスクの一般化を実現することを提案する。 具体的には、幾何学と物理学を単純化して対の抽象環境を構築し、抽象的軌跡を生成し、抽象から実行可能な軌道変換器によって元のタスクを解決する。 抽象的な環境では、物理的操作のような複雑な力学が取り除かれ、抽象的な軌道が生成しやすくなる。 しかし、抽象トラジェクトリと実際の実行トラジェクトリとの間の大きなドメインギャップは、抽象トラジェクトリは低レベルの詳細を欠いているため、実行トラジェクトリとフレーム間の整合性がないためである。 言語翻訳を思い起こさせる方法で、このアプローチでは、seq-to-seqモデルを利用して、抽象と実行可能な軌道の間の大きなドメイン間ギャップを克服し、低レベルのポリシーが抽象的軌道に従うことができる。 ロボットの実施形態が異なる様々な不明瞭な長軸タスクの実験結果から,ワンショットタスクの一般化を実現するための手法の実践性を示す。

Training long-horizon robotic policies in complex physical environments is essential for many applications, such as robotic manipulation. However, learning a policy that can generalize to unseen tasks is challenging. In this work, we propose to achieve one-shot task generalization by decoupling plan generation and plan execution. Specifically, our method solves complex long-horizon tasks in three steps: build a paired abstract environment by simplifying geometry and physics, generate abstract trajectories, and solve the original task by an abstract-to-executable trajectory translator. In the abstract environment, complex dynamics such as physical manipulation are removed, making abstract trajectories easier to generate. However, this introduces a large domain gap between abstract trajectories and the actual executed trajectories as abstract trajectories lack low-level details and are not aligned frame-to-frame with the executed trajectory. In a manner reminiscent of language translation, our approach leverages a seq-to-seq model to overcome the large domain gap between the abstract and executable trajectories, enabling the low-level policy to follow the abstract trajectory. Experimental results on various unseen long-horizon tasks with different robot embodiments demonstrate the practicability of our methods to achieve one-shot task generalization.
翻訳日:2022-10-17 18:02:13 公開日:2022-10-14
# 条件付き確率正規化流によるリモートセンシング画像のブラインド超解像

Blind Super-Resolution for Remote Sensing Images via Conditional Stochastic Normalizing Flows ( http://arxiv.org/abs/2210.07751v1 )

ライセンス: Link先を確認
Hanlin Wu, Ning Ni, Shan Wang, Libao Zhang(参考訳) リアルシーンにおけるリモートセンシング画像(RSI)は、光学的ぼかし、アンダーサンプリング、追加ノイズなどの複数の要因によって妨害され、複雑で多様な劣化モデルをもたらす。 現在、主流のsrアルゴリズムは、単一かつ固定的な分解(ビキューブ補間など)しか考慮せず、実際のシーンで複雑な劣化を柔軟に処理できない。 そのため、様々な劣化に対処できるスーパーレゾリューション(sr)モデルの設計が徐々に研究者の注目を集めている。 いくつかの研究は、まず劣化核を推定し、次に分解適応srを実行するが、推定誤差増幅の問題と、結果の高周波詳細が不十分である。 generative adversarial networks (gan)に基づくブラインドsrアルゴリズムは、視覚品質を大幅に向上させたが、依然として擬似テクスチャ、モード崩壊、トレーニング安定性の低下に苦しめられている。 本稿では、上記の問題に対処する確率正規化フロー(BlindSRSNF)に基づく新しいブラインドSRフレームワークを提案する。 BlindSRSNFは、低解像度(LR)画像が与えられた高解像度画像空間上の条件確率分布を、確率の変動境界を明示的に最適化することによって学習する。 BlindSRSNFは訓練が容易で、GANベースのモデルを上回るフォトリアリスティックSR結果を生成することができる。 また,明示的な劣化推定による誤り増幅問題を回避するために,コントラスト学習に基づく劣化表現戦略を導入する。 総合的な実験により,提案アルゴリズムは,実世界と実世界の両方のRSIにおいて,優れた視覚的知覚品質を有するSR結果が得られることを示した。

Remote sensing images (RSIs) in real scenes may be disturbed by multiple factors such as optical blur, undersampling, and additional noise, resulting in complex and diverse degradation models. At present, the mainstream SR algorithms only consider a single and fixed degradation (such as bicubic interpolation) and cannot flexibly handle complex degradations in real scenes. Therefore, designing a super-resolution (SR) model that can cope with various degradations is gradually attracting the attention of researchers. Some studies first estimate the degradation kernels and then perform degradation-adaptive SR but face the problems of estimation error amplification and insufficient high-frequency details in the results. Although blind SR algorithms based on generative adversarial networks (GAN) have greatly improved visual quality, they still suffer from pseudo-texture, mode collapse, and poor training stability. In this article, we propose a novel blind SR framework based on the stochastic normalizing flow (BlindSRSNF) to address the above problems. BlindSRSNF learns the conditional probability distribution over the high-resolution image space given a low-resolution (LR) image by explicitly optimizing the variational bound on the likelihood. BlindSRSNF is easy to train and can generate photo-realistic SR results that outperform GAN-based models. Besides, we introduce a degradation representation strategy based on contrastive learning to avoid the error amplification problem caused by the explicit degradation estimation. Comprehensive experiments show that the proposed algorithm can obtain SR results with excellent visual perception quality on both simulated LR and real-world RSIs.
翻訳日:2022-10-17 17:56:29 公開日:2022-10-14
# 画像超解像のためのISTAインスピレーションネットワーク

ISTA-Inspired Network for Image Super-Resolution ( http://arxiv.org/abs/2210.07818v1 )

ライセンス: Link先を確認
Yuqing Liu, Wei Zhang, Weifeng Sun, Zhikai Yu, Jianfeng Wei, Shengquan Li(参考訳) 画像超解像(SR)の深層学習は近年,多くの研究者によって研究されている。 作品のほとんどが効果的なブロック設計とネットワーク表現の改善に集中しているが、解釈が欠けている。 また、画像srには反復最適化にインスパイアされたネットワークがあり、明示的な最適化のステップを与えることなく、ソリューション全体のステップを取る。 本稿では,画像SRのための畳み込み繰り返し収縮しきい値決定アルゴリズム(ISTA)を提案する。 具体的には、画像SRの問題を解析し、ISTA法に基づく解を提案する。 数学的解析にインスパイアされたISTAブロックは、エンドツーエンドで最適化を行うために開発された。 探索をより効果的にするために、ISTAブロックを構築するために、マルチスケールのエクスプロイトブロックとマルチスケールのアテンション機構が考案された。 提案するistaインスパイア復元ネットワーク (istar) は, パラメータの低減と計算複雑性の低減により, 他の最適化に触発された作品よりも, 競争力や性能の向上が期待できる。

Deep learning for image super-resolution (SR) has been investigated by numerous researchers in recent years. Most of the works concentrate on effective block designs and improve the network representation but lack interpretation. There are also iterative optimization-inspired networks for image SR, which take the solution step as a whole without giving an explicit optimization step. This paper proposes an unfolding iterative shrinkage thresholding algorithm (ISTA) inspired network for interpretable image SR. Specifically, we analyze the problem of image SR and propose a solution based on the ISTA method. Inspired by the mathematical analysis, the ISTA block is developed to conduct the optimization in an end-to-end manner. To make the exploration more effective, a multi-scale exploitation block and multi-scale attention mechanism are devised to build the ISTA block. Experimental results show the proposed ISTA-inspired restoration network (ISTAR) achieves competitive or better performances than other optimization-inspired works with fewer parameters and lower computation complexity.
翻訳日:2022-10-17 17:56:04 公開日:2022-10-14
# 極少数の視覚画像と赤外線画像による炎状態モニタリングの実現

Realizing Flame State Monitoring with Very Few Visual or Infrared Images via Few-Shot Learning ( http://arxiv.org/abs/2210.07845v1 )

ライセンス: Link先を確認
Ruiyuan Kang, Panos Liatsis, Dimitrios C. Kyritsis(参考訳) 画像ベースの燃焼モニタリングにおける現在の機械学習の成功は、大量のデータに基づいている。 この対立に対処するために, 燃焼モニタリングに初回, 数発学習を導入する。 2つのアルゴリズム,Siamese Network と k Nearest Neighbors (SN-kNN) と Prototypeal Network (PN) が組み合わされている。 また、従来の研究として視覚画像を純粋に活用するのではなく、赤外線画像も試みる。 本研究では,両画像形式における2つのアルゴリズムの学習過程,テスト性能,推論速度を分析し,t-sneを用いて学習特徴を可視化する。 その結果,sn-knn と pn は火炎状態ごとに20画像の学習から火炎状態を区別できることがわかった。 最悪のパフォーマンスはPNとIR画像の組み合わせで実現されたが、精度、精度、リコール、F1スコアは0.95以上である。 画像の観察と特徴の可視化を通じて,視覚画像はクラス間で劇的な違いがあり,クラス内に一貫性のあるパターンを持つことを認識し,学習速度と視覚画像のモデルパフォーマンスを向上させる。 対照的に、比較的「低品質」なIR画像は、PNが識別可能なプロトタイプの抽出を困難にしており、これは相対的な性能を低下させるが、SN-kNNのトレーニングセット全体が分類をサポートするため、IR画像とよく協力する。 一方、アーキテクチャ設計の利点により、PNはSN-kNNよりもトレーニングと推論の速度がはるかに速い。 この研究はアルゴリズムと画像形式の両方の特徴を初めて分析し、燃焼監視タスクにおいてそれらをさらに活用するためのガイダンスを提供する。

The success of current machine learning on image-based combustion monitoring is based on massive data, which is costly even impossible for industrial applications. To address this conflict, we introduce few-shot learning to combustion monitoring for the first time. Two algorithms, Siamese Network coupled with k Nearest Neighbors (SN-kNN) and Prototypical Network (PN), are attempted. Besides, rather than purely utilizing visual images as previous studies, we also attempt Infrared (IR) images. In this work, we analyze the training process, test performance and inference speed of two algorithms on both image formats, and also use t-SNE to visualize learned features. The results demonstrate that both SN-kNN and PN are capable to distinguish flame states from learning with 20 images per flame state. The worst performance, which is realized by combination of PN and IR images, still possesses precision, accuracy, recall, and F1-score all above 0.95. Through observing images and visualizing features, we realize that visual images have more dramatic differences between classes and have more consistent patterns inside the class, which makes the training speed and model performance on visual images is better. In contrast, the relatively "low-quality" IR images makes PN hard to extract distinguishable prototypes, which causes the relative weak performance, but with the whole training set to support classification, SN-kNN cooperates well with IR images. On the other hand, benefited from the architecture design, PN has a much faster speed in training and inference than SN-kNN. The work here analyzes the characteristics of both algorithms and image formats for the first time, which provides the guidance for further utilizing them in combustion monitoring tasks.
翻訳日:2022-10-17 17:55:48 公開日:2022-10-14
# PedFormer:クロスモーダルアテンション変調とゲーテッドマルチタスク学習による歩行者行動予測

PedFormer: Pedestrian Behavior Prediction via Cross-Modal Attention Modulation and Gated Multitask Learning ( http://arxiv.org/abs/2210.07886v1 )

ライセンス: Link先を確認
Amir Rasouli, Iuliia Kotseruba(参考訳) 知的運転システムにとって歩行者行動の予測は重要な課題である。 正確な予測は、歩行者の行動に影響を及ぼす可能性のある様々な文脈要素を深く理解する必要がある。 この課題に対処するために, 歩行者の歩容や横断行動を予測するために, エゴ中心の観点から異なるデータモダリティに依存する新しい枠組みを提案する。 具体的には、クロスモーダルトランスフォーマーアーキテクチャを用いて、異なるデータ型間の依存関係をキャプチャする。 トランスの出力は、歩行者と歩行者に条件づけられた他の交通エージェントとの相互作用の表現と、意味的注意的相互作用モジュールを介して生成される自走車ダイナミクスとで強化される。 最後に、コンテキストエンコーディングは、ゲート共有ネットワークを使用してマルチストリームデコーダフレームワークに入力される。 提案手法は公共歩行者行動ベンチマーク,PIE,JAADで評価し,様々な指標を用いて,軌跡および行動予測の精度を最大22%,13%向上させることを示した。 本モデルの成分による利点は,広範囲なアブレーション研究によって検討されている。

Predicting pedestrian behavior is a crucial task for intelligent driving systems. Accurate predictions require a deep understanding of various contextual elements that potentially impact the way pedestrians behave. To address this challenge, we propose a novel framework that relies on different data modalities to predict future trajectories and crossing actions of pedestrians from an ego-centric perspective. Specifically, our model utilizes a cross-modal Transformer architecture to capture dependencies between different data types. The output of the Transformer is augmented with representations of interactions between pedestrians and other traffic agents conditioned on the pedestrian and ego-vehicle dynamics that are generated via a semantic attentive interaction module. Lastly, the context encodings are fed into a multi-stream decoder framework using a gated-shared network. We evaluate our algorithm on public pedestrian behavior benchmarks, PIE and JAAD, and show that our model improves state-of-the-art in trajectory and action prediction by up to 22% and 13% respectively on various metrics. The advantages brought by components of our model are investigated via extensive ablation studies.
翻訳日:2022-10-17 17:55:17 公開日:2022-10-14
# インペインティングに基づく自己監督学習を用いたデータ制限組織分割

Data-Limited Tissue Segmentation using Inpainting-Based Self-Supervised Learning ( http://arxiv.org/abs/2210.07936v1 )

ライセンス: Link先を確認
Jeffrey Dominic, Nandita Bhaskhar, Arjun D. Desai, Andrew Schmidt, Elka Rubin, Beliz Gunel, Garry E. Gold, Brian A. Hargreaves, Leon Lenchik, Robert Boutin, Akshay S. Chaudhari(参考訳) 教師付き学習は画像セグメンテーションにおいて高い性能を実現しているが,医療画像分野では入手が困難である大量のラベル付きトレーニングデータが必要である。 プレテキストタスクを含む自己教師付き学習(SSL)メソッドは、ラベルなしデータを使用したモデルの最初の事前トレーニングによって、この要件を克服する可能性を示している。 本研究では,ラベル限定シナリオにおけるCTおよびMRI画像のセグメンテーションにおける2つのSSL手法(文脈予測と文脈復元のテキストタスク)の有効性を評価し,下流セグメンテーション性能に対するSSLの実装設計選択の影響について検討する。 我々は,臨床関連指標と従来のDiceスコアの両方に対して,MRIおよびCT組織セグメンテーションにおいて,最適に訓練し,実装し易いSSLセグメンテーションモデルが従来手法よりも優れていることを示す。

Although supervised learning has enabled high performance for image segmentation, it requires a large amount of labeled training data, which can be difficult to obtain in the medical imaging field. Self-supervised learning (SSL) methods involving pretext tasks have shown promise in overcoming this requirement by first pretraining models using unlabeled data. In this work, we evaluate the efficacy of two SSL methods (inpainting-based pretext tasks of context prediction and context restoration) for CT and MRI image segmentation in label-limited scenarios, and investigate the effect of implementation design choices for SSL on downstream segmentation performance. We demonstrate that optimally trained and easy-to-implement inpainting-based SSL segmentation models can outperform classically supervised methods for MRI and CT tissue segmentation in label-limited scenarios, for both clinically-relevant metrics and the traditional Dice score.
翻訳日:2022-10-17 17:54:59 公開日:2022-10-14
# トランスフォーマーを用いた広範囲mriアーチファクト除去

Wide Range MRI Artifact Removal with Transformers ( http://arxiv.org/abs/2210.07976v1 )

ライセンス: Link先を確認
Lennart Alexander Van der Goten, Kevin Smith(参考訳) 磁気共鳴スキャンの成果は、放射線医とコンピュータ支援診断システムにとって深刻な課題である。 最も一般的には、人工物は患者の動きによって引き起こされるが、ノイズパターンのようなデバイス固有の異常も引き起こされる。 ソースを無視すると、アーティファクトはスキャンを役に立たないだけでなく、もし気付かなかったら誤診断を誘発する可能性がある。 例えば、アーティファクトは腫瘍または他の異常としてマスクレードすることがある。 レトロスペクティブアーティファクト修正(RAC)は、スキャン済みのアーティファクトの除去に関するものである。 本研究では,ネイティブレゾリューションmr画像から得られた8種類のアーティファクトを遡及的に除去する手法を提案する。 特定のアーティファクトの存在や位置に関する知識は想定されておらず、システムは設計上、複数のアーティファクトの相互作用を解き放つことができる。 本手法は,swainトランスで一般化された\emph{window-centered}アプローチを一般化した,新しいボリュームトランスベースニューラルネットワークの設計により実現されている。 Swinと違って私たちの方法は (i)ネイティブのボリューム (ii)分類ではなく、密集した予測課題に特化し、 (iii)ウィンドウ間の情報交換を可能にするために、新規でよりグローバルな機構を用いる。 実験の結果,ResNet,V-Net,MobileNet-v2,DenseNet,CycleGAN,BicycleGANで得られたものよりも,再現性がかなり高いことがわかった。 さらに,本モデルから再構成した画像は,標準的な頭蓋骨切断法であるFSL BETの精度を向上させることを示す。

Artifacts on magnetic resonance scans are a serious challenge for both radiologists and computer-aided diagnosis systems. Most commonly, artifacts are caused by motion of the patients, but can also arise from device-specific abnormalities such as noise patterns. Irrespective of the source, artifacts can not only render a scan useless, but can potentially induce misdiagnoses if left unnoticed. For instance, an artifact may masquerade as a tumor or other abnormality. Retrospective artifact correction (RAC) is concerned with removing artifacts after the scan has already been taken. In this work, we propose a method capable of retrospectively removing eight common artifacts found in native-resolution MR imagery. Knowledge of the presence or location of a specific artifact is not assumed and the system is, by design, capable of undoing interactions of multiple artifacts. Our method is realized through the design of a novel volumetric transformer-based neural network that generalizes a \emph{window-centered} approach popularized by the Swin transformer. Unlike Swin, our method is (i) natively volumetric, (ii) geared towards dense prediction tasks instead of classification, and (iii), uses a novel and more global mechanism to enable information exchange between windows. Our experiments show that our reconstructions are considerably better than those attained by ResNet, V-Net, MobileNet-v2, DenseNet, CycleGAN and BicycleGAN. Moreover, we show that the reconstructed images from our model improves the accuracy of FSL BET, a standard skull-stripping method typically applied in diagnostic workflows.
翻訳日:2022-10-17 17:54:39 公開日:2022-10-14
# 時間的論理目的のための学習神経制御系におけるリスクアウェアネス

Risk-Awareness in Learning Neural Controllers for Temporal Logic Objectives ( http://arxiv.org/abs/2210.07439v1 )

ライセンス: Link先を確認
Navid Hashemi, Xin Qin, Jyotirmoy V. Deshmukh, Georgios Fainekos, Bardh Hoxha, Danil Prokhorov, Tomoya Yamaguchi(参考訳) 本稿では,特定の(ソフトな)性能目標を最適化しながら,結果として得られる閉ループシステムが一定の厳しい制約を満たすような不確実性の存在下でコントローラを合成する問題を考える。 安全性やミッションクリティカルなタスク目的を符号化するハード制約を信号時相論理(stl)を用いて表現し、システム軌道の標準コスト関数を用いて性能を定量化する。 ハードSTL制約の満足度を優先するために、制御障壁関数(CBF)の枠組みを利用し、STL目的のためのCBFをアルゴリズム的に取得する。 我々は,ニューラルネットワーク(nns)を用いてコントローラをモデル化し,安全仕様のロバスト性マージンで性能を最適化するnnコントローラの最適パラメータを学習するための最適化アルゴリズムを提供すると仮定する。 我々は,システムのロバスト性マージンと性能のトレードオフによって生じるリスクを評価するために,リスク対策の形式主義を用いる。 提案手法は,クワッドローターや一輪車などの非線形制御の難解な例に対して,各システムのミッション目標にハードタイミング制約や安全性目標が含まれている場合の有効性を示す。

In this paper, we consider the problem of synthesizing a controller in the presence of uncertainty such that the resulting closed-loop system satisfies certain hard constraints while optimizing certain (soft) performance objectives. We assume that the hard constraints encoding safety or mission-critical task objectives are expressed using Signal Temporal Logic (STL), while performance is quantified using standard cost functions on system trajectories. In order to prioritize the satisfaction of the hard STL constraints, we utilize the framework of control barrier functions (CBFs) and algorithmically obtain CBFs for STL objectives. We assume that the controllers are modeled using neural networks (NNs) and provide an optimization algorithm to learn the optimal parameters for the NN controller that optimize the performance at a user-specified robustness margin for the safety specifications. We use the formalism of risk measures to evaluate the risk incurred by the trade-off between robustness margin of the system and its performance. We demonstrate the efficacy of our approach on well-known difficult examples for nonlinear control such as a quad-rotor and a unicycle, where the mission objectives for each system include hard timing constraints and safety objectives.
翻訳日:2022-10-17 17:54:12 公開日:2022-10-14
# TransFusion:多項拡散による音声の書き起こし

TransFusion: Transcribing Speech with Multinomial Diffusion ( http://arxiv.org/abs/2210.07677v1 )

ライセンス: Link先を確認
Matthew Baas, Kevin Eloff, Herman Kamper(参考訳) 拡散モデルは画像合成領域において例外的なスケーリング特性を示し、初期の試みは非条件テキスト合成に拡散を適用するのに類似した利点を示している。 雑音拡散モデルは、コヒーレント信号(画像や文など)に類似するまで、サンプリングされた雑音信号を反復的に洗練しようとする。 本研究では,拡散モデルの利点が音声認識にも有効かどうかを検討することを目的とする。 そこで本稿では,事前学習した音声特徴に条件付き拡散モデルを用いて音声認識を行う手法を提案する。 具体的には,条件付き発話の書き起こしに対応するコヒーレントテキストにランダムな文字列列を反復的に発音する転写拡散モデルを提案する。 我々は,LibriSpeech音声認識ベンチマークにおいて,既存の高性能コントラストモデルに匹敵する性能を示す。 我々の知る限りでは、音声認識に難読化拡散を適用するのは初めてである。 また,多項拡散モデルを効果的にサンプリング・復号する新しい手法を提案する。 新しい離散拡散法では従来の音響モデルからのサンプリングは不可能であるため,これらが必要となる。 コードとトレーニングされたモデル: https://github.com/rf5/transfusion-asr

Diffusion models have shown exceptional scaling properties in the image synthesis domain, and initial attempts have shown similar benefits for applying diffusion to unconditional text synthesis. Denoising diffusion models attempt to iteratively refine a sampled noise signal until it resembles a coherent signal (such as an image or written sentence). In this work we aim to see whether the benefits of diffusion models can also be realized for speech recognition. To this end, we propose a new way to perform speech recognition using a diffusion model conditioned on pretrained speech features. Specifically, we propose TransFusion: a transcribing diffusion model which iteratively denoises a random character sequence into coherent text corresponding to the transcript of a conditioning utterance. We demonstrate comparable performance to existing high-performing contrastive models on the LibriSpeech speech recognition benchmark. To the best of our knowledge, we are the first to apply denoising diffusion to speech recognition. We also propose new techniques for effectively sampling and decoding multinomial diffusion models. These are required because traditional methods of sampling from acoustic models are not possible with our new discrete diffusion approach. Code and trained models are available: https://github.com/RF5/transfusion-asr
翻訳日:2022-10-17 17:53:52 公開日:2022-10-14
# 産業用無線センサネットワークにおける信頼クラスタリングとセキュアクラスタリングのための生成的逆学習

Generative Adversarial Learning for Trusted and Secure Clustering in Industrial Wireless Sensor Networks ( http://arxiv.org/abs/2210.07707v1 )

ライセンス: Link先を確認
Liu Yang, Simon X. Yang, Yun Li, Yinzhi Lu, Tan Guo(参考訳) 従来の機械学習技術は、信頼管理システムを確立するために広く使われている。 しかし、データセットのトレーニングの規模はシステムのセキュリティ性能に大きく影響するが、新しい攻撃に関するラベル付きデータがないため、悪意のあるノードを検出することは大きな課題である。 本稿では,産業用無線センサネットワーク (iwsns) のための,gan(generative adversarial network)ベースの信頼管理機構を提案する。 まず2型ファジィ論理を用いてセンサノードの評価を行い,不確実性を軽減した。 そして、信頼ベクトルを収集し、さらに悪意のあるノード検出に使用されるGANベースのコーデック構造をトレーニングする。 さらに,エラー検出によるネットワークからの正常ノードの分離を回避するため,信頼管理のレジリエンスを高めるため,GANベースの信頼償還モデルを構築した。 最新の検出結果に基づいて,動的産業環境に適応する信頼モデル更新手法を開発した。 提案した信頼管理機構は,信頼性の高いリアルタイムデータ伝送のための安全なクラスタリングに適用され,シミュレーションの結果,高い検出率を最大96%,低い偽陽性率を8%未満で達成できた。

Traditional machine learning techniques have been widely used to establish the trust management systems. However, the scale of training dataset can significantly affect the security performances of the systems, while it is a great challenge to detect malicious nodes due to the absence of labeled data regarding novel attacks. To address this issue, this paper presents a generative adversarial network (GAN) based trust management mechanism for Industrial Wireless Sensor Networks (IWSNs). First, type-2 fuzzy logic is adopted to evaluate the reputation of sensor nodes while alleviating the uncertainty problem. Then, trust vectors are collected to train a GAN-based codec structure, which is used for further malicious node detection. Moreover, to avoid normal nodes being isolated from the network permanently due to error detections, a GAN-based trust redemption model is constructed to enhance the resilience of trust management. Based on the latest detection results, a trust model update method is developed to adapt to the dynamic industrial environment. The proposed trust management mechanism is finally applied to secure clustering for reliable and real-time data transmission, and simulation results show that it achieves a high detection rate up to 96%, as well as a low false positive rate below 8%.
翻訳日:2022-10-17 17:53:35 公開日:2022-10-14
# nurc/spをデジタルライフに持ち込む: オープンソース自動音声認識モデルの役割

Bringing NURC/SP to Digital Life: the Role of Open-source Automatic Speech Recognition Models ( http://arxiv.org/abs/2210.07852v1 )

ライセンス: Link先を確認
Lucas Rafael Stefanel Gris, Arnaldo Candido Junior, Vin\'icius G. dos Santos, Bruno A. Papa Dias, Marli Quadros Leite, Flaviane Romani Fernandes Svartman, Sandra Alu\'isio(参考訳) 1969年に始まった NURC プロジェクトは、ブラジルの5つの首都で話されている文化的な都市標準を研究し、それぞれの首都に大規模なコーパスを編纂する責任を負った。 デジタル化されたNURC/SPは、S\~ao Paulo首都で記録された334時間の375の問い合わせからなる。 47の問合せが書き起こされているが、音声の書き起こしは一致せず、328の問合せは書き起こされなかった。 本稿ではポルトガル語の自発音声で訓練された3つの自動音声認識モデルと準備音声で訓練された1つのモデルの評価と誤り解析について述べる。 評価により,手動で調整したNURC/SPのサンプルを用いて,WERとCERの指標を用いて最適なモデルを選択し,284時間を自動的に書き起こすことができた。

The NURC Project that started in 1969 to study the cultured linguistic urban norm spoken in five Brazilian capitals, was responsible for compiling a large corpus for each capital. The digitized NURC/SP comprises 375 inquiries in 334 hours of recordings taken in S\~ao Paulo capital. Although 47 inquiries have transcripts, there was no alignment between the audio-transcription, and 328 inquiries were not transcribed. This article presents an evaluation and error analysis of three automatic speech recognition models trained with spontaneous speech in Portuguese and one model trained with prepared speech. The evaluation allowed us to choose the best model, using WER and CER metrics, in a manually aligned sample of NURC/SP, to automatically transcribe 284 hours.
翻訳日:2022-10-17 17:47:43 公開日:2022-10-14
# 歪み条件下での蒸留音声処理モデルの一般化性向上

Improving generalizability of distilled self-supervised speech processing models under distorted settings ( http://arxiv.org/abs/2210.07978v1 )

ライセンス: Link先を確認
Kuan-Po Huang, Yu-Kuan Fu, Tsu-Yuan Hsu, Fabian Ritter Gutierrez, Fan-Lin Wang, Liang-Hsuan Tseng, Yu Zhang, Hung-yi Lee(参考訳) 自己教師付き学習(SSL)音声事前訓練モデルは、様々な音声処理タスクでよく機能する。 SSLモデルの拡張バージョンは、デバイス上の音声アプリケーションのニーズに合わせて開発されている。 オリジナルのSSLモデルと同等のパフォーマンスを持つが、蒸留されたバージョンは歪んだ環境でのオリジナルのバージョンよりもパフォーマンスが劣化する。 本稿では,知識蒸留におけるSSLモデルに対するクロス・ディストーションマッピングとドメイン適応トレーニングを適用し,ドメインミスマッチ問題によるパフォーマンスギャップを軽減することを提案する。 その結果、モデルサイズを効率よく保ちながら、異なるダウンストリームタスクに対するドメイン内および外部の両方の歪んだ設定において、一貫したパフォーマンス改善を示す。

Self-supervised learned (SSL) speech pre-trained models perform well across various speech processing tasks. Distilled versions of SSL models have been developed to match the needs of on-device speech applications. Though having similar performance as original SSL models, distilled counterparts suffer from performance degradation even more than their original versions in distorted environments. This paper proposes to apply Cross-Distortion Mapping and Domain Adversarial Training to SSL models during knowledge distillation to alleviate the performance gap caused by the domain mismatch problem. Results show consistent performance improvements under both in- and out-of-domain distorted setups for different downstream tasks while keeping efficient model size.
翻訳日:2022-10-17 17:47:28 公開日:2022-10-14
# NOCaL:オドメトリーとカメライントロニクスの校正自由半教師付き学習

NOCaL: Calibration-Free Semi-Supervised Learning of Odometry and Camera Intrinsics ( http://arxiv.org/abs/2210.07435v1 )

ライセンス: Link先を確認
Ryan Griffiths, Jack Naylor, Donald G. Dansereau(参考訳) ロボティクスに利益をもたらすような、数多くの新しいイメージング技術があります。 しかし、モデルやキャリブレーション、低レベルの処理の必要性は、採用にとって重要な障壁となっている。 本研究は,従来見られなかったカメラをキャリブレーションなしで解釈できる半教師あり学習アーキテクチャである光場を用いたNOCaL,ニューラルオドメトリー,校正について述べる。 NOCaLはカメラパラメータ、相対的なポーズ、シーンの外観を推定する。 既存の多数のカメラやシーンで事前トレーニングされたシーンレンダリングハイパーネットワークを採用しており、小規模の教師付きトレーニングセットを使用して、未公開のカメラに適応してメトリクススケールを強制する。 従来のカメラを用いて,NOCaLを描画・撮像し,キャリブレーションのないオドメトリーと新しいビュー合成を示す。 この研究は、一般的なカメラジオメトリと新興イメージング技術の解釈を自動化するための重要なステップである。

There are a multitude of emerging imaging technologies that could benefit robotics. However the need for bespoke models, calibration and low-level processing represents a key barrier to their adoption. In this work we present NOCaL, Neural odometry and Calibration using Light fields, a semi-supervised learning architecture capable of interpreting previously unseen cameras without calibration. NOCaL learns to estimate camera parameters, relative pose, and scene appearance. It employs a scene-rendering hypernetwork pretrained on a large number of existing cameras and scenes, and adapts to previously unseen cameras using a small supervised training set to enforce metric scale. We demonstrate NOCaL on rendered and captured imagery using conventional cameras, demonstrating calibration-free odometry and novel view synthesis. This work represents a key step toward automating the interpretation of general camera geometries and emerging imaging technologies.
翻訳日:2022-10-17 17:47:19 公開日:2022-10-14
# フレームマイニング:3次元点雲からロボット操作を学習するためのフリーランチ

Frame Mining: a Free Lunch for Learning Robotic Manipulation from 3D Point Clouds ( http://arxiv.org/abs/2210.07442v1 )

ライセンス: Link先を確認
Minghua Liu, Xuanlin Li, Zhan Ling, Yangyan Li, Hao Su(参考訳) 入力点クラウド座標フレームの選択が3次元点クラウドからの操作スキルの学習に与える影響について検討する。 捕獲されたロボット-物体-相互作用点雲を正規化するための座標フレーム選択は様々である。 異なるフレームがエージェントの学習性能に多大な影響を与えており、その傾向は3dバックボーンネットワークでも同様である。 特に、エンドエフェクタフレームとターゲットパートフレームは多くのタスクで一般的に使用されるワールドフレームとロボットベースフレームよりも高いトレーニング効率を実現している。 さらに、優れたフレームはタスクによって異なり、いくつかのタスクは複数のフレーム候補の恩恵を受ける。 本研究では,候補フレームを適応的に選択し,そのメリットをタスクに依存しない方法で融合するフレームマイナを提案する。 実験的に、FrameMiners は ManiSkill と OCRTOC から適応した5つの完全な物理操作タスクにおいて、最高のシングルフレームバージョンよりも同等またははるかに高いパフォーマンスを達成する。 既存のカメラ配置を変更したり、追加のカメラを追加することなく、point cloud frame miningは3d操作学習を改善するための無料のランチとして機能する。

We study how choices of input point cloud coordinate frames impact learning of manipulation skills from 3D point clouds. There exist a variety of coordinate frame choices to normalize captured robot-object-interaction point clouds. We find that different frames have a profound effect on agent learning performance, and the trend is similar across 3D backbone networks. In particular, the end-effector frame and the target-part frame achieve higher training efficiency than the commonly used world frame and robot-base frame in many tasks, intuitively because they provide helpful alignments among point clouds across time steps and thus can simplify visual module learning. Moreover, the well-performing frames vary across tasks, and some tasks may benefit from multiple frame candidates. We thus propose FrameMiners to adaptively select candidate frames and fuse their merits in a task-agnostic manner. Experimentally, FrameMiners achieves on-par or significantly higher performance than the best single-frame version on five fully physical manipulation tasks adapted from ManiSkill and OCRTOC. Without changing existing camera placements or adding extra cameras, point cloud frame mining can serve as a free lunch to improve 3D manipulation learning.
翻訳日:2022-10-17 17:47:03 公開日:2022-10-14
# 添加物製造における合成-実合成意味セグメンテーション

Synthetic-to-real Composite Semantic Segmentation in Additive Manufacturing ( http://arxiv.org/abs/2210.07466v1 )

ライセンス: Link先を確認
Aliaksei Petsiuk, Harnoor Singh, Himanshu Dadhwal, Joshua M. Pearce(参考訳) 3Dプリント製品の構造要素のセマンティックセグメンテーションにおけるコンピュータビジョンと機械学習の応用は、リアルタイムの故障解析システムを改善し、その場修正を有効にすることで欠陥の数を減らす可能性がある。 本研究は,ラベル付き画像データセット生成のための物理ベースのレンダリングと,AMシステムにおける実画像分割の精度向上のための画像から画像への変換機能の可能性を示す。 マルチクラスセマンティックセグメンテーション実験は,U-Netモデルとサイクル生成対向ネットワークに基づいて行った。 実験の結果, 上部層, 充填層, シェル層, 支持層などの3次元プリント部品の構造成分を検出する能力が確認された。 画像から画像へのスタイル変換とドメイン適応技術を活用した、さらなるセグメンテーションシステム拡張の基礎も開発された。 以上の結果から,合成データを用いたモデルが利用可能な唯一のツールである場合,実際の3次元印刷画像のセグメンテーションを大幅に改善できることが示唆された。 合成試験データセットの平均交叉点(mIoU)スコアは3Dプリントされた部分全体の94.90%、最上層が73.33%、埋蔵層が78.93%、貝殻が55.31%、支持層が69.45%であった。

The application of computer vision and machine learning methods in the field of additive manufacturing (AM) for semantic segmentation of the structural elements of 3-D printed products will improve real-time failure analysis systems and can potentially reduce the number of defects by enabling in situ corrections. This work demonstrates the possibilities of using physics-based rendering for labeled image dataset generation, as well as image-to-image translation capabilities to improve the accuracy of real image segmentation for AM systems. Multi-class semantic segmentation experiments were carried out based on the U-Net model and cycle generative adversarial network. The test results demonstrated the capacity of detecting such structural elements of 3-D printed parts as a top layer, infill, shell, and support. A basis for further segmentation system enhancement by utilizing image-to-image style transfer and domain adaptation technologies was also developed. The results indicate that using style transfer as a precursor to domain adaptation can significantly improve real 3-D printing image segmentation in situations where a model trained on synthetic data is the only tool available. The mean intersection over union (mIoU) scores for synthetic test datasets included 94.90% for the entire 3-D printed part, 73.33% for the top layer, 78.93% for the infill, 55.31% for the shell, and 69.45% for supports.
翻訳日:2022-10-17 17:46:45 公開日:2022-10-14
# 全体FDG-PET/CTスキャンからの病変分割のためのVanilla U-Netの探索

Exploring Vanilla U-Net for Lesion Segmentation from Whole-body FDG-PET/CT Scans ( http://arxiv.org/abs/2210.07490v1 )

ライセンス: Link先を確認
Jin Ye, Haoyu Wang, Ziyan Huang, Zhongying Deng, Yanzhou Su, Can Tu, Qian Wu, Yuncheng Yang, Meng Wei, Jingqi Niu, and Junjun He(参考訳) 腫瘍病変の分節は医用画像解析において最も重要な課題の1つである。 臨床的には、フルオロデオキシグルコースポジトロンエミッショントモグラフィ(fdg-pet)は代謝活性腫瘍の同定と定量に広く用いられている技術である。 しかし、FDG-PETスキャンは代謝情報のみを提供するため、不規則なグルコース消費を伴う健康な組織や良性疾患はがんと誤認される可能性がある。 この課題に対処するために、PETは一般的にCTと併用され、CTは患者の解剖学的構造を得るのに使用される。 PETをベースとした代謝情報とCTをベースとした解剖情報の組み合わせは,腫瘍のセグメンテーション結果の改善に寄与する。 %computed tomography~(ct)は患者の解剖学的構造を示す一般的な形態である。 PETとCTの組み合わせは代謝情報と解剖情報を利用してこの問題に対処することを約束している。 本稿では,ネットワークアーキテクチャ,データ前処理,データ拡張という3つの側面から,全身FDG-PET/CTスキャンにおける病変分割の可能性を検討する。 実験の結果,適切な入力形状のバニラu-netは良好な性能が得られることがわかった。 具体的には, AutoPET 2022 チャレンジの予備的, 最終的リーダボードにおいて, 本手法が第一位となる。 私たちのコードはhttps://github.com/yejin0111/autopet2022_blackbeanで利用可能です。

Tumor lesion segmentation is one of the most important tasks in medical image analysis. In clinical practice, Fluorodeoxyglucose Positron-Emission Tomography~(FDG-PET) is a widely used technique to identify and quantify metabolically active tumors. However, since FDG-PET scans only provide metabolic information, healthy tissue or benign disease with irregular glucose consumption may be mistaken for cancer. To handle this challenge, PET is commonly combined with Computed Tomography~(CT), with the CT used to obtain the anatomic structure of the patient. The combination of PET-based metabolic and CT-based anatomic information can contribute to better tumor segmentation results. %Computed tomography~(CT) is a popular modality to illustrate the anatomic structure of the patient. The combination of PET and CT is promising to handle this challenge by utilizing metabolic and anatomic information. In this paper, we explore the potential of U-Net for lesion segmentation in whole-body FDG-PET/CT scans from three aspects, including network architecture, data preprocessing, and data augmentation. The experimental results demonstrate that the vanilla U-Net with proper input shape can achieve satisfactory performance. Specifically, our method achieves first place in both preliminary and final leaderboards of the autoPET 2022 challenge. Our code is available at https://github.com/Yejin0111/autoPET2022_Blackbean.
翻訳日:2022-10-17 17:46:07 公開日:2022-10-14
# マルチオブジェクトナビゲーションのためのアクティブカメラの学習

Learning Active Camera for Multi-Object Navigation ( http://arxiv.org/abs/2210.07505v1 )

ライセンス: Link先を確認
Peihao Chen, Dongyu Ji, Kunyang Lin, Weiwen Hu, Wenbing Huang, Thomas H. Li, Mingkui Tan, Chuang Gan(参考訳) ロボットアプリケーションでは、ロボットが複数のオブジェクトに自律的にナビゲートすることが不可欠だが、難しい。 重要な課題の1つは、カメラセンサーだけで効率的に環境を探索する方法である。 既存のナビゲーション手法は主に固定カメラに焦点を当てており、アクティブカメラでナビゲートする試みはほとんど行われていない。 その結果、カメラの範囲が限られているため、環境を知覚するのに非常に長い時間がかかる可能性がある。 対照的に、人間は通常、環境をよりよく知覚することで、より大きな視野を得る。 ロボットが人間と同じくらい効率的に環境を知覚する方法は、ロボットの基本的な問題である。 本稿では,アクティブカメラを用いた複数物体への移動をより効率的に行うことを検討する。 具体的には,移動カメラをマルコフ決定プロセスにキャストし,アクティブカメラ問題を強化学習問題として再構成する。 しかし、私たちは2つの新しい課題に対処する必要があります。 1)複雑な環境で良いカメラポリシーを学ぶ方法と方法 2) ナビゲーションポリシーと協調する方法。 これらの問題に対処するために,カメラをアクティブに移動させることにより,エージェントがより多くの領域を探索できるように報酬関数を慎重に設計する。 さらに,人間の経験を活かして,ルールベースのカメラ動作を推測し,学習プロセスを指導する。 最後に、2種類のポリシーをコーディネートするために、カメラの動きを判断する際にナビゲーションアクションを考慮に入れる。 実験の結果,2つのデータセット上の4つのベースライン上でのマルチオブジェクトナビゲーションの性能を一貫して向上させることがわかった。

Getting robots to navigate to multiple objects autonomously is essential yet difficult in robot applications. One of the key challenges is how to explore environments efficiently with camera sensors only. Existing navigation methods mainly focus on fixed cameras and few attempts have been made to navigate with active cameras. As a result, the agent may take a very long time to perceive the environment due to limited camera scope. In contrast, humans typically gain a larger field of view by looking around for a better perception of the environment. How to make robots perceive the environment as efficiently as humans is a fundamental problem in robotics. In this paper, we consider navigating to multiple objects more efficiently with active cameras. Specifically, we cast moving camera to a Markov Decision Process and reformulate the active camera problem as a reinforcement learning problem. However, we have to address two new challenges: 1) how to learn a good camera policy in complex environments and 2) how to coordinate it with the navigation policy. To address these, we carefully design a reward function to encourage the agent to explore more areas by moving camera actively. Moreover, we exploit human experience to infer a rule-based camera action to guide the learning process. Last, to better coordinate two kinds of policies, the camera policy takes navigation actions into account when making camera moving decisions. Experimental results show our camera policy consistently improves the performance of multi-object navigation over four baselines on two datasets.
翻訳日:2022-10-17 17:45:37 公開日:2022-10-14
# 最大相補的手法の予測によるベースライン視覚位置認識技術の性能向上

Boosting Performance of a Baseline Visual Place Recognition Technique by Predicting the Maximally Complementary Technique ( http://arxiv.org/abs/2210.07509v1 )

ライセンス: Link先を確認
Connor Malone and Stephen Hausler and Tobias Fischer and Michael Milford(参考訳) 視覚的位置認識(VPR)問題に対する最近の有望なアプローチは、SRALやマルチプロセス融合といった手法を用いて、複数の相補的なVPR技術の場所認識推定を融合させることである。 これらのアプローチは、選択的に融合する前に全ての潜在的なVPRメソッドをブルートフォースで実行する必要がある。 この制限に対する明らかな解決策は、事前にメソッドの実行可能なサブセットを予測することだが、高パフォーマンスなメソッドを示すイメージ自体内の予測信号を必要とするため、これは困難である。 そこで,本研究では,既知の単一ベースvpr技術から始めて,それと融合する最も相補的な追加vpr技術を予測し,パフォーマンスを最大に向上させる代替手法を提案する。 ここでの重要な革新は、このベースライン技術を用いてクエリ画像とトップ検索参照画像との次元的に削減された差分ベクトルを、トレーニングと推論の両方において最も相補的な追加テクニックの予測信号として使うことである。 提案手法は,複数の移動モード(列車,車,歩行)にまたがるデータセットにまたがる補完的手法ペアを1つのネットワークで選択し,未発見のデータセットに一般化し,同一のトレーニングデータに基づいて最適なテクニックペアを手作業で選択する上で,複数のベースライン戦略に勝ることを示す。

One recent promising approach to the Visual Place Recognition (VPR) problem has been to fuse the place recognition estimates of multiple complementary VPR techniques using methods such as SRAL and multi-process fusion. These approaches come with a substantial practical limitation: they require all potential VPR methods to be brute-force run before they are selectively fused. The obvious solution to this limitation is to predict the viable subset of methods ahead of time, but this is challenging because it requires a predictive signal within the imagery itself that is indicative of high performance methods. Here we propose an alternative approach that instead starts with a known single base VPR technique, and learns to predict the most complementary additional VPR technique to fuse with it, that results in the largest improvement in performance. The key innovation here is to use a dimensionally reduced difference vector between the query image and the top-retrieved reference image using this baseline technique as the predictive signal of the most complementary additional technique, both during training and inference. We demonstrate that our approach can train a single network to select performant, complementary technique pairs across datasets which span multiple modes of transportation (train, car, walking) as well as to generalise to unseen datasets, outperforming multiple baseline strategies for manually selecting the best technique pairs based on the same training data.
翻訳日:2022-10-17 17:45:15 公開日:2022-10-14
# インテリジェント欠陥検出のためのスーパーピクセル知覚グラフニューラルネットワーク

Superpixel Perception Graph Neural Network for Intelligent Defect Detection ( http://arxiv.org/abs/2210.07539v1 )

ライセンス: Link先を確認
Hongbing Shang, Qixiu Yang, Chuang Sun, Xuefeng Chen, Ruqiang Yan(参考訳) エアロエンジンは航空機や他の宇宙船のコアコンポーネントである。 高速回転翼は空気を吸って完全に燃焼し、様々な欠陥が必然的に発生し、航空エンジンの運転安全性を脅かす。 そのため、このような複雑なシステムには定期的な検査が不可欠である。 しかしながら、ボアスコープ検査である既存の伝統的な技術は、労働集約的、時間消費的、経験依存である。 特徴抽出のための多段階グラフ畳み込みネットワーク(MSGCN)と領域提案のための超画素知覚領域提案ネットワーク(SPRPN)を用いて,この技術を知能で実現するために,新しい超画素知覚グラフニューラルネットワーク(SPGNN)を提案する。 まず、複雑な不規則なテクスチャをキャプチャするために、画像は一連のパッチに変換され、グラフ表現を得る。 次に、複数のGCNブロックからなるMSGCNがグラフ構造の特徴を抽出し、グラフレベルでグラフ情報処理を行う。 最後に、グラフ表現機能とスーパーピクセル知覚機能を用いて知覚境界ボックスを生成するためにsprpnが提案されている。 そのため,提案SPGNNは,SPGNNパイプライン全体のグラフレベルにおいて,常に特徴抽出と情報伝達を実装しており,SPRPNとMSGNNは相互に有利である。 spgnnの有効性を検証するために,3000画像を用いたシミュレーションブレードデータセットを構築した。 公開アルミニウムデータセットは、異なる方法のパフォーマンスを検証するためにも使用される。 実験結果から,提案したSPGNNは最先端手法と比較して優れた性能を示した。 ソースコードはhttps://github.com/githbshang/SPGNNで入手できる。

Aero-engine is the core component of aircraft and other spacecraft. The high-speed rotating blades provide power by sucking in air and fully combusting, and various defects will inevitably occur, threatening the operation safety of aero-engine. Therefore, regular inspections are essential for such a complex system. However, existing traditional technology which is borescope inspection is labor-intensive, time-consuming, and experience-dependent. To endow this technology with intelligence, a novel superpixel perception graph neural network (SPGNN) is proposed by utilizing a multi-stage graph convolutional network (MSGCN) for feature extraction and superpixel perception region proposal network (SPRPN) for region proposal. First, to capture complex and irregular textures, the images are transformed into a series of patches, to obtain their graph representations. Then, MSGCN composed of several GCN blocks extracts graph structure features and performs graph information processing at graph level. Last but not least, the SPRPN is proposed to generate perceptual bounding boxes by fusing graph representation features and superpixel perception features. Therefore, the proposed SPGNN always implements feature extraction and information transmission at the graph level in the whole SPGNN pipeline, and SPRPN and MSGNN mutually benefit from each other. To verify the effectiveness of SPGNN, we meticulously construct a simulated blade dataset with 3000 images. A public aluminum dataset is also used to validate the performances of different methods. The experimental results demonstrate that the proposed SPGNN has superior performance compared with the state-of-the-art methods. The source code will be available at https://github.com/githbshang/SPGNN.
翻訳日:2022-10-17 17:44:49 公開日:2022-10-14
# Patch-based Ensemble and Transfer Learning を用いた心臓MRIの運動関連アーティファクト分類

Motion-related Artefact Classification Using Patch-based Ensemble and Transfer Learning in Cardiac MRI ( http://arxiv.org/abs/2210.07717v1 )

ライセンス: Link先を確認
Ruizhe Li, Xin Chen(参考訳) 心臓磁気共鳴画像(MRI)は心機能解析において重要な役割を担っている。 しかし、特に急性症状の患者では息切れの難しさから、この買収には運動アーチファクトが伴うことが多い。 したがって、さらなる解析のためには、心臓MRIの品質を評価することが不可欠である。 時間を要するマニュアルベースの分類は、エンドツーエンドのコンピュータ支援診断システムの構築には適していない。 そこで本研究では,アンサンブルと転写学習を用いた自動心臓MRI品質評価フレームワークを提案する。 トレーニングデータからサンプルした2次元画像パッチに,複数の事前学習モデルを初期化し,微調整した。 モデル推論プロセスでは、これらのモデルから決定を集約して最終的な予測を行う。 このフレームワークは、cmrxmotion grand challenge (miccai 2022)データセットで評価されており、小さく、多クラスで、不均衡である。 トレーニングセット(5倍のクロスバリデーション)と検証セットでそれぞれ78.8%と70.0%の分類精度を達成した。 最終訓練モデルは、CMRxMotionのオーガナイザによる独立したテストセットでも評価され、72.5%の分類精度とコーエンのKappaの0.6309(この大挑戦で上位1位)を達成した。 私たちのコードはGithubで公開されている。

Cardiac Magnetic Resonance Imaging (MRI) plays an important role in the analysis of cardiac function. However, the acquisition is often accompanied by motion artefacts because of the difficulty of breath-hold, especially for acute symptoms patients. Therefore, it is essential to assess the quality of cardiac MRI for further analysis. Time-consuming manual-based classification is not conducive to the construction of an end-to-end computer aided diagnostic system. To overcome this problem, an automatic cardiac MRI quality estimation framework using ensemble and transfer learning is proposed in this work. Multiple pre-trained models were initialised and fine-tuned on 2-dimensional image patches sampled from the training data. In the model inference process, decisions from these models are aggregated to make a final prediction. The framework has been evaluated on CMRxMotion grand challenge (MICCAI 2022) dataset which is small, multi-class, and imbalanced. It achieved a classification accuracy of 78.8% and 70.0% on the training set (5-fold cross-validation) and a validation set, respectively. The final trained model was also evaluated on an independent test set by the CMRxMotion organisers, which achieved the classification accuracy of 72.5% and Cohen's Kappa of 0.6309 (ranked top 1 in this grand challenge). Our code is available on Github: https://github.com/ruizhe-l/CMRxMotion.
翻訳日:2022-10-17 17:44:22 公開日:2022-10-14
# Shadfa 0.1: イラン映画知識グラフとグラフ埋め込みベースのレコメンドシステム

Shadfa 0.1: The Iranian Movie Knowledge Graph and Graph-Embedding-Based Recommender System ( http://arxiv.org/abs/2210.07822v1 )

ライセンス: Link先を確認
Rayhane Pouyan, Hadi Kalamati, Hannane Ebrahimian, Mohammad Karrabi, Mohammad-R. Akbarzadeh-T(参考訳) 映画はエンターテイメントの大きな源です。 しかし、この問題は、この膨大な量のデータの中で、毎年著しく増加している所望のコンテンツを見つけようとするときに発生する。 この問題を解決するために、レコメンダシステムは適切なアルゴリズムを提供することができる。 content_based技術は、ほとんどのケースで利用可能なユーザデータが不足しているために人気がある。 用語周波数_逆文書周波数(TF_IDF)と知識グラフ埋め込み(KGE)は、これらの類似性を計算するためにデータのベクトル化に使用される2つのアプローチである。 本稿では、プロット/記述などのテキストデータを埋め込むための適切なアプローチであるTF_IDFと、監督名などの名前付きエンティティを埋め込むためのKGEを組み合わせることで、コンテンツ_ベース映画RSを提案する。 特徴間の重みは遺伝的アルゴリズムを用いて決定される。 さらに、イラン映画データセットは、 Movie_related Webサイトからデータをスクラップすることで作成される。 このデータセットとFarsBase KGの構造は、提案されたcontent_based RSの実装プロセスにおけるコンポーネントであるMovieFarsBase KGを作成するために使用される。 本研究は,精度,リコール,F1スコアの指標を用いて,TF_IDFを用いて全ての属性を埋め込む従来の手法よりも優れていることを示す。

Movies are a great source of entertainment. However, the problem arises when one is trying to find the desired content within this vast amount of data which is significantly increasing every year. Recommender systems can provide appropriate algorithms to solve this problem. The content_based technique has found popularity due to the lack of available user data in most cases. Content_based recommender systems are based on the similarity of items' demographic information; Term Frequency _ Inverse Document Frequency (TF_IDF) and Knowledge Graph Embedding (KGE) are two approaches used to vectorize data to calculate these similarities. In this paper, we propose a weighted content_based movie RS by combining TF_IDF which is an appropriate approach for embedding textual data such as plot/description, and KGE which is used to embed named entities such as the director's name. The weights between features are determined using a Genetic algorithm. Additionally, the Iranian movies dataset is created by scraping data from movie_related websites. This dataset and the structure of the FarsBase KG are used to create the MovieFarsBase KG which is a component in the implementation process of the proposed content_based RS. Using precision, recall, and F1 score metrics, this study shows that the proposed approach outperforms the conventional approach that uses TF_IDF for embedding all attributes.
翻訳日:2022-10-17 17:38:26 公開日:2022-10-14
# NICOとGrowd-When-Required Networksでオブジェクトを自律的に取得する学習

Learning to Autonomously Reach Objects with NICO and Grow-When-Required Networks ( http://arxiv.org/abs/2210.07851v1 )

ライセンス: Link先を確認
Nima Rahrakhshan, Matthias Kerzel, Philipp Allgeuer, Nicolas Duczek, Stefan Wermter(参考訳) 物体に手を伸ばす行為は、ロボットエージェントにとって基本だが複雑な技術であり、高度な振動制御と協調を必要とする。 動的環境を考慮すると、新しい状況に自律的に適応できるロボットが望まれる。 本稿では,物体到達作業におけるNICO(Neuro-Inspired Companion)プラットフォーム上での視覚的協調を自律的に学習するための開発ロボティクス手法を提案する。 ロボットは環境と相互作用し、ヘビアン学習に基づいて運動指令と時間的に相関した感覚知覚の関係を学習する。 複数のGWR(Grow-When-Required)ネットワークは、まず視線を視覚刺激に向け、次に腕の運動制御を学習し、最後に目の協調を使って物体に到達する方法を学ぶことによって、より複雑な運動行動を学ぶために使用される。 提案手法の適応性を示すため,nicoの体における予期せぬ機械的変化をモデルが対処できることを実証した。 提案手法の評価では,ヒューマノイドロボットNICOが76%の成功率で物体に到達できることが示されている。

The act of reaching for an object is a fundamental yet complex skill for a robotic agent, requiring a high degree of visuomotor control and coordination. In consideration of dynamic environments, a robot capable of autonomously adapting to novel situations is desired. In this paper, a developmental robotics approach is used to autonomously learn visuomotor coordination on the NICO (Neuro-Inspired COmpanion) platform, for the task of object reaching. The robot interacts with its environment and learns associations between motor commands and temporally correlated sensory perceptions based on Hebbian learning. Multiple Grow-When-Required (GWR) networks are used to learn increasingly more complex motoric behaviors, by first learning how to direct the gaze towards a visual stimulus, followed by learning motor control of the arm, and finally learning how to reach for an object using eye-hand coordination. We demonstrate that the model is able to deal with an unforeseen mechanical change in the NICO's body, showing the adaptability of the proposed approach. In evaluations of our approach, we show that the humanoid robot NICO is able to reach objects with a 76% success rate.
翻訳日:2022-10-17 17:38:03 公開日:2022-10-14
# 近似EMアルゴリズムによる高次元マルコフスイッチングVARモデルの推定

Estimation of High-Dimensional Markov-Switching VAR Models with an Approximate EM Algorithm ( http://arxiv.org/abs/2210.07456v1 )

ライセンス: Link先を確認
Xiudi Li, Abolfazl Safikhani, Ali Shojaie(参考訳) 高次元時系列におけるレジームシフトは、神経画像からファイナンスまで、多くの応用において自然に発生する。 この問題は低次元の設定においてかなりの注目を集めており、ベイジアン法も頻繁法もパラメータ推定に広く用いられている。 EMアルゴリズムは低次元設定におけるパラメータ推定において特に一般的な戦略であるが、その結果の統計的性質はよく分かっていない。 さらに、高次元時系列への拡張は困難であることが証明された。 これらの課題を克服するため,本論文ではマルコフスイッチングvarモデルの近似emアルゴリズムを提案する。 提案するEMアルゴリズムの高次元での整合性を確立し,シミュレーションによる性能評価を行った。

Regime shifts in high-dimensional time series arise naturally in many applications, from neuroimaging to finance. This problem has received considerable attention in low-dimensional settings, with both Bayesian and frequentist methods used extensively for parameter estimation. The EM algorithm is a particularly popular strategy for parameter estimation in low-dimensional settings, although the statistical properties of the resulting estimates have not been well understood. Furthermore, its extension to high-dimensional time series has proved challenging. To overcome these challenges, in this paper we propose an approximate EM algorithm for Markov-switching VAR models that leads to efficient computation and also facilitates the investigation of asymptotic properties of the resulting parameter estimates. We establish the consistency of the proposed EM algorithm in high dimensions and investigate its performance via simulation studies.
翻訳日:2022-10-17 17:37:33 公開日:2022-10-14
# ディジタル双発エナリング技術の不確かさ定量化と感度解析:BISON燃料性能コードへの適用

Uncertainty Quantification and Sensitivity analysis for Digital Twin Enabling Technology: Application for BISON Fuel Performance Code ( http://arxiv.org/abs/2210.07541v1 )

ライセンス: Link先を確認
Kazuma Kobayashi, Dinesh Kumar, Matthew Bonney, Souvik Chakraborty, Kyle Paaren, Syed Alam(参考訳) インテリジェントな確認ツールの可能性を理解するため、米国原子力規制委員会(NRC)は、原子力応用のための機械学習(ML)と人工知能(AI)駆動のDigital Twins(DT)の規制可能性を評価する将来の研究プロジェクトを開始した。 事故耐性燃料(Advanced accident Tolerant Fuel、ATF)は、アメリカ合衆国エネルギー省(DOE)の優先分野の一つである。 DTフレームワークは、高度なATFを格付けする複雑な問題に対して、ゲームを変えるが実用的な情報を提供することができる。 DTのモデリング・シミュレーション(M&S)面の規制的立場を考えると、不確実性定量化と感度分析は、多基準およびリスクインフォームド意思決定の観点からDTフレームワークの成功に最重要である。 本章では、MLに基づく不確実性定量化および感度解析手法を紹介し、有限要素系核燃料性能コードBISONの実例を示す。

To understand the potential of intelligent confirmatory tools, the U.S. Nuclear Regulatory Committee (NRC) initiated a future-focused research project to assess the regulatory viability of machine learning (ML) and artificial intelligence (AI)-driven Digital Twins (DTs) for nuclear power applications. Advanced accident tolerant fuel (ATF) is one of the priority focus areas of the U.S. Department of Energy (DOE). A DT framework can offer game-changing yet practical and informed solutions to the complex problem of qualifying advanced ATFs. Considering the regulatory standpoint of the modeling and simulation (M&S) aspect of DT, uncertainty quantification and sensitivity analysis are paramount to the DT framework's success in terms of multi-criteria and risk-informed decision-making. This chapter introduces the ML-based uncertainty quantification and sensitivity analysis methods while exhibiting actual applications to the finite element-based nuclear fuel performance code BISON.
翻訳日:2022-10-17 17:37:21 公開日:2022-10-14
# Q-指数過程による関数空間上のベイズ正規化

Bayesian Regularization on Function Spaces via Q-Exponential Process ( http://arxiv.org/abs/2210.07987v1 )

ライセンス: Link先を確認
Shiwei Lan, Shuyi Li and Michael O'Connor(参考訳) 正規化は最適化、統計、機械学習において最も重要なトピックの1つである。 パラメータ $u\in\mbR^d$, $\ell_q$ のペナルティ項 $\Vert u\Vert_q$ を推定する場合、通常は目的関数に追加される。 そのような$\ell_q$のペナルティに対応する確率分布は? モデル関数 $u\in L^q$ のとき、$\Vert u\Vert_q$ に対応する正しい確率過程は何ですか? これは、画像のような大きな次元のオブジェクトを統計的にモデル化する上で重要であり、画像のエッジのような確実性を維持するためのペナルティがある。 本研究では、関数の$l_q$正規化に対応する確率過程 \emph{$q$-exponential (q-ep) process} に対して、(密度比例で)$\exp{(- \half|u|^q)}$ を一般化する。 鍵となるステップは、楕円輪郭分布の大きな族から選ぶことで、一貫した多変量$q$指数分布を定義することである。 この研究は通常拡大級数によって定義されるベソフ過程と密接に関連している。 Q-EPは、明確な確率的定式化と相関長の直接制御によるベソフ過程の定義とみなすことができる。 ベイズの観点からは、Q-EPは一般的に使用されるガウス過程(GP)よりも鋭いペナルティ(q<2$)を持つ関数に対して柔軟な事前を与える。 gp,besov,q-epを時系列のモデリングと再構成において比較し,提案手法の利点を示す。

Regularization is one of the most important topics in optimization, statistics and machine learning. To get sparsity in estimating a parameter $u\in\mbR^d$, an $\ell_q$ penalty term, $\Vert u\Vert_q$, is usually added to the objective function. What is the probabilistic distribution corresponding to such $\ell_q$ penalty? What is the correct stochastic process corresponding to $\Vert u\Vert_q$ when we model functions $u\in L^q$? This is important for statistically modeling large dimensional objects, e.g. images, with penalty to preserve certainty properties, e.g. edges in the image. In this work, we generalize the $q$-exponential distribution (with density proportional to) $\exp{(- \half|u|^q)}$ to a stochastic process named \emph{$Q$-exponential (Q-EP) process} that corresponds to the $L_q$ regularization of functions. The key step is to specify consistent multivariate $q$-exponential distributions by choosing from a large family of elliptic contour distributions. The work is closely related to Besov process which is usually defined by the expanded series. Q-EP can be regarded as a definition of Besov process with explicit probabilistic formulation and direct control on the correlation length. From the Bayesian perspective, Q-EP provides a flexible prior on functions with sharper penalty ($q<2$) than the commonly used Gaussian process (GP). We compare GP, Besov and Q-EP in modeling time series and reconstructing images and demonstrate the advantage of the proposed methodology.
翻訳日:2022-10-17 17:37:02 公開日:2022-10-14
# ベイズリスクCTC:シーケンス対シーケンスタスクにおける制御可能なCTCアライメント

Bayes risk CTC: Controllable CTC alignment in Sequence-to-Sequence tasks ( http://arxiv.org/abs/2210.07499v1 )

ライセンス: Link先を確認
Jinchuan Tian, Brian Yan, Jianwei Yu, Chao Weng, Dong Yu, Shinji Watanabe(参考訳) Sequence-to-Sequence (seq2seq) タスクは入力シーケンスをターゲットシーケンスに書き起こす。 Connectionist Temporal Classification (CTC) 基準は、複数のSeq2seqタスクで広く使用されている。 ターゲットシーケンスの予測に加えて、ctcの副産物は、入力とターゲットユニット間のハードアライメント関係を特定する最も可能性の高い入力長シーケンスであるアライメントを予測することである。 ctcの定式化において等しく考慮される複数の配列(経路と呼ばれる)が存在するため、どの経路が最も可能性が高く予測されたアライメントになるかの選択は常に不確かである。 加えて、バニラCTCによって予測されるアライメントが基準よりもドリフトし、実用的な機能を与えることはまれである。 したがって、この研究の動機は、CTCアライメント予測を制御可能とし、CTCに余分な機能を持たせることである。 ベイズリスクctc(brctc)基準が提案され、予測されたアライメントの所望の特性を強制するためにカスタマイズ可能なベイズリスク関数が採用された。 リスク関数では、BRCTCはパスの特定のサブセットに後部を集中させるために、パスに対してカスタマイズ可能な優先順位を採用する一般的なフレームワークである。 アプリケーションでは、ダウンサンプリング能力と推論コストを低減したモデルを生成する1つの特定の選好を探索する。 BRCTCを他の早期排出の選好と組み合わせることで、オンラインモデルの性能・遅延トレードオフが改善される。 実験的に、提案したBRCTCは、パフォーマンス劣化を伴わずにオフラインモデルの推論コストを最大47%削減し、オンラインシステムの全体的な遅延を、目に見えないレベルに削減する。

Sequence-to-Sequence (seq2seq) tasks transcribe the input sequence to a target sequence. The Connectionist Temporal Classification (CTC) criterion is widely used in multiple seq2seq tasks. Besides predicting the target sequence, a side product of CTC is to predict the alignment, which is the most probable input-long sequence that specifies a hard aligning relationship between the input and target units. As there are multiple potential aligning sequences (called paths) that are equally considered in CTC formulation, the choice of which path will be most probable and become the predicted alignment is always uncertain. In addition, it is usually observed that the alignment predicted by vanilla CTC will drift compared with its reference and rarely provides practical functionalities. Thus, the motivation of this work is to make the CTC alignment prediction controllable and thus equip CTC with extra functionalities. The Bayes risk CTC (BRCTC) criterion is then proposed in this work, in which a customizable Bayes risk function is adopted to enforce the desired characteristics of the predicted alignment. With the risk function, the BRCTC is a general framework to adopt some customizable preference over the paths in order to concentrate the posterior into a particular subset of the paths. In applications, we explore one particular preference which yields models with the down-sampling ability and reduced inference costs. By using BRCTC with another preference for early emissions, we obtain an improved performance-latency trade-off for online models. Experimentally, the proposed BRCTC reduces the inference cost of offline models by up to 47% without performance degradation and cuts down the overall latency of online systems to an unseen level.
翻訳日:2022-10-17 17:36:18 公開日:2022-10-14
# パーソナライズされた自発音声合成のためのパウス文の言語知識を取り入れた実証的研究

Empirical Study Incorporating Linguistic Knowledge on Filled Pauses for Personalized Spontaneous Speech Synthesis ( http://arxiv.org/abs/2210.07559v1 )

ライセンス: Link先を確認
Yuta Matsunaga, Takaaki Saeki, Shinnosuke Takamichi and Hiroshi Saruwatari(参考訳) 本稿では,言語知識に基づく自発音声合成のための包括的実証研究を行う。 読み上げ型音声合成のための音声クローニングの出現に伴い, 音声合成のための新しい音声クローニングパラダイムが求められている。 そこで我々は,個人の音声音色と音声不均一性の両方をクローンできる自発的音声合成に焦点をあてた。 具体的には, 言語・心理学における音声生成・コミュニケーションにおいて重要な役割を担っていることで知られる, 音声不流動の主な原因であるポーズの充足を扱う。 パーソナライズドフィルドポーズ挿入法と非パーソナライズドフィルドポーズ予測法を比較し,マルチスピーカーコーパスで学習した非パーソナライズド外部フィルドポーズ予測器を用いた音声合成法を開発した。 本研究は, 合成音声の評価において, 自然性のための位置を正確に予測する必要性と, 個人性のための単語を正確に予測する必要性を明らかにした。

We present a comprehensive empirical study for personalized spontaneous speech synthesis on the basis of linguistic knowledge. With the advent of voice cloning for reading-style speech synthesis, a new voice cloning paradigm for human-like and spontaneous speech synthesis is required. We, therefore, focus on personalized spontaneous speech synthesis that can clone both the individual's voice timbre and speech disfluency. Specifically, we deal with filled pauses, a major source of speech disfluency, which is known to play an important role in speech generation and communication in psychology and linguistics. To comparatively evaluate personalized filled pause insertion and non-personalized filled pause prediction methods, we developed a speech synthesis method with a non-personalized external filled pause predictor trained with a multi-speaker corpus. The results clarify the position-word entanglement of filled pauses, i.e., the necessity of precisely predicting positions for naturalness and the necessity of precisely predicting words for individuality on the evaluation of synthesized speech.
翻訳日:2022-10-17 17:35:47 公開日:2022-10-14
# エンド・ツー・エンド自発音声認識のための同時書き起こし・字幕学習

Learning to Jointly Transcribe and Subtitle for End-to-End Spontaneous Speech Recognition ( http://arxiv.org/abs/2210.07771v1 )

ライセンス: Link先を確認
Jakob Poncelet, Hugo Van hamme(参考訳) tv字幕は、ニュース記事の読み上げスピーチから、トークショーや石けんでの会話的、自発的なスピーチまで、様々な種類の音声の豊富な書き起こしの源である。 しかし、字幕は音声の動詞的(すなわち正確な)書き起こしではないため、自動音声認識(asr)モデルを改善するために直接使用することはできない。 本稿では,asrと自動サブタイトを併用したマルチタスクデュアルデコーダトランスフォーマモデルを提案する。 asrデコーダ(おそらくは事前学習済み)は動詞の出力を予測し、サブタイトルデコーダはエンコーダを共有しながらサブタイトルを生成する。 2つのデコーダは独立あるいは接続可能である。 このモデルは、両方のタスクを共同で実行するように訓練され、サブタイトルデータを効果的に使用できる。 副字幕デコーダを付加することにより,通常のASRと自然・会話型ASRの改善を示す。 このメソッドはサブタイトルのプリプロセッシング (aligning, filtering, pseudo-labeling, ...) を必要としない。

TV subtitles are a rich source of transcriptions of many types of speech, ranging from read speech in news reports to conversational and spontaneous speech in talk shows and soaps. However, subtitles are not verbatim (i.e. exact) transcriptions of speech, so they cannot be used directly to improve an Automatic Speech Recognition (ASR) model. We propose a multitask dual-decoder Transformer model that jointly performs ASR and automatic subtitling. The ASR decoder (possibly pre-trained) predicts the verbatim output and the subtitle decoder generates a subtitle, while sharing the encoder. The two decoders can be independent or connected. The model is trained to perform both tasks jointly, and is able to effectively use subtitle data. We show improvements on regular ASR and on spontaneous and conversational ASR by incorporating the additional subtitle decoder. The method does not require preprocessing (aligning, filtering, pseudo-labeling, ...) of the subtitles.
翻訳日:2022-10-17 17:35:27 公開日:2022-10-14
# メタ学習におけるニューラルルーティング

Neural Routing in Meta Learning ( http://arxiv.org/abs/2210.07932v1 )

ライセンス: Link先を確認
Jicang Cai, Saeed Vahidian, Weijia Wang, Mohsen Joneidi, and Bill Lin(参考訳) 学習から学習へ(learning-to-learn)と呼ばれるメタラーニングは、以前のタスクの知識を活用しつつ、新しいタスクに素早く適応できることによって、人間の学習を模倣する有望な概念である。 この文脈で多くのモデルが登場し、学習効率や堅牢性などが向上した。 ここで生じる問題は、人間の学習の他の側面をエミュレートし、それらを既存のメタ学習アルゴリズムに組み込むことができるか? 脳の異なる部分が様々なタスクに高度に特化しているという神経科学の発見に着想を得て、入力タスクに条件付けられたモデルの部分のみを選択的に使用することにより、現在のメタ学習アルゴリズムのモデル性能を向上させることを目指す。 本稿では,各畳み込み層に関連付けられたバッチ正規化(bn)層のスケーリング係数を利用して,深層畳み込みニューラルネットワーク(cnns)におけるタスク依存動的ニューロン選択について検討する。 問題は、モデルの異なる部分の異なるタスクから学習するのを助けるというアイデアが、CNNでより良いフィルタをトレーニングし、モデルの一般化性能を改善するのに役立つためである。 提案手法であるnrml(neural routing in meta learning)は,最も広く使用されているベンチマークデータセットにおいて,数少ない分類タスクにおいて既知のメタ学習ベースラインの1つを上回っている。

Meta-learning often referred to as learning-to-learn is a promising notion raised to mimic human learning by exploiting the knowledge of prior tasks but being able to adapt quickly to novel tasks. A plethora of models has emerged in this context and improved the learning efficiency, robustness, etc. The question that arises here is can we emulate other aspects of human learning and incorporate them into the existing meta learning algorithms? Inspired by the widely recognized finding in neuroscience that distinct parts of the brain are highly specialized for different types of tasks, we aim to improve the model performance of the current meta learning algorithms by selectively using only parts of the model conditioned on the input tasks. In this work, we describe an approach that investigates task-dependent dynamic neuron selection in deep convolutional neural networks (CNNs) by leveraging the scaling factor in the batch normalization (BN) layer associated with each convolutional layer. The problem is intriguing because the idea of helping different parts of the model to learn from different types of tasks may help us train better filters in CNNs, and improve the model generalization performance. We find that the proposed approach, neural routing in meta learning (NRML), outperforms one of the well-known existing meta learning baselines on few-shot classification tasks on the most widely used benchmark datasets.
翻訳日:2022-10-17 17:29:28 公開日:2022-10-14
# グラフ要素の影響を特徴づける

Characterizing the Influence of Graph Elements ( http://arxiv.org/abs/2210.07441v1 )

ライセンス: Link先を確認
Zizhang Chen, Peizhao Li, Hongfu Liu and Pengyu Hong(参考訳) ロバストな統計学の手法であるインフルエンス関数は、トレーニングインスタンスの削除や修正に関するモデルパラメータやいくつかの機能の変化を測定する。 高価なモデル再学習を必要とせず、機械学習モデルの解釈可能性を研究するための効率的で有用なポストホック手法である。 近年,グラフデータを利用したグラフ畳み込みネットワーク (GCN) が注目されている。 しかし、GCNが入力グラフからトレーニングノード/エッジを除去する影響について、これまでの研究は行われていない。 グラフ内のノード/エッジはGCNに相互依存するため、GCNに対する影響関数を導出することは困難である。 このギャップを埋めるために、我々は、属性グラフ上で動作する単純なグラフ畳み込み(SGC)モデルを使い始め、ノードやエッジが属性グラフから削除されたときのモデルパラメータの変化を近似する影響関数を定式化した。 さらに,エッジ除去による推定影響の誤差境界を理論的に解析した。 影響推定関数の精度と有効性を実験的に検証した。 さらに,SGCモデルの効果関数を用いて,トレーニングノードやエッジの除去がSGCの試験性能に与える影響をモデルの再学習なしで評価できることを示した。 最後に,GCNに対する敵攻撃を効果的に誘導するために,影響関数の使い方を示した。

Influence function, a method from robust statistics, measures the changes of model parameters or some functions about model parameters concerning the removal or modification of training instances. It is an efficient and useful post-hoc method for studying the interpretability of machine learning models without the need for expensive model re-training. Recently, graph convolution networks (GCNs), which operate on graph data, have attracted a great deal of attention. However, there is no preceding research on the influence functions of GCNs to shed light on the effects of removing training nodes/edges from an input graph. Since the nodes/edges in a graph are interdependent in GCNs, it is challenging to derive influence functions for GCNs. To fill this gap, we started with the simple graph convolution (SGC) model that operates on an attributed graph and formulated an influence function to approximate the changes in model parameters when a node or an edge is removed from an attributed graph. Moreover, we theoretically analyzed the error bound of the estimated influence of removing an edge. We experimentally validated the accuracy and effectiveness of our influence estimation function. In addition, we showed that the influence function of an SGC model could be used to estimate the impact of removing training nodes/edges on the test performance of the SGC without re-training the model. Finally, we demonstrated how to use influence functions to guide the adversarial attacks on GCNs effectively.
翻訳日:2022-10-17 17:20:54 公開日:2022-10-14
# グラフアルゴリズムを用いたグラフ補完トランスフォーマーの事前学習

Using Graph Algorithms to Pretrain Graph Completion Transformers ( http://arxiv.org/abs/2210.07453v1 )

ライセンス: Link先を確認
Jonathan Pilault, Michael Galkin, Bahare Fatemi, Perouz Taslakian, David Vasquez, Christopher Pal(参考訳) グラフニューラルネットワークに関する最近の研究は、自己教師付き事前学習が下流グラフ、リンク、ノード分類タスクのパフォーマンスをさらに向上することを示した。 しかし,ダウンストリーム大規模知識グラフ補完タスクでは,事前学習タスクの有効性が十分に検討されていない。 文脈化知識グラフ埋め込み手法を用いて,複数のグラフアルゴリズムを用いて構築した5種類の事前学習信号と,その組み合わせについて検討する。 私たちは、グラフ構造生成事前学習タスクを探索するために、トランスフォーマティブベースのモデルの汎用性を利用します。 さらに,情報ゲインを導いた新しい経路探索アルゴリズムを提案し,下流3つの知識グラフ補完データセットを横断する最善の事前学習課題であることを示す。 事前学習タスクを全て組み合わせたマルチタスク設定では、FB15K-237のすべてのメトリクス、WN18RRのMRRとHit@1、JF17KのMatch@10、知識ハイパーグラフデータセット(英語版)のFB15K-237のすべてのメトリクスに、最新の強力な知識グラフ埋め込みメソッドを超越している。

Recent work on Graph Neural Networks has demonstrated that self-supervised pretraining can further enhance performance on downstream graph, link, and node classification tasks. However, the efficacy of pretraining tasks has not been fully investigated for downstream large knowledge graph completion tasks. Using a contextualized knowledge graph embedding approach, we investigate five different pretraining signals, constructed using several graph algorithms and no external data, as well as their combination. We leverage the versatility of our Transformer-based model to explore graph structure generation pretraining tasks, typically inapplicable to most graph embedding methods. We further propose a new path-finding algorithm guided by information gain and find that it is the best-performing pretraining task across three downstream knowledge graph completion datasets. In a multitask setting that combines all pretraining tasks, our method surpasses some of the latest and strong performing knowledge graph embedding methods on all metrics for FB15K-237, on MRR and Hit@1 for WN18RR and on MRR and hit@10 for JF17K (a knowledge hypergraph dataset).
翻訳日:2022-10-17 17:20:32 公開日:2022-10-14
# Constrained Clustering を用いた大規模データセットの時空間分類

Spatiotemporal Classification with limited labels using Constrained Clustering for large datasets ( http://arxiv.org/abs/2210.07522v1 )

ライセンス: Link先を確認
Praveen Ravirathinam, Rahul Ghosh, Ke Wang, Keyang Xuan, Ankush Khandelwal, Hilary Dugan, Paul Hanson, Vipin Kumar(参考訳) 表現学習とクラスタリングによる分離可能な表現の作成は、少数のラベルで大規模な非構造化データセットを分析する上で重要である。 分離可能な表現は、より良い分類能力を持つ教師付きモデルにつながり、さらに新しいラベル付きサンプルを生成するのに役立つ。 大規模なデータセットを分析するための教師なしおよび半教師なしの手法の多くは、既存の少量のラベルを利用せず、より良い表現を得る。 本稿では,空間的特徴と時間的特徴と制約付き損失を組み合わせて分離可能な表現を生成する時空間クラスタリングパラダイムを提案する。 本稿では, 世界中の680,000湖における地下水動態のデータセットであるReaLSATについて検討し, 生態学と持続可能性の観点から重要なデータセットであることを示す。 この大きな乱れのないデータセットを用いて、空間的あるいは時間的表現よりも時空間的表現の方が優れていることを示す。 そして、ラベルの少ない制約付き損失を使って、より良い表現を学ぶ方法を示します。 我々は,ラベルの少ない手法を用いて,ラベルのないデータから新しいラベル付きサンプルを抽出し,より優れた分類につながる教師付き手法を拡張できることを示す。

Creating separable representations via representation learning and clustering is critical in analyzing large unstructured datasets with only a few labels. Separable representations can lead to supervised models with better classification capabilities and additionally aid in generating new labeled samples. Most unsupervised and semisupervised methods to analyze large datasets do not leverage the existing small amounts of labels to get better representations. In this paper, we propose a spatiotemporal clustering paradigm that uses spatial and temporal features combined with a constrained loss to produce separable representations. We show the working of this method on the newly published dataset ReaLSAT, a dataset of surface water dynamics for over 680,000 lakes across the world, making it an essential dataset in terms of ecology and sustainability. Using this large unlabelled dataset, we first show how a spatiotemporal representation is better compared to just spatial or temporal representation. We then show how we can learn even better representation using a constrained loss with few labels. We conclude by showing how our method, using few labels, can pick out new labeled samples from the unlabeled data, which can be used to augment supervised methods leading to better classification.
翻訳日:2022-10-17 17:20:10 公開日:2022-10-14
# 制約付き近位政策最適化アルゴリズムによるモデルベース安全深層強化学習

Model-based Safe Deep Reinforcement Learning via a Constrained Proximal Policy Optimization Algorithm ( http://arxiv.org/abs/2210.07573v1 )

ライセンス: Link先を確認
Ashish Kumar Jayant, Shalabh Bhatnagar(参考訳) ほとんどの強化学習(RL)アルゴリズムでトレーニングの初期イテレーションの間、エージェントはかなりの数のランダムな探索ステップを実行する。 現実の世界では、これはこれらのアルゴリズムの実用性を制限し、潜在的に危険な行動を引き起こす可能性がある。 したがって、安全な探索はRLアルゴリズムを現実世界に適用する上で重要な問題である。 この問題は最近、制約付きマルコフ決定プロセス(CMDP)フレームワークの下でよく研究されており、単一のステージ報酬に加えて、エージェントは状態遷移に応じて単一ステージのコストや罰則を受け取る。 所定のコスト関数は、任意のタイミングで望ましくない振る舞いをスカラー値にマッピングする責任を負う。 目標は、トレーニングとデプロイメントの間、コストリターンを所定のしきい値以下に制限しながら、報酬リターンを最大化する実行可能なポリシーを見つけることです。 本稿では,オンライン上で環境の遷移ダイナミクスを学習し,ラグランジアン緩和に基づく近位政策最適化を用いて実現可能な最適政策を求める,オンポリシーモデルに基づく安全深層rlアルゴリズムを提案する。 我々は,環境モデル学習中に直面した認識論的・弁別的不確実性問題に取り組むために,異なる初期化を持つニューラルネットワークのアンサンブルを用いる。 我々は,open ai safety gymである challenge safe reinforcement learning benchmark を用いて,制約付きrlにおけるモデルフリーおよびモデルベースアプローチと比較した。 我々は,本アルゴリズムがよりサンプリング効率が高く,制約付きモデルフリーアプローチと比較して累積的ハザード違反が低いことを示す。 さらに,本手法は,文献中の他の制約付きモデルベースアプローチよりも優れた報酬性能を示す。

During initial iterations of training in most Reinforcement Learning (RL) algorithms, agents perform a significant number of random exploratory steps. In the real world, this can limit the practicality of these algorithms as it can lead to potentially dangerous behavior. Hence safe exploration is a critical issue in applying RL algorithms in the real world. This problem has been recently well studied under the Constrained Markov Decision Process (CMDP) Framework, where in addition to single-stage rewards, an agent receives single-stage costs or penalties as well depending on the state transitions. The prescribed cost functions are responsible for mapping undesirable behavior at any given time-step to a scalar value. The goal then is to find a feasible policy that maximizes reward returns while constraining the cost returns to be below a prescribed threshold during training as well as deployment. We propose an On-policy Model-based Safe Deep RL algorithm in which we learn the transition dynamics of the environment in an online manner as well as find a feasible optimal policy using the Lagrangian Relaxation-based Proximal Policy Optimization. We use an ensemble of neural networks with different initializations to tackle epistemic and aleatoric uncertainty issues faced during environment model learning. We compare our approach with relevant model-free and model-based approaches in Constrained RL using the challenging Safe Reinforcement Learning benchmark - the Open AI Safety Gym. We demonstrate that our algorithm is more sample efficient and results in lower cumulative hazard violations as compared to constrained model-free approaches. Further, our approach shows better reward performance than other constrained model-based approaches in the literature.
翻訳日:2022-10-17 17:19:49 公開日:2022-10-14
# fedfm:連携学習におけるデータ不均一性のためのアンカー型特徴マッチング

FedFM: Anchor-based Feature Matching for Data Heterogeneity in Federated Learning ( http://arxiv.org/abs/2210.07615v1 )

ライセンス: Link先を確認
Rui Ye, Zhenyang Ni, Chenxin Xu, Jianyu Wang, Siheng Chen, Yonina C. Eldar(参考訳) 統合学習(FL)における重要な課題の1つは、クライアント間の局所的なデータ分散の不均一性である。 この問題に対処するために,各クライアントの特徴を共有カテゴリーアンカー(特徴空間のランドマーク)にマッチさせる新しいFedFM法を提案する。 この方法は、各クライアントの特徴空間を整列させることにより、FLにおけるデータ不均一性の負の効果を軽減する。 さらに,目的関数の可変化という課題に取り組み,feedfmに収束保証を提供する。 また,FedFMでは,カテゴリ間で重複する特徴空間の現象を緩和し,特徴マッチングの有効性を高めるために,より正確かつ効果的な特徴マッチング損失であるコントラッシブガイド(CG)を提案する。 さらに,高い効率と柔軟性を実現するために,feedfm-lite と呼ばれる,同期時間と通信帯域幅のコストの少ないサーバとクライアントが通信する手法を提案する。 大規模実験により,CGを用いたFedFMは定量的および定性的な比較によって,いくつかの研究より優れることを示した。 fedfm-liteは5倍から10倍の通信コストで最先端の手法よりも優れた性能を達成できる。

One of the key challenges in federated learning (FL) is local data distribution heterogeneity across clients, which may cause inconsistent feature spaces across clients. To address this issue, we propose a novel method FedFM, which guides each client's features to match shared category-wise anchors (landmarks in feature space). This method attempts to mitigate the negative effects of data heterogeneity in FL by aligning each client's feature space. Besides, we tackle the challenge of varying objective function and provide convergence guarantee for FedFM. In FedFM, to mitigate the phenomenon of overlapping feature spaces across categories and enhance the effectiveness of feature matching, we further propose a more precise and effective feature matching loss called contrastive-guiding (CG), which guides each local feature to match with the corresponding anchor while keeping away from non-corresponding anchors. Additionally, to achieve higher efficiency and flexibility, we propose a FedFM variant, called FedFM-Lite, where clients communicate with server with fewer synchronization times and communication bandwidth costs. Through extensive experiments, we demonstrate that FedFM with CG outperforms several works by quantitative and qualitative comparisons. FedFM-Lite can achieve better performance than state-of-the-art methods with five to ten times less communication costs.
翻訳日:2022-10-17 17:19:22 公開日:2022-10-14
# cab:long sequence modelingの総合的注意ベンチマーク

CAB: Comprehensive Attention Benchmarking on Long Sequence Modeling ( http://arxiv.org/abs/2210.07661v1 )

ライセンス: Link先を確認
Jun Zhang, Shuyang Jiang, Jiangtao Feng, Lin Zheng, Lingpeng Kong(参考訳) トランスフォーマーは、言語、画像、音声処理で顕著な成功を収めた。 近年,特に長周期のモデリングにおいて,変圧器の効率を向上し,その有効性を保ちつつ,様々な効率的な注目アーキテクチャが提案されている。 長距離モデリングにおいてこれらの効率的な手法の能力をテストするために広く利用されているベンチマークはLong Range Arena (LRA)である。 しかし、LRAは標準的な双方向(または非因果的)自己注意のみに焦点を当てており、下流アプリケーションでも同じように重要であるクロスアテンションや一方向(または因果的)の注意を完全に無視している。 注意方法の横断的および因果的変異を設計することは、バニラ的注意にとって容易であるが、二次的時間とメモリの複雑さを伴う効率的な注意にとって、しばしば困難である。 本稿では,非因果的自己,因果的自己,非因果的クロス,因果的横断的注意という4つの区別可能な注意パターンを持つ,細粒度注意分類法の下での包括的注意度ベンチマーク(cab)を提案する。 CABは、異なる研究領域から7つの現実世界のタスクを収集し、4つの注意パターンの下で効率的な注意力を評価する。 これらのタスクのうち、cabは8つのバックボーンネットワークの効率的な注意を検証し、ニューラルネットワーク全体の一般化を示す。 我々は,cab上で異なる哲学を持つ9つの高効率アテンションアーキテクチャの性能をベンチマークするために,徹底的な実験を行う。 また,バニラの注意に対する効率長,注意パターン間の性能の整合性,注意機構の利点,長文言語モデリングにおける補間・外挿といった,効率的な注意の基本的な問題にも光を当てた。

Transformer has achieved remarkable success in language, image, and speech processing. Recently, various efficient attention architectures have been proposed to improve transformer's efficiency while largely preserving its efficacy, especially in modeling long sequences. A widely-used benchmark to test these efficient methods' capability on long-range modeling is Long Range Arena (LRA). However, LRA only focuses on the standard bidirectional (or noncausal) self attention, and completely ignores cross attentions and unidirectional (or causal) attentions, which are equally important to downstream applications. Although designing cross and causal variants of an attention method is straightforward for vanilla attention, it is often challenging for efficient attentions with subquadratic time and memory complexity. In this paper, we propose Comprehensive Attention Benchmark (CAB) under a fine-grained attention taxonomy with four distinguishable attention patterns, namely, noncausal self, causal self, noncausal cross, and causal cross attentions. CAB collects seven real-world tasks from different research areas to evaluate efficient attentions under the four attention patterns. Among these tasks, CAB validates efficient attentions in eight backbone networks to show their generalization across neural architectures. We conduct exhaustive experiments to benchmark the performances of nine widely-used efficient attention architectures designed with different philosophies on CAB. Extensive experimental results also shed light on the fundamental problems of efficient attentions, such as efficiency length against vanilla attention, performance consistency across attention patterns, the benefit of attention mechanisms, and interpolation/extrapolation on long-context language modeling.
翻訳日:2022-10-17 17:19:00 公開日:2022-10-14
# 異なる次元にわたる入力変換を用いた多変量時系列分類の実証評価

An Empirical Evaluation of Multivariate Time Series Classification with Input Transformation across Different Dimensions ( http://arxiv.org/abs/2210.07713v1 )

ライセンス: Link先を確認
Leonardos Pantiskas, Kees Verstoep, Mark Hoogendoorn, Henri Bal(参考訳) 現在の研究では、時間データの分類のための機械学習とディープラーニングのソリューションが、単一チャネルデータセット(ユニバリケート)から複数のチャネル情報(マルチバリケート)の問題へとシフトしている。 これらの著作の大部分はメソッドのノベルティとアーキテクチャに焦点を当てており、入力データの形式はしばしば暗黙的に扱われる。 特に、多変量データセットは入力前処理の観点から不定時系列のスタックとして扱われることが多く、各チャネルにまたがるスケーリング手法が別々に適用される。 本評価では, 追加チャネル次元が自明なものではなく, スケーリングに対する異なるアプローチが解の精度を著しく異なる結果に導くことを実証することを目的とする。 そこで本研究では,4次元の時間次元で7つの異なるデータ変換手法をテストし,最近の5つの手法の分類精度に及ぼす影響について検討した。 テストされたデータセットの大部分において、最高の変換-分割構成は、0.16から76.79パーセンテージポイントまで、同じハイパーパラメータを持つ各モデルの結果と比較して精度が向上することを示している。 また,変換法を一定に保つと,0.23から47.79ポイントの精度差で,異なる次元で適用した場合の精度に統計的に有意な差があることが示される。 最後に,変換手法と次元と分類器との関係について検討し,一般的な傾向はなく,最適な構成はデータセットと分類器固有のものであると結論付けた。

In current research, machine and deep learning solutions for the classification of temporal data are shifting from single-channel datasets (univariate) to problems with multiple channels of information (multivariate). The majority of these works are focused on the method novelty and architecture, and the format of the input data is often treated implicitly. Particularly, multivariate datasets are often treated as a stack of univariate time series in terms of input preprocessing, with scaling methods applied across each channel separately. In this evaluation, we aim to demonstrate that the additional channel dimension is far from trivial and different approaches to scaling can lead to significantly different results in the accuracy of a solution. To that end, we test seven different data transformation methods on four different temporal dimensions and study their effect on the classification accuracy of five recent methods. We show that, for the large majority of tested datasets, the best transformation-dimension configuration leads to an increase in the accuracy compared to the result of each model with the same hyperparameters and no scaling, ranging from 0.16 to 76.79 percentage points. We also show that if we keep the transformation method constant, there is a statistically significant difference in accuracy results when applying it across different dimensions, with accuracy differences ranging from 0.23 to 47.79 percentage points. Finally, we explore the relation of the transformation methods and dimensions to the classifiers, and we conclude that there is no prominent general trend, and the optimal configuration is dataset- and classifier-specific.
翻訳日:2022-10-17 17:18:29 公開日:2022-10-14
# 半教師付き学習のためのグラフ選択的注意ネットワーク

Not All Neighbors Are Worth Attending to: Graph Selective Attention Networks for Semi-supervised Learning ( http://arxiv.org/abs/2210.07715v1 )

ライセンス: Link先を確認
Tiantian He, Haicang Zhou, Yew-Soon Ong, Gao Cong(参考訳) グラフアテンションネットワーク(GAT)は、さまざまな現実シナリオからグラフデータを分析するための強力なツールである。 下流タスクの表現を学習するために、GATは通常、機能を集約する際、中央ノードのすべての隣人に出席する。 本稿では,多くの実世界のグラフにおいて,近隣のノードの大部分は中心ノードとは無関係であり,隣接する集約から除外できることを示す。 本稿では,グラフニューラルネットワーク(GNN)における選択注意(Selective Attention,SA)と新たな注意機構について述べる。 saは、学習可能なノードノードの異種性を利用して、無関係な隣人を排除する各ノードの注意の範囲を取得する。 さらに,異なるSA機構によって識別・調査された高相関ノード特徴から表現を学習するために,グラフ選択型アテンションネットワーク(SAT)を提案する。 最後に,提案するsatの表現力に関する理論的解析と,最先端gnnに対する実世界データセットに対するsatの包括的実証研究を行い,satの有効性を実証した。

Graph attention networks (GATs) are powerful tools for analyzing graph data from various real-world scenarios. To learn representations for downstream tasks, GATs generally attend to all neighbors of the central node when aggregating the features. In this paper, we show that a large portion of the neighbors are irrelevant to the central nodes in many real-world graphs, and can be excluded from neighbor aggregation. Taking the cue, we present Selective Attention (SA) and a series of novel attention mechanisms for graph neural networks (GNNs). SA leverages diverse forms of learnable node-node dissimilarity to acquire the scope of attention for each node, from which irrelevant neighbors are excluded. We further propose Graph selective attention networks (SATs) to learn representations from the highly correlated node features identified and investigated by different SA mechanisms. Lastly, theoretical analysis on the expressive power of the proposed SATs and a comprehensive empirical study of the SATs on challenging real-world datasets against state-of-the-art GNNs are presented to demonstrate the effectiveness of SATs.
翻訳日:2022-10-17 17:18:03 公開日:2022-10-14
# HGARN:ヒューマンモビリティ予測のための階層型グラフアテンションリカレントネットワーク

HGARN: Hierarchical Graph Attention Recurrent Network for Human Mobility Prediction ( http://arxiv.org/abs/2210.07765v1 )

ライセンス: Link先を確認
Yihong Tang, Junlin He, Zhan Zhao(参考訳) ヒトの移動予測は、都市計画、交通サービス、位置推薦など、様々な用途に不可欠な基本課題である。 既存のアプローチは、人間の好みやルーチンを推論するために不可欠な活動情報を無視したり、時間、活動、場所間の依存関係を単純化した表現を採用する。 そこで本研究では,人間移動予測のための階層型グラフ注意再帰ネットワーク(hgarn)を提案する。 具体的には,すべてのユーザの履歴モビリティレコードに基づいて階層グラフを構築し,階層グラフアテンションモジュールを用いて複雑な時間-アクティビティ-ロケーション依存関係をキャプチャする。 このようにして、HGARNは、リッチなコンテキストセマンティクスで表現を学び、グローバルレベルでユーザの好みをモデル化することができる。 また,モデル非依存のヒストリエンハンスド信頼度(mahec)ラベルを提案する。 最後に、リカレントエンコーダデコーダモジュールを導入し、リカレント構造を用いて、ユーザの次のアクティビティ(補助タスクとして)とロケーションを共同で予測する。 モデル評価では,Hgarnの性能を既存のSOTAに対して繰り返し,爆発的に評価する。 繰り返し設定は、ユーザーの個人レベルの好みをキャプチャするモデルの能力を評価することに焦点を当てている。 対照的に、探索的な設定の結果は、ユーザのグローバルレベルの好みを学ぶために異なるモデルの力を反映する傾向がある。 全体として、我々のモデルは、2つの実世界の人間のモビリティデータベンチマークに基づいて、主要な、繰り返し、爆発的な設定において、他のベースラインを大幅に上回る。 HGARNのソースコードはhttps://github.com/YihongT/HGARNで公開されている。

Human mobility prediction is a fundamental task essential for various applications, including urban planning, transportation services, and location recommendation. Existing approaches often ignore activity information crucial for reasoning human preferences and routines, or adopt a simplified representation of the dependencies between time, activities and locations. To address these issues, we present Hierarchical Graph Attention Recurrent Network (HGARN) for human mobility prediction. Specifically, we construct a hierarchical graph based on all users' history mobility records and employ a Hierarchical Graph Attention Module to capture complex time-activity-location dependencies. This way, HGARN can learn representations with rich contextual semantics to model user preferences at the global level. We also propose a model-agnostic history-enhanced confidence (MaHec) label to focus our model on each user's individual-level preferences. Finally, we introduce a Recurrent Encoder-Decoder Module, which employs recurrent structures to jointly predict users' next activities (as an auxiliary task) and locations. For model evaluation, we test the performances of our Hgarn against existing SOTAs in recurring and explorative settings. The recurring setting focuses more on assessing models' capabilities to capture users' individual-level preferences. In contrast, the results in the explorative setting tend to reflect the power of different models to learn users' global-level preferences. Overall, our model outperforms other baselines significantly in the main, recurring, and explorative settings based on two real-world human mobility data benchmarks. Source codes of HGARN are available at https://github.com/YihongT/HGARN.
翻訳日:2022-10-17 17:17:43 公開日:2022-10-14
# 農業領域におけるジョイントセマンティクス,植物インスタンス,葉のインスタンスセグメンテーションの階層的アプローチ

Hierarchical Approach for Joint Semantic, Plant Instance, and Leaf Instance Segmentation in the Agricultural Domain ( http://arxiv.org/abs/2210.07879v1 )

ライセンス: Link先を確認
Gianmarco Roggiolani, Matteo Sodano, Tiziano Guadagnino, Federico Magistri, Jens Behley, Cyrill Stachniss(参考訳) 植物表現型は、植物の成長段階、発達、その他の関連する量を記述するため、農業において中心的な役割である。 ロボットは、葉の数、葉面積、植物の大きさなどの植物形質を正確に推定することで、このプロセスの自動化を支援する。 本稿では,RGBデータから作物の連接意味,植物インスタンス,葉のインスタンスセグメンテーションの問題に対処する。 本稿では,3つのタスクを同時に処理し,その基盤となる階層構造を活用する畳み込みニューラルネットワークを提案する。 タスク固有のスキップ接続を導入することで,従来のスキームよりも有益であることが実験的評価で証明される。 また,葉の重なり合っているため,農業領域に共通する空間的近接インスタンスの問題に明示的に対処する,新しい自動後処理を提案する。 私たちのアーキテクチャは、農業の文脈で同時にこれらの問題に取り組みます。 以前の作品は植物または葉のセグメンテーションに焦点を当てるか、意味的なセグメンテーションを最適化しない。 その結果,本システムは,パラメータ数が少なくカメラフレームレートで動作しながら,最先端のアプローチよりも優れた性能を示すことができた。

Plant phenotyping is a central task in agriculture, as it describes plants' growth stage, development, and other relevant quantities. Robots can help automate this process by accurately estimating plant traits such as the number of leaves, leaf area, and the plant size. In this paper, we address the problem of joint semantic, plant instance, and leaf instance segmentation of crop fields from RGB data. We propose a single convolutional neural network that addresses the three tasks simultaneously, exploiting their underlying hierarchical structure. We introduce task-specific skip connections, which our experimental evaluation proves to be more beneficial than the usual schemes. We also propose a novel automatic post-processing, which explicitly addresses the problem of spatially close instances, common in the agricultural domain because of overlapping leaves. Our architecture simultaneously tackles these problems jointly in the agricultural context. Previous works either focus on plant or leaf segmentation, or do not optimise for semantic segmentation. Results show that our system has superior performance to state-of-the-art approaches, while having a reduced number of parameters and is operating at camera frame rate.
翻訳日:2022-10-17 17:11:34 公開日:2022-10-14
# すべてを編集する1つのモデル:セマンティック変調による自由形式のテキスト駆動画像操作

One Model to Edit Them All: Free-Form Text-Driven Image Manipulation with Semantic Modulations ( http://arxiv.org/abs/2210.07883v1 )

ライセンス: Link先を確認
Yiming Zhu and Hongyu Liu and Yibing Song and iyang Yuan and Xintong Han and Chun Yuan and Qifeng Chen and Jue Wang(参考訳) フリーフォームテキストプロンプトは、画像操作中の意図を便利に記述できる。 StyleGAN[21]の視覚的潜伏空間とCLIP[34]のテキスト埋め込み空間に基づいて、テキスト駆動属性操作のためにこれらの2つの潜伏空間をマップする方法に焦点を当てる。 現在、これらの2つの空間間の潜在マッピングは経験的に設計され、各操作モデルが1つの固定テキストプロンプトのみを処理できることを定めている。 本稿では,自由形式クリップ (ffclip) という手法を提案し,1つの操作モデルが自由形式テキストプロンプトを処理するように,自動潜在マッピングを確立することを目的とした。 FFCLIPは, セマンティックアライメントとインジェクションを含むモジュールである。 セマンティックアライメントは、クロスアテンション機構を備えた線形変換による自動潜時マッピングを実行する。 アライメントの後、テキストプロンプトからのセマンティクスをスタイルガン潜在空間に注入する。 1種類の画像(例えば「人間の肖像画」)に対して、1つのFFCLIPモデルは自由形式のテキストプロンプトを扱うために学習することができる。 一方,各学習テキストプロンプトは単一の意味的意味しか含まないが,ffclipでは複数の意味的意味を持つテキストプロンプトを画像操作に活用できる。 実験では, FFCLIPを3種類の画像(「人像」, 「車」, 「車」, 「車」)で評価した。 視覚的および数値的な結果は、FFCLIPが意味的に正確で視覚的にリアルなイメージを効果的に生成することを示している。 プロジェクトページ:https://github.com/KumapowerLIU/FFCLIP

Free-form text prompts allow users to describe their intentions during image manipulation conveniently. Based on the visual latent space of StyleGAN[21] and text embedding space of CLIP[34], studies focus on how to map these two latent spaces for text-driven attribute manipulations. Currently, the latent mapping between these two spaces is empirically designed and confines that each manipulation model can only handle one fixed text prompt. In this paper, we propose a method named Free-Form CLIP (FFCLIP), aiming to establish an automatic latent mapping so that one manipulation model handles free-form text prompts. Our FFCLIP has a cross-modality semantic modulation module containing semantic alignment and injection. The semantic alignment performs the automatic latent mapping via linear transformations with a cross attention mechanism. After alignment, we inject semantics from text prompt embeddings to the StyleGAN latent space. For one type of image (e.g., `human portrait'), one FFCLIP model can be learned to handle free-form text prompts. Meanwhile, we observe that although each training text prompt only contains a single semantic meaning, FFCLIP can leverage text prompts with multiple semantic meanings for image manipulation. In the experiments, we evaluate FFCLIP on three types of images (i.e., `human portraits', `cars', and `churches'). Both visual and numerical results show that FFCLIP effectively produces semantically accurate and visually realistic images. Project page: https://github.com/KumapowerLIU/FFCLIP.
翻訳日:2022-10-17 17:11:15 公開日:2022-10-14
# 文書OCRに関するテキスト検出

Text Detection Forgot About Document OCR ( http://arxiv.org/abs/2210.07903v1 )

ライセンス: Link先を確認
Krzysztof Olejniczak and Milan \v{S}ulc(参考訳) スキャンやその他の画像からのテキストの検出と認識(OCR)は、多くの方法が利用可能な自動化文書処理の広く使われている形式である。 機械学習の進歩により、複雑なシーンの写真からオブジェクト上のテキストを検出するなど、さらに困難なテキスト検出と認識のシナリオが実現された。 文書認識の最先端手法は複雑な場面で一般的に評価されるが、文書領域における性能は公表されていない。 本稿では,テキスト認識と文書テキスト認識のためのいくつかの手法を比較し,構造化文書のドメイン上での評価を行う。 この結果から,現在提案されている文書テキスト検出手法は,文書テキスト検出において優れた結果が得られることが示唆された。 テキスト検出および認識手法の評価において、文書OCRの適用を省略すべきではないと論じる。

Detection and recognition of text from scans and other images, commonly denoted as Optical Character Recognition (OCR), is a widely used form of automated document processing with a number of methods available. Advances in machine learning enabled even more challenging scenarios of text detection and recognition "in-the-wild" - such as detecting text on objects from photographs of complex scenes. While the state-of-the-art methods for in-the-wild text recognition are typically evaluated on complex scenes, their performance in the domain of documents has not been published. This paper compares several methods designed for in-the-wild text recognition and for document text recognition, and provides their evaluation on the domain of structured documents. The results suggest that state-of-the-art methods originally proposed for in-the-wild text detection also achieve excellent results on document text detection, outperforming available OCR methods. We argue that the application of document OCR should not be omitted in evaluation of text detection and recognition methods.
翻訳日:2022-10-17 17:10:47 公開日:2022-10-14
# 単一画像における再帰からの新たな3次元シーン理解アプリケーション

Novel 3D Scene Understanding Applications From Recurrence in a Single Image ( http://arxiv.org/abs/2210.07991v1 )

ライセンス: Link先を確認
Shimian Zhang, Skanda Bharadwaj, Keaton Kraiger, Yashasvi Asthana, Hong Zhang, Robert Collins, Yanxi Liu(参考訳) 本研究では,(1)点検出,(2)3次元翻訳対称性の仮説化,(3)画像中のRPインスタンス数のカウントという観点から,単一画像からのパターン発見を空間的に理解するための有効性を示す。 さらに,より正確で定量的なシーン記述を実現するために,RP発見出力を活用する可能性について述べる。 新しい1K+再帰パターン(RP)ベンチマークの定量的評価により,1つの視点から繰り返しの視覚的知覚が,既存の教師付き手法や,何百万もの画像を使用する教師なし手法に匹敵する場面理解結果をもたらすことが示された。

We demonstrate the utility of recurring pattern discovery from a single image for spatial understanding of a 3D scene in terms of (1) vanishing point detection, (2) hypothesizing 3D translation symmetry and (3) counting the number of RP instances in the image. Furthermore, we illustrate the feasibility of leveraging RP discovery output to form a more precise, quantitative text description of the scene. Our quantitative evaluations on a new 1K+ Recurring Pattern (RP) benchmark with diverse variations show that visual perception of recurrence from one single view leads to scene understanding outcomes that are as good as or better than existing supervised methods and/or unsupervised methods that use millions of images.
翻訳日:2022-10-17 17:10:31 公開日:2022-10-14
# 判例文書要約:抽出的・抽象的手法とその評価

Legal Case Document Summarization: Extractive and Abstractive Methods and their Evaluation ( http://arxiv.org/abs/2210.07544v1 )

ライセンス: Link先を確認
Abhay Shukla, Paheli Bhattacharya, Soham Poddar, Rajdeep Mukherjee, Kripabandhu Ghosh, Pawan Goyal, Saptarshi Ghosh(参考訳) 訴訟判断文書の要約は、法律NLPにおいて難しい問題である。 しかし、法的事例文書に適用された場合の要約モデル(例えば、抽出対抽象的)の違いについてはあまり分析されていない。 最近のトランスフォーマティブベースの抽象要約モデルは、入力トークンの数に制限があり、法的文書は非常に長いことが知られているため、この問題は特に重要である。 また、訴訟書類要約システムを評価するのが最善であるかについては、公然の疑問である。 本稿では,これまでに開発した3つの法的要約データセットに対して,複数の抽出的,抽象的要約手法(教師なし,教師なし)を用いて広範な実験を行った。 法律実務者による評価を含む分析は、特定の文書の要約と長い文書の要約に関するいくつかの興味深い洞察をもたらす。

Summarization of legal case judgement documents is a challenging problem in Legal NLP. However, not much analyses exist on how different families of summarization models (e.g., extractive vs. abstractive) perform when applied to legal case documents. This question is particularly important since many recent transformer-based abstractive summarization models have restrictions on the number of input tokens, and legal documents are known to be very long. Also, it is an open question on how best to evaluate legal case document summarization systems. In this paper, we carry out extensive experiments with several extractive and abstractive summarization methods (both supervised and unsupervised) over three legal summarization datasets that we have developed. Our analyses, that includes evaluation by law practitioners, lead to several interesting insights on legal summarization in specific and long document summarization in general.
翻訳日:2022-10-17 17:09:56 公開日:2022-10-14
# saliency-aware dynamic routing strategyによるリモートセンシング画像の軽量ステップレス超解像

Lightweight Stepless Super-Resolution of Remote Sensing Images via Saliency-Aware Dynamic Routing Strategy ( http://arxiv.org/abs/2210.07598v1 )

ライセンス: Link先を確認
Hanlin Wu, Ning Ni, Libao Zhang(参考訳) 深層学習に基づくアルゴリズムは、リモートセンシング画像(RSI)超解像(SR)の性能を大幅に改善した。 しかし、ネットワークの深さとパラメータの増大は、計算とストレージに大きな負担をもたらす。 既存のモデルの深さや幅を直接減らすと、パフォーマンスが大幅に低下する。 RSI内の異なる領域のSRの難易度は大きく異なり、既存の手法では画像内のすべての領域を処理するために同じディープネットワークを使用しており、結果として計算資源の浪費が生じる。 さらに、既存のSR法は一般に整数スケール因子を事前に定義し、ステップレスSRを実行することができない。 各スケールファクタ上でモデルをトレーニングすることは、かなりのコンピューティングリソースとモデルストレージスペースを浪費する。 そこで本研究では,rsisの軽量かつステップレスsrを実現するために,saldrn(saliency-aware dynamic routing network)を提案する。 まず,領域レベルのsr難易度を示す指標として視覚サリエンシーを導入し,軽量サリエンシー検出器をsaldrnに統合してピクセルレベルの視覚特性を捉える。 そこで,サブイメージパッチのSR難易度に応じて,経路選択スイッチを用いて適切な深さの特徴抽出経路を適応的に選択する。 最後に,低分解能特徴空間から高分解能特徴空間へのマッピングを実現するために,コアが暗黙的特徴関数である軽量なステップレスアップサンプリングモジュールを提案する。 総合的な実験は、SalDRNがパフォーマンスと複雑さのトレードオフをうまく達成できることを検証する。 コードは \url{https://github.com/hanlinwu/saldrn} で入手できる。

Deep learning-based algorithms have greatly improved the performance of remote sensing image (RSI) super-resolution (SR). However, increasing network depth and parameters cause a huge burden of computing and storage. Directly reducing the depth or width of existing models results in a large performance drop. We observe that the SR difficulty of different regions in an RSI varies greatly, and existing methods use the same deep network to process all regions in an image, resulting in a waste of computing resources. In addition, existing SR methods generally predefine integer scale factors and cannot perform stepless SR, i.e., a single model can deal with any potential scale factor. Retraining the model on each scale factor wastes considerable computing resources and model storage space. To address the above problems, we propose a saliency-aware dynamic routing network (SalDRN) for lightweight and stepless SR of RSIs. First, we introduce visual saliency as an indicator of region-level SR difficulty and integrate a lightweight saliency detector into the SalDRN to capture pixel-level visual characteristics. Then, we devise a saliency-aware dynamic routing strategy that employs path selection switches to adaptively select feature extraction paths of appropriate depth according to the SR difficulty of sub-image patches. Finally, we propose a novel lightweight stepless upsampling module whose core is an implicit feature function for realizing mapping from low-resolution feature space to high-resolution feature space. Comprehensive experiments verify that the SalDRN can achieve a good trade-off between performance and complexity. The code is available at \url{https://github.com/hanlinwu/SalDRN}.
翻訳日:2022-10-17 17:02:10 公開日:2022-10-14
# mctnet:光リモートセンシング画像の変更検出のためのマルチスケールcnn-transformerネットワーク

MCTNet: A Multi-Scale CNN-Transformer Network for Change Detection in Optical Remote Sensing Images ( http://arxiv.org/abs/2210.07601v1 )

ライセンス: Link先を確認
Weiming Li, Lihui Xue, Xueqian Wang, and Gang Li(参考訳) リモートセンシング画像における変化検出(cd)タスクのために、ディープ畳み込みニューラルネットワーク(cnns)ベースの手法が最近、グローバル特徴抽出能力を改善するためにトランスフォーマーモジュールを集約した。 しかし、深層cnnとトランスフォーマーモジュールの単純な単一スケール統合により、小さな変更領域でcdパフォーマンスが低下した。 この問題に対処するために,MCTNetと呼ばれるマルチスケールCNN変換器構造に基づくハイブリッドネットワークを提案する。 特に,変換器モジュールからグローバルな特徴を適応的に集約するConvTransブロックを設計し,CNN層からローカルな特徴を抽出する。 MCTNetは,既存の最先端CD法よりも優れた検出性能を示す。

For the task of change detection (CD) in remote sensing images, deep convolution neural networks (CNNs)-based methods have recently aggregated transformer modules to improve the capability of global feature extraction. However, they suffer degraded CD performance on small changed areas due to the simple single-scale integration of deep CNNs and transformer modules. To address this issue, we propose a hybrid network based on multi-scale CNN-transformer structure, termed MCTNet, where the multi-scale global and local information are exploited to enhance the robustness of the CD performance on changed areas with different sizes. Especially, we design the ConvTrans block to adaptively aggregate global features from transformer modules and local features from CNN layers, which provides abundant global-local features with different scales. Experimental results demonstrate that our MCTNet achieves better detection performance than existing state-of-the-art CD methods.
翻訳日:2022-10-17 17:01:41 公開日:2022-10-14
# マルチビュー測光ステレオ

Multi-View Photometric Stereo Revisited ( http://arxiv.org/abs/2210.07670v1 )

ライセンス: Link先を確認
Berk Kaya, Suryansh Kumar, Carlos Oliveira, Vittorio Ferrari, Luc Van Gool(参考訳) 多視点測光ステレオ(mvps)は、画像から物体を精密かつ詳細な3d取得するための好適な方法である。 MVPSの一般的な手法は優れた結果が得られるが、実行が複雑であり、異方性物質に制限されることが多い。 このような制限に対処するため,我々は,等方性や異方性,光沢性などの他の対象物質に対してもうまく機能するmvpsに対して,単純かつ実用的なアプローチを提案する。 本稿では,光量ステレオ (ps) とマルチビューステレオ (mvs) ネットワークの信頼性の高い融合を実現するために,深層ニューラルネットワークにおける不確実性モデリングの利点を生かした。 しかし、最近提案された最先端技術とは対照的に、MVSとPSの信頼性の高い融合のためのニューラルボリュームレンダリング手法を導入する。 ニューラルボリュームレンダリングを導入する利点は、既存のMVSメソッド、PSメソッド、または両方が失敗する様々な素材タイプを持つオブジェクトの信頼性の高いモデリングを支援することである。 さらに,近年,多くの幾何処理タスクにおいて顕著な結果が示されたニューラル3次元形状表現にも取り組んでいる。 提案する新しい損失関数は、最も特定のmvsとpsネットワーク予測と重み付きニューラルネットワークボリュームレンダリングコストを組み合わせた暗黙的ニューラルネットワークのゼロレベルセットに適合することを目的としている。 提案手法は,いくつかのベンチマークデータセットで広範囲にテストした結果を示す。

Multi-view photometric stereo (MVPS) is a preferred method for detailed and precise 3D acquisition of an object from images. Although popular methods for MVPS can provide outstanding results, they are often complex to execute and limited to isotropic material objects. To address such limitations, we present a simple, practical approach to MVPS, which works well for isotropic as well as other object material types such as anisotropic and glossy. The proposed approach in this paper exploits the benefit of uncertainty modeling in a deep neural network for a reliable fusion of photometric stereo (PS) and multi-view stereo (MVS) network predictions. Yet, contrary to the recently proposed state-of-the-art, we introduce neural volume rendering methodology for a trustworthy fusion of MVS and PS measurements. The advantage of introducing neural volume rendering is that it helps in the reliable modeling of objects with diverse material types, where existing MVS methods, PS methods, or both may fail. Furthermore, it allows us to work on neural 3D shape representation, which has recently shown outstanding results for many geometric processing tasks. Our suggested new loss function aims to fits the zero level set of the implicit neural function using the most certain MVS and PS network predictions coupled with weighted neural volume rendering cost. The proposed approach shows state-of-the-art results when tested extensively on several benchmark datasets.
翻訳日:2022-10-17 17:01:23 公開日:2022-10-14
# quo vadis: 軌道予測は長期的なマルチオブジェクト追跡の鍵なのでしょうか?

Quo Vadis: Is Trajectory Forecasting the Key Towards Long-Term Multi-Object Tracking? ( http://arxiv.org/abs/2210.07681v1 )

ライセンス: Link先を確認
Patrick Dendorfer, Vladimir Yugay, Aljo\v{s}a O\v{s}ep, Laura Leal-Taix\'e(参考訳) モノクル多物体追跡の最近の進歩は、主にデータ駆動の外観モデルに依存する、可視物体の追跡と短い閉塞ギャップのブリッジに成功している。 最先端のオブジェクトトラッカは,3秒未満のオクルージョンの10%未満をブリッジするのみである。 欠落する鍵は、より長い時間をかけて将来の軌道について推論することである。 直感的には、閉塞ギャップが長ければ長いほど、関連性の可能性に対する探索空間が大きくなる。 本稿では,移動エージェントの軌道予測が小さい場合でも,この探索空間を大幅に削減し,長期追跡の堅牢性を向上させることを示す。 我々の実験は,鳥眼視空間における推論と,その局所的不確かさを考慮しつつ,小型かつ多様な予測群を生成することが,我々のアプローチの重要な要素であることを示唆している。 これにより、MOTChallengeデータセットの最先端トラッカーを前進させ、長期追跡性能を大幅に向上させることができる。 本稿のソースコードと実験データは、https://github.com/dendorferpatrick/quovadis.comで入手できる。

Recent developments in monocular multi-object tracking have been very successful in tracking visible objects and bridging short occlusion gaps, mainly relying on data-driven appearance models. While we have significantly advanced short-term tracking performance, bridging longer occlusion gaps remains elusive: state-of-the-art object trackers only bridge less than 10% of occlusions longer than three seconds. We suggest that the missing key is reasoning about future trajectories over a longer time horizon. Intuitively, the longer the occlusion gap, the larger the search space for possible associations. In this paper, we show that even a small yet diverse set of trajectory predictions for moving agents will significantly reduce this search space and thus improve long-term tracking robustness. Our experiments suggest that the crucial components of our approach are reasoning in a bird's-eye view space and generating a small yet diverse set of forecasts while accounting for their localization uncertainty. This way, we can advance state-of-the-art trackers on the MOTChallenge dataset and significantly improve their long-term tracking performance. This paper's source code and experimental data are available at https://github.com/dendorferpatrick/QuoVadis.
翻訳日:2022-10-17 17:01:01 公開日:2022-10-14
# 蒸留系チャネルプルーニングを用いた軽量アルファマッティングネットワーク

Lightweight Alpha Matting Network Using Distillation-Based Channel Pruning ( http://arxiv.org/abs/2210.07760v1 )

ライセンス: Link先を確認
Donggeun Yoon, Jinsun Park, Donghyeon Cho(参考訳) 最近のalpha mattingは、セルフィーのようなモバイルアプリケーションで有用であるため、多くの注目を集めている。 そのため,商用携帯端末の計算資源が限られているため,軽量なアルファマッチングモデルが求められている。 この目的のために,アルファマッティングネットワークのための蒸留式チャネルプルーニング法を提案する。 刈り取りステップでは,教師ネットワークの知識を模倣する影響が少ない学生ネットワークのチャネルを除去する。 そして、切断された軽量の学生ネットワークを同じ蒸留損失で訓練する。 提案手法の軽量アルファマットモデルは,既存の軽量メソッドよりも優れている。 アルゴリズムの優越性を示すため,詳細な分析を行い,定量的・質的実験を行った。 さらに,提案手法をセマンティックセグメンテーションに適用することにより,提案手法の汎用性を実証した。

Recently, alpha matting has received a lot of attention because of its usefulness in mobile applications such as selfies. Therefore, there has been a demand for a lightweight alpha matting model due to the limited computational resources of commercial portable devices. To this end, we suggest a distillation-based channel pruning method for the alpha matting networks. In the pruning step, we remove channels of a student network having fewer impacts on mimicking the knowledge of a teacher network. Then, the pruned lightweight student network is trained by the same distillation loss. A lightweight alpha matting model from the proposed method outperforms existing lightweight methods. To show superiority of our algorithm, we provide various quantitative and qualitative experiments with in-depth analyses. Furthermore, we demonstrate the versatility of the proposed distillation-based channel pruning method by applying it to semantic segmentation.
翻訳日:2022-10-17 17:00:41 公開日:2022-10-14
# 入出力ニューラル表現の試験時間学習による制御可能なスタイル伝達

Controllable Style Transfer via Test-time Training of Implicit Neural Representation ( http://arxiv.org/abs/2210.07762v1 )

ライセンス: Link先を確認
Sunwoo Kim and Youngjo Min and Younghun Jung and Seungryong Kim(参考訳) そこで本研究では,テスト時間学習によるスタイライズアウトプットをピクセル単位で制御する,暗黙的ニューラルネットワーク表現(inr)に基づく制御可能なスタイル転送フレームワークを提案する。 集中的な学習を必要とする不安定な収束や学習に基づく手法に悩まされる従来の画像最適化手法とは異なり、ニューラルネットワークをテスト期間中に最適化するモデル最適化フレームワークを、スタイル伝達のための明示的な損失関数を用いて提案する。 inrベースのモデルの柔軟性のおかげで、テストタイムを一度トレーニングした後、フレームワークはスタイライズされた画像をピクセル単位で正確に制御でき、さらなる最適化やトレーニングなしに画像解像度を自由に調整できます。

We propose a controllable style transfer framework based on Implicit Neural Representation (INR) that pixel-wisely controls the stylized output via test-time training. Unlike traditional image optimization methods that often suffer from unstable convergence and learning-based methods that require intensive training and have limited generalization ability, we present a model optimization framework that optimizes the neural networks during test-time with explicit loss functions for style transfer. After being test-time trained once, thanks to the flexibility of the INR-based model,our framework can precisely control the stylized images in a pixel-wise manner and freely adjust image resolution without further optimization or training.
翻訳日:2022-10-17 17:00:31 公開日:2022-10-14
# SAILOR: InsightsによるAnchorの遅延オブジェクトへのスケーリング

SAILOR: Scaling Anchors via Insights into Latent Object ( http://arxiv.org/abs/2210.07811v1 )

ライセンス: Link先を確認
Du\v{s}an Mali\'c, Christian Fruhwirth-Reisinger, Horst Possegger, Horst Bischof(参考訳) LiDAR 3Dオブジェクト検出モデルは、必然的にトレーニングデータセットに偏っている。 検出器は、ターゲットデータセット、特にオブジェクトサイズに対して、このバイアスを明らかに示します。 しかし、オブジェクトのサイズは、例えば、異なるラベル付けポリシーや地理的位置のために、ドメイン間で大きく異なる。 最先端の教師なしドメイン適応は、オブジェクトサイズバイアスを克服するためにアウトソースメソッドにアプローチする。 メインストリームのサイズ適応アプローチは、元の教師なしの仮定と矛盾するターゲットドメイン統計を利用する。 我々の新しいアンカーキャリブレーション法はこの制限に対処する。 ソースデータに基づいて訓練されたモデルを考えると、最適なターゲットアンカーを教師なしの方法で推定する。 ターゲットドメインのアンカーサイズを変更することで、必然的にノイズを発生させたり、価値のあるオブジェクトの手がかりを取り除いたりします。 アンカーサイズで摂動する潜在オブジェクト表現は、最適なターゲットアンカーの下でのみ学習されたソース特徴に最も近い。 この観測をアンカーサイズ最適化に活用する。 実験の結果,再トレーニングなしでは,最先端の弱教師付きサイズ適応手法と比較しても,競争的な結果が得られることがわかった。 さらに,アンカーキャリブレーションを既存の手法と組み合わせることで,完全に教師なしにすることが可能である。

LiDAR 3D object detection models are inevitably biased towards their training dataset. The detector clearly exhibits this bias when employed on a target dataset, particularly towards object sizes. However, object sizes vary heavily between domains due to, for instance, different labeling policies or geographical locations. State-of-the-art unsupervised domain adaptation approaches outsource methods to overcome the object size bias. Mainstream size adaptation approaches exploit target domain statistics, contradicting the original unsupervised assumption. Our novel unsupervised anchor calibration method addresses this limitation. Given a model trained on the source data, we estimate the optimal target anchors in a completely unsupervised manner. The main idea stems from an intuitive observation: by varying the anchor sizes for the target domain, we inevitably introduce noise or even remove valuable object cues. The latent object representation, perturbed by the anchor size, is closest to the learned source features only under the optimal target anchors. We leverage this observation for anchor size optimization. Our experimental results show that, without any retraining, we achieve competitive results even compared to state-of-the-art weakly-supervised size adaptation approaches. In addition, our anchor calibration can be combined with such existing methods, making them completely unsupervised.
翻訳日:2022-10-17 17:00:20 公開日:2022-10-14
# 共起マトリックスのエネルギー変動を利用した医療・検査システムの表面異常検出

Surface abnormality detection in medical and inspection systems using energy variations in co-occurrence matrixes ( http://arxiv.org/abs/2210.07812v1 )

ライセンス: Link先を確認
Nandara K. Krishnand, Akshakhi Kumar Pritoonka, Faeze Kiani(参考訳) 表面欠陥の検出は、画像処理とマシンビジョンの分野で最も重要な問題の1つである。 本稿では,共起行列のエネルギー変化に基づく表面欠陥検出法について述べる。 提案手法は,2段階の訓練と試験からなる。 トレーニング段階では、共起行列演算子がまず健康な画像に適用され、次に出力エネルギーの量を算出する。 以下、エネルギー量の変化に応じて、適切な特徴ベクトルを定義し、その助けを借りて、画像の健康に適した閾値を求める。 そして、試験段階では、算出されたクォーラムの助けを借りて、欠陥部分と健康部分とを区別する。 以上の結果から, 石および陶磁器の画像に対して, 上記の手法を適用し, 検出精度を計算し, 比較した。 提案手法の利点の1つとして,訓練段階の使用により,高精度,低計算,各種レベルとの整合性を挙げることができる。 提案手法は,疾患などの異常を検出するための医学的応用に有用である。 そのため、2d-helaデータセット上で性能評価を行い、細胞表現型を分類する。 提案手法は2d-helaの精度が約89.66%である。

Detection of surface defects is one of the most important issues in the field of image processing and machine vision. In this article, a method for detecting surface defects based on energy changes in co-occurrence matrices is presented. The presented method consists of two stages of training and testing. In the training phase, the co-occurrence matrix operator is first applied on healthy images and then the amount of output energy is calculated. In the following, according to the changes in the amount of energy, a suitable feature vector is defined, and with the help of it, a suitable threshold for the health of the images is obtained. Then, in the test phase, with the help of the calculated quorum, the defective parts are distinguished from the healthy ones. In the results section, the mentioned method has been applied on stone and ceramic images and its detection accuracy has been calculated and compared with some previous methods. Among the advantages of the presented method, we can mention high accuracy, low calculations and compatibility with all types of levels due to the use of the training stage. The proposed approach can be used in medical applications to detect abnormalities such as diseases. So, the performance is evaluated on 2d-hela dataset to classify cell phenotypes. The proposed approach provides about 89.56 percent accuracy on 2d-hela.
翻訳日:2022-10-17 17:00:01 公開日:2022-10-14
# パラメータフリーな平均注意による畳み込みニューラルネットワークのパフォーマンス改善(ほぼ)

Parameter-Free Average Attention Improves Convolutional Neural Network Performance (Almost) Free of Charge ( http://arxiv.org/abs/2210.07828v1 )

ライセンス: Link先を確認
Nils K\"orber (Center for Artificial Intelligence in Public Health Research, Robert Koch Institute, Berlin, Germany)(参考訳) 視覚の知覚は、周囲の世界の関連する側面に焦点が当てられている。 この観察をコンピュータのデジタル情報処理に移すため、注目度の高い画像領域を強調するアテンション機構が導入された。 本稿では,単純かつ効果的なモジュールである pfaam というパラメータフリーなアテンション機構を導入する。 計算オーバーヘッドが少なく、モデルサイズに影響を与えることなく、さまざまな畳み込みニューラルネットワークアーキテクチャにプラグインすることができる。 PfAAMは分類とセグメント分割のために複数のアーキテクチャでテストされ、すべてのテストケースでモデル性能が改善された。 これは、コンピュータビジョンタスクの汎用的な使いやすいモジュールとして、幅広い適用性を示している。 PfAAMの実装はhttps://github.com/nkoerb/pfaamで見ることができる。

Visual perception is driven by the focus on relevant aspects in the surrounding world. To transfer this observation to the digital information processing of computers, attention mechanisms have been introduced to highlight salient image regions. Here, we introduce a parameter-free attention mechanism called PfAAM, that is a simple yet effective module. It can be plugged into various convolutional neural network architectures with a little computational overhead and without affecting model size. PfAAM was tested on multiple architectures for classification and segmentic segmentation leading to improved model performance for all tested cases. This demonstrates its wide applicability as a general easy-to-use module for computer vision tasks. The implementation of PfAAM can be found on https://github.com/nkoerb/pfaam.
翻訳日:2022-10-17 16:59:44 公開日:2022-10-14
# 畳み込みニューラルネットワークの基礎概念と製造への応用

Convolutional Neural Networks: Basic Concepts and Applications in Manufacturing ( http://arxiv.org/abs/2210.07848v1 )

ライセンス: Link先を確認
Shengli Jiang, Shiyi Qin, Joshua L. Pulsipher, Victor M. Zavala(参考訳) 本稿では、畳み込みニューラルネットワーク(CNN)の基本概念と製造における用途の概要について論じる。 まず、製造でよく見られるさまざまな種類のデータオブジェクト(例えば、時系列、画像、マイクログラフ、ビデオ、スペクトル、分子構造)が、テンソルとグラフを使って柔軟に表現できるかについて議論する。 次に,cnnが畳み込み操作を用いて,そのような表現から情報的特徴(幾何学的パターンやテクスチャなど)を抽出し,創発的特性や現象を予測し,あるいは異常を識別する方法について議論する。 また,最新のコンピュータビジョンハードウェア(赤外線,熱,ハイパースペクトルカメラなど)の利用を可能にするために,cnnがカラーを重要な情報源として活用する方法についても論じる。 本稿では,スペクトル分析,分子設計,センサ設計,イメージベース制御,多変量プロセス監視といった多様なケーススタディを用いて概念を説明する。

We discuss basic concepts of convolutional neural networks (CNNs) and outline uses in manufacturing. We begin by discussing how different types of data objects commonly encountered in manufacturing (e.g., time series, images, micrographs, videos, spectra, molecular structures) can be represented in a flexible manner using tensors and graphs. We then discuss how CNNs use convolution operations to extract informative features (e.g., geometric patterns and textures) from the such representations to predict emergent properties and phenomena and/or to identify anomalies. We also discuss how CNNs can exploit color as a key source of information, which enables the use of modern computer vision hardware (e.g., infrared, thermal, and hyperspectral cameras). We illustrate the concepts using diverse case studies arising in spectral analysis, molecule design, sensor design, image-based control, and multivariate process monitoring.
翻訳日:2022-10-17 16:59:33 公開日:2022-10-14
# ソースフリー非教師なしドメイン適応のための多中心クラスタリングと構造規則化

Polycentric Clustering and Structural Regularization for Source-free Unsupervised Domain Adaptation ( http://arxiv.org/abs/2210.07463v1 )

ライセンス: Link先を確認
Xinyu Guan, Han Sun, Ningzhong Liu, Huiyu Zhou(参考訳) source-free domain adaptation (sfda) は、事前学習したソースモデルから学んだ知識を対象領域に移すことで、ドメイン適応問題を解決することを目的としている。 ほとんどの既存メソッドは、機能プロトタイプを生成することによって、ターゲットデータに擬似ラベルを割り当てる。 しかし、ソースドメインとターゲットドメインとの間のデータ分布のばらつきと、ターゲットドメインにおけるカテゴリの不均衡のため、生成された機能プロトタイプとノイズの多い擬似ラベルには厳しいクラスバイアスがある。 さらに、ターゲットドメインのデータ構造は無視されることが多く、クラスタリングには不可欠である。 本稿では,PCSRと命名された新しいフレームワークを,クラス内多中心クラスタリングおよび構造規則化戦略を通じてSFDAに取り組むために提案する。 まず,クラス間バランスの取れたサンプリング戦略を提案し,各クラスに代表的特徴プロトタイプを生成する。 さらに、k平均クラスタリングを導入して、ターゲットドメインの各クラスの複数のクラスタリングセンタを生成し、堅牢な擬似ラベルを得る。 最後に、モデル一般化を強化するために、対象領域に対して構造正則化を導入する。 3つのUDAベンチマークデータセットの大規模な実験により、我々の手法は、他の手法と比較して、より良い、または類似した性能を示し、視覚領域適応問題に対するアプローチの優位性を示す。

Source-Free Domain Adaptation (SFDA) aims to solve the domain adaptation problem by transferring the knowledge learned from a pre-trained source model to an unseen target domain. Most existing methods assign pseudo-labels to the target data by generating feature prototypes. However, due to the discrepancy in the data distribution between the source domain and the target domain and category imbalance in the target domain, there are severe class biases in the generated feature prototypes and noisy pseudo-labels. Besides, the data structure of the target domain is often ignored, which is crucial for clustering. In this paper, a novel framework named PCSR is proposed to tackle SFDA via a novel intra-class Polycentric Clustering and Structural Regularization strategy. Firstly, an inter-class balanced sampling strategy is proposed to generate representative feature prototypes for each class. Furthermore, k-means clustering is introduced to generate multiple clustering centers for each class in the target domain to obtain robust pseudo-labels. Finally, to enhance the model's generalization, structural regularization is introduced for the target domain. Extensive experiments on three UDA benchmark datasets show that our method performs better or similarly against the other state of the art methods, demonstrating our approach's superiority for visual domain adaptation problems.
翻訳日:2022-10-17 16:53:35 公開日:2022-10-14
# InFIP:本質的特徴に基づく説明可能なDNN知的財産保護手法

InFIP: An Explainable DNN Intellectual Property Protection Method based on Intrinsic Features ( http://arxiv.org/abs/2210.07481v1 )

ライセンス: Link先を確認
Mingfu Xue, Xin Wang, Yinghao Wu, Shifeng Ni, Yushu Zhang, Weiqiang Liu(参考訳) 深層ニューラルネットワーク(dnn)に対する知的財産保護(ip)は近年、深刻な懸念が高まっている。 既存の作業の多くは、IP保護のためのDNNモデルに透かしを埋め込んでいる。 本稿では,説明可能な人工知能に基づくDNNの解釈可能な知的財産保護手法を初めて提案する。 既存の研究と比較すると,提案手法はDNNモデルを変更せず,オーナシップ検証の決定は解釈可能である。 ディープ・テイラー分解を用いてDNNモデルの本質的な特徴を抽出する。 内在的特徴はモデルの決定のユニークな解釈から成り立っているので、内在的特徴はモデルの指紋と見なすことができる。 疑わしいモデルの指紋が原モデルと同じであれば、疑わしいモデルは海賊モデルと見なされる。 実験結果から, 指紋はモデルのオーナシップの検証に有効であり, モデルの検査精度に影響を与えないことが示唆された。 さらに,提案手法は微調整攻撃,プルーニング攻撃,透かし上書き攻撃,適応攻撃に対して堅牢である。

Intellectual property (IP) protection for Deep Neural Networks (DNNs) has raised serious concerns in recent years. Most existing works embed watermarks in the DNN model for IP protection, which need to modify the model and lack of interpretability. In this paper, for the first time, we propose an interpretable intellectual property protection method for DNN based on explainable artificial intelligence. Compared with existing works, the proposed method does not modify the DNN model, and the decision of the ownership verification is interpretable. We extract the intrinsic features of the DNN model by using Deep Taylor Decomposition. Since the intrinsic feature is composed of unique interpretation of the model's decision, the intrinsic feature can be regarded as fingerprint of the model. If the fingerprint of a suspected model is the same as the original model, the suspected model is considered as a pirated model. Experimental results demonstrate that the fingerprints can be successfully used to verify the ownership of the model and the test accuracy of the model is not affected. Furthermore, the proposed method is robust to fine-tuning attack, pruning attack, watermark overwriting attack, and adaptive attack.
翻訳日:2022-10-17 16:53:15 公開日:2022-10-14
# 注意喚起と関心領域を考慮した意外なストレートフォワードシーンテキスト除去法:包括的モデル解析

The Surprisingly Straightforward Scene Text Removal Method With Gated Attention and Region of Interest Generation: A Comprehensive Prominent Model Analysis ( http://arxiv.org/abs/2210.07489v1 )

ライセンス: Link先を確認
Hyeonsu Lee, Chankyu Choi(参考訳) 自然シーン画像からテキストを消去する作業であるシーンテキスト除去(str)は、最近、テキストの編集や、id、電話、ナンバーナンバーなどのプライベートな情報を隠蔽する重要な要素として注目を集めている。 strを積極的に研究するための様々な方法が存在するが、従来提案されていた方法が同じ標準トレーニング/評価データセットを使用しないため、優位性を評価することは困難である。 私たちは、同じ標準トレーニング/テストデータセットを使用して、標準化された再実装後のいくつかの以前の方法のパフォーマンスを評価します。 また,本論文では,単純かつ極めて効果的なGated Attention(GA)とRerea-of-Interest Generation(RoIG)手法についても紹介する。 GAはテキストストロークや周辺地域のテクスチャや色に注目して、入力画像からテキストをより正確に除去する。 RoIGは、より効率的にモデルをトレーニングするために、画像全体ではなく、テキスト付きの領域のみに焦点を当てる。 ベンチマークデータセットにおける実験結果から,本手法は,既存の最先端手法をほぼすべての指標で比較し,極めて高品質な結果を得た。 さらに,本モデルではテキストストロークマスクを明示的に生成しないため,改良ステップやサブモデルの追加は不要であり,パラメータの少ないモデルでは極めて高速である。 データセットとコードは、このhttps://github.com/naver/garnetで入手できる。

Scene text removal (STR), a task of erasing text from natural scene images, has recently attracted attention as an important component of editing text or concealing private information such as ID, telephone, and license plate numbers. While there are a variety of different methods for STR actively being researched, it is difficult to evaluate superiority because previously proposed methods do not use the same standardized training/evaluation dataset. We use the same standardized training/testing dataset to evaluate the performance of several previous methods after standardized re-implementation. We also introduce a simple yet extremely effective Gated Attention (GA) and Region-of-Interest Generation (RoIG) methodology in this paper. GA uses attention to focus on the text stroke as well as the textures and colors of the surrounding regions to remove text from the input image much more precisely. RoIG is applied to focus on only the region with text instead of the entire image to train the model more efficiently. Experimental results on the benchmark dataset show that our method significantly outperforms existing state-of-the-art methods in almost all metrics with remarkably higher-quality results. Furthermore, because our model does not generate a text stroke mask explicitly, there is no need for additional refinement steps or sub-models, making our model extremely fast with fewer parameters. The dataset and code are available at this https://github.com/naver/garnet.
翻訳日:2022-10-17 16:52:59 公開日:2022-10-14
# 視覚・言語ナビゲーションのための弱教師付きマルチグラニュラリティマップ学習

Weakly-Supervised Multi-Granularity Map Learning for Vision-and-Language Navigation ( http://arxiv.org/abs/2210.07506v1 )

ライセンス: Link先を確認
Peihao Chen, Dongyu Ji, Kunyang Lin, Runhao Zeng, Thomas H. Li, Mingkui Tan, Chuang Gan(参考訳) 我々は,ロボットエージェントが言語指導によって記述された経路をたどった環境をナビゲートするよう訓練する実践的かつ困難な問題に対処する。 インストラクションは、しばしば環境内のオブジェクトの記述を含む。 正確なナビゲーションを実現するためには,環境オブジェクトの空間的位置と意味情報を正確に表現した地図を構築することが重要である。 しかし,ロボットが環境をよく表現する地図を構築できるのは極めて困難であり,様々な属性を持つ多様な物体を伴っていることが多い。 本稿では,オブジェクトをより包括的に表現するために,細粒度の詳細(色,テクスチャなど)と意味クラスの両方を含む多粒度マップを提案する。 さらに,エージェントが地図上の命令関連オブジェクトをローカライズする必要がある弱教師付き補助タスクを提案する。 このタスクを通じて、エージェントはナビゲーションのための命令関連オブジェクトのローカライズを学ぶだけでなく、オブジェクト情報を示すより良いマップ表現を学ぶことを奨励される。 次に学習した地図と命令をウェイポイント予測器に供給し、次のナビゲーション目標を決定する。 実験結果から,VLN-CEデータセットを用いて,本手法の精度を4.0%,4.6%向上させた。 コードはhttps://github.com/PeihaoChen/WS-MGMapで入手できる。

We address a practical yet challenging problem of training robot agents to navigate in an environment following a path described by some language instructions. The instructions often contain descriptions of objects in the environment. To achieve accurate and efficient navigation, it is critical to build a map that accurately represents both spatial location and the semantic information of the environment objects. However, enabling a robot to build a map that well represents the environment is extremely challenging as the environment often involves diverse objects with various attributes. In this paper, we propose a multi-granularity map, which contains both object fine-grained details (e.g., color, texture) and semantic classes, to represent objects more comprehensively. Moreover, we propose a weakly-supervised auxiliary task, which requires the agent to localize instruction-relevant objects on the map. Through this task, the agent not only learns to localize the instruction-relevant objects for navigation but also is encouraged to learn a better map representation that reveals object information. We then feed the learned map and instruction to a waypoint predictor to determine the next navigation goal. Experimental results show our method outperforms the state-of-the-art by 4.0% and 4.6% w.r.t. success rate both in seen and unseen environments, respectively on VLN-CE dataset. Code is available at https://github.com/PeihaoChen/WS-MGMap.
翻訳日:2022-10-17 16:52:36 公開日:2022-10-14
# 異常検出のための教師と判別ネットワークの再構築

Reconstructed Student-Teacher and Discriminative Networks for Anomaly Detection ( http://arxiv.org/abs/2210.07548v1 )

ライセンス: Link先を確認
Shinji Yamada, Satoshi Kamiya, Kazuhiro Hotta(参考訳) 異常検出はコンピュータビジョンの重要な問題であるが、異常なサンプルが少ないため、この課題は困難である。 したがって,近年の異常検出法では,異常領域のない通常の画像のみを用いて訓練を行っている。 本研究では,学生と教師のネットワークで構成されるSTPM(Standard-Teacher Feature pyramid matching)に基づいて,強力な異常検出手法を提案する。 生成モデルは異常検出の別のアプローチである。 入力から通常の画像を再構成し、予測された正規と入力との差を計算する。 残念ながら、STPMは通常の画像を生成する能力を持っていない。 本研究は,STPMの精度を向上させるために,学生ネットワークを生成モデルとして使用し,通常の特徴を再構築する。 これにより精度が向上するが、stpmはトレーニングに異常画像を使用しないため、通常の画像の異常マップはクリーンではないため、画像レベルの異常検出の精度が低下する。 さらに精度を向上させるために,2組の学生教師ネットワークと判別ネットワークからなる手法において,異常マップから擬似異常を訓練した判別ネットワークを用いた。 この手法はMVTec異常検出データセットに高い精度を示した。

Anomaly detection is an important problem in computer vision; however, the scarcity of anomalous samples makes this task difficult. Thus, recent anomaly detection methods have used only normal images with no abnormal areas for training. In this work, a powerful anomaly detection method is proposed based on student-teacher feature pyramid matching (STPM), which consists of a student and teacher network. Generative models are another approach to anomaly detection. They reconstruct normal images from an input and compute the difference between the predicted normal and the input. Unfortunately, STPM does not have the ability to generate normal images. To improve the accuracy of STPM, this work uses a student network, as in generative models, to reconstruct normal features. This improves the accuracy; however, the anomaly maps for normal images are not clean because STPM does not use anomaly images for training, which decreases the accuracy of the image-level anomaly detection. To further improve accuracy, a discriminative network trained with pseudo-anomalies from anomaly maps is used in our method, which consists of two pairs of student-teacher networks and a discriminative network. The method displayed high accuracy on the MVTec anomaly detection dataset.
翻訳日:2022-10-17 16:52:12 公開日:2022-10-14
# tokenmixup: トランスフォーマーのための効率的な注意誘導トークンレベルのデータ拡張

TokenMixup: Efficient Attention-guided Token-level Data Augmentation for Transformers ( http://arxiv.org/abs/2210.07562v1 )

ライセンス: Link先を確認
Hyeong Kyu Choi, Joonmyung Choi, Hyunwoo J. Kim(参考訳) Mixupは画像分類のための一般的なデータ拡張手法である。 近年の混合法の発展は主に塩分濃度に基づく混合に焦点を当てている。 しかし、多くのサリエンシー検出器は強い計算を必要とするため、特にパラメータ重畳トランスフォーマーモデルに負担がかかる。 そこで本研究では,複合トークン集合の給与を最大化することを目的とした,効率的な注意誘導型トークンレベルのデータ拡張手法であるtokenmixupを提案する。 TokenMixupは、グラデーションベースの方法と比較して、x15の精度対応データ拡張を提供する。 さらに,単一インスタンス内でトークンを混合するtokenmixupの変種を導入し,マルチスケール機能拡張を実現する。 実験の結果,cifarおよびimagenet-1kにおけるベースラインモデルの性能は,従来の手法よりも大幅に向上した。 また,CIFAR-100のストレートスクラッチ変圧器モデルにおける最先端性能についても検討した。 コードはhttps://github.com/mlvlab/tokenmixupで入手できる。

Mixup is a commonly adopted data augmentation technique for image classification. Recent advances in mixup methods primarily focus on mixing based on saliency. However, many saliency detectors require intense computation and are especially burdensome for parameter-heavy transformer models. To this end, we propose TokenMixup, an efficient attention-guided token-level data augmentation method that aims to maximize the saliency of a mixed set of tokens. TokenMixup provides x15 faster saliency-aware data augmentation compared to gradient-based methods. Moreover, we introduce a variant of TokenMixup which mixes tokens within a single instance, thereby enabling multi-scale feature augmentation. Experiments show that our methods significantly improve the baseline models' performance on CIFAR and ImageNet-1K, while being more efficient than previous methods. We also reach state-of-the-art performance on CIFAR-100 among from-scratch transformer models. Code is available at https://github.com/mlvlab/TokenMixup.
翻訳日:2022-10-17 16:51:56 公開日:2022-10-14
# 細粒度画像バイナリ符号化のためのクロススケールコンテキスト抽出ハッシュ

Cross-Scale Context Extracted Hashing for Fine-Grained Image Binary Encoding ( http://arxiv.org/abs/2210.07572v1 )

ライセンス: Link先を確認
Xuetong Xue, Jiaying Shi, Xinxue He, Shenghui Xu, Zhaoming Pan(参考訳) 高次元画像データをバイナリコードに符号化することで、効率的な計算と低ストレージコストのため、大規模な画像検索タスクに広く応用されている。 バイナリコードはフロート機能ほど情報を含まないため、バイナリエンコーディングの本質は、検索品質を保証するためにメインコンテキストを保存することである。 しかし,既存のハッシュ手法では,冗長な背景情報を抑圧し,簡単な符号関数でユークリッド空間からハミング空間へ正確な符号化を行うという大きな制限がある。 これらの問題を解決するために,CSCE-Net(Cross-Scale Context Extracted Hashing Network)を提案する。 まず,高レベルなグローバル意味情報を維持しつつ,きめ細かい局所情報を取り込むための2分岐フレームワークを設計する。 また、2つのブランチ間で注意誘導情報抽出モジュール(aie)が導入され、グローバルスライディングウインドウと連携した低コンテキスト情報の領域が抑制される。 従来の手法とは異なり、CSCE-Netはコンテンツ関連ダイナミックサイン関数(DSF)を学習し、元の単純なサイン関数を置き換える。 そのため,提案したCSCE-Netは文脈に敏感で,正確な画像バイナリエンコーディングを実現できる。 さらに, csce-netは, 従来のハッシュ手法よりも優れており, 標準ベンチマークの検索性能が向上していることを示す。

Deep hashing has been widely applied to large-scale image retrieval tasks owing to efficient computation and low storage cost by encoding high-dimensional image data into binary codes. Since binary codes do not contain as much information as float features, the essence of binary encoding is preserving the main context to guarantee retrieval quality. However, the existing hashing methods have great limitations on suppressing redundant background information and accurately encoding from Euclidean space to Hamming space by a simple sign function. In order to solve these problems, a Cross-Scale Context Extracted Hashing Network (CSCE-Net) is proposed in this paper. Firstly, we design a two-branch framework to capture fine-grained local information while maintaining high-level global semantic information. Besides, Attention guided Information Extraction module (AIE) is introduced between two branches, which suppresses areas of low context information cooperated with global sliding windows. Unlike previous methods, our CSCE-Net learns a content-related Dynamic Sign Function (DSF) to replace the original simple sign function. Therefore, the proposed CSCE-Net is context-sensitive and able to perform well on accurate image binary encoding. We further demonstrate that our CSCE-Net is superior to the existing hashing methods, which improves retrieval performance on standard benchmarks.
翻訳日:2022-10-17 16:51:41 公開日:2022-10-14
# 生成モデルからの合成データは画像認識の準備ができているか?

Is synthetic data from generative models ready for image recognition? ( http://arxiv.org/abs/2210.07574v1 )

ライセンス: Link先を確認
Ruifei He, Shuyang Sun, Xin Yu, Chuhui Xue, Wenqing Zhang, Philip Torr, Song Bai, Xiaojuan Qi(参考訳) 近年のテキスト・画像生成モデルでは,高忠実度フォトリアリスティック画像の生成に有望な結果が示されている。 人間の目には驚くべき結果ですが、これらの画像が認識タスクにどの程度適用可能かはまだ未調査のままです。 本研究では,現在最先端のテキスト・画像生成モデルから生成された合成画像が,画像認識タスクにどのように利用できるか,また,データ・スカース・セッティングにおける分類モデルを改善する合成データ(ゼロショットと少数ショット)と,大規模なモデル事前学習のための合成データという2つの視点に焦点をあてる。 本稿では,既存の生成モデルからの合成データの強大さと欠点を示し,認識タスクに合成データを適用するための戦略を提案する。 コード:https://github.com/CVMI-Lab/SyntheticData。

Recent text-to-image generation models have shown promising results in generating high-fidelity photo-realistic images. Though the results are astonishing to human eyes, how applicable these generated images are for recognition tasks remains under-explored. In this work, we extensively study whether and how synthetic images generated from state-of-the-art text-to-image generation models can be used for image recognition tasks, and focus on two perspectives: synthetic data for improving classification models in data-scarce settings (i.e. zero-shot and few-shot), and synthetic data for large-scale model pre-training for transfer learning. We showcase the powerfulness and shortcomings of synthetic data from existing generative models, and propose strategies for better applying synthetic data for recognition tasks. Code: https://github.com/CVMI-Lab/SyntheticData.
翻訳日:2022-10-17 16:51:18 公開日:2022-10-14
# MonoDVPS:depth-aware Video Panoptic Segmentationのための自己監督型単眼深度推定手法

MonoDVPS: A Self-Supervised Monocular Depth Estimation Approach to Depth-aware Video Panoptic Segmentation ( http://arxiv.org/abs/2210.07577v1 )

ライセンス: Link先を確認
Andra Petrovai and Sergiu Nedevschi(参考訳) 深度対応ビデオパノプティックセグメンテーションは、3Dポイントをセマンティッククラスと時間的に一貫したインスタンス識別子で拡張するビデオシーケンスからパノプティック3Dポイントクラウドを復元する逆投影問題に取り組む。 本稿では,単眼深度推定とビデオパニックセグメンテーションを行うマルチタスクネットワークを用いた新しい解を提案する。 深度と画像のセグメンテーションの両方に対する基底的真理ラベルの取得は、比較的コストがかかるため、自己教師あり単眼深度推定と擬似教師付き学習によるラベルなし映像列のパワーをビデオパオプティックセグメンテーションに活用する。 深度予測をさらに改善するため、トレーニング信号の破損を回避するために、パン光学誘導深度損失と、物体を動かすための新しいパン光学マスキング方式を導入する。 Cityscapes-DVPSとSemKITTI-DVPSデータセットの大規模な実験により、提案した改善による我々のモデルが、競争結果と高速な推論速度を達成することを示した。

Depth-aware video panoptic segmentation tackles the inverse projection problem of restoring panoptic 3D point clouds from video sequences, where the 3D points are augmented with semantic classes and temporally consistent instance identifiers. We propose a novel solution with a multi-task network that performs monocular depth estimation and video panoptic segmentation. Since acquiring ground truth labels for both depth and image segmentation has a relatively large cost, we leverage the power of unlabeled video sequences with self-supervised monocular depth estimation and semi-supervised learning from pseudo-labels for video panoptic segmentation. To further improve the depth prediction, we introduce panoptic-guided depth losses and a novel panoptic masking scheme for moving objects to avoid corrupting the training signal. Extensive experiments on the Cityscapes-DVPS and SemKITTI-DVPS datasets demonstrate that our model with the proposed improvements achieves competitive results and fast inference speed.
翻訳日:2022-10-17 16:51:03 公開日:2022-10-14
# Patch Coplanarity, Geometric Consistency, Adaptive Pixel Smpling を用いたDeep PatchMatch MVS

Deep PatchMatch MVS with Learned Patch Coplanarity, Geometric Consistency and Adaptive Pixel Sampling ( http://arxiv.org/abs/2210.07582v1 )

ライセンス: Link先を確認
Jae Yong Lee, Chuhang Zou, Derek Hoiem(参考訳) マルチビューステレオ(MVS)における最近の研究は、学習可能な測光スコアと正則化をPatchMatchベースの最適化と組み合わせて、深度、正規度、可視性のピクセルワイドな推定を実現している。 しかし、非学習ベースの手法は、幾何的整合性制約と高解像度で多くのビューを最適化する能力によって、スパースビューの大きいシーンでは依然としてパフォーマンスが向上している。 本稿では,パッチのコプラナリティを学習することで測光スコアを改善するための学習に基づくアプローチを構築し,再投影誤差と組み合わせることができるスケールド測光コストを学習することで幾何的整合性を促進する。 また,より広い視野と大きなエンコーダでより大きな解像度でのトレーニングを可能にするため,メモリ削減のための適応的な画素サンプリング戦略を提案する。 これらの修正により、挑戦的なETH3Dベンチマークの精度と完全性が6-15%向上し、広く使われている最先端の非学習アプローチであるACMMやACMPよりも高いF1性能が得られる。

Recent work in multi-view stereo (MVS) combines learnable photometric scores and regularization with PatchMatch-based optimization to achieve robust pixelwise estimates of depth, normals, and visibility. However, non-learning based methods still outperform for large scenes with sparse views, in part due to use of geometric consistency constraints and ability to optimize over many views at high resolution. In this paper, we build on learning-based approaches to improve photometric scores by learning patch coplanarity and encourage geometric consistency by learning a scaled photometric cost that can be combined with reprojection error. We also propose an adaptive pixel sampling strategy for candidate propagation that reduces memory to enable training on larger resolution with more views and a larger encoder. These modifications lead to 6-15% gains in accuracy and completeness on the challenging ETH3D benchmark, resulting in higher F1 performance than the widely used state-of-the-art non-learning approaches ACMM and ACMP.
翻訳日:2022-10-17 16:50:42 公開日:2022-10-14
# データ拡張としてのスタイル伝達:名前付きエンティティ認識の事例研究

Style Transfer as Data Augmentation: A Case Study on Named Entity Recognition ( http://arxiv.org/abs/2210.07916v1 )

ライセンス: Link先を確認
Shuguang Chen, Leonardo Neves, Thamar Solorio(参考訳) 本研究では,英語における名前付きエンティティ認識タスクを事例研究として,低リソースシナリオにおけるトレーニングデータのサイズと多様性を向上させるためのデータ拡張手法として,スタイル転送を検討する。 本稿では,スタイル関連属性を変更して学習用合成データを生成することにより,高リソースドメインから低リソースドメインへテキストを効果的に変換する新しい手法を提案する。 さらに,制約付き復号アルゴリズムをデータ選択のためのキー成分のセットとともに設計し,有効かつコヒーレントなデータの生成を保証する。 異なるデータ構造下での5つの異なるドメインペアの実験と解析は、我々のアプローチが現在の最先端データ拡張手法と比較して、結果を大幅に改善できることを示した。 我々のアプローチはデータの不足に対する実用的な解決策であり、他のNLPタスクに適用できることを期待しています。

In this work, we take the named entity recognition task in the English language as a case study and explore style transfer as a data augmentation method to increase the size and diversity of training data in low-resource scenarios. We propose a new method to effectively transform the text from a high-resource domain to a low-resource domain by changing its style-related attributes to generate synthetic data for training. Moreover, we design a constrained decoding algorithm along with a set of key ingredients for data selection to guarantee the generation of valid and coherent data. Experiments and analysis on five different domain pairs under different data regimes demonstrate that our approach can significantly improve results compared to current state-of-the-art data augmentation methods. Our approach is a practical solution to data scarcity, and we expect it to be applicable to other NLP tasks.
翻訳日:2022-10-17 16:45:00 公開日:2022-10-14
# MiQA: メタフォリカルな質問に対する推論のベンチマーク

MiQA: A Benchmark for Inference on Metaphorical Questions ( http://arxiv.org/abs/2210.07993v1 )

ライセンス: Link先を確認
Iulia-Maria Comsa, Julian Martin Eisenschlos, Srini Narayanan(参考訳) 本稿では,従来のメタファを推論する大規模言語モデルの能力を評価するベンチマークを提案する。 我々のベンチマークでは、メタファ検出とコモンセンス推論の分離されたトピックを単一のタスクに組み合わせ、リテラルとメタファのレジスタを正確に選択することで推論を行うモデルを必要とする。 本稿では,二分選択タスクにおける最先端の事前学習モデルの性能について検討し,小型モデルと超大型モデルとの大きな相違点を見出した。 また、生成環境で最大のモデルを分析し、人間のパフォーマンスに近づいているが、注意深いマルチショットプロンプトが必要であることを発見した。

We propose a benchmark to assess the capability of large language models to reason with conventional metaphors. Our benchmark combines the previously isolated topics of metaphor detection and commonsense reasoning into a single task that requires a model to make inferences by accurately selecting between the literal and metaphorical register. We examine the performance of state-of-the-art pre-trained models on binary-choice tasks and find a large discrepancy between the performance of small and very large models, going from chance to near-human level. We also analyse the largest model in a generative setting and find that although human performance is approached, careful multiple-shot prompting is required.
翻訳日:2022-10-17 16:44:46 公開日:2022-10-14
# 結合疎水性促進と冗長化によるニューラルネットワーク圧縮

Neural Network Compression by Joint Sparsity Promotion and Redundancy Reduction ( http://arxiv.org/abs/2210.07451v1 )

ライセンス: Link先を確認
Tariq M. Khan, Syed S. Naqvi, Antonio Robles-Kelly, and Erik Meijering(参考訳) 畳み込みニューラルネットワークモデルの圧縮は、最近pruningアプローチに支配されている。 以前の作品のクラスは、ネットワーク圧縮を達成するために重要でないフィルタを刈り取ることだけに焦点を当てている。 もう1つの重要な方向は、疎結合を誘発する制約の設計である。 本稿では,冗長フィルタを悪用し,分散促進によるネットワーク学習全体の効果を最小化する複合制約に基づく新しい学習手法を提案する。 また,疑似ノルムに基づくスパーシティ誘導制約を用いた先行研究とは対照的に,我々のフレームワークにおける勾配カウントに基づくスパーススキームを提案する。 いくつかのピクセルワイドセグメンテーションベンチマークによるテストでは、テストフェーズにおけるネットワークのニューロン数とメモリフットプリントが、性能に影響を与えずに大幅に減少することが示された。 MobileNetV3とUNetは2つのよく知られたアーキテクチャであり、提案されたスキームをテストするために使われている。 ネットワーク圧縮方式はパラメータを削減できるだけでなく,すでに最適化されたアーキテクチャであるmobilenetv3と比較して性能が向上する。

Compression of convolutional neural network models has recently been dominated by pruning approaches. A class of previous works focuses solely on pruning the unimportant filters to achieve network compression. Another important direction is the design of sparsity-inducing constraints which has also been explored in isolation. This paper presents a novel training scheme based on composite constraints that prune redundant filters and minimize their effect on overall network learning via sparsity promotion. Also, as opposed to prior works that employ pseudo-norm-based sparsity-inducing constraints, we propose a sparse scheme based on gradient counting in our framework. Our tests on several pixel-wise segmentation benchmarks show that the number of neurons and the memory footprint of networks in the test phase are significantly reduced without affecting performance. MobileNetV3 and UNet, two well-known architectures, are used to test the proposed scheme. Our network compression method not only results in reduced parameters but also achieves improved performance compared to MobileNetv3, which is an already optimized architecture.
翻訳日:2022-10-17 16:41:48 公開日:2022-10-14
# フレーズ表現検索による名前付きエンティティ認識データセットの自動生成

Automatic Creation of Named Entity Recognition Datasets by Querying Phrase Representations ( http://arxiv.org/abs/2210.07586v1 )

ライセンス: Link先を確認
Hyunjae Kim, Jaehyo Yoo, Seunghyun Yoon, Jaewoo Kang(参考訳) 殆どの弱い教師付き名前付きエンティティ認識(ner)モデルは専門家が提供したドメイン固有辞書に依存している。 このアプローチは辞書が存在しない多くのドメインでは実現不可能である。 最近の研究では、句検索モデルがwikipediaから抽出されたエンティティを持つ疑似辞書を構築するのに使われたが、これらの辞書は、レトリバーが珍しいものよりも人気の高いエンティティを検索する可能性が高いため、カバーが限られていることが多い。 本研究では,高被覆辞書を効率的に作成するためのフレーズ埋め込み検索を提案する。 具体的には、自然言語クエリを句表現に再構成することで、レトリバーは様々な実体が密集した空間を探索することができる。 さらに, 単語埋め込み検索を用いて高被覆辞書を用いたNERデータセットを生成する新しいフレームワークであるHighGENを提案する。 HighGENは、候補句の埋め込みとターゲットエンティティタイプとの距離に基づいて弱いラベルを生成し、ハイカバレッジ辞書のノイズを低減する。 6つの NER ベンチマークにおいて,HyGEN と現在の弱教師付き NER モデルを比較し,その優位性を実証した。

Most weakly supervised named entity recognition (NER) models rely on domain-specific dictionaries provided by experts. This approach is infeasible in many domains where dictionaries do not exist. While a phrase retrieval model was used to construct pseudo-dictionaries with entities retrieved from Wikipedia automatically in a recent study, these dictionaries often have limited coverage because the retriever is likely to retrieve popular entities rather than rare ones. In this study, a phrase embedding search to efficiently create high-coverage dictionaries is presented. Specifically, the reformulation of natural language queries into phrase representations allows the retriever to search a space densely populated with various entities. In addition, we present a novel framework, HighGEN, that generates NER datasets with high-coverage dictionaries obtained using the phrase embedding search. HighGEN generates weak labels based on the distance between the embeddings of a candidate phrase and target entity type to reduce the noise in high-coverage dictionaries. We compare HighGEN with current weakly supervised NER models on six NER benchmarks and demonstrate the superiority of our models.
翻訳日:2022-10-17 16:36:10 公開日:2022-10-14
# ConEntail: コントラスト事前学習によるUniversal ZeroとFew Shot分類のための拡張型フレームワーク

ConEntail: An Entailment-based Framework for Universal Zero and Few Shot Classification with Supervised Contrastive Pretraining ( http://arxiv.org/abs/2210.07587v1 )

ライセンス: Link先を確認
Haoran Zhang, Aysa Xuemo Fan and Rui Zhang(参考訳) 普遍的な分類モデルは、ゼロと少ないショット設定の両方で多様な分類タスクに一般化することを目的としている。 普遍的分類への有望な方法は、不均一なデータ形式をデータセットに依存しない「メタタスク」にキャストし、複合したメタデータセット上でモデルを事前トレーニングすることである。 既存の作業は、分類タスクの特定のサブセットで事前訓練されるか、分類データと生成データの両方で事前訓練されるが、モデルは普遍性と信頼性においてその潜在能力を達成できなかった。 また、大量の注釈付きデータを未公開のまま残している。 これらのギャップを埋めるため,我々は,教師付きコントラストプリトレーニングを用いたユニバーサルゼロとショット分類のための新しいフレームワークconentailを提案する。 分類のための統一メタタスクは、ネストエンターメントに基づいています。 これは「文aは[sentence bはラベルc]を包含する」と解釈できる。 この定式化により、57の注釈付き分類データセットを教師付きコントラスト事前学習と普遍的評価に利用できる。 このようにして、conentailはモデル(1)が異なるデータセットから知識を吸収し、(2)より事前訓練されたデータで一貫性のあるパフォーマンスを得るのに役立つ。 実験では,同じデータセット上で事前学習した識別モデルと生成モデルを比較した。 その結果、既存の注釈付きデータを効果的に活用し、ゼロ(平均9.4%改善)とショット設定(平均3.5%改善)の両方でベースラインを一貫して上回っていることが確認された。

A universal classification model aims to generalize to diverse classification tasks in both zero and few shot settings. A promising way toward universal classification is to cast heterogeneous data formats into a dataset-agnostic "meta-task" (e.g., textual entailment, question answering) then pretrain a model on the combined meta dataset. The existing work is either pretrained on specific subsets of classification tasks, or pretrained on both classification and generation data but the model could not fulfill its potential in universality and reliability. These also leave a massive amount of annotated data under-exploited. To fill these gaps, we propose ConEntail, a new framework for universal zero and few shot classification with supervised contrastive pretraining. Our unified meta-task for classification is based on nested entailment. It can be interpreted as "Does sentence a entails [sentence b entails label c]". This formulation enables us to make better use of 57 annotated classification datasets for supervised contrastive pretraining and universal evaluation. In this way, ConEntail helps the model (1) absorb knowledge from different datasets, and (2) gain consistent performance gain with more pretraining data. In experiments, we compare our model with discriminative and generative models pretrained on the same dataset. The results confirm that our framework effectively exploits existing annotated data and consistently outperforms baselines in both zero (9.4% average improvement) and few shot settings (3.5% average improvement).
翻訳日:2022-10-17 16:35:54 公開日:2022-10-14
# 自然言語処理における難読化の現状

The State of Profanity Obfuscation in Natural Language Processing ( http://arxiv.org/abs/2210.07595v1 )

ライセンス: Link先を確認
Debora Nozza, Dirk Hovy(参考訳) ヘイトスピーチの研究は、科学出版物における無礼で有害な例を考慮に入れた。 これは、不明瞭な敬称の有無など、様々な問題を引き起こす。 科学はそれを正確に開示する必要があるが、ヘイトスピーチの無秩序な拡散は読者にとって有害であり、インターネットの頻度を増大させる。 出版物のプロフェッショナルな外観を維持しながら、難解な誇大広告は、特に非ネイティブな話者にとって、コンテンツの評価を困難にしている。 150のACL論文を調査したところ、難読化は通常英語に使われているが、他の言語には使われていないことがわかりました。 難読化の問題について議論し, profanity obfuscation プロセスを標準化する python モジュールを備えた prof と呼ばれる多言語コミュニティリソースを提案する。 PrOfは、ヘイトスピーチを言語によらずアクセスしやすくする科学出版政策を支援することができると考えている。

Work on hate speech has made the consideration of rude and harmful examples in scientific publications inevitable. This raises various problems, such as whether or not to obscure profanities. While science must accurately disclose what it does, the unwarranted spread of hate speech is harmful to readers, and increases its internet frequency. While maintaining publications' professional appearance, obfuscating profanities makes it challenging to evaluate the content, especially for non-native speakers. Surveying 150 ACL papers, we discovered that obfuscation is usually employed for English but not other languages, and even so quite uneven. We discuss the problems with obfuscation and suggest a multilingual community resource called PrOf that has a Python module to standardize profanity obfuscation processes. We believe PrOf can help scientific publication policies to make hate speech work accessible and comparable, irrespective of language.
翻訳日:2022-10-17 16:35:25 公開日:2022-10-14
# 参照解決のための効率的なドメイン適応を可能にするメンションアノテーション

Mention Annotations Alone Enable Efficient Domain Adaptation for Coreference Resolution ( http://arxiv.org/abs/2210.07602v1 )

ライセンス: Link先を確認
Nupoor Gandhi, Anjalie Field, Emma Strubell(参考訳) 共参照解決のためのニューラルネットワークモデルの最近の進歩は、ベンチマークデータセットの大幅な改善につながったが、これらのモデルを多くのボキャブラリスパンを含む新しいターゲットドメインにうまく移行し、異なるアノテーションスキームを必要とすることは依然として課題である。 ドメイン適応の典型的なアプローチは、ターゲットドメインにおけるコア参照アノテーションの継続的なトレーニングを含むが、それらのアノテーションを取得するのはコストと時間を要する。 本研究では,参照検出の適応が,先行的なリンクではなく,コリファレンスモデルのドメイン適応を成功させる上で重要な要素であることを示す。 時間的アノテーション実験を通じて、注釈だけでは完全なコア参照チェーンのアノテートよりも約2倍高速であることを示す。 これらの知見に基づき、ターゲットドメインのアノテーションのみを参照するコリファレンスモデルを効果的に適用する手法を提案する。 対象領域の参照例で訓練された補助的参照検出目的を用いて,高い参照精度を実現する。 提案手法は,conll-2012 (news/conversation), i2b2/va (medical case notes), a dataset of child welfare case notesの3つの英語コリファレンスデータセットにおいて,新しいアノテーションスキームや辞書へのサンプルおよびタイム効率の高い転送を促進する。 その結果,同量の時間に対してコリファレンスをアノテートするよりも,平均f1が7~14%向上した。

Although, recent advances in neural network models for coreference resolution have led to substantial improvements on benchmark datasets, it remains a challenge to successfully transfer those models to new target domains containing many out-of-vocabulary spans and requiring differing annotation schemes. Typical approaches for domain adaptation involve continued training on coreference annotations in the target domain, but obtaining those annotations is costly and time-consuming. In this work, we show that adapting mention detection is the key component to successful domain adaptation of coreference models, rather than antecedent linking. Through timed annotation experiments, we also show annotating mentions alone is nearly twice as fast as annotating full coreference chains. Based on these insights, we propose a method for effectively adapting coreference models that requires only mention annotations in the target domain. We use an auxiliary mention detection objective trained with mention examples in the target domain resulting in higher mention precision. We demonstrate that our approach facilitates sample- and time-efficient transfer to new annotation schemes and lexicons in extensive evaluation across three English coreference datasets: CoNLL-2012 (news/conversation), i2b2/VA (medical case notes), and a dataset of child welfare case notes. We show that annotating mentions results in 7-14% improvement in average F1 over annotating coreference over an equivalent amount of time.
翻訳日:2022-10-17 16:35:07 公開日:2022-10-14
# 高密度原子:原子上での密結合およびマルチホップコモンセンス知識グラフの構築

Dense-ATOMIC: Construction of Densely-connected and Multi-hop Commonsense Knowledge Graph upon ATOMIC ( http://arxiv.org/abs/2210.07621v1 )

ライセンス: Link先を確認
Xiangqing Shen, Siwei Wu, and Rui Xia(参考訳) ATOMICは大規模なコモンセンス知識グラフ(CSKG)で、日々のif-thenの知識三重項、すなわち {head event, relation, tail event}を含んでいる。 ワンホップのアノテーションは、ATOMICを独立した二部グラフの集合とし、異なる二部グラフのイベント間の多数の欠落したリンクを無視し、結果として知識カバレッジと多部推論の欠点を生じさせた。 これらの問題に対処するために,既存の三重項の集合に基づいて関係予測モデルをトレーニングし,ATOMIC上で欠落したリンクを推測するCSKG補完手法を提案する。 そこで我々は,密結合型マルチホップコモンセンス知識グラフDense-ATOMICを構築した。 注記付き高密度サブグラフによる実験結果から, 原子に対するcskg補完法の有効性が示された。 下流コモンセンス推論タスクの評価は、従来のATOMICに対するDense-ATOMICの利点を証明している。

ATOMIC is a large-scale commonsense knowledge graph (CSKG) containing everyday if-then knowledge triplets, i.e., {head event, relation, tail event}. The one-hop annotation manner made ATOMIC a set of independent bipartite graphs, which ignored the numerous missing links between events in different bipartite graphs and consequently caused shortcomings in knowledge coverage and multi-hop reasoning. To address these issues, we propose a CSKG completion approach by training a relation prediction model based on a set of existing triplets, and infer the missing links on ATOMIC. On this basis, we construct Dense-ATOMIC, a densely-connected and multi-hop commonsense knowledge graph. The experimental results on an annotated dense subgraph demonstrate the effectiveness of our CSKG completion approach upon ATOMIC. The evaluation on a downstream commonsense reasoning task also proves the advantage of Dense-ATOMIC against conventional ATOMIC.
翻訳日:2022-10-17 16:34:30 公開日:2022-10-14
# 言語生成モデルがハームを発生させる: それではどうすればいいのか? 実施可能な調査

Language Generation Models Can Cause Harm: So What Can We Do About It? An Actionable Survey ( http://arxiv.org/abs/2210.07700v1 )

ライセンス: Link先を確認
Sachin Kumar, Vidhisha Balachandran, Lucille Njoo, Antonios Anastasopoulos, Yulia Tsvetkov(参考訳) ヒューマンライクなテキストを生成するための大規模言語モデルの能力の最近の進歩は、ユーザ向けセッティングに採用されつつある。 同時に、これらの改善は、不注意であれ悪意であれ、彼らが導入する社会的危害のリスクに関する熱い議論を引き起こしている。 いくつかの研究はこれらの害の潜在的な原因を特定し、より安全で公平なモデルの開発を通じてその軽減を求めた。 この研究は、害のリスクを列挙するだけでなく、言語生成モデルから潜在的脅威や社会的害に対処するための実践的な方法の調査も提供する。 本稿では,言語モデルリスクに関する先行研究の分類を概説し,言語ジェネレータのさまざまなリスク/ハームを検出し,改善するための戦略の構造化の概要を示す。 本調査は,多種多様な研究の流れを生かして,様々な緩和戦略の背景にあるモチベーション,限界,今後の研究へのオープンな課題を解説し,LM研究者と実践者の両方にとって実践的なガイドとして機能することを目的としている。

Recent advances in the capacity of large language models to generate human-like text have resulted in their increased adoption in user-facing settings. In parallel, these improvements have prompted a heated discourse around the risks of societal harms they introduce, whether inadvertent or malicious. Several studies have identified potential causes of these harms and called for their mitigation via development of safer and fairer models. Going beyond enumerating the risks of harms, this work provides a survey of practical methods for addressing potential threats and societal harms from language generation models. We draw on several prior works' taxonomies of language model risks to present a structured overview of strategies for detecting and ameliorating different kinds of risks/harms of language generators. Bridging diverse strands of research, this survey aims to serve as a practical guide for both LM researchers and practitioners with explanations of motivations behind different mitigation strategies, their limitations, and open problems for future research.
翻訳日:2022-10-17 16:34:13 公開日:2022-10-14
# ニューラルネットワーク出力層の分布に基づく分類の信頼度推定

Confidence estimation of classification based on the distribution of the neural network output layer ( http://arxiv.org/abs/2210.07745v1 )

ライセンス: Link先を確認
Abdel Aziz Taha, Leonhard Hennig, Petr Knoth(参考訳) 実世界の予測モデルの適用を妨げる最も一般的な問題の1つは、一般化の欠如である: ベンチマークで測定されたモデルの正確さは、例えば、実ビジネスの設定において、将来のデータで繰り返される。 予測モデルの信頼性を推定する手法は、比較的少ない。 本稿では,ニューラルネットワークの分類モデルを用いて,このモデルによって生成された特定の予測の不確かさを推定する手法を提案する。 さらに、モデルと信頼レベルが与えられた場合、このモデルによって生成された予測を2つのサブセットに分離する閾値を計算し、そのうちの1つは与えられた信頼レベルを満たす方法を提案する。 他の手法とは対照的に、提案手法は、共通のニューラルネットワークの出力ロジット層上に構築するだけであるため、既存のニューラルネットワークの変更を必要としない。 特に、この方法は、この予測に対応するロジット値の分布に基づいて、特定の予測の信頼性を推定する。 提案手法は, webスクレイピングなどの知識抽出プロセスにおいて,リコールコストの精度を最大化する予測部分集合を同定する手法である。 この手法は, 関係抽出, 名前付きエンティティ認識, 画像分類などの様々なタスクにおいて, 精度の大幅な向上を示すために試験されてきた。

One of the most common problems preventing the application of prediction models in the real world is lack of generalization: The accuracy of models, measured in the benchmark does repeat itself on future data, e.g. in the settings of real business. There is relatively little methods exist that estimate the confidence of prediction models. In this paper, we propose novel methods that, given a neural network classification model, estimate uncertainty of particular predictions generated by this model. Furthermore, we propose a method that, given a model and a confidence level, calculates a threshold that separates prediction generated by this model into two subsets, one of them meets the given confidence level. In contrast to other methods, the proposed methods do not require any changes on existing neural networks, because they simply build on the output logit layer of a common neural network. In particular, the methods infer the confidence of a particular prediction based on the distribution of the logit values corresponding to this prediction. The proposed methods constitute a tool that is recommended for filtering predictions in the process of knowledge extraction, e.g. based on web scrapping, where predictions subsets are identified that maximize the precision on cost of the recall, which is less important due to the availability of data. The method has been tested on different tasks including relation extraction, named entity recognition and image classification to show the significant increase of accuracy achieved.
翻訳日:2022-10-17 16:33:55 公開日:2022-10-14
# コントラスト強化学習によるストーリーテリングのロバスト優先学習

Robust Preference Learning for Storytelling via Contrastive Reinforcement Learning ( http://arxiv.org/abs/2210.07792v1 )

ライセンス: Link先を確認
Louis Castricato, Alexander Havrilla, Shahbuland Matiana, Michael Pieler, Anbang Ye, Ian Yang, Spencer Frazier and Mark Riedl(参考訳) 制御された自動ストーリー生成は、自然言語批判や好みから制約を満たす自然言語ストーリーを生成しようとする。 ストーリーの好みを制御する既存の方法は、労働集約的でしばしば一貫性のないプロンプトエンジニアリングを利用する。 また、所望の属性に対して注釈付きデータセットを必要とするロジット操作メソッドを使用することもできる。 これらの問題に対処するため、我々はまずコントラストのあるbi-encoderモデルを訓練し、ストーリーをcarpと呼ばれる人間の批判に対応するために汎用的な選好モデルを構築した。 これは後に強化学習を通じて生成言語モデルを微調整するための報酬関数として使用される。 しかし、対照的な報酬モデルで生成言語モデルを微調整するだけでは、常にユーザーの好みに合ったストーリーを生成できるストーリー生成システムが得られるとは限らない。 ストーリー生成の堅牢性を高めるために,プロンプトラーニング手法を用いて,コントラスト報酬モデルをさらに微調整する。 人間の参加者による研究は、全システム、アブレーション、および2つのベースラインからの世代を比較して行われます。 完全な微調整パイプラインは,LLM 20x よりも大きめのストーリージェネレータやロジットベースの手法よりも好まれることを示す。 これは、一般的な人間の嗜好モデリングのためのコントラスト学習の使用を動機付けている。

Controlled automated story generation seeks to generate natural language stories satisfying constraints from natural language critiques or preferences. Existing methods to control for story preference utilize prompt engineering which is labor intensive and often inconsistent. They may also use logit-manipulation methods which require annotated datasets to exist for the desired attributes. To address these issues, we first train a contrastive bi-encoder model to align stories with corresponding human critiques, named CARP, building a general purpose preference model. This is subsequently used as a reward function to fine-tune a generative language model via reinforcement learning. However, simply fine-tuning a generative language model with a contrastive reward model does not always reliably result in a story generation system capable of generating stories that meet user preferences. To increase story generation robustness we further fine-tune the contrastive reward model using a prompt-learning technique. A human participant study is then conducted comparing generations from our full system, ablations, and two baselines. We show that the full fine-tuning pipeline results in a story generator preferred over a LLM 20x as large as well as logit-based methods. This motivates the use of contrastive learning for general purpose human preference modeling.
翻訳日:2022-10-17 16:33:33 公開日:2022-10-14
# udヘブライ語木バンクとクロスドメイン解析の第2波

A Second Wave of UD Hebrew Treebanking and Cross-Domain Parsing ( http://arxiv.org/abs/2210.07873v1 )

ライセンス: Link先を確認
Amir Zeldes, Nick Howell, Noam Ordan and Yifat Ben Moshe(参考訳) セグメンテーション、タグ付け、構文解析などの基礎的ヘブライNLPタスクは、ヘブライツリーバンク(HTB, Sima'an et al. 2001)の様々なバージョンに依存している。 しかし、シングルソースのnewswireコーパスであるhtbのデータは現在30年以上経っており、web上の同時代のヘブライ語の多くの側面をカバーしていない。 本稿では,ヘブライ語ウィキペディアから選択したさまざまなトピックから,自由なヘブライ語のUDツリーバンクを提案する。 コーパスの導入とアノテーションの品質評価に加えて、成長した(Guillaume, 2021)に基づいて自動検証ツールをデプロイし、ヘブライ語で最初のクロスドメイン解析実験を行った。 我々は、最新の言語モデリングと既存のトランスフォーマーベースのアプローチの漸進的な改善を組み合わせて、UD NLPタスクにおける新しい最先端(SOTA)結果を得る。 私たちはまた、新しいコーパスから、ud htbマッチングアノテーションスキームのアップデートを新しいバージョンでリリースします。

Foundational Hebrew NLP tasks such as segmentation, tagging and parsing, have relied to date on various versions of the Hebrew Treebank (HTB, Sima'an et al. 2001). However, the data in HTB, a single-source newswire corpus, is now over 30 years old, and does not cover many aspects of contemporary Hebrew on the web. This paper presents a new, freely available UD treebank of Hebrew stratified from a range of topics selected from Hebrew Wikipedia. In addition to introducing the corpus and evaluating the quality of its annotations, we deploy automatic validation tools based on grew (Guillaume, 2021), and conduct the first cross domain parsing experiments in Hebrew. We obtain new state-of-the-art (SOTA) results on UD NLP tasks, using a combination of the latest language modelling and some incremental improvements to existing transformer based approaches. We also release a new version of the UD HTB matching annotation scheme updates from our new corpus.
翻訳日:2022-10-17 16:33:13 公開日:2022-10-14
# HashFormers: 語彙に依存しない事前学習型トランス

HashFormers: Towards Vocabulary-independent Pre-trained Transformers ( http://arxiv.org/abs/2210.07904v1 )

ライセンス: Link先を確認
Huiyin Xue and Nikolaos Aletras(参考訳) Transformerベースの事前訓練言語モデルは語彙に依存し、デフォルトで各トークンを対応する埋め込みにマッピングする。 この一対一のマッピングは、多くのメモリ(つまり数百万のパラメータ)を占有し、語彙の大きさで線形に成長する埋め込み行列へと結果をもたらす。 デバイス上のトランスフォーマーに関する以前の研究は、形態情報に対する局所性に敏感なハッシュを用いて行列を埋め込むことなく、動的にトークン埋め込みを生成する。 これらの埋め込みはその後、テキスト分類のためのトランスフォーマー層にフィードされる。 ただし、これらの方法は事前訓練されていない。 この一連の研究から着想を得たHashFormersは、無制限な語彙(すなわちコーパス内の全てのトークン)をサポートする新しい語彙に依存しない事前学習型トランスフォーマーのファミリーであり、かなり小さな固定サイズの埋め込み行列を与える。 まず、個々のトークンを埋め込みにバケットする計算的に安価なハッシュ関数を導入する。 また,組込み行列を必要としない3つの変種を提案し,メモリ要求をさらに削減した。 複数のテキスト分類タスクで微調整した場合に同等の予測性能を達成しつつ、標準の事前学習トランスフォーマーに比べてハッシュフォーマーの方がメモリ効率が良いことを実証的に実証した。 例えば、我々の最も効率的なhashformer変種は、12.3-38mのstate-of-the-artモデルと比較して埋め込みを表現するために99.1kのパラメータしか使っていない(glue上で0.4\%)。

Transformer-based pre-trained language models are vocabulary-dependent, mapping by default each token to its corresponding embedding. This one-to-one mapping results into embedding matrices that occupy a lot of memory (i.e. millions of parameters) and grow linearly with the size of the vocabulary. Previous work on on-device transformers dynamically generate token embeddings on-the-fly without embedding matrices using locality-sensitive hashing over morphological information. These embeddings are subsequently fed into transformer layers for text classification. However, these methods are not pre-trained. Inspired by this line of work, we propose HashFormers, a new family of vocabulary-independent pre-trained transformers that support an unlimited vocabulary (i.e. all possible tokens in a corpus) given a substantially smaller fixed-sized embedding matrix. We achieve this by first introducing computationally cheap hashing functions that bucket together individual tokens to embeddings. We also propose three variants that do not require an embedding matrix at all, further reducing the memory requirements. We empirically demonstrate that HashFormers are more memory efficient compared to standard pre-trained transformers while achieving comparable predictive performance when fine-tuned on multiple text classification tasks. For example, our most efficient HashFormer variant has a negligible performance degradation (0.4\% on GLUE) using only 99.1K parameters for representing the embeddings compared to 12.3-38M parameters of state-of-the-art models.
翻訳日:2022-10-17 16:32:56 公開日:2022-10-14
# オフライン強化学習による効果的な誤情報発見のための適応的クレーム書き換え

Adaptable Claim Rewriting with Offline Reinforcement Learning for Effective Misinformation Discovery ( http://arxiv.org/abs/2210.07467v1 )

ライセンス: Link先を確認
Ashkan Kazemi, Artem Abzaliev, Naihao Deng, Rui Hou, Davis Liang, Scott A. Hale, Ver\'onica P\'erez-Rosas, Rada Mihalcea(参考訳) 本稿では,ファクトチェッカーが既知の誤情報クレームの検索クエリを定式化し,複数のソーシャルメディアプラットフォームを効果的に検索するシステムを提案する。 クレームを含むクエリに対する編集動作(例えば、単語を同義語に置き換え、動詞の時制を現在の単純に変更)がオフライン強化学習によって自動的に学習される適応可能な書き換え戦略を導入する。 具体的には,平均精度などのクエリ検索指標を最大化する一連の編集動作を,決定トランスフォーマティブを用いて学習する。 いくつかの実験を通して,本手法は,人間の読みやすい動作シーケンスを編集しながら,クエリの有効性を最大42\%向上させることで,システムの使用や説明が容易になることを示す。

We propose a novel system to help fact-checkers formulate search queries for known misinformation claims and effectively search across multiple social media platforms. We introduce an adaptable rewriting strategy, where editing actions (e.g., swap a word with its synonym; change verb tense into present simple) for queries containing claims are automatically learned through offline reinforcement learning. Specifically, we use a decision transformer to learn a sequence of editing actions that maximize query retrieval metrics such as mean average precision. Through several experiments, we show that our approach can increase the effectiveness of the queries by up to 42\% relatively, while producing editing action sequences that are human readable, thus making the system easy to use and explain.
翻訳日:2022-10-17 16:26:25 公開日:2022-10-14
# 言語モデルが意味を学ぶときの透明性

Transparency Helps Reveal When Language Models Learn Meaning ( http://arxiv.org/abs/2210.07468v1 )

ライセンス: Link先を確認
Zhaofeng Wu, William Merrill, Hao Peng, Iz Beltagy, Noah A. Smith(参考訳) 現在、多くのNLPシステムは、大量の原文の教師なし目的を最適化するために訓練された言語モデルから構築されている。 そのような手続きはどのような条件で意味を得るのか? 合成データを用いた体系的な実験により、すべての表現が文脈に依存しない表記(すなわち、強い透明性を持つ言語)を持つ言語では、自己回帰型およびマスキング型言語モデルの両方が、表現間の意味的関係をエミュレートすることに成功した。 しかし、表記が文脈に依存しないように変更されると、この機能は劣化する。 自然言語に目を向けると、特定の現象(参照不透明性)を用いた実験が、現在の言語モデルが自然言語セマンティクスをうまく表現していないという証拠を増やしています。 この失敗は、自然言語形式意味マッピングの文脈依存的性質に関係していることを示す。

Many current NLP systems are built from language models trained to optimize unsupervised objectives on large amounts of raw text. Under what conditions might such a procedure acquire meaning? Our systematic experiments with synthetic data reveal that, with languages where all expressions have context-independent denotations (i.e., languages with strong transparency), both autoregressive and masked language models successfully learn to emulate semantic relations between expressions. However, when denotations are changed to be context-dependent with the language otherwise unmodified, this ability degrades. Turning to natural language, our experiments with a specific phenomenon -- referential opacity -- add to the growing body of evidence that current language models do not well-represent natural language semantics. We show this failure relates to the context-dependent nature of natural language form-meaning mappings.
翻訳日:2022-10-17 16:26:10 公開日:2022-10-14
# stylex: 語彙に基づく人間の知覚によるスタイルの説明

StyLEx: Explaining Styles with Lexicon-Based Human Perception ( http://arxiv.org/abs/2210.07469v1 )

ライセンス: Link先を確認
Shirley Anugrah Hayati, Kyumin Park, Dheeraj Rajagopal, Lyle Ungar, Dongyeop Kang(参考訳) スタイルは、人間が自分自身を表現し、他人とコミュニケーションする方法において重要な役割を果たす。 大きな事前学習された言語モデルは、様々なスタイルの分類タスクで印象的な結果を生み出す。 しかし、しばしばドメイン固有の単語を学習して予測する。 このモデルによって学習された誤った単語の重要性は、言語スタイルに対する人間の認識と一致しない曖昧なトークンレベルの説明につながることが多い。 この課題に取り組むために,スタイリスティックな語彙の注釈付き人間の知覚を学習し,これらのスタイリスティックな単語を文のスタイルを予測する追加情報として用いるモデルstylexを提案する。 実験の結果,stylexは原文と外文の両方の文レベルの予測性能を犠牲にすることなく,人間のようなスタイル的語彙的説明を提供できることがわかった。 Stylexによる説明は、人間のアノテーションと比較して、より満足度が高く、妥当性が高く、また既存の広く使われているサリエンシベースラインに比べて、人間の判断もより理解しやすい。

Style plays a significant role in how humans express themselves and communicate with others. Large pre-trained language models produce impressive results on various style classification tasks. However, they often learn spurious domain-specific words to make predictions. This incorrect word importance learned by the model often leads to ambiguous token-level explanations which do not align with human perception of linguistic styles. To tackle this challenge, we introduce StyLEx, a model that learns annotated human perceptions of stylistic lexica and uses these stylistic words as additional information for predicting the style of a sentence. Our experiments show that StyLEx can provide human-like stylistic lexical explanations without sacrificing the performance of sentence-level style prediction on both original and out-of-domain datasets. Explanations from StyLEx show higher sufficiency, and plausibility when compared to human annotations, and are also more understandable by human judges compared to the existing widely-used saliency baseline.
翻訳日:2022-10-17 16:25:53 公開日:2022-10-14
# 「ジョンは50歳です、彼の息子は65歳ですか?」 NLPモデルによる可能性理解の評価

"John is 50 years old, can his son be 65?" Evaluating NLP Models' Understanding of Feasibility ( http://arxiv.org/abs/2210.07471v1 )

ライセンス: Link先を確認
Himanshu Gupta, Neeraj Varshney, Swaroop Mishra, Kuntal Kumar Pal, Saurabh Arjun Sawant, Kevin Scaria, Siddharth Goyal, Chitta Baral(参考訳) 現在のNLP研究では、大規模言語モデルとその能力が広く議論されている。 最近の研究でもこれらのモデルの顕著な失敗が報告されている。 これらの失敗例は複雑な推論能力を含むことが多い。 この研究は、アクション(またはその効果)が実現可能かどうかを推論する、単純な常識能力に焦点を当てている。 本稿では,二分分類(BCQ)と複数選択質問(MCQ)を含む質問応答データセットであるFeasibilityQAを紹介する。 GPT-3のような最先端モデルでさえ、実現可能性の問題に正しく答えることに苦慮していることを示す。 特に (MCQ, BCQ) の質問では, GPT-3 は0ショット設定でそれぞれ19%, 62%, (25%, 64%) の精度を達成している。 また、質問に答えるために必要な関連する知識ステートメントを提供することでモデルを評価し、追加の知識がパフォーマンスの7%向上につながることを確認しました。 これらの結果は,行動実現可能性に関する共通知識が GPT-3 にどの程度エンコードされているか,モデルがどの程度うまく理解できるかを疑問に思う。

In current NLP research, large-scale language models and their abilities are widely being discussed. Some recent works have also found notable failures of these models. Often these failure examples involve complex reasoning abilities. This work focuses on a simple commonsense ability, reasoning about when an action (or its effect) is feasible. We introduce FeasibilityQA, a question-answering dataset involving binary classification (BCQ) and multi-choice multi-correct questions (MCQ) that test understanding of feasibility. We show that even state-of-the-art models such as GPT-3 struggle to answer the feasibility questions correctly. Specifically, on (MCQ, BCQ) questions, GPT-3 achieves accuracy of just (19%, 62%) and (25%, 64%) in zero-shot and few-shot settings, respectively. We also evaluate models by providing relevant knowledge statements required to answer the question and find that the additional knowledge leads to a 7% gain in performance, but the overall performance still remains low. These results make one wonder how much commonsense knowledge about action feasibility is encoded in GPT-3 and how well the model can reason about it.
翻訳日:2022-10-17 16:25:37 公開日:2022-10-14
# MetaFill: 異種情報ネットワーク上でのメタパス生成のためのテキスト入力

MetaFill: Text Infilling for Meta-Path Generation on Heterogeneous Information Networks ( http://arxiv.org/abs/2210.07488v1 )

ライセンス: Link先を確認
Zequn Liu, Kefei Duan, Junwei Yang, Hanwen Xu, Ming Zhang, Sheng Wang(参考訳) Heterogeneous Information Network (HIN) は、複数のエッジタイプとノードタイプを含む複雑なネットワークを研究するために不可欠である。 ノードタイプとエッジタイプのシーケンスであるmeta-pathはhinを埋め込むためのコアテクニックである。 メタパスを手動でキュレートするのは時間を要するため、自動メタパス生成アプローチを開発する必要がある。 既存のメタパス生成アプローチでは、ノード名やエッジタイプ名など、HINの豊富なテキスト情報を十分に活用することはできない。 この問題に対処するため,メタパス生成のためのテキスト埋込型アプローチであるMetaFillを提案する。 MetaFillのキーとなる考え方は、メタパス識別問題を単語列埋め込み問題として定式化し、事前学習言語モデル(PLM)によって前進させることである。 2つの実世界のhinデータセットにおけるリンク予測とノード分類の両方においてメタパスを活用しない既存のメタパス生成法とグラフ埋め込み法に対するメタフィルの優れた性能を観察した。 さらに,既存の手法ではメタパスを生成できないゼロショット設定において,metafillがエッジを正確に分類できることを実証した。 MetaFillはPLMを利用してグラフ埋め込みのためのメタパスを生成し、グラフ解析における言語モデルアプリケーションのための新たな道を開く。

Heterogeneous Information Network (HIN) is essential to study complicated networks containing multiple edge types and node types. Meta-path, a sequence of node types and edge types, is the core technique to embed HINs. Since manually curating meta-paths is time-consuming, there is a pressing need to develop automated meta-path generation approaches. Existing meta-path generation approaches cannot fully exploit the rich textual information in HINs, such as node names and edge type names. To address this problem, we propose MetaFill, a text-infilling-based approach for meta-path generation. The key idea of MetaFill is to formulate meta-path identification problem as a word sequence infilling problem, which can be advanced by Pretrained Language Models (PLMs). We observed the superior performance of MetaFill against existing meta-path generation methods and graph embedding methods that do not leverage meta-paths in both link prediction and node classification on two real-world HIN datasets. We further demonstrated how MetaFill can accurately classify edges in the zero-shot setting, where existing approaches cannot generate any meta-paths. MetaFill exploits PLMs to generate meta-paths for graph embedding, opening up new avenues for language model applications in graph analysis.
翻訳日:2022-10-17 16:25:17 公開日:2022-10-14
# 非構造化知識の検索による自己適応型名前付きエンティティ認識

Self-Adaptive Named Entity Recognition by Retrieving Unstructured Knowledge ( http://arxiv.org/abs/2210.07523v1 )

ライセンス: Link先を確認
Kosuke Nishida, Naoki Yoshinaga, Kyosuke Nishida(参考訳) 名前付きエンティティ認識(NER)はテキスト(例えば音楽領域のアーティスト)から様々なドメイン固有のエンティティを抽出するのに役立つが、ターゲットドメインで正確なNERを実行するための大量のトレーニングデータや構造化知識ベースを作成するのに費用がかかる。 そこで本研究では,非構造化テキストから外部知識を抽出し,未学習のエンティティの使い方を学習する自己適応型NERを提案する。 NERの有用な知識を検索するために、不確実なエンティティをクエリとして利用し、非構造化知識を検索する効果的な2段階モデルを設計する。 我々のモデルはまず入力中のエンティティを予測し、次にその予測が信頼できないエンティティを見つける。 そして、これらの不確定なエンティティをクエリとして使用して知識を検索し、検索したテキストを元の入力に結合して予測を改訂する。 CrossNERデータセットの実験では、我々のモデルは強いNERBERTベースラインを平均2.45ポイント上回った。

Although named entity recognition (NER) helps us to extract various domain-specific entities from text (e.g., artists in the music domain), it is costly to create a large amount of training data or a structured knowledge base to perform accurate NER in the target domain. Here, we propose self-adaptive NER, where the model retrieves the external knowledge from unstructured text to learn the usage of entities that has not been learned well. To retrieve useful knowledge for NER, we design an effective two-stage model that retrieves unstructured knowledge using uncertain entities as queries. Our model first predicts the entities in the input and then finds the entities of which the prediction is not confident. Then, our model retrieves knowledge by using these uncertain entities as queries and concatenates the retrieved text to the original input to revise the prediction. Experiments on CrossNER datasets demonstrated that our model outperforms the strong NERBERT baseline by 2.45 points on average.
翻訳日:2022-10-17 16:24:56 公開日:2022-10-14
# ユーザ対応のアラビア語性書き直しシステム

The User-Aware Arabic Gender Rewriter ( http://arxiv.org/abs/2210.07538v1 )

ライセンス: Link先を確認
Bashar Alhafni, Ossama Obeid, Nizar Habash(参考訳) 本稿では,2人のユーザを巻き込んだコンテキストでアラビア語の性別を書き換えるユーザ中心のWebベースシステムであるUser-Aware Arabic Gender Rewriterを紹介する。 このシステムは、アラビア語または英語の文を入力とし、ユーザーが求める第一および第二のターゲットの性別を指定できるようにする。 このシステムは、ターゲットユーザの性別嗜好に合うように、アラビア語入力文(または英語入力の場合のアラビア語翻訳)の性別書き換え代替語を出力する。

We introduce the User-Aware Arabic Gender Rewriter, a user-centric web-based system for Arabic gender rewriting in contexts involving two users. The system takes either Arabic or English sentences as input, and provides users with the ability to specify their desired first and/or second person target genders. The system outputs gender rewritten alternatives of the Arabic input sentences (or their Arabic translations in case of English input) to match the target users' gender preferences.
翻訳日:2022-10-17 16:24:38 公開日:2022-10-14
# Q-TOD:クエリ駆動型タスク指向対話システム

Q-TOD: A Query-driven Task-oriented Dialogue System ( http://arxiv.org/abs/2210.07564v1 )

ライセンス: Link先を確認
Xin Tian, Yingzhan Lin, Mengfei Song, Siqi Bao, Fan Wang, Huang He, Shuqi Sun, Hua Wu(参考訳) 既存のパイプライン化されたタスク指向対話システムは、通常、目に見えない領域に適応することが困難である。 本稿では,新しい問合せ型タスク指向対話システム,すなわちQ-TODを紹介する。 対話コンテキストから必要な情報をクエリに抽出し、関連する知識レコードを取得して応答を生成する。 第一に、クエリは自然言語の形式であり、知識ベースのスキーマに限定されないため、ドメイン適応の問題はQ-TODにおいて著しく緩和される。 第2に、このクエリにより、世代からの知識検索を分離できるため、Q-TODは知識ベーススケーラビリティの問題を取り除くことができる。 提案するQ-TODの有効性を評価するために,3つの公開タスク指向対話データセットに対するクエリアノテーションを収集する。 総合的な実験により、Q-TODは強いベースラインを上回っ、これらのデータセット上で新しい最先端のパフォーマンスを確立する。

Existing pipelined task-oriented dialogue systems usually have difficulties adapting to unseen domains, whereas end-to-end systems are plagued by large-scale knowledge bases in practice. In this paper, we introduce a novel query-driven task-oriented dialogue system, namely Q-TOD. The essential information from the dialogue context is extracted into a query, which is further employed to retrieve relevant knowledge records for response generation. Firstly, as the query is in the form of natural language and not confined to the schema of the knowledge base, the issue of domain adaption is alleviated remarkably in Q-TOD. Secondly, as the query enables the decoupling of knowledge retrieval from the generation, Q-TOD gets rid of the issue of knowledge base scalability. To evaluate the effectiveness of the proposed Q-TOD, we collect query annotations for three publicly available task-oriented dialogue datasets. Comprehensive experiments verify that Q-TOD outperforms strong baselines and establishes a new state-of-the-art performance on these datasets.
翻訳日:2022-10-17 16:24:30 公開日:2022-10-14
# ファウショット学習のためのモジュール型プロンプトのマルチタスク事前学習

Multi-Task Pre-Training of Modular Prompt for Few-Shot Learning ( http://arxiv.org/abs/2210.07565v1 )

ライセンス: Link先を確認
Tianxiang Sun, Zhengfu He, Qin Zhu, Xipeng Qiu, Xuanjing Huang(参考訳) プロンプトチューニングは、学習済み言語モデルを下流タスクに適応させるためのパラメータ効率の高いアプローチである。 プロンプトチューニングは、トレーニングデータが十分である場合、フルモデルのチューニングのパフォーマンスに合致することが示されているが、少数の学習設定では苦労する傾向がある。 本稿では,マルチタスク事前学習型モジュール・プロンプト(MP2)を提案する。 MP2は38の中国語タスクで事前訓練された組み合わせ可能なプロンプトのセットである。 下流タスクでは、事前訓練されたプロンプトは選択的に活性化され、結合され、目に見えないタスクに強い構成的一般化をもたらす。 事前学習と微調整のギャップを埋めるため、上流タスクと下流タスクを統一機械読み取り理解タスクに定式化する。 2つの学習パラダイム、すなわち勾配降下とブラックボックスチューニングの下での広範囲な実験は、MP2がプロンプトチューニング、フルモデルチューニング、事前プロンプト事前訓練を数ショット設定で大幅に上回っていることを示している。 さらに,事前学習されたモジュールプロンプトを組み合わせるために8つのパラメータを学習するだけで,mp2が驚くほど高速かつ強い下流タスク適応を達成できることを実証する。

Prompt tuning is a parameter-efficient approach to adapting pre-trained language models to downstream tasks. Although prompt tuning has been shown to match the performance of full model tuning when training data is sufficient, it tends to struggle in few-shot learning settings. In this paper, we present Multi-task Pre-trained Modular Prompt (MP2) to boost prompt tuning for few-shot learning. MP2 is a set of combinable prompts pre-trained on 38 Chinese tasks. On downstream tasks, the pre-trained prompts are selectively activated and combined, leading to strong compositional generalization to unseen tasks. To bridge the gap between pre-training and fine-tuning, we formulate upstream and downstream tasks into a unified machine reading comprehension task. Extensive experiments under two learning paradigms, i.e., gradient descent and black-box tuning, show that MP2 significantly outperforms prompt tuning, full model tuning, and prior prompt pre-training methods in few-shot settings. In addition, we demonstrate that MP2 can achieve surprisingly fast and strong adaptation to downstream tasks by merely learning 8 parameters to combine the pre-trained modular prompts.
翻訳日:2022-10-17 16:24:14 公開日:2022-10-14
# MICO:Commonsense Knowledge Representationのための多言語コントラスト学習フレームワーク

MICO: A Multi-alternative Contrastive Learning Framework for Commonsense Knowledge Representation ( http://arxiv.org/abs/2210.07570v1 )

ライセンス: Link先を確認
Ying Su, Zihao Wang, Tianqing Fang, Hongming Zhang, Yangqiu Song, Tong Zhang(参考訳) commonsense knowledge graph completionやcommonsense question answeringといったcommonsense推論タスクは強力な表現学習を必要とする。 本稿では,コモンセンス知識グラフ(MICO)の多元的コントラスト学習フレームワークであるMICOによるコモンセンス知識表現の学習を提案する。 MICOは、エンティティノード間のコンテキスト相互作用と、マルチオルタナティブ・コントラスト学習との関係によるコモンセンス知識表現を生成する。 micoでは、$(h,r,t)$の知識トリプルの頭と尾のエンティティは、自然言語という形で、2つの関係認識シーケンスペア(前提と代替)に変換される。 micoが生成する意味表現は、表現間の距離スコアを比較するだけで、以下の2つのタスクにメリットがある。 1) ゼロショット・コモンセンス質問応答課題 2)インダクティブコモンセンス知識グラフ作成タスク。 広範な実験により,本手法の有効性が示された。

Commonsense reasoning tasks such as commonsense knowledge graph completion and commonsense question answering require powerful representation learning. In this paper, we propose to learn commonsense knowledge representation by MICO, a Multi-alternative contrastve learning framework on COmmonsense knowledge graphs (MICO). MICO generates the commonsense knowledge representation by contextual interaction between entity nodes and relations with multi-alternative contrastive learning. In MICO, the head and tail entities in an $(h,r,t)$ knowledge triple are converted to two relation-aware sequence pairs (a premise and an alternative) in the form of natural language. Semantic representations generated by MICO can benefit the following two tasks by simply comparing the distance score between the representations: 1) zero-shot commonsense question answering task; 2) inductive commonsense knowledge graph completion task. Extensive experiments show the effectiveness of our method.
翻訳日:2022-10-17 16:23:54 公開日:2022-10-14
# InterFair: 公正な解釈可能な予測のための自然言語フィードバックの回避

InterFair: Debiasing with Natural Language Feedback for Fair Interpretable Predictions ( http://arxiv.org/abs/2210.07440v1 )

ライセンス: Link先を確認
Bodhisattwa Prasad Majumder, Zexue He, Julian McAuley(参考訳) NLPモデルは伝統的に、センシティブな属性(性別や人種など)に関する情報の分離に重点を置いている。 むしろ、有利なデバイアス手法は、盲目的に排除するよりも、説明とともにセンシティブな情報を「公平に」使うべきだと論じている。 このバランスはしばしば主観的であり、アルゴリズムの達成は困難である。 フィードバックの提供を可能にするユーザとの対話的なセットアップによって,タスクのパフォーマンスとバイアス軽減のバランスが,忠実な説明に支えられることを示す。

Debiasing methods in NLP models traditionally focus on isolating information related to a sensitive attribute (like gender or race). We instead argue that a favorable debiasing method should use sensitive information 'fairly,' with explanations, rather than blindly eliminating it. This fair balance is often subjective and can be challenging to achieve algorithmically. We show that an interactive setup with users enabled to provide feedback can achieve a better and fair balance between task performance and bias mitigation, supported by faithful explanations.
翻訳日:2022-10-17 16:15:37 公開日:2022-10-14
# 統一意味表現を用いた多言語単語センスの曖昧化

Multilingual Word Sense Disambiguation with Unified Sense Representation ( http://arxiv.org/abs/2210.07447v1 )

ライセンス: Link先を確認
Ying Su, Hongming Zhang, Yangqiu Song, Tong Zhang(参考訳) キー自然言語処理(NLP)タスクとして、単語感覚の曖昧さ(WSD)は、特定の文脈下での単語の語彙的意味論がいかにうまく理解できるかを評価する。 大規模アノテーションの恩恵を受けた現在のwsdシステムは、教師付き学習と語彙知識を組み合わせることで、英語で印象的なパフォーマンスを達成している。 しかし、このような成功は、限定的なアノテーションしか持たない他の言語では再現が難しい。本稿では、言語間の概念のセットを記述した多言語レキシコン・バベルネットに基づいて、知識の構築と教師付き多言語単語認識不曖昧化(mwsd)システムを提案する。 複数の言語に統一されたセンス表現を構築し、リッチソース言語から貧しい言語へアノテーションを転送することでMWSDのアノテーション不足問題に対処する。 統一されたセンス表現では、MWSDタスクのために複数の言語からのアノテーションを共同で訓練することができる。 semeval-13およびsemeval-15データセットの評価は,本手法の有効性を示す。

As a key natural language processing (NLP) task, word sense disambiguation (WSD) evaluates how well NLP models can understand the lexical semantics of words under specific contexts. Benefited from the large-scale annotation, current WSD systems have achieved impressive performances in English by combining supervised learning with lexical knowledge. However, such success is hard to be replicated in other languages, where we only have limited annotations.In this paper, based on the multilingual lexicon BabelNet describing the same set of concepts across languages, we propose building knowledge and supervised-based Multilingual Word Sense Disambiguation (MWSD) systems. We build unified sense representations for multiple languages and address the annotation scarcity problem for MWSD by transferring annotations from rich-sourced languages to poorer ones. With the unified sense representations, annotations from multiple languages can be jointly trained to benefit the MWSD tasks. Evaluations of SemEval-13 and SemEval-15 datasets demonstrate the effectiveness of our methodology.
翻訳日:2022-10-17 16:15:26 公開日:2022-10-14
# 公正な解釈可能な予測のためのバイアス露光制御

Controlling Bias Exposure for Fair Interpretable Predictions ( http://arxiv.org/abs/2210.07455v1 )

ライセンス: Link先を確認
Zexue He, Yu Wang, Julian McAuley, Bodhisattwa Prasad Majumder(参考訳) NLPモデルのバイアスを減らすための最近の研究は、通常、センシティブな属性(性別や人種など)に関する情報の保護や分離に焦点を当てている。 しかし、センシティブな情報が入力のタスク情報と意味的に絡み合っている場合、例えば、職業において性別情報が予測可能である場合、タスク性能とバイアス軽減との公平なトレードオフは困難である。 既存のアプローチでは、潜在空間からバイアス情報を排除することでこのトレードオフを実行し、必要なバイアスのコントロールを欠いている。 好ましくないデバイアス手法は、それを盲目的に排除するよりも、機密情報(caliskan et al., 2017; sun et al., 2019)を使うべきだと論じている。 本研究は,(1)タスクに有用でない場合,センシティブな情報を無視すること,(2)予測に必要最小限の情報を(ペナルティを負うことなく)使用すること,の予測モデルの信念を調整することにより,新たなデバイアスアルゴリズムを提案する。 2つのテキスト分類タスク(性別の影響)とオープン・エンド・ジェネレーションタスク(人種の影響)の実験結果から,このモデルがデバイアスとタスクパフォーマンスのトレードオフを達成し,デバイアスの有理性を証拠として生み出すことを示す。

Recent work on reducing bias in NLP models usually focuses on protecting or isolating information related to a sensitive attribute (like gender or race). However, when sensitive information is semantically entangled with the task information of the input, e.g., the gender information is predictive for a profession, a fair trade-off between task performance and bias mitigation is difficult to achieve. Existing approaches perform this trade-off by eliminating bias information from the latent space, lacking control over how much bias is necessarily required to be removed. We argue that a favorable debiasing method should use sensitive information 'fairly' rather than blindly eliminating it (Caliskan et al., 2017; Sun et al., 2019). In this work, we provide a novel debiasing algorithm by adjusting the predictive model's belief to (1) ignore the sensitive information if it is not useful for the task; (2) use sensitive information minimally as necessary for the prediction (while also incurring a penalty). Experimental results on two text classification tasks (influenced by gender) and an open-ended generation task (influenced by race) indicate that our model achieves a desirable trade-off between debiasing and task performance along with producing debiased rationales as evidence.
翻訳日:2022-10-17 16:15:07 公開日:2022-10-14
# カテゴリーアノテーションのない音声感情分類器の訓練

Training speech emotion classifier without categorical annotations ( http://arxiv.org/abs/2210.07642v1 )

ライセンス: Link先を確認
Meysam Shamsi, Marie Tahon(参考訳) 感情表現には2つのパラダイム、カテゴリーラベリングと連続空間における次元記述がある。 したがって、感情認識タスクを分類または回帰として扱うことができる。 本研究の目的は,これら2つの表現の関係を調べ,次元アノテーションのみを用いた分類パイプラインを提案することである。 提案手法は、与えられた音声の次元表現における連続値のベクトルを予測するために訓練された回帰器モデルを含む。 このモデルの出力はマッピングアルゴリズムを用いて感情カテゴリーとして解釈することができる。 本研究では,3つの特徴抽出器,3つのニューラルネットワークアーキテクチャ,および2つの異なるコーパス上の3つのマッピングアルゴリズムの組み合わせの性能について検討した。 本研究は回帰アプローチによる分類の利点と限界を示す。

There are two paradigms of emotion representation, categorical labeling and dimensional description in continuous space. Therefore, the emotion recognition task can be treated as a classification or regression. The main aim of this study is to investigate the relation between these two representations and propose a classification pipeline that uses only dimensional annotation. The proposed approach contains a regressor model which is trained to predict a vector of continuous values in dimensional representation for given speech audio. The output of this model can be interpreted as an emotional category using a mapping algorithm. We investigated the performances of a combination of three feature extractors, three neural network architectures, and three mapping algorithms on two different corpora. Our study shows the advantages and limitations of the classification via regression approach.
翻訳日:2022-10-17 16:09:02 公開日:2022-10-14
# 効率的な農業経営のためのスマートヘッドセットとコンピュータビジョンと機械学習

Smart Headset, Computer Vision and Machine Learning for Efficient Prawn Farm Management ( http://arxiv.org/abs/2210.07436v1 )

ライセンス: Link先を確認
Mingze Xi, Ashfaqur Rahman, Chuong Nguyen, Stuart Arnold, John McCulloch(参考訳) エビの成長と分布を理解することは、飼料と収穫戦略の最適化に不可欠である。 エビの成長に対する不十分な理解は、例えば作物の収穫が早すぎるなど、財政的な利益の低下につながる可能性がある。 エビの成長をよく理解する鍵は、頻繁にサンプリングすることである。 しかしながら、最も一般的に採用されているサンプリングプラクティスであるキャストネットアプローチでは、高価で退屈なエビを高頻度でサンプリングすることはできない。 別の方法として、農場労働者が毎日検査する給餌トレイからエビを採取するアプローチがある。 これにより、(毎日)高い頻度で成長データ収集が可能になる。 しかし毎日手作業でエビを計測するのは大変な作業だ。 本稿では, スマートグラス, 深度カメラ, コンピュータビジョン, 機械学習を用いて, 飼料トレイからのエビの分布と成長を検出する新しい手法を提案する。 農家が毎日の給餌トレイチェックを実行しながらエビデータを集めるためのスマートヘッドセットが開発された。 コンピュータビジョン+機械学習パイプラインを開発し,成長期の4つのエビ池におけるエビの成長傾向を検出することを実証した。

Understanding the growth and distribution of the prawns is critical for optimising the feed and harvest strategies. An inadequate understanding of prawn growth can lead to reduced financial gain, for example, crops are harvested too early. The key to maintaining a good understanding of prawn growth is frequent sampling. However, the most commonly adopted sampling practice, the cast net approach, is unable to sample the prawns at a high frequency as it is expensive and laborious. An alternative approach is to sample prawns from feed trays that farm workers inspect each day. This will allow growth data collection at a high frequency (each day). But measuring prawns manually each day is a laborious task. In this article, we propose a new approach that utilises smart glasses, depth camera, computer vision and machine learning to detect prawn distribution and growth from feed trays. A smart headset was built to allow farmers to collect prawn data while performing daily feed tray checks. A computer vision + machine learning pipeline was developed and demonstrated to detect the growth trends of prawns in 4 prawn ponds over a growing season.
翻訳日:2022-10-17 16:08:06 公開日:2022-10-14
# Blue Sky: ペアリングとアンペアトレーニングを併用したディープイメージのデハズ

See Blue Sky: Deep Image Dehaze Using Paired and Unpaired Training Images ( http://arxiv.org/abs/2210.07594v1 )

ライセンス: Link先を確認
Xiaoyan Zhang, Gaoyang Tang, Yingying Zhu and Qi Tian(参考訳) 近年,イメージヘイズ除去の課題が注目されている。 しかし、既存のヘイズ除去法は、元のヘイズ画像における被写体の色やテクスチャ情報が不十分であるため、澄んだ青空でシーンを復元することはできない。 そこで本研究では,新たなエンド・ツー・エンド画像デヘイズモデルを構築するための,サイクル生成対向ネットワークを提案する。 実世界のアンペア画像データセットのセットと、生成された画像が実シーンに近いことを保証するためのペア画像データセットのセットを含む、アウトドアイメージデータセットをトレーニングに採用します。 サイクル構造に基づき, 逆損失, サイクル一貫性損失, フォトリアリズム損失, ペアl1損失などの効果を制約するために, 4種類の損失関数を付加する。 これら4つの制約は、劣化した画像の全体的な品質を向上し、視覚的魅力を向上し、歪みを避けるために画像の再構成を保証する。 提案されたモデルは、画像の迷路を除去し、画像の空をきれいで青く復元する(晴れた天気で撮影されるように)。

The issue of image haze removal has attracted wide attention in recent years. However, most existing haze removal methods cannot restore the scene with clear blue sky, since the color and texture information of the object in the original haze image is insufficient. To remedy this, we propose a cycle generative adversarial network to construct a novel end-to-end image dehaze model. We adopt outdoor image datasets to train our model, which includes a set of real-world unpaired image dataset and a set of paired image dataset to ensure that the generated images are close to the real scene. Based on the cycle structure, our model adds four different kinds of loss function to constrain the effect including adversarial loss, cycle consistency loss, photorealism loss and paired L1 loss. These four constraints can improve the overall quality of such degraded images for better visual appeal and ensure reconstruction of images to keep from distortion. The proposed model could remove the haze of images and also restore the sky of images to be clean and blue (like captured in a sunny weather).
翻訳日:2022-10-17 16:07:47 公開日:2022-10-14
# X線CT画像融合のための自己監督型2D/3Dレジストレーション

Self-Supervised 2D/3D Registration for X-Ray to CT Image Fusion ( http://arxiv.org/abs/2210.07611v1 )

ライセンス: Link先を確認
Srikrishna Jaganathan, Maximilian Kukla, Jian Wang, Karthik Shetty, Andreas Maier(参考訳) ディープラーニングベースの2D/3D登録は、大規模な注釈付きペアデータセットがトレーニングに利用できる場合、高速で堅牢で正確なX線とCT画像の融合を可能にする。 しかし, 接地真実登録によるCTボリュームとX線画像のペアの必要性は, 介入シナリオの適用性を制限している。 別の方法は、CTボリュームからシミュレーションされたX線プロジェクションを使用することで、ペア化された注釈付きデータセットを不要にする。 シミュレーションされたX線投影に特化して訓練されたディープニューラルネットワークは、ドメインギャップのため、実際のX線画像を著しく悪化させることができる。 本稿では,教師なし特徴と画素空間領域適応を併用した自己教師付き2D/3D登録フレームワークを提案し,ドメインギャップを克服し,ペア付きアノテートデータセットの必要性を解消する。 本フレームワークは,参照アノテーションのないアルゴリズムと比較して,実X線画像において90.1%の成功率の高い1.83$\pm$1.16 mmの登録精度を実現している。

Deep Learning-based 2D/3D registration enables fast, robust, and accurate X-ray to CT image fusion when large annotated paired datasets are available for training. However, the need for paired CT volume and X-ray images with ground truth registration limits the applicability in interventional scenarios. An alternative is to use simulated X-ray projections from CT volumes, thus removing the need for paired annotated datasets. Deep Neural Networks trained exclusively on simulated X-ray projections can perform significantly worse on real X-ray images due to the domain gap. We propose a self-supervised 2D/3D registration framework combining simulated training with unsupervised feature and pixel space domain adaptation to overcome the domain gap and eliminate the need for paired annotated datasets. Our framework achieves a registration accuracy of 1.83$\pm$1.16 mm with a high success ratio of 90.1% on real X-ray images showing a 23.9% increase in success ratio compared to reference annotation-free algorithms.
翻訳日:2022-10-17 16:07:28 公開日:2022-10-14
# トランスフォーマーによるランドサット8とセンチネル2の衛星画像の均質化に向けて

Towards Transformer-based Homogenization of Satellite Imagery for Landsat-8 and Sentinel-2 ( http://arxiv.org/abs/2210.07654v1 )

ライセンス: Link先を確認
Venkatesh Thirugnana Sambandham, Konstantin Kirchheim, Sayan Mukhopadhaya, Frank Ortmeier(参考訳) Landsat-8(NASA)とSentinel-2(ESA)は、公開データを提供する2つの著名なマルチスペクトルイメージング衛星プロジェクトである。 衛星のマルチスペクトルイメージングセンサーは、電磁スペクトルの可視領域と赤外線領域の地球表面の画像を取得する。 地球の表面の大部分は常に雲で覆われており、これらの波長では透明ではないため、多くの画像は多くの情報を提供していない。 特定の領域の雲のない画像の時間的可用性を高めるために、複数のソースからの観測を組み合わせることができる。 しかし、衛星のセンサーは特性が異なる可能性があるため、画像は互換性がない。 この研究は、トランスフォーマーベースのモデルを使用して、両方の衛星プロジェクトからの観測におけるスペクトルと空間の差を減らす可能性を初めて見ていく。 完全に畳み込みされたUNetアーキテクチャに基づくモデルと比較する。 やや意外なことに、深層モデルは古典的なアプローチを上回っているが、unetは実験でトランスフォーマーを大きく上回っている。

Landsat-8 (NASA) and Sentinel-2 (ESA) are two prominent multi-spectral imaging satellite projects that provide publicly available data. The multi-spectral imaging sensors of the satellites capture images of the earth's surface in the visible and infrared region of the electromagnetic spectrum. Since the majority of the earth's surface is constantly covered with clouds, which are not transparent at these wavelengths, many images do not provide much information. To increase the temporal availability of cloud-free images of a certain area, one can combine the observations from multiple sources. However, the sensors of satellites might differ in their properties, making the images incompatible. This work provides a first glance at the possibility of using a transformer-based model to reduce the spectral and spatial differences between observations from both satellite projects. We compare the results to a model based on a fully convolutional UNet architecture. Somewhat surprisingly, we find that, while deep models outperform classical approaches, the UNet significantly outperforms the transformer in our experiments.
翻訳日:2022-10-17 16:07:15 公開日:2022-10-14
# 全身FDG/PET-CTにおけるテスト時間拡張による自動病変分割の改善

Improved automated lesion segmentation in whole-body FDG/PET-CT via Test-Time Augmentation ( http://arxiv.org/abs/2210.07761v1 )

ライセンス: Link先を確認
Sepideh Amiri, Bulat Ibragimov(参考訳) PET (positron emission tomography) とCT (Computerd tomography) を用いて, 代謝活性腫瘍を広範囲に定量化した。 F-fluorodeoxyglucose-positron emission tomography (FDG-PET) は、代謝活性腫瘍の検出と測定のために、臨床および臨床薬物研究に頻繁に用いられている。 FDG-PET画像における手動またはコンピュータ支援による腫瘍分割による腫瘍負担の評価が広く行われている。 ディープラーニングアルゴリズムもこの分野で効果的なソリューションを生み出している。 しかし、このネットワークを変更することなく、事前訓練されたディープラーニングネットワークの性能を改善する必要があるかもしれない。 PET-CTによる腫瘍の分節化に対する試験時間増強の有用性について検討した。 PETおよびCTデータを同時に検討できるマルチレベルおよびマルチモーダル腫瘍セグメンテーション手法の新たな枠組みを適用した。 本研究では,テスト時間拡張の学習可能な構成を用いてネットワークを改善する。 u-net と swin u-netr をトレーニングデータベース上でトレーニングし,テスト時間の増減がセグメント化性能をどのように改善したかを検討した。 また,最適試験時間拡大寄与係数セットを求めるアルゴリズムも開発した。 新たにトレーニングした U-Net と Swin U-Netr を用いて,テスト時間拡張のための係数の最適セットを定義し,事前学習した固定 nnU-Net と組み合わせて利用した。 究極のアイデアは、モデルが修正されたときのテスト時のパフォーマンスを改善することだ。 拡張データに対する様々な比率の予測平均化は、予測精度を向上させることができる。 私たちのコードは \url{https://github.com/sepidehamiri/pet\_seg\_unet} で入手できる。

Numerous oncology indications have extensively quantified metabolically active tumors using positron emission tomography (PET) and computed tomography (CT). F-fluorodeoxyglucose-positron emission tomography (FDG-PET) is frequently utilized in clinical practice and clinical drug research to detect and measure metabolically active malignancies. The assessment of tumor burden using manual or computer-assisted tumor segmentation in FDG-PET images is widespread. Deep learning algorithms have also produced effective solutions in this area. However, there may be a need to improve the performance of a pre-trained deep learning network without the opportunity to modify this network. We investigate the potential benefits of test-time augmentation for segmenting tumors from PET-CT pairings. We applied a new framework of multilevel and multimodal tumor segmentation techniques that can simultaneously consider PET and CT data. In this study, we improve the network using a learnable composition of test time augmentations. We trained U-Net and Swin U-Netr on the training database to determine how different test time augmentation improved segmentation performance. We also developed an algorithm that finds an optimal test time augmentation contribution coefficient set. Using the newly trained U-Net and Swin U-Netr results, we defined an optimal set of coefficients for test-time augmentation and utilized them in combination with a pre-trained fixed nnU-Net. The ultimate idea is to improve performance at the time of testing when the model is fixed. Averaging the predictions with varying ratios on the augmented data can improve prediction accuracy. Our code will be available at \url{https://github.com/sepidehamiri/pet\_seg\_unet}
翻訳日:2022-10-17 16:06:58 公開日:2022-10-14
# ベイズ帯域の連続時間制限

Continuous-in-time Limit for Bayesian Bandits ( http://arxiv.org/abs/2210.07513v1 )

ライセンス: Link先を確認
Yuhua Zhu, Zach Izzo, Lexing Ying(参考訳) 本稿ではベイズ設定における盗賊問題を再考する。 ベイジアンアプローチは、バンディット問題を最適化問題として定式化し、ベイジアン後悔を最小限に抑える最適なポリシーを見つけることが目的である。 ベイズ的アプローチに直面する主な課題の1つは、最適ポリシーの計算がしばしば難解であることであり、特に問題水平線の長さや武器の数が大きい場合である。 本稿では,まず,適切な再スケーリングの下でのベイズ・バンディット問題は連続ハミルトン・ヤコビ・ベルマン方程式(hjb)に収束することを示す。 制限HJB方程式の最適ポリシは、いくつかの共通バンディット問題に対して明示的に得ることができ、明示的な解が得られない場合に、HJB方程式を解く数値的な方法を与える。 これらの結果に基づき,ベイズ帯域幅が広いベイズ帯域幅の問題を解くための近似ベイズ最適政策を提案する。 本手法は地平線が大きくなるにつれて計算コストが増大しないという付加的な利点を有する。

This paper revisits the bandit problem in the Bayesian setting. The Bayesian approach formulates the bandit problem as an optimization problem, and the goal is to find the optimal policy which minimizes the Bayesian regret. One of the main challenges facing the Bayesian approach is that computation of the optimal policy is often intractable, especially when the length of the problem horizon or the number of arms is large. In this paper, we first show that under a suitable rescaling, the Bayesian bandit problem converges to a continuous Hamilton-Jacobi-Bellman (HJB) equation. The optimal policy for the limiting HJB equation can be explicitly obtained for several common bandit problems, and we give numerical methods to solve the HJB equation when an explicit solution is not available. Based on these results, we propose an approximate Bayes-optimal policy for solving Bayesian bandit problems with large horizons. Our method has the added benefit that its computational cost does not increase as the horizon increases.
翻訳日:2022-10-17 16:06:30 公開日:2022-10-14
# ソーシャルメディア上での誤情報の因果的影響を推定するための反事実的神経時間点過程

Counterfactual Neural Temporal Point Process for Estimating Causal Influence of Misinformation on Social Media ( http://arxiv.org/abs/2210.07518v1 )

ライセンス: Link先を確認
Yizhou Zhang, Defu Cao, Yan Liu(参考訳) 近年では、ソーシャルメディア上で特定の物語を広め、政治や医療などさまざまな分野の世論を操る偽情報キャンペーンが盛んになっている。 これにより、誤報がユーザの信念や活動に与える影響を推定する効果的で効率的な自動手法が必要である。 しかし、誤情報影響推定に関する既存の研究は、小規模な心理実験に依存するか、あるいはユーザ行動と誤情報との相関を見いだすだけでよい。 本稿では,これらの問題に対処するため,時間的視点から誤情報の因果的影響をモデル化する因果的枠組みを構築した。 大規模データに適応するため,ニューラル・テンポポイント・プロセスとガウス混合モデルを用いて個別処理効果(ITE)を推定する方法を設計した。 合成データセットに関する広範な実験により,モデルの有効性と効率が検証された。 さらに、私たちのモデルを、新型コロナウイルスワクチンに関するソーシャルメディア投稿とエンゲージメントの実際のデータセットに適用する。 実験の結果,ワクチンに対する主観的感情を損なう誤情報の特定可能な因果効果をモデルが認識したことが示唆された。

Recent years have witnessed the rise of misinformation campaigns that spread specific narratives on social media to manipulate public opinions on different areas, such as politics and healthcare. Consequently, an effective and efficient automatic methodology to estimate the influence of the misinformation on user beliefs and activities is needed. However, existing works on misinformation impact estimation either rely on small-scale psychological experiments or can only discover the correlation between user behaviour and misinformation. To address these issues, in this paper, we build up a causal framework that model the causal effect of misinformation from the perspective of temporal point process. To adapt the large-scale data, we design an efficient yet precise way to estimate the Individual Treatment Effect(ITE) via neural temporal point process and gaussian mixture models. Extensive experiments on synthetic dataset verify the effectiveness and efficiency of our model. We further apply our model on a real-world dataset of social media posts and engagements about COVID-19 vaccines. The experimental results indicate that our model recognized identifiable causal effect of misinformation that hurts people's subjective emotions toward the vaccines.
翻訳日:2022-10-17 16:00:08 公開日:2022-10-14
# 影響の不変な基礎的真理

The Invariant Ground Truth of Affect ( http://arxiv.org/abs/2210.07630v1 )

ライセンス: Link先を確認
Konstantinos Makantasis, Kosmas Pinitas, Antonios Liapis, Georgios N. Yannakakis(参考訳) Affective Computingは、誘発、影響の顕在化、アノテーションへの影響の未知の関係を明らかにする努力を行っている。 しかし、感情の根底にある真実は、感情の主観的な性質やそのラベルに固有の偏見を意図せず含んでいる影響ラベルによるものである。 このような制限に対する反応は、通常、データポイント毎により多くのアノテーションでデータセットを拡張しますが、ファーストパーソンアノテーションによる自己報告に興味がある場合には不可能です。 さらに、アノテーション間の合意に基づく外れ値検出手法はアノテーション自体を考慮し、コンテキストを無視し、対応する影響の顕示を無視する。 本稿では、因果理論の側面を情動計算に移すことで、情動の信頼できる基礎的真理を得る方法を再検討する。 特に、影響の根本的真理は、タスクや参加者間で「emph{invariant>」を保ったままの引用、表現、アノテーションの因果関係にあると仮定する。 我々の仮定をテストするために、私たちは、感情的コーパスのアウトリーチを検出し、参加者やタスク間で堅牢な影響モデルを構築するために、因果関係にインスパイアされた手法を採用しています。 我々は,デジタルゲーム領域内の方法論を検証するとともに,異常値の検出と影響モデルの精度向上を実験的に検証した。 我々の知る限り、この研究は感情コンピューティングに因果解析ツールを統合する最初の試みであり、一般的な影響モデリングに向けて決定的な一歩を踏み出した。

Affective computing strives to unveil the unknown relationship between affect elicitation, manifestation of affect and affect annotations. The ground truth of affect, however, is predominately attributed to the affect labels which inadvertently include biases inherent to the subjective nature of emotion and its labeling. The response to such limitations is usually augmenting the dataset with more annotations per data point; however, this is not possible when we are interested in self-reports via first-person annotation. Moreover, outlier detection methods based on inter-annotator agreement only consider the annotations themselves and ignore the context and the corresponding affect manifestation. This paper reframes the ways one may obtain a reliable ground truth of affect by transferring aspects of causation theory to affective computing. In particular, we assume that the ground truth of affect can be found in the causal relationships between elicitation, manifestation and annotation that remain \emph{invariant} across tasks and participants. To test our assumption we employ causation inspired methods for detecting outliers in affective corpora and building affect models that are robust across participants and tasks. We validate our methodology within the domain of digital games, with experimental results showing that it can successfully detect outliers and boost the accuracy of affect models. To the best of our knowledge, this study presents the first attempt to integrate causation tools in affective computing, making a crucial and decisive step towards general affect modeling.
翻訳日:2022-10-17 15:59:47 公開日:2022-10-14
# 推薦者公平性におけるシンプソンのパラドックス--ユーザ毎の評価と集約評価の違いを調和させる

Simpson's Paradox in Recommender Fairness: Reconciling differences between per-user and aggregated evaluations ( http://arxiv.org/abs/2210.07755v1 )

ライセンス: Link先を確認
Flavien Prost, Ben Packer, Jilin Chen, Li Wei, Pierre Kremp, Nicholas Blumm, Susan Wang, Tulsee Doshi, Tonia Osadebe, Lukasz Heldt, Ed H. Chi, Alex Beutel(参考訳) 近年では、ランキングシステムやレコメンデーションシステムにおけるフェアネスの概念、特に推奨者が関連する項目群(プロバイダフェアネスとも呼ばれる)に均等に露出を割り当てるかどうかを評価する方法についての研究が盛んに行われている。 この研究は重要な基礎を築いているが、関連する項目がユーザ毎/クエリ毎に比較されるか、ユーザ間で集約されるかによって異なるアプローチを生み出した。 確立され直観的であるにも拘わらず、これらの2つの概念はシンプソンのパラドックスの一形態である反対の結論に導くことができる。 我々は,これらの概念を解消し,その緊張感がアイテムが関連するユーザの分布の違いによるものであることを示すとともに,ユーザのレコメンデーションの重要な要因を分解する。 この新たな理解に基づいて、実践者はどちらの概念にも関心を持つかもしれないが、現実世界のレコメンデーションで典型的な、関連性とユーザの満足度の部分的可観測性のために、ユーザ毎のメトリクスで課題に直面する可能性がある。 このようなシナリオにおいて,分布マッチングに基づく推定手法について述べる。 シミュレーションデータと実世界のレコメンダデータを用いて,本手法の有効性と有用性を示す。

There has been a flurry of research in recent years on notions of fairness in ranking and recommender systems, particularly on how to evaluate if a recommender allocates exposure equally across groups of relevant items (also known as provider fairness). While this research has laid an important foundation, it gave rise to different approaches depending on whether relevant items are compared per-user/per-query or aggregated across users. Despite both being established and intuitive, we discover that these two notions can lead to opposite conclusions, a form of Simpson's Paradox. We reconcile these notions and show that the tension is due to differences in distributions of users where items are relevant, and break down the important factors of the user's recommendations. Based on this new understanding, practitioners might be interested in either notions, but might face challenges with the per-user metric due to partial observability of the relevance and user satisfaction, typical in real-world recommenders. We describe a technique based on distribution matching to estimate it in such a scenario. We demonstrate on simulated and real-world recommender data the effectiveness and usefulness of such an approach.
翻訳日:2022-10-17 15:59:23 公開日:2022-10-14
# CaloDVAE : 高速カロリメータショーアシミュレーションのための離散変分オートエンコーダ

CaloDVAE : Discrete Variational Autoencoders for Fast Calorimeter Shower Simulation ( http://arxiv.org/abs/2210.07430v1 )

ライセンス: Link先を確認
Abhishek Abhishek, Eric Drechsler, Wojciech Fedorko, Bernd Stelzer(参考訳) カロリメータシミュレーションは、大型ハドロン衝突型加速器(LHC)の実験データ分析に必要なモンテカルロ生成の最も計算コストがかかる部分である。 LHCの高Luminosityアップグレードには、さらに大量のサンプルが必要である。 電磁カルロメータ内の粒子シャワーをシミュレーションするための離散変分オートエンコーダ(DVAE)に基づく手法を提案する。 シミュレーションされた高エネルギー物理データセットを生成するためのサンプリング装置として,量子アニールプロセッサの探索への道筋について論じる。

Calorimeter simulation is the most computationally expensive part of Monte Carlo generation of samples necessary for analysis of experimental data at the Large Hadron Collider (LHC). The High-Luminosity upgrade of the LHC would require an even larger amount of such samples. We present a technique based on Discrete Variational Autoencoders (DVAEs) to simulate particle showers in Electromagnetic Calorimeters. We discuss how this work paves the way towards exploration of quantum annealing processors as sampling devices for generation of simulated High Energy Physics datasets.
翻訳日:2022-10-17 15:58:46 公開日:2022-10-14
# 非線型混合下における確率的部分空間同定

Provable Subspace Identification Under Post-Nonlinear Mixtures ( http://arxiv.org/abs/2210.07532v1 )

ライセンス: Link先を確認
Qi Lyu and Xiao Fu(参考訳) unsupervised mixture learning(uml)の目的は、線形または非線形に混合した潜在成分を盲目的に識別することである。 線形混合を学習しても、独立成分分析や非負行列分解といった非常に非自明な分析ツールが必要である。 本研究では、未知の要素方向非線形関数を線形混合に課すポスト非線形(pnl)混合モデルを再検討する。 PNLモデルは、脳信号の分類、音声分離、リモートセンシング、因果発見など、様々な分野で広く利用されている。 未知の非線形関数を同定して取り除くために、既存の研究はしばしば潜在成分(統計的独立性や確率-単純構造など)に異なる性質を仮定する。 この研究は、慎重に設計されたUML基準の下で、基礎となる混合系に付随する非自明なヌル空間の存在は、未知の非線形性の識別/除去を保証するのに十分であることを示している。 先行研究と比較して,本研究はpnl識別性を達成する条件をほとんど緩和するので,潜在成分に関する強固な構造情報がない場合に有用であると考えられる。 実環境下での提案手法の性能を特徴付けるために有限サンプル解析が提案されている。 提案する学習基準を実装するために,ブロック座標降下アルゴリズムを提案する。 一連の数値実験は我々の理論的な主張と一致している。

Unsupervised mixture learning (UML) aims at identifying linearly or nonlinearly mixed latent components in a blind manner. UML is known to be challenging: Even learning linear mixtures requires highly nontrivial analytical tools, e.g., independent component analysis or nonnegative matrix factorization. In this work, the post-nonlinear (PNL) mixture model -- where unknown element-wise nonlinear functions are imposed onto a linear mixture -- is revisited. The PNL model is widely employed in different fields ranging from brain signal classification, speech separation, remote sensing, to causal discovery. To identify and remove the unknown nonlinear functions, existing works often assume different properties on the latent components (e.g., statistical independence or probability-simplex structures). This work shows that under a carefully designed UML criterion, the existence of a nontrivial null space associated with the underlying mixing system suffices to guarantee identification/removal of the unknown nonlinearity. Compared to prior works, our finding largely relaxes the conditions of attaining PNL identifiability, and thus may benefit applications where no strong structural information on the latent components is known. A finite-sample analysis is offered to characterize the performance of the proposed approach under realistic settings. To implement the proposed learning criterion, a block coordinate descent algorithm is proposed. A series of numerical experiments corroborate our theoretical claims.
翻訳日:2022-10-17 15:58:37 公開日:2022-10-14
# 長期治療効果推定のための強化学習手法

A Reinforcement Learning Approach to Estimating Long-term Treatment Effects ( http://arxiv.org/abs/2210.07536v1 )

ライセンス: Link先を確認
Ziyang Tang, Yiheng Duan, Stephanie Zhang, Lihong Li(参考訳) ランダム化実験(別名a/bテスト)は、治療効果を推定し、ビジネス、医療、その他のアプリケーションで意思決定を知らせる強力なツールである。 多くの問題において、治療は時間とともに進化する持続的な効果を持つ。 ランダム化実験の制限は、長い実験は時間がかかり費用がかかるため、長期効果を測定するために容易に拡張できないことである。 本稿では,マルコフ過程における平均報酬を推定する強化学習(RL)手法を提案する。 観測された状態遷移が非定常な実世界のシナリオに触発され、非定常問題のクラスのための新しいアルゴリズムを開発し、2つの合成データセットと1つのオンラインストアデータセットで有望な結果を示す。

Randomized experiments (a.k.a. A/B tests) are a powerful tool for estimating treatment effects, to inform decisions making in business, healthcare and other applications. In many problems, the treatment has a lasting effect that evolves over time. A limitation with randomized experiments is that they do not easily extend to measure long-term effects, since running long experiments is time-consuming and expensive. In this paper, we take a reinforcement learning (RL) approach that estimates the average reward in a Markov process. Motivated by real-world scenarios where the observed state transition is nonstationary, we develop a new algorithm for a class of nonstationary problems, and demonstrate promising results in two synthetic datasets and one online store dataset.
翻訳日:2022-10-17 15:58:13 公開日:2022-10-14
# 高次元一般化付加混合モデルのプライバシ保存とロスレス分散推定

Privacy-Preserving and Lossless Distributed Estimation of High-Dimensional Generalized Additive Mixed Models ( http://arxiv.org/abs/2210.07723v1 )

ライセンス: Link先を確認
Daniel Schalk, Bernd Bischl, David R\"ugamer(参考訳) 近年、データの分析において個人のプライバシーを尊重する様々なプライバシー保護フレームワークが開発されている。 しかし、単純な統計や一般化線形モデルのような利用可能なモデルクラスは、実際のデータ生成プロセスの適切な近似に必要な柔軟性を欠いている。 本稿では, GAMM (Generalized Additive Mixed Model) の分散, プライバシ保護, ロスレス推定のための, コンポーネントワイド・グラデーション・ブーイング (CWB) を用いたアルゴリズムを提案する。 CWBを利用すると、$L_2$-lossを使ってベース学習者の分散フィッティングとしてGAMM推定を再構成できる。 異なるデータロケーションサイトの不均一性を考慮するために,サイト固有(スムース)効果の計算を可能にする行方向テンソル積の分散バージョンを提案する。 我々のCWBの適応性は、偏りのない特徴選択や高次元の特徴空間におけるモデル適合性など、元のアルゴリズムのすべての重要な特性を保存し、プールデータ上でCWBとして等価なモデル推定値を得る。 両アルゴリズムの等価性の導出に続いて, 分散心疾患データセット上でのアルゴリズムの有効性を実証し, 最先端の手法と比較した。

Various privacy-preserving frameworks that respect the individual's privacy in the analysis of data have been developed in recent years. However, available model classes such as simple statistics or generalized linear models lack the flexibility required for a good approximation of the underlying data-generating process in practice. In this paper, we propose an algorithm for a distributed, privacy-preserving, and lossless estimation of generalized additive mixed models (GAMM) using component-wise gradient boosting (CWB). Making use of CWB allows us to reframe the GAMM estimation as a distributed fitting of base learners using the $L_2$-loss. In order to account for the heterogeneity of different data location sites, we propose a distributed version of a row-wise tensor product that allows the computation of site-specific (smooth) effects. Our adaption of CWB preserves all the important properties of the original algorithm, such as an unbiased feature selection and the feasibility to fit models in high-dimensional feature spaces, and yields equivalent model estimates as CWB on pooled data. Next to a derivation of the equivalence of both algorithms, we also showcase the efficacy of our algorithm on a distributed heart disease data set and compare it with state-of-the-art methods.
翻訳日:2022-10-17 15:58:00 公開日:2022-10-14
# 連立正規微分方程式上の物理情報ニューラルネットワーク評価のための可変複素度ベンチマーク

Tunable Complexity Benchmarks for Evaluating Physics-Informed Neural Networks on Coupled Ordinary Differential Equations ( http://arxiv.org/abs/2210.07880v1 )

ライセンス: Link先を確認
Alexander New and Benjamin Eng and Andrea C. Timm and Andrew S. Gearhart(参考訳) 本研究では,より複雑に結合した常微分方程式(ODE)を解くために,物理インフォームドニューラルネットワーク(PINN)の能力を評価する。 我々は,離散偏微分方程式と調和振動子という2つのベンチマークに注目した。 ネットワークアーキテクチャの変更や,“差分”トレーニング領域を考慮した最先端のトレーニング手法の適用などによっても,pinnは最終的に,これらのベンチマークに対する正しいソリューションを,複雑性 – 方程式の数と時間領域のサイズ – として作り出せないことが分かる。 ピン損失のラプラシアンによって測定された,ネットワーク容量の不足,odesの条件が不十分なこと,局所曲率が高いことなど,この傾向が考えられるいくつかの理由を見出した。

In this work, we assess the ability of physics-informed neural networks (PINNs) to solve increasingly-complex coupled ordinary differential equations (ODEs). We focus on a pair of benchmarks: discretized partial differential equations and harmonic oscillators, each of which has a tunable parameter that controls its complexity. Even by varying network architecture and applying a state-of-the-art training method that accounts for "difficult" training regions, we show that PINNs eventually fail to produce correct solutions to these benchmarks as their complexity -- the number of equations and the size of time domain -- increases. We identify several reasons why this may be the case, including insufficient network capacity, poor conditioning of the ODEs, and high local curvature, as measured by the Laplacian of the PINN loss.
翻訳日:2022-10-17 15:57:36 公開日:2022-10-14
# 幾何学量子機械学習における表現理論

Representation Theory for Geometric Quantum Machine Learning ( http://arxiv.org/abs/2210.07980v1 )

ライセンス: Link先を確認
Michael Ragone, Paolo Braccia, Quynh T. Nguyen, Louis Schatzki, Patrick J. Coles, Frederic Sauvage, Martin Larocca, M. Cerezo(参考訳) 古典的機械学習の最近の進歩は、問題の対称性を符号化する帰納的バイアスを持つモデルを作成することにより、性能が大幅に向上することを示している。 これらの概念の輸入と、量子理論と対称性のネクサスにおける既存の豊富な研究が組み合わさって、幾何学量子機械学習(GQML)の分野を生み出した。 古典的手法の成功に続き、GQMLは計算上の優位性を達成することができる問題固有の量子認識モデルを開発する上で重要な役割を果たすと期待することは妥当である。 GQMLの主な考え方の単純さ - データの対称性を尊重するアーキテクチャを作成する - にもかかわらず、その実践には、グループ表現理論に関するかなりの量の知識が必要である。 本稿では、離散的および連続的なグループを含む主要な例によって駆動される量子学習の光学から表現論ツールを紹介する。 これらの例は、GQML対称性の形式的捕獲を「群表現の作用によるラベル不変性」、有限かつコンパクトなリー群表現論による短い(しかし厳密な)ツアー、ハール積分やツワイルリングのようなユビキタスツールの再検討、および対称性を検出するためのいくつかの成功戦略の概説によってまとめられる。

Recent advances in classical machine learning have shown that creating models with inductive biases encoding the symmetries of a problem can greatly improve performance. Importation of these ideas, combined with an existing rich body of work at the nexus of quantum theory and symmetry, has given rise to the field of Geometric Quantum Machine Learning (GQML). Following the success of its classical counterpart, it is reasonable to expect that GQML will play a crucial role in developing problem-specific and quantum-aware models capable of achieving a computational advantage. Despite the simplicity of the main idea of GQML -- create architectures respecting the symmetries of the data -- its practical implementation requires a significant amount of knowledge of group representation theory. We present an introduction to representation theory tools from the optics of quantum learning, driven by key examples involving discrete and continuous groups. These examples are sewn together by an exposition outlining the formal capture of GQML symmetries via "label invariance under the action of a group representation", a brief (but rigorous) tour through finite and compact Lie group representation theory, a reexamination of ubiquitous tools like Haar integration and twirling, and an overview of some successful strategies for detecting symmetries.
翻訳日:2022-10-17 15:57:21 公開日:2022-10-14
# DART:多言語アクセサリーとリッチテクスチャを用いた人工ハンドモデル

DART: Articulated Hand Model with Diverse Accessories and Rich Textures ( http://arxiv.org/abs/2210.07650v1 )

ライセンス: Link先を確認
Daiheng Gao, Yuliang Xiu, Kailin Li, Lixin Yang, Feng Wang, Peng Zhang, Bang Zhang, Cewu Lu, Ping Tan(参考訳) 人間の生産性と知能の担い手であるhandは、最近のデジタル双生児の発熱で注目を集めている。 様々な手形のモデルの中で、MANOは視覚とグラフィックのコミュニティで広く使われている。 しかし、MANOはテクスチャやアクセサリーを軽視しており、これはフォトリアリスティックハンドデータを合成する能力を大幅に制限している。 本稿では,MANOをDART(Diverse Accessories and Rich Textures)で拡張する。 DARTは外観と形状の異なる50の3Dアクセサリーで構成され、325個の手作りの2Dテクスチャマップはさまざまな種類のブレンディッシュやメイクアップをカバーしている。 Unity GUIは、ポーズ、カメラ、背景、照明、テクスチャ、アクセサリーなど、ユーザーが定義した設定で合成手データを生成する。 最後に,800Kの大規模合成手画像を含むDARTsetを完全整列3Dラベルと組み合わせてリリースする。 実験は多様性の優位性を示す。 既存のハンドデータセットの補完として、dartsetは、ハンドポーズ推定とメッシュリカバリタスクの両方の一般化を促進する。 原材料(テクスチャ、アクセサリー)、Unity GUI、ソースコード、DARTsetはdart2022.github.ioで公開されている。

Hand, the bearer of human productivity and intelligence, is receiving much attention due to the recent fever of digital twins. Among different hand morphable models, MANO has been widely used in vision and graphics community. However, MANO disregards textures and accessories, which largely limits its power to synthesize photorealistic hand data. In this paper, we extend MANO with Diverse Accessories and Rich Textures, namely DART. DART is composed of 50 daily 3D accessories which varies in appearance and shape, and 325 hand-crafted 2D texture maps covers different kinds of blemishes or make-ups. Unity GUI is also provided to generate synthetic hand data with user-defined settings, e.g., pose, camera, background, lighting, textures, and accessories. Finally, we release DARTset, which contains large-scale (800K), high-fidelity synthetic hand images, paired with perfect-aligned 3D labels. Experiments demonstrate its superiority in diversity. As a complement to existing hand datasets, DARTset boosts the generalization in both hand pose estimation and mesh recovery tasks. Raw ingredients (textures, accessories), Unity GUI, source code and DARTset are publicly available at dart2022.github.io
翻訳日:2022-10-17 15:49:47 公開日:2022-10-14
# モデルに基づく都市走行の模倣学習

Model-Based Imitation Learning for Urban Driving ( http://arxiv.org/abs/2210.07729v1 )

ライセンス: Link先を確認
Anthony Hu and Gianluca Corrado and Nicolas Griffiths and Zak Murez and Corina Gurau and Hudson Yeo and Alex Kendall and Roberto Cipolla and Jamie Shotton(参考訳) 環境の正確なモデルとそれに作用する動的エージェントは、モーションプランニングを改善する大きな可能性を秘めている。 MILE: 世界のモデルと自律運転のポリシーを共同で学習するためのモデルに基づくImitation LEarningアプローチを提案する。 提案手法は3次元幾何学を帰納バイアスとして利用し,高精細映像から高精細な潜伏空間を直接学習する。 本モデルは, 都市運転データのオフラインコーパスを用いて, 環境とのオンラインインタラクションを伴わない訓練を行った。 MILEは、完全に新しい町と新しい気象条件に配備された場合、CARLAシミュレーターの運転スコアを35%向上させる。 本モデルでは,鳥眼ビューセマンティックセマンティックセグメンテーションに解釈可能な多種多様な状態や行動を予測することができる。 さらに,想像で完全に予測された計画から複雑な運転操作を行えることを実証する。 本手法は,都市走行環境における静的シーン,動的シーン,エゴ動作をモデル化する最初のカメラ専用手法である。 コードとモデルの重み付けはhttps://github.com/wayveai/mileで確認できる。

An accurate model of the environment and the dynamic agents acting in it offers great potential for improving motion planning. We present MILE: a Model-based Imitation LEarning approach to jointly learn a model of the world and a policy for autonomous driving. Our method leverages 3D geometry as an inductive bias and learns a highly compact latent space directly from high-resolution videos of expert demonstrations. Our model is trained on an offline corpus of urban driving data, without any online interaction with the environment. MILE improves upon prior state-of-the-art by 35% in driving score on the CARLA simulator when deployed in a completely new town and new weather conditions. Our model can predict diverse and plausible states and actions, that can be interpretably decoded to bird's-eye view semantic segmentation. Further, we demonstrate that it can execute complex driving manoeuvres from plans entirely predicted in imagination. Our approach is the first camera-only method that models static scene, dynamic scene, and ego-behaviour in an urban driving environment. The code and model weights are available at https://github.com/wayveai/mile.
翻訳日:2022-10-17 15:49:26 公開日:2022-10-14
# 固有リワードマッチングを用いたスキルベース強化学習

Skill-Based Reinforcement Learning with Intrinsic Reward Matching ( http://arxiv.org/abs/2210.07426v1 )

ライセンス: Link先を確認
Ademi Adeniji, Amber Xie, Pieter Abbeel(参考訳) 教師なしのスキル発見は、自律的な行動プリミティブ獲得において有望であるが、タスク非依存のスキル事前学習と下流のタスク対応の微調整の間には、大きな方法論的な切り離しがある。 我々は本質的報酬マッチング(irm)を示し、これらの2つの学習フェーズを$\textit{skill discriminator}$で統一する。 従来のアプローチでは、適切なスキルを実証的に決定するために、しばしば高価な環境のロールアウトに頼っている。 しかしながら、タスクの最も簡潔で完全な記述は報酬関数自身であり、スキル学習手法はスキルポリシーに対応する識別器を介して$\textit{intrinsic}$報酬関数を学ぶ。 そこで本研究では,環境サンプルを使わずに,固有および下流タスクの報酬を$\textit{match}$に設定し,未検出タスクの最適スキルを判定し,サンプル効率を向上させる手法を提案する。 さらに、IRMをシーケンススキルに一般化し、より複雑な長距離タスクを解く。 IRMは、教師なし強化学習ベンチマークにおける従来のスキル選択手法と競合し、テーブルトップ操作タスクにおいて、より効果的に事前訓練されたスキルを活用できることを実証する。

While unsupervised skill discovery has shown promise in autonomously acquiring behavioral primitives, there is still a large methodological disconnect between task-agnostic skill pretraining and downstream, task-aware finetuning. We present Intrinsic Reward Matching (IRM), which unifies these two phases of learning via the $\textit{skill discriminator}$, a pretraining model component often discarded during finetuning. Conventional approaches finetune pretrained agents directly at the policy level, often relying on expensive environment rollouts to empirically determine the optimal skill. However, often the most concise yet complete description of a task is the reward function itself, and skill learning methods learn an $\textit{intrinsic}$ reward function via the discriminator that corresponds to the skill policy. We propose to leverage the skill discriminator to $\textit{match}$ the intrinsic and downstream task rewards and determine the optimal skill for an unseen task without environment samples, consequently finetuning with greater sample-efficiency. Furthermore, we generalize IRM to sequence skills and solve more complex, long-horizon tasks. We demonstrate that IRM is competitive with previous skill selection methods on the Unsupervised Reinforcement Learning Benchmark and enables us to utilize pretrained skills far more effectively on challenging tabletop manipulation tasks.
翻訳日:2022-10-17 15:48:31 公開日:2022-10-14
# 逐次MDLのためのニューラルネットワークの逐次学習

Sequential Learning Of Neural Networks for Prequential MDL ( http://arxiv.org/abs/2210.07931v1 )

ライセンス: Link先を確認
Jorg Bornschein and Yazhe Li and Marcus Hutter(参考訳) 最小記述長(MDL)は、原則モデル評価のためのフレームワークと目的を提供する。 occamのカミソリを形式化し、非定常ソースのデータに適用することができる。 MDLの逐次定式化では、データを逐次通過する際の累積的な次ステップのログロスを最小化し、パラメータ推定に以前の観測を使用する。 そのため、継続学習やオンライン学習によく似ている。 本研究では,ニューラルネットワークを用いた画像分類データセットの事前記述長の計算手法を評価する。 計算コストを考慮すると,リハーサルによるオンライン学習は,従来広く用いられてきたブロックワイズ推定よりも優れた性能を示すことがわかった。 本研究では,モデル予測を経験的観測とよく一致させ,大規模メモリリプレイバッファを回避しつつ近似ランダムリプレイを効率的に実装するミニバッチインクリメンタルトレーニング手法であるreplay-streamsを提案する。 その結果,画像分類データセットの集合に対する記述長が,従来報告した結果よりも大きなマージンで改善された。

Minimum Description Length (MDL) provides a framework and an objective for principled model evaluation. It formalizes Occam's Razor and can be applied to data from non-stationary sources. In the prequential formulation of MDL, the objective is to minimize the cumulative next-step log-loss when sequentially going through the data and using previous observations for parameter estimation. It thus closely resembles a continual- or online-learning problem. In this study, we evaluate approaches for computing prequential description lengths for image classification datasets with neural networks. Considering the computational cost, we find that online-learning with rehearsal has favorable performance compared to the previously widely used block-wise estimation. We propose forward-calibration to better align the models predictions with the empirical observations and introduce replay-streams, a minibatch incremental training technique to efficiently implement approximate random replay while avoiding large in-memory replay buffers. As a result, we present description lengths for a suite of image classification datasets that improve upon previously reported results by large margins.
翻訳日:2022-10-17 15:42:43 公開日:2022-10-14
# 生成フローネットワークの変分的展望

A Variational Perspective on Generative Flow Networks ( http://arxiv.org/abs/2210.07992v1 )

ライセンス: Link先を確認
Heiko Zimmermann, Fredrik Lindsten, Jan-Willem van de Meent, Christian A. Naesseth(参考訳) 生成フローネットワーク(英: generative flow network、gfns)は、エネルギー関数や報酬の観点で定義される対象分布を近似する複合物体の逐次サンプリングのためのモデルである。 gfnは通常、軌道上の前方および後方遷移モデルと一致するフローマッチングまたは軌道バランス目標を用いて訓練される。 本研究では,GFNの変分目的を,KL(Kullback-Leibler)の前方分布と後方分布の相違点の観点から定義する。 GFNの変動推論は,前方モデルから軌跡をサンプリングする場合の軌道バランス目標を最小化するのに等価であることを示す。 逆および前方KL分岐の凸結合を最適化することにより、このアプローチを一般化する。 この知見は、例えば、変分推論でよく用いられる制御変数を組み込むことによって、軌道の平衡目標の勾配のばらつきを減らすことで、生成フローネットワークを訓練するためのより一般的な目的のファミリーを定義する手段として、変分推論法が役立つことを示唆している。 提案手法を2つの合成課題における軌道バランス目標と比較することにより,実験結果と変動目標の性能を数値的に評価した。

Generative flow networks (GFNs) are a class of models for sequential sampling of composite objects, which approximate a target distribution that is defined in terms of an energy function or a reward. GFNs are typically trained using a flow matching or trajectory balance objective, which matches forward and backward transition models over trajectories. In this work, we define variational objectives for GFNs in terms of the Kullback-Leibler (KL) divergences between the forward and backward distribution. We show that variational inference in GFNs is equivalent to minimizing the trajectory balance objective when sampling trajectories from the forward model. We generalize this approach by optimizing a convex combination of the reverse- and forward KL divergence. This insight suggests variational inference methods can serve as a means to define a more general family of objectives for training generative flow networks, for example by incorporating control variates, which are commonly used in variational inference, to reduce the variance of the gradients of the trajectory balance objective. We evaluate our findings and the performance of the proposed variational objective numerically by comparing it to the trajectory balance objective on two synthetic tasks.
翻訳日:2022-10-17 15:42:27 公開日:2022-10-14
# 敵対的なトレーニングが視覚トランスフォーマーと出会う - トレーニングからアーキテクチャへのレシピ

When Adversarial Training Meets Vision Transformers: Recipes from Training to Architecture ( http://arxiv.org/abs/2210.07540v1 )

ライセンス: Link先を確認
Yichuan Mo, Dongxian Wu, Yifei Wang, Yiwen Guo, Yisen Wang(参考訳) ビジョントランスフォーマー(ViT)は、最近、幅広いビジョンタスクにおいて競争性能を達成した。 残念ながら、一般的な脅威モデルでは、自然に訓練されたViTは畳み込みニューラルネットワーク(CNN)に匹敵する堅牢性を提供しない。 ViTがこのような敵の攻撃から守るためには、依然として敵の訓練が必要である。 本稿では,ベンチマークデータセットにまたがる様々なトレーニング手法を広範囲に評価することにより,ViTの対角的トレーニングレシピを初めて包括的に研究する。 ViTの対角訓練には,事前学習とSGDオプティマイザが必要である。 さらに,vitを新しいモデルアーキテクチャとして考慮し,そのユニークなアーキテクチャコンポーネントの観点から,その敵対的ロバスト性について検討する。 いくつかの注意ブロックからランダムに勾配をマスキングしたり、敵の訓練中にパッチに乱れをマスキングする場合、ViTの対角的堅牢性は著しく改善され、ViTsのような新しく設計されたモデルの内部のアーキテクチャ情報を調べるための一連の作業が開かれる可能性がある。 私たちのコードはhttps://github.com/mo666666/When-Adversarial-Training-Meets-Vision-Transformersで利用可能です。

Vision Transformers (ViTs) have recently achieved competitive performance in broad vision tasks. Unfortunately, on popular threat models, naturally trained ViTs are shown to provide no more adversarial robustness than convolutional neural networks (CNNs). Adversarial training is still required for ViTs to defend against such adversarial attacks. In this paper, we provide the first and comprehensive study on the adversarial training recipe of ViTs via extensive evaluation of various training techniques across benchmark datasets. We find that pre-training and SGD optimizer are necessary for ViTs' adversarial training. Further considering ViT as a new type of model architecture, we investigate its adversarial robustness from the perspective of its unique architectural components. We find, when randomly masking gradients from some attention blocks or masking perturbations on some patches during adversarial training, the adversarial robustness of ViTs can be remarkably improved, which may potentially open up a line of work to explore the architectural information inside the newly designed models like ViTs. Our code is available at https://github.com/mo666666/When-Adversarial-Training-Meets-Vision-Transformers.
翻訳日:2022-10-17 15:41:28 公開日:2022-10-14
# mix and reason: ドメイン一般化のためのデータ混合による意味的トポロジーの推論

Mix and Reason: Reasoning over Semantic Topology with Data Mixing for Domain Generalization ( http://arxiv.org/abs/2210.07571v1 )

ライセンス: Link先を確認
Chaoqi Chen, Luyao Tang, Feng Liu, Gangming Zhao, Yue Huang, Yizhou Yu(参考訳) ドメイン一般化(DG)は、学習マシンを複数のソースドメインから見えないターゲットドメインに一般化することを可能にする。 dg法の一般的な目的は、ドメインラベルとは独立した意味表現を学習することであり、理論的には健全であるが、共通要素とドメイン固有の要素の複雑な混合のために経験的に挑戦される。 dgでは、2つの非結合部分への表現の分離が勢いを増しているが、データに対する強い仮定は、多くの現実世界のシナリオでその効果を制限する。 本稿では,意味的トポロジの構造的不変性によって意味表現を学習する新しいDGフレームワークであるMix and Reason(\mire)を提案する。 ASTR(Adaptive Semantic Topology Refinement)とCDM(Calegory-Aware Data Mixing)の2つの重要なコンポーネントで構成されている。 CDMは2つの相補的な分類損失によって生成されるアクティベーションマップにより、異なる領域からの2つのイメージを混合し、セマンティックオブジェクトの表現に焦点を当てる。 ASTRは意味的トポロジーを表現するために関係グラフを導入し、局所的な特徴集約とグローバルなドメイン間関係推論の相互作用を通じて徐々に洗練される。 複数のdgベンチマーク実験により,提案手法の有効性とロバスト性が検証された。

Domain generalization (DG) enables generalizing a learning machine from multiple seen source domains to an unseen target one. The general objective of DG methods is to learn semantic representations that are independent of domain labels, which is theoretically sound but empirically challenged due to the complex mixture of common and domain-specific factors. Although disentangling the representations into two disjoint parts has been gaining momentum in DG, the strong presumption over the data limits its efficacy in many real-world scenarios. In this paper, we propose Mix and Reason (\mire), a new DG framework that learns semantic representations via enforcing the structural invariance of semantic topology. \mire\ consists of two key components, namely, Category-aware Data Mixing (CDM) and Adaptive Semantic Topology Refinement (ASTR). CDM mixes two images from different domains in virtue of activation maps generated by two complementary classification losses, making the classifier focus on the representations of semantic objects. ASTR introduces relation graphs to represent semantic topology, which is progressively refined via the interactions between local feature aggregation and global cross-domain relational reasoning. Experiments on multiple DG benchmarks validate the effectiveness and robustness of the proposed \mire.
翻訳日:2022-10-17 15:41:09 公開日:2022-10-14
# 分散計算予算のためのパレート対応ニューラルアーキテクチャ生成

Pareto-aware Neural Architecture Generation for Diverse Computational Budgets ( http://arxiv.org/abs/2210.07634v1 )

ライセンス: Link先を確認
Yong Guo, Yaofo Chen, Yin Zheng, Qi Chen, Peilin Zhao, Jian Chen, Junzhou Huang, Mingkui Tan(参考訳) 異なるアプリケーション/デバイスによって引き起こされる様々な計算予算の下で実現可能で効果的なアーキテクチャを設計することは、現実世界のアプリケーションに深いモデルをデプロイするのに不可欠である。 この目的を達成するために、既存の手法は、しばしば目標予算ごとに独立したアーキテクチャ探索プロセスを実行する。 より批判的に、これらの独立した検索プロセスは、学習した知識(すなわち優れたアーキテクチャの分布)を互いに共有できないため、検索結果が限られることが多い。 これらの問題に対処するため,我々は1回だけトレーニングし,任意の予算に対して動的にpareto最適化アーキテクチャを生成するpareto-aware neural architecture generator (pnag)を提案する。 PNAGをトレーニングするために、さまざまな予算の下で複数のPareto最適アーキテクチャを共同で見つけることで、Paretoフロンティア全体を学ぶ。 このような共同探索アルゴリズムは、全体の検索コストを大幅に削減するだけでなく、検索結果を改善する。 3つのハードウェアプラットフォーム(モバイルデバイス、cpu、gpu)での広範な実験は、既存の方法よりも優れた方法を示している。

Designing feasible and effective architectures under diverse computational budgets, incurred by different applications/devices, is essential for deploying deep models in real-world applications. To achieve this goal, existing methods often perform an independent architecture search process for each target budget, which is very inefficient yet unnecessary. More critically, these independent search processes cannot share their learned knowledge (i.e., the distribution of good architectures) with each other and thus often result in limited search results. To address these issues, we propose a Pareto-aware Neural Architecture Generator (PNAG) which only needs to be trained once and dynamically produces the Pareto optimal architecture for any given budget via inference. To train our PNAG, we learn the whole Pareto frontier by jointly finding multiple Pareto optimal architectures under diverse budgets. Such a joint search algorithm not only greatly reduces the overall search cost but also improves the search results. Extensive experiments on three hardware platforms (i.e., mobile device, CPU, and GPU) show the superiority of our method over existing methods.
翻訳日:2022-10-17 15:40:45 公開日:2022-10-14
# 視覚変換器の可視化:ニューロンが何を伝え、どのようにニューロンが働くか

Vision Transformer Visualization: What Neurons Tell and How Neurons Behave? ( http://arxiv.org/abs/2210.07646v1 )

ライセンス: Link先を確認
Van-Anh Nguyen, Khanh Pham Dinh, Long Tung Vuong, Thanh-Toan Do, Quan Hung Tran, Dinh Phung, Trung Le(参考訳) 近年,視覚トランスフォーマー (vit) がコンピュータビジョンの様々なタスクに応用されている。 しかし、なぜ働くのか、どのように振る舞うかといった重要な疑問はほとんど不明である。 本稿では,ニューロンに伝達される情報やvitの層に埋め込まれた特徴を可視化する効果的な可視化手法を提案する。 提案手法は,入力画像における局所的およびグローバル的情報の可視化と,複数のレベルでの潜在的特徴埋め込みに着目し,ViTの計算過程から逸脱する。 レベル0でのインプットと埋め込みの可視化は、ViTが画像閉塞やパッチシャッフルに対して一般的に堅牢である理由、あるいはCNNとは異なり、レベル0の埋め込みは、すでに豊富なセマンティックディテールを持っていることなど、興味深い結果を示している。 次に,有効な可視化を行うための厳密なフレームワークを開発し,vitsフィルタの効果と,オブジェクトパッチに対するグループ化/クラスタ化動作を公開する。 最後に,提案手法のメリットを質的かつ定量的に示すために,実データセットに関する総合的な実験を行った。 https://github.com/byM1902/ViT_visualization

Recently vision transformers (ViT) have been applied successfully for various tasks in computer vision. However, important questions such as why they work or how they behave still remain largely unknown. In this paper, we propose an effective visualization technique, to assist us in exposing the information carried in neurons and feature embeddings across the ViT's layers. Our approach departs from the computational process of ViTs with a focus on visualizing the local and global information in input images and the latent feature embeddings at multiple levels. Visualizations at the input and embeddings at level 0 reveal interesting findings such as providing support as to why ViTs are rather generally robust to image occlusions and patch shuffling; or unlike CNNs, level 0 embeddings already carry rich semantic details. Next, we develop a rigorous framework to perform effective visualizations across layers, exposing the effects of ViTs filters and grouping/clustering behaviors to object patches. Finally, we provide comprehensive experiments on real datasets to qualitatively and quantitatively demonstrate the merit of our proposed methods as well as our findings. https://github.com/byM1902/ViT_visualization
翻訳日:2022-10-17 15:40:24 公開日:2022-10-14
# trailers12k: 映画トレーラージャンル分類のための転送学習の評価

Trailers12k: Evaluating Transfer Learning for Movie Trailer Genre Classification ( http://arxiv.org/abs/2210.07983v1 )

ライセンス: Link先を確認
Ricardo Montalvo-Lezama, Berenice Montalvo-Lezama and Gibran Fuentes-Pineda(参考訳) 転送学習は、幅広いコンピュータビジョン問題の基礎であり、画像解析タスクにおいて広く研究されている。 しかし、映像解析のための文献は乏しく、主にImageNetから学んだ表現を人間の行動認識タスクに転送することに焦点を当てている。 本稿では,マルチレーベル映画トレーラージャンル分類(mtgc)の転送学習について検討する。 特に,新しい手作業によるトレーラーデータセットであるtreaks12k}を紹介し,imagenetおよび/またはトレーラー12k mtgcへの速度から得られた空間的および時空間的表現の転送性を評価する。 ソースとターゲットタスク間の時空間的構造ギャップを低減し、転送性を向上させるため、トレーラを高い相関性のあるクリップに分割するショット検出を行う手法を提案する。 セグメンテーション戦略,フレームレート,入力映像拡張,時空間モデリングなど,転送性に影響を与える様々な側面について検討した。 本研究では,imagenet または kinetics で学習した表現がトレーラーs12k に比較的転送可能であることを実証する。 同様の数のパラメータとFLOPSを持つTransformerは、ConvNetsよりも優れた転送性ベースを提供する。 それでも、軽量なconvnetで競合性能を達成でき、低リソース環境では魅力的な選択肢となる。

Transfer learning is a cornerstone for a wide range of computer vision problems.It has been broadly studied for image analysis tasks. However, literature for video analysis is scarce and has been mainly focused on transferring representations learned from ImageNet to human action recognition tasks. In this paper, we study transfer learning for Multi-label Movie Trailer Genre Classification (MTGC). In particular, we introduce Trailers12k}, a new manually-curated movie trailer dataset and evaluate the transferability of spatial and spatio-temporal representations learned from ImageNet and/or Kinetics to Trailers12k MTGC. In order to reduce the spatio-temporal structure gap between the source and target tasks and improve transferability, we propose a method that performs shot detection so as to segment the trailer into highly correlated clips. We study different aspects that influence transferability, such as segmentation strategy, frame rate, input video extension, and spatio-temporal modeling. Our results demonstrate that representations learned on either ImageNet or Kinetics are comparatively transferable to Trailers12k, although they provide complementary information that can be combined to improve classification performance. Having a similar number of parameters and FLOPS, Transformers provide a better transferability base than ConvNets. Nevertheless, competitive performance can be achieved using lightweight ConvNets, becoming an attractive option for low-resource environments.
翻訳日:2022-10-17 15:40:04 公開日:2022-10-14
# $\Lambda$-DARTS: セル間の操作選択の調和による性能低下の軽減

$\Lambda$-DARTS: Mitigating Performance Collapse by Harmonizing Operation Selection among Cells ( http://arxiv.org/abs/2210.07998v1 )

ライセンス: Link先を確認
Sajad Movahedi, Melika Adabinejad, Ayyoob Imani, Arezou Keshavarz, Mostafa Dehghani, Azadeh Shakery, Babak N. Araabi(参考訳) 微分可能なニューラルアーキテクチャサーチ(DARTS)は、セル探索を行い、勾配に基づく最適化によって探索効率を向上させるために連続緩和を利用するニューラルネットワークサーチ(NAS)の一般的な方法である。 DARTSの主な欠点はパフォーマンスの崩壊であり、発見されたアーキテクチャは、検索中に品質が低下するパターンに悩まされている。 性能崩壊は研究の重要なトピックとなり、DARTSの正規化や根本的な変更によって問題を解決する方法が数多くある。 しかし、dartのセル検索やアーキテクチャパラメータの収束に使われる重み付けフレームワークはまだ分析されていない。 本稿では, DARTSとその収束点について, 完全かつ新しい理論的, 実証的な分析を行う。 我々は、DARTSの収束をソフトマックス関数の飽和点に制限するウェイトシェアリングフレームワークにより、DARTSは特定の構造欠陥に悩まされていることを示す。 この収束点が最適アーキテクチャを選択する際の出力に近い層に不公平な優位性を与え、性能が低下する。 次に,2つの新たな正規化項を提案し,階層の勾配を整列させることで動作選択を調和させることにより性能低下を防止する。 6つの異なる検索空間と3つの異なるデータセットに関する実験結果から、我々の手法($\lambda$-darts)は確かに性能の崩壊を防ぎ、理論解析と提案された修正の正当化を提供する。

Differentiable neural architecture search (DARTS) is a popular method for neural architecture search (NAS), which performs cell-search and utilizes continuous relaxation to improve the search efficiency via gradient-based optimization. The main shortcoming of DARTS is performance collapse, where the discovered architecture suffers from a pattern of declining quality during search. Performance collapse has become an important topic of research, with many methods trying to solve the issue through either regularization or fundamental changes to DARTS. However, the weight-sharing framework used for cell-search in DARTS and the convergence of architecture parameters has not been analyzed yet. In this paper, we provide a thorough and novel theoretical and empirical analysis on DARTS and its point of convergence. We show that DARTS suffers from a specific structural flaw due to its weight-sharing framework that limits the convergence of DARTS to saturation points of the softmax function. This point of convergence gives an unfair advantage to layers closer to the output in choosing the optimal architecture, causing performance collapse. We then propose two new regularization terms that aim to prevent performance collapse by harmonizing operation selection via aligning gradients of layers. Experimental results on six different search spaces and three different datasets show that our method ($\Lambda$-DARTS) does indeed prevent performance collapse, providing justification for our theoretical analysis and the proposed remedy.
翻訳日:2022-10-17 15:39:39 公開日:2022-10-14
# 知識蒸留による車両経路問題の一般化モデル学習

Learning Generalizable Models for Vehicle Routing Problems via Knowledge Distillation ( http://arxiv.org/abs/2210.07686v1 )

ライセンス: Link先を確認
Jieyi Bi, Yining Ma, Jiahai Wang, Zhiguang Cao, Jinbiao Chen, Yuan Sun, Yeow Meng Chee(参考訳) 車両ルーティング問題に対する最近のニューラル手法は、常に同じインスタンス分布(例えば、一様)の深部モデルの訓練とテストを行う。 そこで我々は,この分野に知識蒸留を導入し,より一般化可能な深層モデル学習のための適応多分布知識蒸留(AMDKD)手法を提案する。 特に、AMDKDは、模範分布の訓練を受けた複数の教師の様々な知識を活用して、軽量で汎用的な学生モデルを生成する。 一方,我々はAMDKDに適応的戦略を導入し,学生が難しい分布に集中して,より効果的に知識を吸収できるようにする。 広範な実験結果から,amdkdは,ベースラインニューラル手法と比較して,ランダムに合成されるか,ベンチマークデータセット(tsplibおよびcvrplib)から採用される未発見の分布インスタンスと分布外インスタンスの両方において,競合する結果を得ることができた。 特に、AMDKDは汎用的で、推論の計算資源が少ない。

Recent neural methods for vehicle routing problems always train and test the deep models on the same instance distribution (i.e., uniform). To tackle the consequent cross-distribution generalization concerns, we bring the knowledge distillation to this field and propose an Adaptive Multi-Distribution Knowledge Distillation (AMDKD) scheme for learning more generalizable deep models. Particularly, our AMDKD leverages various knowledge from multiple teachers trained on exemplar distributions to yield a light-weight yet generalist student model. Meanwhile, we equip AMDKD with an adaptive strategy that allows the student to concentrate on difficult distributions, so as to absorb hard-to-master knowledge more effectively. Extensive experimental results show that, compared with the baseline neural methods, our AMDKD is able to achieve competitive results on both unseen in-distribution and out-of-distribution instances, which are either randomly synthesized or adopted from benchmark datasets (i.e., TSPLIB and CVRPLIB). Notably, our AMDKD is generic, and consumes less computational resources for inference.
翻訳日:2022-10-17 15:33:28 公開日:2022-10-14
# ガウス過程を用いた不確かさ推定における単調性と二重降下

Monotonicity and Double Descent in Uncertainty Estimation with Gaussian Processes ( http://arxiv.org/abs/2210.07612v1 )

ライセンス: Link先を確認
Liam Hodgkinson, Chris van der Heide, Fred Roosta, Michael W. Mahoney(参考訳) モデルの複雑さが増すにつれて、多くの現代の機械学習モデルの品質が向上し、非単調な二重降下学習曲線によって予測性能が定量化されている。 ここでは、不確実性を見積もるモデルに対して、二重降下の類似理論があるだろうか? ガウス過程(GP)の設定において、部分的に肯定的かつ部分的に否定的な答えを与える。 標準の仮定の下では、より広い入力次元において、最適に調整されたgps(不確実性予測を含む)のモデル品質がより高まることを証明し、モノトーン誤差曲線を示す。 入力次元において辺縁性は自然に二重降下しないことを示した後、非単調性を示す後部予測損失の関連形式を強調した。 最後に,結果が実データに対して成り立つことを実証的に検証し,合成共変量を含む結果について検討する。

The quality of many modern machine learning models improves as model complexity increases, an effect that has been quantified, for predictive performance, with the non-monotonic double descent learning curve. Here, we address the overarching question: is there an analogous theory of double descent for models which estimate uncertainty? We provide a partially affirmative and partially negative answer in the setting of Gaussian processes (GP). Under standard assumptions, we prove that higher model quality for optimally-tuned GPs (including uncertainty prediction) under marginal likelihood is realized for larger input dimensions, and therefore exhibits a monotone error curve. After showing that marginal likelihood does not naturally exhibit double descent in the input dimension, we highlight related forms of posterior predictive loss that do exhibit non-monotonicity. Finally, we verify empirically that our results hold for real data, beyond our considered assumptions, and we explore consequences involving synthetic covariates.
翻訳日:2022-10-17 15:31:27 公開日:2022-10-14
# 時系列領域におけるクラス連続生成モデルの定量化

Quantifying Quality of Class-Conditional Generative Models in Time-Series Domain ( http://arxiv.org/abs/2210.07617v1 )

ライセンス: Link先を確認
Alireza Koochali, Maria Walch, Sankrutyayan Thota, Peter Schichtel, Andreas Dengel, Sheraz Ahmed(参考訳) 生成モデルは、データの不足問題に対処するように設計されている。 計算の進歩により、爆発的なデータ量であっても、いくつかのアプリケーション(例えば、医療、天気予報、故障検出)は、特に時系列領域においてデータ不足に悩まされている。 したがって生成モデルは必須かつ強力なツールであるが、それでも品質評価のための合意的なアプローチを欠いている。 このような欠陥は、現代の暗黙的生成モデルの時系列データへの確実な適用を妨げる。 画像領域における評価法に着想を得て,時系列領域におけるクラス条件生成モデルの質的性能を測定するために,インセプション時間スコア(its)とフレシェ開始時間距離(fitd)を導入した。 TSTR(Train on Synthetic Test on Real)とTRTS(Train on Real Test on Synthetic)の2つの既存の評価指標とともに,提案した指標の識別能力を研究するために,80種類のデータセットに対して広範な実験を行った。 総合評価の結果,提案手法であるITSとFITDとTSTRを組み合わせることで,クラス条件生成モデルの性能を正確に評価できることがわかった。

Generative models are designed to address the data scarcity problem. Even with the exploding amount of data, due to computational advancements, some applications (e.g., health care, weather forecast, fault detection) still suffer from data insufficiency, especially in the time-series domain. Thus generative models are essential and powerful tools, but they still lack a consensual approach for quality assessment. Such deficiency hinders the confident application of modern implicit generative models on time-series data. Inspired by assessment methods on the image domain, we introduce the InceptionTime Score (ITS) and the Frechet InceptionTime Distance (FITD) to gauge the qualitative performance of class conditional generative models on the time-series domain. We conduct extensive experiments on 80 different datasets to study the discriminative capabilities of proposed metrics alongside two existing evaluation metrics: Train on Synthetic Test on Real (TSTR) and Train on Real Test on Synthetic (TRTS). Extensive evaluation reveals that the proposed assessment method, i.e., ITS and FITD in combination with TSTR, can accurately assess class-conditional generative model performance.
翻訳日:2022-10-17 15:31:11 公開日:2022-10-14
# 多様体の観点から見た可換性と絡み合い

Commutativity and Disentanglement from the Manifold Perspective ( http://arxiv.org/abs/2210.07857v1 )

ライセンス: Link先を確認
Frank Qiu(参考訳) 本稿では, 多様体の観点からの非絡合を解釈し, 自然にそれが不絡合に必要かつ十分な条件を導出する方法を追究する。 その過程で, 生成モデルの圧縮・解離に技術的結果がどう影響するかを示すとともに, 可換性の実践的および理論的意義についても論じる。 最後に, 不等角化に対する関連するアプローチと, 多様体的観点からの不等角化に対する我々の見解との関係について考察した。

In this paper, we interpret disentanglement from the manifold perspective and trace how it naturally leads to a necessary and sufficient condition for disentanglement: the disentangled factors must commute with each other. Along the way, we show how some technical results have consequences for the compression and disentanglement of generative models, and we also discuss the practical and theoretical implications of commutativity. Finally, we conclude with a discussion of related approaches to disentanglement and how they relate to our view of disentanglement from the manifold perspective.
翻訳日:2022-10-17 15:30:49 公開日:2022-10-14
# 被覆木を用いた最小分離による安定スパースガウス過程

Numerically Stable Sparse Gaussian Processes via Minimum Separation using Cover Trees ( http://arxiv.org/abs/2210.07893v1 )

ライセンス: Link先を確認
Alexander Terenin, David R. Burt, Artem Artemev, Seth Flaxman, Mark van der Wilk, Carl Edward Rasmussen, and Hong Ge(参考訳) ガウス過程が成熟するにつれて、地理空間モデリングやベイズ最適化、潜在ガウスモデルなど、より大きな機械学習や意思決定システムの一部としてデプロイされるようになっている。 システム内では、ガウスのプロセスモデルは、システムの他の部分と正しく相互作用するために、安定して信頼性の高い方法で実行する必要がある。 本研究では,誘導点に基づくスケーラブルスパース近似の数値安定性について検討する。 数値的に安定な計算を行うための誘導点の条件が十分で、ある場合には必要条件を導出する。 地理空間モデリングなどの低次元タスクに対しては,これらの条件を満たす点を自動計算する手法を提案する。 これは、独立した関心を持つ被覆木データ構造の変更によって行われる。 さらに,少数の性能をトレードオフして安定性をさらに向上する,ガウス確率を持つ回帰に対する別のスパース近似を提案する。 提案手法を実例で評価し,地理空間環境では,数値安定性が保証されたスパース近似が非定常によく有効であることを示す。

As Gaussian processes mature, they are increasingly being deployed as part of larger machine learning and decision-making systems, for instance in geospatial modeling, Bayesian optimization, or in latent Gaussian models. Within a system, the Gaussian process model needs to perform in a stable and reliable manner to ensure it interacts correctly with other parts the system. In this work, we study the numerical stability of scalable sparse approximations based on inducing points. We derive sufficient and in certain cases necessary conditions on the inducing points for the computations performed to be numerically stable. For low-dimensional tasks such as geospatial modeling, we propose an automated method for computing inducing points satisfying these conditions. This is done via a modification of the cover tree data structure, which is of independent interest. We additionally propose an alternative sparse approximation for regression with a Gaussian likelihood which trades off a small amount of performance to further improve stability. We evaluate the proposed techniques on a number of examples, showing that, in geospatial settings, sparse approximations with guaranteed numerical stability often perform comparably to those without.
翻訳日:2022-10-17 15:30:39 公開日:2022-10-14
# 経時的取得を含む術後MRIボリュームにおける切除腔分割のための異なる自動解法の比較

Comparison of different automatic solutions for resection cavity segmentation in postoperative MRI volumes including longitudinal acquisitions ( http://arxiv.org/abs/2210.07806v1 )

ライセンス: Link先を確認
Luca Canalini, Jan Klein, Nuno Pedrosa de Barros, Diana Maria Sima, Dorothea Miller, Horst Hahn(参考訳) 本研究では,5つの深達度学習法を比較し,術後MRIで自動的に切除腔を分割する。 提案手法は同じ3次元U-Netアーキテクチャに基づいている。 術後MRIボリュームのデータセットは4つのMRIシークエンスとそれに対応する切除腔の真理を含む。 異なるMRIシーケンスで4つのソリューションをトレーニングする。 さらに、利用可能な全てのシーケンスで設計されたメソッドも提示される。 実験の結果,T1重み付き造影MRI画像のみを用いてトレーニングした手法は,中央値のDICE指数が0.81で最良の結果が得られることがわかった。

In this work, we compare five deep learning solutions to automatically segment the resection cavity in postoperative MRI. The proposed methods are based on the same 3D U-Net architecture. We use a dataset of postoperative MRI volumes, each including four MRI sequences and the ground truth of the corresponding resection cavity. Four solutions are trained with a different MRI sequence. Besides, a method designed with all the available sequences is also presented. Our experiments show that the method trained only with the T1 weighted contrast-enhanced MRI sequence achieves the best results, with a median DICE index of 0.81.
翻訳日:2022-10-17 15:25:00 公開日:2022-10-14
# 組織像の自己活性化マップを用いた教師なし高密度核検出とセグメンテーション

Unsupervised Dense Nuclei Detection and Segmentation with Prior Self-activation Map For Histology Images ( http://arxiv.org/abs/2210.07862v1 )

ライセンス: Link先を確認
Pingyi Chen, Chenglu Zhu, Zhongyi Shui, Jiatong Cai, Sunyi Zheng, Shichuan Zhang, Lin Yang(参考訳) 医用画像セグメンテーションにおける教師付きディープラーニングモデルの成功は、詳細なアノテーションに依存している。 しかし、特に高密度オブジェクトセグメンテーションにおいて、労働集約的な手動ラベリングはコストが高く非効率である。 そこで本稿では,ラベル付けコストを回避するために,入力画像から自己活性化マップを生成し,さらに下流タスク用の擬似マスクを生成する,事前自己活性化モジュール(PSM)を用いた自己教師型学習手法を提案する。 具体的には、まず、自己教師付き学習を用いてニューラルネットワークをトレーニングし、ネットワークの浅い層における勾配情報を用いて自己活性化マップを生成する。 その後、セマンティック誘導ジェネレータがパイプラインとして導入され、PSMから下流タスクのためのピクセルレベルのセマンティックマスクに視覚表現を変換する。 さらに、最終セグメンテーションを達成するために、核検出ネットワークと核セグメンテーションネットワークからなる2段階のトレーニングモジュールを採用する。 実験の結果,2つの病的データセットの有効性が示された。 他の完全教師付き・弱教師付き手法と比較して,本手法は手動アノテーションを使わずに競争性能を達成できる。

The success of supervised deep learning models in medical image segmentation relies on detailed annotations. However, labor-intensive manual labeling is costly and inefficient, especially in dense object segmentation. To this end, we propose a self-supervised learning based approach with a Prior Self-activation Module (PSM) that generates self-activation maps from the input images to avoid labeling costs and further produce pseudo masks for the downstream task. To be specific, we firstly train a neural network using self-supervised learning and utilize the gradient information in the shallow layers of the network to generate self-activation maps. Afterwards, a semantic-guided generator is then introduced as a pipeline to transform visual representations from PSM to pixel-level semantic pseudo masks for downstream tasks. Furthermore, a two-stage training module, consisting of a nuclei detection network and a nuclei segmentation network, is adopted to achieve the final segmentation. Experimental results show the effectiveness on two public pathological datasets. Compared with other fully-supervised and weakly-supervised methods, our method can achieve competitive performance without any manual annotations.
翻訳日:2022-10-17 15:24:50 公開日:2022-10-14
# モンテカルロ・アクター・クライトを用いた浅部深部強化学習

Monte Carlo Augmented Actor-Critic for Sparse Reward Deep Reinforcement Learning from Suboptimal Demonstrations ( http://arxiv.org/abs/2210.07432v1 )

ライセンス: Link先を確認
Albert Wilcox, Ashwin Balakrishna, Jules Dedieu, Wyame Benslimane, Daniel Brown, Ken Goldberg(参考訳) RLアルゴリズムに対する密な形状の報酬関数を提供することは、しばしば困難であり、スパース報酬関数から学習できるRLアルゴリズムの開発を動機付けている。 この空間は新たな探索課題を引き起こしている。 この問題に対処する一般的な方法は、デモを使用して、高い報酬で状態空間の領域に関する最初の信号を提供することである。 しかし、デモアルゴリズムの先行RLは、非常に複雑で多くのハイパーパラメータを導入し、実装とチューニングが困難になる。 我々は,標準時間距離(td)目標とモンテカルロ推定値(reward-to-go)を最大値とすることで,リプレイバッファを初期化し,修正された$q$-valueを計算する標準アクタ-クリティックアルゴリズムのパラメータフリー修正であるモンテカルロ拡張アクター批評家(mcac)を紹介する。 これにより、状態空間の対応する領域における高いQ$値の促進により、高性能な軌道の近傍での探索が促進される。 5ドルの連続制御ドメインに対する実験は、MCACが6ドルの一般的なRLおよびRL-from-demonstrationsアルゴリズムで学習効率を大幅に向上させる可能性があることを示唆している。 コードと補足資料のhttps://sites.google.com/view/mcac-rlを参照。

Providing densely shaped reward functions for RL algorithms is often exceedingly challenging, motivating the development of RL algorithms that can learn from easier-to-specify sparse reward functions. This sparsity poses new exploration challenges. One common way to address this problem is using demonstrations to provide initial signal about regions of the state space with high rewards. However, prior RL from demonstrations algorithms introduce significant complexity and many hyperparameters, making them hard to implement and tune. We introduce Monte Carlo Augmented Actor Critic (MCAC), a parameter free modification to standard actor-critic algorithms which initializes the replay buffer with demonstrations and computes a modified $Q$-value by taking the maximum of the standard temporal distance (TD) target and a Monte Carlo estimate of the reward-to-go. This encourages exploration in the neighborhood of high-performing trajectories by encouraging high $Q$-values in corresponding regions of the state space. Experiments across $5$ continuous control domains suggest that MCAC can be used to significantly increase learning efficiency across $6$ commonly used RL and RL-from-demonstrations algorithms. See https://sites.google.com/view/mcac-rl for code and supplementary material.
翻訳日:2022-10-17 15:23:10 公開日:2022-10-14
# 相互情報正規化オフライン強化学習

Mutual Information Regularized Offline Reinforcement Learning ( http://arxiv.org/abs/2210.07484v1 )

ライセンス: Link先を確認
Xiao Ma, Bingyi Kang, Zhongwen Xu, Min Lin, Shuicheng Yan(参考訳) オフライン強化学習(RL)は、環境とのアクティブな相互作用なしにオフラインデータセットから効果的なポリシーを学ぶことを目的としている。 オフラインRLの最大の課題は、アウト・オブ・ディストリビューション・アクションがクエリーされたときに現れる分布シフトである。 既存の手法の多くは、政策改善時に行動方針から逸脱する政策を罰することや、政策評価中に価値関数の保守的な更新を行うことでこの問題に対処している。 本研究では,政策改善の方向性を直接拘束することで,データセット内の状態と行動間の相互情報の観点から,オフラインRLにアプローチする新しいMISAフレームワークを提案する。 直感的には、相互情報は行動と状態の相互依存を測定し、行動エージェントがデータ収集中に特定の環境状態にどのように反応するかを反映する。 この情報を効果的に活用して政策学習を容易にするため、MISAはポリシーとQ値によってパラメータ化された相互情報の下位境界を構築する。 この下限を最適化することは、オフラインデータセット上のワンステップ改善ポリシーの可能性を最大化するのと同値である。 このように、我々は政策改善の方向性をデータ多様体に限定する。 得られたアルゴリズムは、相互情報正規化を追加することにより、政策評価と改善を同時に強化する。 MISAは、保守的なQ-ラーニング(CQL)と行動規則化(TD3+BC)を特別なケースとして統合する一般的なオフラインRLフレームワークである。 実験の結果,MISA は既存の手法よりも優れた性能を示し,D4RL ベンチマークの様々なタスクにおける新しい最先端性を実現している。

Offline reinforcement learning (RL) aims at learning an effective policy from offline datasets without active interactions with the environment. The major challenge of offline RL is the distribution shift that appears when out-of-distribution actions are queried, which makes the policy improvement direction biased by extrapolation errors. Most existing methods address this problem by penalizing the policy for deviating from the behavior policy during policy improvement or making conservative updates for value functions during policy evaluation. In this work, we propose a novel MISA framework to approach offline RL from the perspective of Mutual Information between States and Actions in the dataset by directly constraining the policy improvement direction. Intuitively, mutual information measures the mutual dependence of actions and states, which reflects how a behavior agent reacts to certain environment states during data collection. To effectively utilize this information to facilitate policy learning, MISA constructs lower bounds of mutual information parameterized by the policy and Q-values. We show that optimizing this lower bound is equivalent to maximizing the likelihood of a one-step improved policy on the offline dataset. In this way, we constrain the policy improvement direction to lie in the data manifold. The resulting algorithm simultaneously augments the policy evaluation and improvement by adding a mutual information regularization. MISA is a general offline RL framework that unifies conservative Q-learning (CQL) and behavior regularization methods (e.g., TD3+BC) as special cases. Our experiments show that MISA performs significantly better than existing methods and achieves new state-of-the-art on various tasks of the D4RL benchmark.
翻訳日:2022-10-17 15:22:45 公開日:2022-10-14
# 深層強化学習のためのスケーラブルな有限差分法

A Scalable Finite Difference Method for Deep Reinforcement Learning ( http://arxiv.org/abs/2210.07487v1 )

ライセンス: Link先を確認
Matthew Allen, John Raisbeck, and Hakho Lee(参考訳) いくつかの低帯域分布型ブラックボックス最適化アルゴリズムは、近年、いくつかの深層強化学習領域において、より洗練された現代的手法をほぼ同時に実行していることが示されている。 本研究では,そのようなシステムにおける分散作業者の利用に関する中核的な問題について検討する。 さらに,一般的なadam勾配降下アルゴリズムと最も単純な確率勾配降下法との性能の劇的差異について検討した。 これらの研究は安定で低帯域幅の学習アルゴリズムを生み出し、典型的な条件下で全ての接続されたcpuの100\%使用を実現する。

Several low-bandwidth distributable black-box optimization algorithms have recently been shown to perform nearly as well as more refined modern methods in some Deep Reinforcement Learning domains. In this work we investigate a core problem with the use of distributed workers in such systems. Further, we investigate the dramatic differences in performance between the popular Adam gradient descent algorithm and the simplest form of stochastic gradient descent. These investigations produce a stable, low-bandwidth learning algorithm that achieves 100\% usage of all connected CPUs under typical conditions.
翻訳日:2022-10-17 15:22:18 公開日:2022-10-14
# 大規模グラフトレーニングに関する総合的研究:ベンチマークと再考

A Comprehensive Study on Large-Scale Graph Training: Benchmarking and Rethinking ( http://arxiv.org/abs/2210.07494v1 )

ライセンス: Link先を確認
Keyu Duan, Zirui Liu, Peihao Wang, Wenqing Zheng, Kaixiong Zhou, Tianlong Chen, Xia Hu, Zhangyang Wang(参考訳) 大規模グラフトレーニングは、グラフニューラルネットワーク(GNN)にとって非常に難しい問題である。 トレーニングプロセスにグラフ構造が進化する性質のため、バニラGNNは通常、GPUメモリスペースによって制限されたスケールアップに失敗する。 これまでのところ、多くのスケーラブルなGNNアーキテクチャが提案されているが、スケーラブルなGNNを設計する根拠を見つけるための包括的な調査と、この貯水池の公正なベンチマークは、まだ残っていない。 そこで,我々はまず,大規模グラフ学習の代表的手法を複数のブランチに体系的に定式化し,さらにグリージーなハイパーパラメータ探索により,公平で一貫したベンチマークを確立する。 さらに効率に関して,様々なブランチの時間と空間の複雑さを理論的に評価し,w.r.t gpuメモリ使用率,スループット,収束率を実験的に比較した。 さらに,スケーラブルなgnnのさまざまなブランチの長所と短所を分析し,既存の問題に対処するために,engcnと呼ばれる新しいセンシングトレーニング手法を提案する。 注目すべきことに,提案手法は大規模データセット上でのSOTA(State-of-the-art)の性能向上を実現している。 私たちのコードはhttps://github.com/vita-group/large_scale_gcn_benchmarkingで利用可能です。

Large-scale graph training is a notoriously challenging problem for graph neural networks (GNNs). Due to the nature of evolving graph structures into the training process, vanilla GNNs usually fail to scale up, limited by the GPU memory space. Up to now, though numerous scalable GNN architectures have been proposed, we still lack a comprehensive survey and fair benchmark of this reservoir to find the rationale for designing scalable GNNs. To this end, we first systematically formulate the representative methods of large-scale graph training into several branches and further establish a fair and consistent benchmark for them by a greedy hyperparameter searching. In addition, regarding efficiency, we theoretically evaluate the time and space complexity of various branches and empirically compare them w.r.t GPU memory usage, throughput, and convergence. Furthermore, We analyze the pros and cons for various branches of scalable GNNs and then present a new ensembling training manner, named EnGCN, to address the existing issues. Remarkably, our proposed method has achieved new state-of-the-art (SOTA) performance on large-scale datasets. Our code is available at https://github.com/VITA-Group/Large_Scale_GCN_Benchmarking.
翻訳日:2022-10-17 15:22:08 公開日:2022-10-14
# 非凸目的を用いた分散分布ロバスト最適化

Distributed Distributionally Robust Optimization with Non-Convex Objectives ( http://arxiv.org/abs/2210.07588v1 )

ライセンス: Link先を確認
Yang Jiao, Kai Yang, Dongjin Song(参考訳) 分布的ロバスト最適化(DRO)は、確率分布のあいまいさセットよりも最悪のケースコストを最小限に抑える最適な決定を行うことを目的としており、ネットワークの挙動分析、リスク管理など様々な用途に広く適用されている。 しかし、既存のDRO技術は3つの大きな課題に直面している。 1) 分散環境における非同期更新の扱い方 2) 事前分布を効果的に活用する方法 3) 異なるシナリオに応じてロバスト性の程度を適切に調整する方法。 そこで本研究では,分散分散分散ロバスト最適化(DDRO)問題に対処するため,分散分散アルゴリズムであるAsynchronous Single-looP alternatIve gRadient projEction (ASPIRE) アルゴリズムと itErative Active SEt method (EASE) を提案する。 さらに、制約付きD-ノルムの不確実性集合と呼ばれる新しい不確実性集合が、事前分布を効果的に活用し、強靭性の度合いを柔軟に制御するために開発された。 最後に,提案アルゴリズムが収束することが保証され,繰り返しの複雑さも解析されることを示す。 実世界のデータセットに関する広範囲な実証研究は、提案手法が高速収束を達成できるだけでなく、データの不均一性や悪意のある攻撃にも頑健であり続けることを証明している。

Distributionally Robust Optimization (DRO), which aims to find an optimal decision that minimizes the worst case cost over the ambiguity set of probability distribution, has been widely applied in diverse applications, e.g., network behavior analysis, risk management, etc. However, existing DRO techniques face three key challenges: 1) how to deal with the asynchronous updating in a distributed environment; 2) how to leverage the prior distribution effectively; 3) how to properly adjust the degree of robustness according to different scenarios. To this end, we propose an asynchronous distributed algorithm, named Asynchronous Single-looP alternatIve gRadient projEction (ASPIRE) algorithm with the itErative Active SEt method (EASE) to tackle the distributed distributionally robust optimization (DDRO) problem. Furthermore, a new uncertainty set, i.e., constrained D-norm uncertainty set, is developed to effectively leverage the prior distribution and flexibly control the degree of robustness. Finally, our theoretical analysis elucidates that the proposed algorithm is guaranteed to converge and the iteration complexity is also analyzed. Extensive empirical studies on real-world datasets demonstrate that the proposed method can not only achieve fast convergence, and remain robust against data heterogeneity as well as malicious attacks, but also tradeoff robustness with performance.
翻訳日:2022-10-17 15:21:48 公開日:2022-10-14
# PCFGベースの自然言語インタフェースによるテキスト生成の一般化

PCFG-based Natural Language Interface Improves Generalization for Controlled Text Generation ( http://arxiv.org/abs/2210.07431v1 )

ライセンス: Link先を確認
Jingyu Zhang, James Glass, Tianxing He(参考訳) 制御テキスト生成(ctg)に関する既存の作業は、カテゴリ属性の制御インターフェースを前提としている。 本研究では,自然言語コマンドに制御属性を組み込むためにpcfgを製作する自然言語 (nl) インタフェースを提案し,コマンドを入力とする既存のctgモデルの変種を提案する。 実験では、モデルの一般化能力をテストするための調整されたセットアップを設計する。 提案したNLモデルは,NLインタフェースによって実現された新しい機能,および未知の属性の組み合わせを効果的に一般化することができる。 興味深いことに、提案したNLインタフェースで強化された単純な条件生成アプローチは、これらの困難な設定において強力なベースラインであることが判明した。

Existing work on controlled text generation (CTG) assumes a control interface of categorical attributes. In this work, we propose a natural language (NL) interface, where we craft a PCFG to embed the control attributes into natural language commands, and propose variants of existing CTG models that take commands as input. In our experiments, we design tailored setups to test model's generalization abilities. We find our PCFG-based command generation approach is effective for handling unseen commands compared to fix-set templates; our proposed NL models can effectively generalize to unseen attributes, a new ability enabled by the NL interface, as well as unseen attribute combinations. Interestingly, we discover that the simple conditional generation approach, enhanced with our proposed NL interface, is a strong baseline in those challenging settings.
翻訳日:2022-10-17 15:14:59 公開日:2022-10-14
# automoe: 効率的なスパースアクティベートトランスフォーマーのニューラルネットワークによる探索

AutoMoE: Neural Architecture Search for Efficient Sparsely Activated Transformers ( http://arxiv.org/abs/2210.07535v1 )

ライセンス: Link先を確認
Ganesh Jawahar, Subhabrata Mukherjee, Xiaodong Liu, Young Jin Kim, Muhammad Abdul-Mageed, Laks V. S. Lakshmanan, Ahmed Hassan Awadallah, Sebastien Bubeck, Jianfeng Gao(参考訳) neural architecture search (nas)は、ニューラルネットワーク翻訳(nmt)のような自然言語タスクのために手動で設計されたものよりも優れたトランスフォーマーアーキテクチャを識別する有望な結果を示している。 既存のNAS法は、全ての入力に対して全てのサブアーキテクチャ重みが活性化されるような密集アーキテクチャの空間で動作する。 近年,Mixture-of-Experts(MoE)モデルのような疎活性化モデルの進歩により,NAS検索空間に条件付き計算を伴うスパースアーキテクチャを導入する。 従来より高密度に活性化されたアーキテクチャを仮定した表現型検索空間を前提として,効率的な疎活性化サブトランスフォーマーを探索する新しいフレームワークであるAutoMoEを開発した。 AutoMoE生成スパースモデル取得 (i)手動設計の高密度変圧器と3倍フロップ低減 (II) NMTのベンチマークデータセット上でのBLEUスコアと同等である最先端NAS生成高密度サブトランスに対するFLOPsの23%削減。 AutoMoEは3つの訓練段階で構成されている。 (a)高密度かつ疎活性化されたトランスフォーマーモジュールによる異種検索空間の設計(例えば、専門家は何人?どこに配置すべきか?サイズは?) b) 重み共有により大規模検索空間からサンプリングされた複数のサブネットワークを共同で訓練するスーパーネットトレーニング c) タスクパフォーマンスとフロップやレイテンシといった計算制約の間の最適なトレードオフによるアーキテクチャの進化的探索。 AutoMoEのコード、データ、トレーニングされたモデルはhttps://github.com/microsoft/AutoMoEで入手できる。

Neural architecture search (NAS) has demonstrated promising results on identifying efficient Transformer architectures which outperform manually designed ones for natural language tasks like neural machine translation (NMT). Existing NAS methods operate on a space of dense architectures, where all of the sub-architecture weights are activated for every input. Motivated by the recent advances in sparsely activated models like the Mixture-of-Experts (MoE) model, we introduce sparse architectures with conditional computation into the NAS search space. Given this expressive search space which subsumes prior densely activated architectures, we develop a new framework AutoMoE to search for efficient sparsely activated sub-Transformers. AutoMoE-generated sparse models obtain (i) 3x FLOPs reduction over manually designed dense Transformers and (ii) 23% FLOPs reduction over state-of-the-art NAS-generated dense sub-Transformers with parity in BLEU score on benchmark datasets for NMT. AutoMoE consists of three training phases: (a) Heterogeneous search space design with dense and sparsely activated Transformer modules (e.g., how many experts? where to place them? what should be their sizes?); (b) SuperNet training that jointly trains several subnetworks sampled from the large search space by weight-sharing; (c) Evolutionary search for the architecture with the optimal trade-off between task performance and computational constraint like FLOPs and latency. AutoMoE code, data and trained models are available at https://github.com/microsoft/AutoMoE.
翻訳日:2022-10-17 15:14:46 公開日:2022-10-14
# バックドアを用いた事前学習言語モデルの透かし

Watermarking Pre-trained Language Models with Backdooring ( http://arxiv.org/abs/2210.07543v1 )

ライセンス: Link先を確認
Chenxi Gu, Chengsong Huang, Xiaoqing Zheng, Kai-Wei Chang, Cho-Jui Hsieh(参考訳) 大規模事前学習言語モデル(PLM)は、現代の自然言語処理システムにおいて重要なコンポーネントであることが証明されている。 PLMは通常、タスク固有の下流データセットを微調整する必要があるため、PLMの所有権を主張し、悲惨な忘れ物現象のために開発者の知的財産を保護することは困難である。 PLMは、所有者が定義した特定の入力によって引き起こされるバックドアを埋め込むことで、マルチタスク学習フレームワークで透かしが可能であることを示し、これらの透かしは、複数の下流タスクで微調整されているにもかかわらず、取り外しが困難であることを示す。 また,レアワードをトリガーとして使用するだけでなく,共通語の組み合わせをバックドアトリガーとして使用することで,検出が容易であることを示す。 複数のデータセットに対する広範囲な実験により、埋め込みウォーターマークを高い成功率でロバストに抽出でき、後続の微調整の影響も少ないことが示されている。

Large pre-trained language models (PLMs) have proven to be a crucial component of modern natural language processing systems. PLMs typically need to be fine-tuned on task-specific downstream datasets, which makes it hard to claim the ownership of PLMs and protect the developer's intellectual property due to the catastrophic forgetting phenomenon. We show that PLMs can be watermarked with a multi-task learning framework by embedding backdoors triggered by specific inputs defined by the owners, and those watermarks are hard to remove even though the watermarked PLMs are fine-tuned on multiple downstream tasks. In addition to using some rare words as triggers, we also show that the combination of common words can be used as backdoor triggers to avoid them being easily detected. Extensive experiments on multiple datasets demonstrate that the embedded watermarks can be robustly extracted with a high success rate and less influenced by the follow-up fine-tuning.
翻訳日:2022-10-17 15:14:21 公開日:2022-10-14
# kernel-whitening:等方性文埋め込みによるデータセットバイアスの克服

Kernel-Whitening: Overcome Dataset Bias with Isotropic Sentence Embedding ( http://arxiv.org/abs/2210.07547v1 )

ライセンス: Link先を確認
Songyang Gao, Shihan Dou, Qi Zhang, Xuanjing Huang(参考訳) データセットバイアスは、微調整モデルの一般化能力に対する有害な影響により近年注目を集めている。 現在の主流のソリューションは、バイアスのあるインスタンスを事前に識別するための、追加の浅いモデルの設計である。 しかし、この2段階の手法は、トレーニングプロセスの計算複雑性を増大させ、バイアスを緩和しながら有効な特徴情報を妨害する。 この問題に対処するために,符号化文の特徴間の相関関係の解消を目的とした表現正規化手法を用いる。 また,等方性データ分布を提供することでバイアス問題を解消することも期待できる。 さらに,非線形スプリアス相関のより徹底的なデバイアスを実現するために,nystromカーネル近似法であるkernel-whiteningを提案する。 私たちのフレームワークはエンドツーエンドで、時間消費と微調整の類似しています。 実験により,Kernel-Whiteningは分布内精度を維持しつつ,分布外データセットにおけるBERTの性能を著しく向上することが示された。

Dataset bias has attracted increasing attention recently for its detrimental effect on the generalization ability of fine-tuned models. The current mainstream solution is designing an additional shallow model to pre-identify biased instances. However, such two-stage methods scale up the computational complexity of training process and obstruct valid feature information while mitigating bias. To address this issue, we utilize the representation normalization method which aims at disentangling the correlations between features of encoded sentences. We find it also promising in eliminating the bias problem by providing isotropic data distribution. We further propose Kernel-Whitening, a Nystrom kernel approximation method to achieve more thorough debiasing on nonlinear spurious correlations. Our framework is end-to-end with similar time consumption to fine-tuning. Experiments show that Kernel-Whitening significantly improves the performance of BERT on out-of-distribution datasets while maintaining in-distribution accuracy.
翻訳日:2022-10-17 15:14:04 公開日:2022-10-14
# DyLoRA:動的探索自由低ランク適応を用いた事前学習モデルのパラメータ調整

DyLoRA: Parameter Efficient Tuning of Pre-trained Models using Dynamic Search-Free Low-Rank Adaptation ( http://arxiv.org/abs/2210.07558v1 )

ライセンス: Link先を確認
Mojtaba Valipour, Mehdi Rezagholizadeh, Ivan Kobyzev, Ali Ghodsi(参考訳) トレーニング済みモデル(PM)のサイズが拡大するにつれて、微調整は高価になり、資源が枯渇している。 対策として、ローランクアダプタ(LoRA)はモデルの主要なトレーニング済み重量を凍結させ、学習可能なSVDモジュール(いわゆるLoRAブロック)をモデルに導入する。 LoRAブロックはパラメータ効率が良いが、これらのブロックのサイズが固定され、トレーニング後に修正できない(例えば、LoRAブロックのランクを変更する必要がある場合、スクラッチから再トレーニングする必要がある)。 本研究では,これら2つの問題に対処する動的低ランク適応(DyLoRA)手法を提案する。 我々のDyLoRAメソッドは、トレーニング中に異なるランクでアダプタモジュールが学習した表現をソートすることで、LORAブロックを単一のランクではなく幅広いランクでトレーニングする。 我々は,RoBERTaモデルを用いて,GLUEベンチマークの異なるタスクに対するソリューションの評価を行った。 この結果から,DyLoRAを用いた動的検索フリーモデルをLoRAより少なくとも7\times$高速に訓練できることがわかった。 さらに、我々のモデルはLoRAに比べてはるかに広いランクで一貫して性能を向上できる。

With the ever-growing size of pre-trained models (PMs), fine-tuning them has become more expensive and resource-hungry. As a remedy, low-rank adapters (LoRA) keep the main pre-trained weights of the model frozen and just introduce some learnable truncated SVD modules (so-called LoRA blocks) to the model. While LoRA blocks are parameter efficient, they suffer from two major problems: first, the size of these blocks is fixed and cannot be modified after training (for example, if we need to change the rank of LoRA blocks, then we need to re-train them from scratch); second, optimizing their rank requires an exhaustive search and effort. In this work, we introduce a dynamic low-rank adaptation (DyLoRA) technique to address these two problems together. Our DyLoRA method trains LoRA blocks for a range of ranks instead of a single rank by sorting out the representation learned by the adapter module at different ranks during training. We evaluate our solution on different tasks of the GLUE benchmark using the RoBERTa model. Our results show that we can train dynamic search-free models with DyLoRA at least $7\times$ faster than LoRA without significantly compromising performance. Moreover, our models can perform consistently well on a much larger range of ranks compared to LoRA.
翻訳日:2022-10-17 15:13:51 公開日:2022-10-14
# leather: 対話における人間ライクなテキスト生成のための学習フレームワーク

LEATHER: A Framework for Learning to Generate Human-like Text in Dialogue ( http://arxiv.org/abs/2210.07777v1 )

ライセンス: Link先を確認
Anthony Sicilia and Malihe Alikhani(参考訳) 対話におけるテキスト生成のアルゴリズムは誤解されることがある。 例えば、タスク指向の設定では、タスク・サクセスのみを最適化する強化学習は、アビスマル語彙の多様性をもたらす。 これは、テキスト生成の目的と学習過程(すなわちモデルトレーニング)との関係についての理論的理解が乏しいためである。 そこで本研究では,対話文を生成するための理論的枠組みを提案する。 既存の学習理論と比較して,本フレームワークはテキスト生成に固有の多面目標の分析を可能にする。 我々は,未知のデータに適応する学習者の理論的保証を開発するために,我々のフレームワークを利用する。 一例として,提案する協調学習アルゴリズムにおけるデータシフトの研究に本理論を適用した。 ビジュアル対話ゲーム。 この知見から,新しいアルゴリズムを提案し,経験的に,生成したテキストのタスク成功とヒューマンライクネスを改善できることを実証する。 最後に,本理論の統計は生成した対話の多質性を実証的に予測し,人間評価が得られない場合のモデル選択に有用であることを示す。

Algorithms for text-generation in dialogue can be misguided. For example, in task-oriented settings, reinforcement learning that optimizes only task-success can lead to abysmal lexical diversity. We hypothesize this is due to poor theoretical understanding of the objectives in text-generation and their relation to the learning process (i.e., model training). To this end, we propose a new theoretical framework for learning to generate text in dialogue. Compared to existing theories of learning, our framework allows for analysis of the multi-faceted goals inherent to text-generation. We use our framework to develop theoretical guarantees for learners that adapt to unseen data. As an example, we apply our theory to study data-shift within a cooperative learning algorithm proposed for the GuessWhat?! visual dialogue game. From this insight, we propose a new algorithm, and empirically, we demonstrate our proposal improves both task-success and human-likeness of the generated text. Finally, we show statistics from our theory are empirically predictive of multiple qualities of the generated dialogue, suggesting our theory is useful for model-selection when human evaluations are not available.
翻訳日:2022-10-17 15:13:29 公開日:2022-10-14
# star-transformer:人間の行動認識のための時空間クロスアテンショントランスフォーマ

STAR-Transformer: A Spatio-temporal Cross Attention Transformer for Human Action Recognition ( http://arxiv.org/abs/2210.07503v1 )

ライセンス: Link先を確認
Dasom Ahn, Sangwon Kim, Hyunsu Hong, Byoung Chul Ko(参考訳) 動作認識では,時空間映像とスケルトン特徴の組み合わせにより認識性能が向上するが,クロスモーダルデータの分離モデルとバランシング特徴表現が必要となる。 これらの問題を解決するために,2つのクロスモーダル特徴を認識可能なベクトルとして効果的に表現できるspatio-TemporAl cRoss-transformerを提案する。 まず、入力されたビデオとスケルトンシーケンスから、ビデオフレームをグローバルグリッドトークンとして出力し、スケルトンをジョイントマップトークンとして出力する。 これらのトークンはマルチクラストークンに集約され、star-transformerに入力される。 スタートランスフォーマエンコーダ層はフルセルフアテンション(fattn)モジュールとジグザグ時空間注意(zigzag spatio-temporal attention, zattn)モジュールから構成されている。 同様に、連続デコーダはfatnモジュールと提案されたbinary spatio-temporal attention (battn)モジュールから構成される。 STAR変換器は、FAttn、ZAttn、BAttnモジュールのペアを適切に配置することで、時空間特徴の効率的な多機能表現を学習する。 Penn-Action, NTU RGB+D 60, 120データセットの実験結果から, 提案手法は従来の最先端手法と比較して, 性能が向上することを示す。

In action recognition, although the combination of spatio-temporal videos and skeleton features can improve the recognition performance, a separate model and balancing feature representation for cross-modal data are required. To solve these problems, we propose Spatio-TemporAl cRoss (STAR)-transformer, which can effectively represent two cross-modal features as a recognizable vector. First, from the input video and skeleton sequence, video frames are output as global grid tokens and skeletons are output as joint map tokens, respectively. These tokens are then aggregated into multi-class tokens and input into STAR-transformer. The STAR-transformer encoder layer consists of a full self-attention (FAttn) module and a proposed zigzag spatio-temporal attention (ZAttn) module. Similarly, the continuous decoder consists of a FAttn module and a proposed binary spatio-temporal attention (BAttn) module. STAR-transformer learns an efficient multi-feature representation of the spatio-temporal features by properly arranging pairings of the FAttn, ZAttn, and BAttn modules. Experimental results on the Penn-Action, NTU RGB+D 60, and 120 datasets show that the proposed method achieves a promising improvement in performance in comparison to previous state-of-the-art methods.
翻訳日:2022-10-17 15:13:13 公開日:2022-10-14
# 注意を伴うマルチタスク学習に基づくビデオ異常検出

Multi-Task Learning based Video Anomaly Detection with Attention ( http://arxiv.org/abs/2210.07697v1 )

ライセンス: Link先を確認
Mohammad Baradaran and Robert Bergevin(参考訳) マルチタスク学習に基づくビデオ異常検出手法は、異なるブランチ内の複数のプロキシタスクを組み合わせて、異なる状況でビデオ異常を検出する。 既存のほとんどのメソッドは、すべての動作パターンを効果的にカバーするために補完的なタスクを結合しないか、オブジェクトのクラスを明示的に考慮していない。 上記の欠点に対処するために,相補的なプロキシタスクを組み合わせたマルチタスク学習に基づく新しい手法を提案する。 セマンティクスセグメンテーションと将来のフレーム予測タスクを1つのブランチで組み合わせ、オブジェクトクラスと一貫した動きパターンを学習し、それぞれの異常を同時に検出する。 第2のブランチでは,物体に注目する動き異常,動き方向,カメラからの物体の距離を検出するための注意機構をいくつか追加した。 その結果,提案手法は物体クラスを効果的に考慮し,上述の重要な要素に注目して動作を学習し,より正確な動作モデルとより優れた動作異常検出を実現する。 さらに,本手法が最先端手法よりも優れていることを示す。

Multi-task learning based video anomaly detection methods combine multiple proxy tasks in different branches to detect video anomalies in different situations. Most existing methods either do not combine complementary tasks to effectively cover all motion patterns, or the class of the objects is not explicitly considered. To address the aforementioned shortcomings, we propose a novel multi-task learning based method that combines complementary proxy tasks to better consider the motion and appearance features. We combine the semantic segmentation and future frame prediction tasks in a single branch to learn the object class and consistent motion patterns, and to detect respective anomalies simultaneously. In the second branch, we added several attention mechanisms to detect motion anomalies with attention to object parts, the direction of motion, and the distance of the objects from the camera. Our qualitative results show that the proposed method considers the object class effectively and learns motion with attention to the aforementioned important factors which results in a precise motion modeling and a better motion anomaly detection. Additionally, quantitative results show the superiority of our method compared with state-of-the-art methods.
翻訳日:2022-10-17 15:12:49 公開日:2022-10-14
# 文化的コモンセンス知識の抽出

Extracting Cultural Commonsense Knowledge at Scale ( http://arxiv.org/abs/2210.07763v1 )

ライセンス: Link先を確認
Tuan-Phong Nguyen, Simon Razniewski, Aparna Varde, Gerhard Weikum(参考訳) 構造化知識は多くのAIアプリケーションにとって重要である。 堅牢な人間中心のaiに不可欠な常識知識は、少数の構造化知識プロジェクトによってカバーされている。 しかし、それらは社会文化的文脈に基づく人間の特性や行動に関する知識を欠いている。 本稿では,高品質な文化常識知識(CCSK)を大規模に抽出するためのエンドツーエンド手法であるCANDLEを提案する。 CANDLEは巨大なウェブコーパスからCSKアサーションを抽出し、これらを3つの領域の主題(地理学、宗教、職業)といくつかの文化的ファセット(食品、飲み物、衣服、伝統、儀式、行動)の一貫性のあるクラスタにまとめる。 CANDLEは、分類に基づくフィルタリングと興味深いスコア付けのための司法手法を含んでいる。 実験により, CANDLE CCSKコレクションは先行研究よりも優れており, GPT-3言語モデルに対する CCSK の利点が実証されている。 コードとデータはhttps://cultural-csk.herokuapp.com/でアクセスできる。

Structured knowledge is important for many AI applications. Commonsense knowledge, which is crucial for robust human-centric AI, is covered by a small number of structured knowledge projects. However, they lack knowledge about human traits and behaviors conditioned on socio-cultural contexts, which is crucial for situative AI. This paper presents CANDLE, an end-to-end methodology for extracting high-quality cultural commonsense knowledge (CCSK) at scale. CANDLE extracts CCSK assertions from a huge web corpus and organizes them into coherent clusters, for 3 domains of subjects (geography, religion, occupation) and several cultural facets (food, drinks, clothing, traditions, rituals, behaviors). CANDLE includes judicious techniques for classification-based filtering and scoring of interestingness. Experimental evaluations show the superiority of the CANDLE CCSK collection over prior works, and an extrinsic use case demonstrates the benefits of CCSK for the GPT-3 language model. Code and data can be accessed at https://cultural-csk.herokuapp.com/.
翻訳日:2022-10-17 15:07:10 公開日:2022-10-14
# すべてを支配するグラフ: nlpとグラフニューラルネットワークを使ってトールキンのレジェンダリウムを分析する

One Graph to Rule them All: Using NLP and Graph Neural Networks to analyse Tolkien's Legendarium ( http://arxiv.org/abs/2210.07871v1 )

ライセンス: Link先を確認
Vincenzo Perri, Lisi Qarkaxhija, Albin Zehe, Andreas Hotho, Ingo Scholtes(参考訳) 自然言語処理と機械学習は計算文学研究にかなり進歩している。 同様に、文学的文字の共起ネットワークの構築や、社会的ネットワーク分析やネットワーク科学の手法による分析は、文学的テキストのミクロおよびマクロレベルの構造に関する洞察を与えてきた。 これらの視点を組み合わせることで、本稿では、J.R.R.トールキンのレジェンダリウムのテキストコーパスから抽出した文字ネットワークについて検討する。 この視点はトールキンの作品を特徴づける物語のスタイルを分析し、視覚化するのに役立ちます。 文字分類,埋め込み,共起予測に対処し,一般的な単語埋め込み法よりも最先端のグラフニューラルネットワークの利点について検討する。 計算文学研究におけるグラフ学習の可能性について考察した。

Natural Language Processing and Machine Learning have considerably advanced Computational Literary Studies. Similarly, the construction of co-occurrence networks of literary characters, and their analysis using methods from social network analysis and network science, have provided insights into the micro- and macro-level structure of literary texts. Combining these perspectives, in this work we study character networks extracted from a text corpus of J.R.R. Tolkien's Legendarium. We show that this perspective helps us to analyse and visualise the narrative style that characterises Tolkien's works. Addressing character classification, embedding and co-occurrence prediction, we further investigate the advantages of state-of-the-art Graph Neural Networks over a popular word embedding method. Our results highlight the large potential of graph learning in Computational Literary Studies.
翻訳日:2022-10-17 15:06:51 公開日:2022-10-14
# バックドアを公開する - テキストバックドア攻撃に対する機能ベースの効率的な防御

Expose Backdoors on the Way: A Feature-Based Efficient Defense against Textual Backdoor Attacks ( http://arxiv.org/abs/2210.07907v1 )

ライセンス: Link先を確認
Sishuo Chen, Wenkai Yang, Zhiyuan Zhang, Xiaohan Bi, Xu Sun(参考訳) 自然言語処理(NLP)モデルはバックドア攻撃に弱いことが知られており、NLPモデルに新たな脅威が生じる。 以前のnlpモデルのオンラインバックドア防御手法は、入力または出力レベルの異常のみに焦点を当てており、それでも適応攻撃に対する脆弱さと高い計算コストに苦しんでいる。 そこで本研究では, 中間機能レベルでのテキスト有毒試料の未熟化を調査するための第一歩を踏み出し, 機能ベースの効率的なオンライン防御手法を提案する。 既存の攻撃方法に関する広範な実験により,有毒なNLPモデルの中間特徴空間における清浄な試料からは程遠いことが明らかとなった。 本研究の目的は, 距離ベース異常スコア(DAN)を用いて, 汚染された試料を特徴量で識別することである。 感情分析と犯罪検知タスクの実験は、既存のオンライン防御手法をはるかに上回り、推論コストの低減を図っているため、DANの優位性を示している。 さらに,DANは特徴レベル正規化に基づく適応攻撃にも耐性があることが示唆された。 私たちのコードはhttps://github.com/lancopku/dan.comで利用可能です。

Natural language processing (NLP) models are known to be vulnerable to backdoor attacks, which poses a newly arisen threat to NLP models. Prior online backdoor defense methods for NLP models only focus on the anomalies at either the input or output level, still suffering from fragility to adaptive attacks and high computational cost. In this work, we take the first step to investigate the unconcealment of textual poisoned samples at the intermediate-feature level and propose a feature-based efficient online defense method. Through extensive experiments on existing attacking methods, we find that the poisoned samples are far away from clean samples in the intermediate feature space of a poisoned NLP model. Motivated by this observation, we devise a distance-based anomaly score (DAN) to distinguish poisoned samples from clean samples at the feature level. Experiments on sentiment analysis and offense detection tasks demonstrate the superiority of DAN, as it substantially surpasses existing online defense methods in terms of defending performance and enjoys lower inference costs. Moreover, we show that DAN is also resistant to adaptive attacks based on feature-level regularization. Our code is available at https://github.com/lancopku/DAN.
翻訳日:2022-10-17 15:06:36 公開日:2022-10-14
# pseudoreasoner: 常識知識ベース人口に擬似ラベルを活用する

PseudoReasoner: Leveraging Pseudo Labels for Commonsense Knowledge Base Population ( http://arxiv.org/abs/2210.07988v1 )

ライセンス: Link先を確認
Tianqing Fang, Quyet V. Do, Hongming Zhang, Yangqiu Song, Ginny Y. Wong and Simon See(参考訳) Commonsense Knowledge Base (CSKB) Population は、CSKBの未確認エンティティやアサーションを推論することを目的としており、重要なコモンセンス推論タスクである。 1つの課題は、トレーニングのソースCSKBが比較的小さなスケール(1M)であるのに対して、人口の候補空間全体がはるかに大きい(2M)ため、ドメイン外の一般化能力を必要とすることである。 PseudoReasonerは、CSKB上で事前訓練された教師モデルを用いて、学生モデルから学習する未ラベル候補データセットに擬似ラベルを提供する、CSKB人口のための半教師付き学習フレームワークである。 教師は、以前の作品のように差別的なモデルに制限されるのではなく、生成モデルとなることができる。 さらに,影響関数と学生モデルの予測に基づく擬似ラベルのフィルタリング手順を新たに設計し,さらなる性能向上を図る。 このフレームワークは、バックボーンモデルKG-BERT(RoBERTa-large)を全体的なパフォーマンスで3.3ポイント、特にドメイン外のパフォーマンスで5.3ポイント改善し、最先端を実現する。 コードとデータはhttps://github.com/HKUST-KnowComp/PseudoReasonerで入手できる。

Commonsense Knowledge Base (CSKB) Population aims at reasoning over unseen entities and assertions on CSKBs, and is an important yet hard commonsense reasoning task. One challenge is that it requires out-of-domain generalization ability as the source CSKB for training is of a relatively smaller scale (1M) while the whole candidate space for population is way larger (200M). We propose PseudoReasoner, a semi-supervised learning framework for CSKB population that uses a teacher model pre-trained on CSKBs to provide pseudo labels on the unlabeled candidate dataset for a student model to learn from. The teacher can be a generative model rather than restricted to discriminative models as previous works. In addition, we design a new filtering procedure for pseudo labels based on influence function and the student model's prediction to further improve the performance. The framework can improve the backbone model KG-BERT (RoBERTa-large) by 3.3 points on the overall performance and especially, 5.3 points on the out-of-domain performance, and achieves the state-of-the-art. Codes and data are available at https://github.com/HKUST-KnowComp/PseudoReasoner.
翻訳日:2022-10-17 15:06:14 公開日:2022-10-14
# 文書画像分類器における分散性能の評価

Evaluating Out-of-Distribution Performance on Document Image Classifiers ( http://arxiv.org/abs/2210.07448v1 )

ライセンス: Link先を確認
Stefan Larson, Gordon Lim, Yutong Ai, David Kuang, Kevin Leach(参考訳) トレーニングディストリビューションとは異なるディストリビューションから引き出された入力を処理する文書分類器の能力は、ロバストなデプロイメントと一般化可能性に不可欠である。 RVL-CDIPコーパスは、文書分類のデファクト標準ベンチマークであるが、我々の知識では、このコーパスを使用するすべての研究は、配布外文書の評価を含まない。 本稿では,文書分類器の分散性能を評価するための新しい分散性能ベンチマークをキュレートし,公開する。 我々の新しいアウト・オブ・ディストリビューション・ベンチマークは2つのタイプの文書で構成されている: RVL-CDIPカテゴリ(RVL-CDIP-O)のいずれにも属さない文書と、16のドメインカテゴリのうちの1つである文書は、元のRVL-CDIPデータセット(RVL-CDIP-N)とは異なる分布から抽出される。 文書分類に関する先行研究では高い精度のスコアが報告されているが、これらのモデルは新たな領域外RVL-CDIP-Nベンチマークで約15~30%の精度低下を示し、領域内RVL-CDIP-Nと領域外RVL-CDIP-Oの区別に苦慮している。 当社の新しいベンチマークは,ドキュメント分類器の分散性能を分析する上で,研究者に有用な新しいリソースを提供します。 当社の新しいアウトオブディストリビューションデータは、https://tinyurl.com/4he6my23で参照できます。

The ability of a document classifier to handle inputs that are drawn from a distribution different from the training distribution is crucial for robust deployment and generalizability. The RVL-CDIP corpus is the de facto standard benchmark for document classification, yet to our knowledge all studies that use this corpus do not include evaluation on out-of-distribution documents. In this paper, we curate and release a new out-of-distribution benchmark for evaluating out-of-distribution performance for document classifiers. Our new out-of-distribution benchmark consists of two types of documents: those that are not part of any of the 16 in-domain RVL-CDIP categories (RVL-CDIP-O), and those that are one of the 16 in-domain categories yet are drawn from a distribution different from that of the original RVL-CDIP dataset (RVL-CDIP-N). While prior work on document classification for in-domain RVL-CDIP documents reports high accuracy scores, we find that these models exhibit accuracy drops of between roughly 15-30% on our new out-of-domain RVL-CDIP-N benchmark, and further struggle to distinguish between in-domain RVL-CDIP-N and out-of-domain RVL-CDIP-O inputs. Our new benchmark provides researchers with a valuable new resource for analyzing out-of-distribution performance on document classifiers. Our new out-of-distribution data can be found at https://tinyurl.com/4he6my23.
翻訳日:2022-10-17 15:05:51 公開日:2022-10-14
# NLPにおけるベンチマーク品質に関連するパラメータの検討

A Survey of Parameters Associated with the Quality of Benchmarks in NLP ( http://arxiv.org/abs/2210.07566v1 )

ライセンス: Link先を確認
Swaroop Mishra, Anjana Arunkumar, Chris Bryan and Chitta Baral(参考訳) NLPの進捗を追跡するために、リソースに多大な投資をしながら、いくつかのベンチマークが構築されている。 これらのベンチマークに反応して発行された何千もの論文は、トップのリーダーボードと競合している。 しかし、最近の研究では、モデルが望ましいタスクを真に学習することなく、スプリアスバイアスを過剰に満たすだけで、いくつかの人気のあるベンチマークに勝っていることが示されている。 この発見にもかかわらず、ベンチマークはバイアスに取り組みつつも、低い品質のデータを捨て、限られたバイアスセットをカバーするため、ベンチマーク作成に費やしたリソースを十分に活用しない回避策に依存している。 これらの問題に対する潜在的な解決策 -- メトリック定量化品質 -- は未検討のままである。 パワー、食品、水などのいくつかの領域における品質指標の成功にインスパイアされた私たちは、ベンチマークのバイアスにつながる様々な相互作用を表現できる特定の言語特性を特定することで、メトリックへの第一歩を踏み出します。 私たちは、メトリクスへの道筋を舗装するのに役立つバイアス関連パラメータを探します。 既存の作品を調査し,バイアス,その起源,タイプ,パフォーマンスへの影響,一般化,ロバスト性といった様々な特性を捉えたパラメータを同定する。 我々の分析はデータセットと NLI から Summarization までのタスク階層にまたがっており、パラメータが汎用的であり、特定のタスクやデータセットに対して過度に適合しないことを保証する。 このプロセスでは、特定のパラメータも開発します。

Several benchmarks have been built with heavy investment in resources to track our progress in NLP. Thousands of papers published in response to those benchmarks have competed to top leaderboards, with models often surpassing human performance. However, recent studies have shown that models triumph over several popular benchmarks just by overfitting on spurious biases, without truly learning the desired task. Despite this finding, benchmarking, while trying to tackle bias, still relies on workarounds, which do not fully utilize the resources invested in benchmark creation, due to the discarding of low quality data, and cover limited sets of bias. A potential solution to these issues -- a metric quantifying quality -- remains underexplored. Inspired by successful quality indices in several domains such as power, food, and water, we take the first step towards a metric by identifying certain language properties that can represent various possible interactions leading to biases in a benchmark. We look for bias related parameters which can potentially help pave our way towards the metric. We survey existing works and identify parameters capturing various properties of bias, their origins, types and impact on performance, generalization, and robustness. Our analysis spans over datasets and a hierarchy of tasks ranging from NLI to Summarization, ensuring that our parameters are generic and are not overfitted towards a specific task or dataset. We also develop certain parameters in this process.
翻訳日:2022-10-17 15:05:23 公開日:2022-10-14
# 信頼性評価システムにおけるサンプルの硬さの定量化:新しいタスクによる可能性の可能性を探る

Hardness of Samples Need to be Quantified for a Reliable Evaluation System: Exploring Potential Opportunities with a New Task ( http://arxiv.org/abs/2210.07631v1 )

ライセンス: Link先を確認
Swaroop Mishra, Anjana Arunkumar, Chris Bryan, Chitta Baral(参考訳) ベンチマークにおけるモデルの評価は、サンプルのハードネスの程度を知らずに信頼できない。その結果、aiシステムの能力が過大評価され、現実のアプリケーションでの採用が制限される。 ベンチマークでは,各無注サンプルの割り当てを必要とするデータスコアタスクを提案する。0から1までのスコアでは,0は簡単,1は難しい。 タスクデザインにおける無意味なサンプルの使用は、正しい答えを知らずに質問の難しさを判断できる人間にインスパイアされている。 これはまた、(トレーニングを受けるためにサンプルアノテーションを必要とするため)モデルベースの監督を含むメソッドの使用を禁止し、サンプルの難易度を決定する際にモデルに関連する潜在的なバイアスを取り除く。 本研究では,本課題に対するセマンティックテキスト類似性(STS)に基づく手法を提案し,既存のモデルがより簡単なサンプルチャンクに対して,より難しいサンプルチャンクよりも精度が高いことを示す。 最後に5つの新しい応用例を示す。

Evaluation of models on benchmarks is unreliable without knowing the degree of sample hardness; this subsequently overestimates the capability of AI systems and limits their adoption in real world applications. We propose a Data Scoring task that requires assignment of each unannotated sample in a benchmark a score between 0 to 1, where 0 signifies easy and 1 signifies hard. Use of unannotated samples in our task design is inspired from humans who can determine a question difficulty without knowing its correct answer. This also rules out the use of methods involving model based supervision (since they require sample annotations to get trained), eliminating potential biases associated with models in deciding sample difficulty. We propose a method based on Semantic Textual Similarity (STS) for this task; we validate our method by showing that existing models are more accurate with respect to the easier sample-chunks than with respect to the harder sample-chunks. Finally we demonstrate five novel applications.
翻訳日:2022-10-17 15:04:59 公開日:2022-10-14
# 事前トレーニングされたトランスフォーマーはロバストさを常に改善しない

Pretrained Transformers Do not Always Improve Robustness ( http://arxiv.org/abs/2210.07663v1 )

ライセンス: Link先を確認
Swaroop Mishra, Bhavdeep Singh Sachdeva, Chitta Baral(参考訳) 事前トレーニングされたトランスフォーマー(PT)は、Word2VecとGloveを組み込んだBag of Words(BOW)、LSTMs、Convolutional Neural Networks(CNN)といった従来のモデルよりもOOD(Out of Distribution)の堅牢性を改善することが示されている。 データセットの一部が騒がれる現実の環境では、ロバスト性の比較はどのように行われますか? ptは、ノイズデータへの露出に関して、従来のモデルよりも堅牢な表現を提供するか? 我々は10モデルの比較研究を行い、PTがノイズデータに曝露する従来のモデルよりもロバスト表現が少ないという実証的な証拠を見出した。 我々は,OODの一般化を改善するために,対向フィルタリング(AF)機構を応用したPTのさらなる拡張について検討した。 しかし,一般化の増大は必ずしもロバスト性を高めるものではない。

Pretrained Transformers (PT) have been shown to improve Out of Distribution (OOD) robustness than traditional models such as Bag of Words (BOW), LSTMs, Convolutional Neural Networks (CNN) powered by Word2Vec and Glove embeddings. How does the robustness comparison hold in a real world setting where some part of the dataset can be noisy? Do PT also provide more robust representation than traditional models on exposure to noisy data? We perform a comparative study on 10 models and find an empirical evidence that PT provide less robust representation than traditional models on exposure to noisy data. We investigate further and augment PT with an adversarial filtering (AF) mechanism that has been shown to improve OOD generalization. However, increase in generalization does not necessarily increase robustness, as we find that noisy data fools the AF method powered by PT.
翻訳日:2022-10-17 15:04:40 公開日:2022-10-14
# プラウシブルは信仰に反するかもしれない:ビジョンランゲージ事前トレーニングにおける物体幻覚の探索

Plausible May Not Be Faithful: Probing Object Hallucination in Vision-Language Pre-training ( http://arxiv.org/abs/2210.07688v1 )

ライセンス: Link先を確認
Wenliang Dai, Zihan Liu, Ziwei Ji, Dan Su, Pascale Fung(参考訳) 大規模視覚言語事前学習(VLP)モデルは、視覚情報に基づいてテキストを生成する際に、存在しない視覚オブジェクトを幻覚させる傾向がある。 本稿では,物体の幻覚問題を3つの側面から徹底的に探索する。 まず,最先端のvlpモデルについて検討し,標準メトリクス(bleu-4,ciderなど)のスコアが向上すれば,より頻繁にオブジェクトを表現できることを示した。 第2に,vlpの視覚特徴の異なる種類が,領域ベース,グリッドベース,パッチベースなど幻覚にどのように影響を与えるかを検討する。 驚いたことに、パッチベースの機能が最も良く、より小さなパッチ解決は、オブジェクト幻覚の非自明な減少をもたらす。 第3に、様々なVLP目標を分離し、物体幻覚を軽減する効果を示す。 そこで本研究では,新たな事前学習損失,オブジェクトマスキング言語モデリングを提案し,さらにオブジェクト幻覚を低減させる。 改善したCHAIR測定値を用いてCOCO(ドメイン内)およびNoCaps(ドメイン外)データセットのモデルを評価する。 さらに,様々なテキスト復号戦略と画像拡張手法が幻覚に与える影響について検討した。

Large-scale vision-language pre-trained (VLP) models are prone to hallucinate non-existent visual objects when generating text based on visual information. In this paper, we exhaustively probe the object hallucination problem from three aspects. First, we examine various state-of-the-art VLP models, showing that models achieving better scores on standard metrics(e.g., BLEU-4, CIDEr) could hallucinate objects more frequently. Second, we investigate how different types of visual features in VLP influence hallucination, including region-based, grid-based, and patch-based. Surprisingly, we find that patch-based features perform the best and smaller patch resolution yields a non-trivial reduction in object hallucination. Third, we decouple various VLP objectives and demonstrate their effectiveness in alleviating object hallucination. Based on that, we propose a new pre-training loss, object masked language modeling, to further reduce object hallucination. We evaluate models on both COCO (in-domain) and NoCaps (out-of-domain) datasets with our improved CHAIR metric. Furthermore, we investigate the effects of various text decoding strategies and image augmentation methods on object hallucination.
翻訳日:2022-10-17 15:04:23 公開日:2022-10-14
# efficientvlm:知識蒸留とモーダル適応プルーニングによる高速で正確な視覚言語モデル

EfficientVLM: Fast and Accurate Vision-Language Models via Knowledge Distillation and Modal-adaptive Pruning ( http://arxiv.org/abs/2210.07795v1 )

ライセンス: Link先を確認
Tiannan Wang, Wangchunshu Zhou, Yan Zeng, Xinsong Zhang(参考訳) 事前訓練された視覚言語モデル(vlms)は、様々な視覚言語タスクで印象的な成果を上げている。 しかしながら、一般的なVLMは通常、空間、メモリ、レイテンシの制約により、現実世界のアプリケーションに微調整とデプロイの課題をもたらす、数億のパラメータで構成されています。 本研究では, 大規模視覚言語モデルをより小さく, 高速で, より正確なものに圧縮する蒸留精錬フレームワークを提案する。 まず,事前学習した大規模VLMのサイズを縮小し,視覚言語事前学習段階に知識蒸留を適用し,タスク非依存のコンパクトVLMを得る。 そこで本研究では,下流課題における視覚と言語的モダリティの重要性を自動推定し,制御可能な目標スパース性を有するエンコーダの冗長な構造とニューロンを適応的に除去するモード適応型プルーニングアルゴリズムを提案する。 本研究では,教師モデルの44.3%である6つの視覚層,3つのテキスト層,3つの相互融合層からなる高速かつ正確な視覚言語モデルであるEfficientVLMの学習に,我々のフレームワークを適用した。 efficientvlmは教師モデルのパフォーマンスを98.4%維持し、推論速度を2.2倍に向上させる。 効率的なVLMは、VQAv2 (+4.9%)、NLVR2 (+5.6%)、ITR (R@1 on TR +17.2%, on IR + 15.6% )、COCOキャプション生成 (CIDEr + 6.5) など、様々な視覚言語タスクにおいて、同様のサイズのSoTA効率のVLMよりも大幅に改善された。

Pre-trained vision-language models (VLMs) have achieved impressive results in a range of vision-language tasks. However, popular VLMs usually consist of hundreds of millions of parameters which brings challenges for fine-tuning and deployment in real-world applications due to space, memory, and latency constraints. In this work, we introduce a distilling then pruning framework to compress large vision-language models into smaller, faster, and more accurate ones. We first shrink the size of a pre-trained large VLM and apply knowledge distillation in the vision-language pre-training stage to obtain a task-agnostic compact VLM. Then we propose a modal-adaptive pruning algorithm to automatically infer the importance of vision and language modalities for different downstream tasks and adaptively remove redundant structures and neurons in different encoders with controllable target sparsity. We apply our framework to train EfficientVLM, a fast and accurate vision-language model consisting of 6 vision layers, 3 text layers, and 3 cross-modal fusion layers, accounting for only 93 million parameters in total, which is 44.3% of the teacher model. EfficientVLM retains 98.4% performance of the teacher model and accelerates its inference speed by 2.2x. EfficientVLM achieves a large absolute improvement over previous SoTA efficient VLMs of similar sizes by a large margin on various vision-language tasks, including VQAv2 (+4.9%), NLVR2 (+5.6%), ITR (R@1 on TR +17.2%, on IR + 15.6% ) and COCO caption generation (CIDEr +6.5), demonstrating a large potential on training lightweight VLMs.
翻訳日:2022-10-17 15:04:03 公開日:2022-10-14
# 産業異常検出のための非対称学生教師ネットワーク

Asymmetric Student-Teacher Networks for Industrial Anomaly Detection ( http://arxiv.org/abs/2210.07829v1 )

ライセンス: Link先を確認
Marco Rudolph, Tom Wehrbein, Bodo Rosenhahn, Bastian Wandt(参考訳) 工業的欠陥検出は一般に異常検出(ad)法で対処され、異常発生の可能性に関する不完全なデータが得られない。 この研究は、ADに対する学生-教師のアプローチの既知の問題を発見し、欠陥のないトレーニング例で同じ出力を生成するために、2つのニューラルネットワークをトレーニングするソリューションを提案する。 学生-教師ネットワークの中核的な仮定は、トレーニングに欠席しているため、両方のネットワークの出力間の距離が異常に対して大きいことである。 しかし, 従来の手法では, 生徒と教師のアーキテクチャの類似性に悩まされ, 異常な距離が望ましくないほど小さい。 そこで本稿では,非対称な学生教師ネットワーク(AST)を提案する。 我々は,教師としての密度推定のための正規化フローと,学生としての従来のフィードフォワードネットワークを訓練して,異常の広い距離をトリガーする:正規化フローの単射性は,異常データに対する教師出力のばらつきを強制する。 トレーニングディストリビューション以外では、学生は根本的に異なるアーキテクチャのため、この相違を模倣することはできない。 我々のASTネットワークは,従来の研究で異常検出に用いた正規化流による誤推定確率を補正する。 rgbおよび3dデータにおける画像レベルの異常検出に関して,mvtec adとmvtec 3d-adの2つの関連する欠陥検出データセットについて,最新の結果が得られた。

Industrial defect detection is commonly addressed with anomaly detection (AD) methods where no or only incomplete data of potentially occurring defects is available. This work discovers previously unknown problems of student-teacher approaches for AD and proposes a solution, where two neural networks are trained to produce the same output for the defect-free training examples. The core assumption of student-teacher networks is that the distance between the outputs of both networks is larger for anomalies since they are absent in training. However, previous methods suffer from the similarity of student and teacher architecture, such that the distance is undesirably small for anomalies. For this reason, we propose asymmetric student-teacher networks (AST). We train a normalizing flow for density estimation as a teacher and a conventional feed-forward network as a student to trigger large distances for anomalies: The bijectivity of the normalizing flow enforces a divergence of teacher outputs for anomalies compared to normal data. Outside the training distribution the student cannot imitate this divergence due to its fundamentally different architecture. Our AST network compensates for wrongly estimated likelihoods by a normalizing flow, which was alternatively used for anomaly detection in previous work. We show that our method produces state-of-the-art results on the two currently most relevant defect detection datasets MVTec AD and MVTec 3D-AD regarding image-level anomaly detection on RGB and 3D data.
翻訳日:2022-10-17 14:57:46 公開日:2022-10-14
# 深部ニューラルネットワークのエネルギー効率向上のためのポストトレーニング量子化

Post-Training Quantization for Energy Efficient Realization of Deep Neural Networks ( http://arxiv.org/abs/2210.07906v1 )

ライセンス: Link先を確認
Cecilia Latotzke, Batuhan Balim, and Tobias Gemmeke(参考訳) エッジデバイス上で生成されたデータに近いディープニューラルネットワーク(DNN)をデプロイする際の最大の課題は、そのサイズ、すなわちメモリフットプリントと計算複雑性である。 どちらも量子化によって大幅に減少する。 結果として単語長が小さくなると、DNNのエネルギー効率は比例的に増加する。 しかし、単語長が低いと通常は精度が低下する。 この効果に対抗するために、量子化されたDNNを再訓練する。 残念ながら、トレーニングは量子化dnnの推論よりも最大5000倍のエネルギーを消費する。 この問題に対処するため,再トレーニングを必要とせず,後続の量子化フローを提案する。 そこで我々は,異なる量子化オプションについて検討した。 さらに,重みとアクティベーションの単語長の削減が,単語長の選択に明確な傾向を示す影響を体系的に評価した。 どちらの面もこれまで体系的に調査されていない。 我々の結果はDNNの深さとは独立であり、与えられた事前学習されたDNNの高速量子化を可能にする均一な量子化に適用できる。 ImageNetのTop-1精度は2.2%向上した。 再トレーニングなしでは、8ビットへの量子化は浮動小数点精度を上回る。

The biggest challenge for the deployment of Deep Neural Networks (DNNs) close to the generated data on edge devices is their size, i.e., memory footprint and computational complexity. Both are significantly reduced with quantization. With the resulting lower word-length, the energy efficiency of DNNs increases proportionally. However, lower word-length typically causes accuracy degradation. To counteract this effect, the quantized DNN is retrained. Unfortunately, training costs up to 5000x more energy than the inference of the quantized DNN. To address this issue, we propose a post-training quantization flow without the need for retraining. For this, we investigated different quantization options. Furthermore, our analysis systematically assesses the impact of reduced word-lengths of weights and activations revealing a clear trend for the choice of word-length. Both aspects have not been systematically investigated so far. Our results are independent of the depth of the DNNs and apply to uniform quantization, allowing fast quantization of a given pre-trained DNN. We excel state-of-the-art for 6 bit by 2.2% Top-1 accuracy for ImageNet. Without retraining, our quantization to 8 bit surpasses floating-point accuracy.
翻訳日:2022-10-17 14:57:20 公開日:2022-10-14
# move: 教師なし可動オブジェクトのセグメンテーションと検出

MOVE: Unsupervised Movable Object Segmentation and Detection ( http://arxiv.org/abs/2210.07920v1 )

ライセンス: Link先を確認
Adam Bielski and Paolo Favaro(参考訳) オブジェクトを何の監督もせずに分割する新しい手法であるMOVEを紹介する。 moveは、フォアグラウンドオブジェクトが初期位置に対してローカルに移動でき、その結果、リアルな(予期せぬ)新しい画像が得られるという事実を利用する。 この特性により、画像のデータセット上のセグメンテーションモデルをアノテーションなしでトレーニングし、教師なしのサルエントオブジェクト検出とセグメンテーションのためのいくつかの評価データセットにおける最先端(sota)性能を達成することができる。 教師なしの単一オブジェクト発見では、moveは平均的なcorloc改善が sota よりも7.2%、教師なしのクラス非依存オブジェクト検出では平均で53%改善される。 私たちのアプローチは、自己監督機能(dinoやmaeなど)、塗り込みネットワーク(マスク付きオートエンコーダに基づく)、敵のトレーニングに基づいています。

We introduce MOVE, a novel method to segment objects without any form of supervision. MOVE exploits the fact that foreground objects can be shifted locally relative to their initial position and result in realistic (undistorted) new images. This property allows us to train a segmentation model on a dataset of images without annotation and to achieve state of the art (SotA) performance on several evaluation datasets for unsupervised salient object detection and segmentation. In unsupervised single object discovery, MOVE gives an average CorLoc improvement of 7.2% over the SotA, and in unsupervised class-agnostic object detection it gives a relative AP improvement of 53% on average. Our approach is built on top of self-supervised features (e.g. from DINO or MAE), an inpainting network (based on the Masked AutoEncoder) and adversarial training.
翻訳日:2022-10-17 14:57:04 公開日:2022-10-14
# シフト不変および等変畳み込みネットワークのための学習可能な多相サンプリング

Learnable Polyphase Sampling for Shift Invariant and Equivariant Convolutional Networks ( http://arxiv.org/abs/2210.08001v1 )

ライセンス: Link先を確認
Renan A. Rojas-Gomez, Teck-Yian Lim, Alexander G. Schwing, Minh N. Do, Raymond A. Yeh(参考訳) 本稿では,真のシフト不変および同変畳み込みネットワークを実現する学習可能なダウン/アップサンプリング層である,学習可能な多相サンプリング(LPS)を提案する。 lpsはデータからエンドツーエンドでトレーニングでき、既存の手作りのダウンサンプリング層を一般化できる。 ダウン/アップサンプリング層を置き換えることで、あらゆる畳み込みネットワークに統合できるため、広く適用できる。 画像分類とセマンティックセグメンテーションにおけるLPSの評価を行った。 実験によると、LPSはパフォーマンスとシフトの整合性の両方において、既存のメソッドと同等か劣っている。 意味セグメンテーション(pascal voc)の真のシフト等価性(100%シフト一貫性)を初めて達成し、ベースラインを絶対3.3%上回った。

We propose learnable polyphase sampling (LPS), a pair of learnable down/upsampling layers that enable truly shift-invariant and equivariant convolutional networks. LPS can be trained end-to-end from data and generalizes existing handcrafted downsampling layers. It is widely applicable as it can be integrated into any convolutional network by replacing down/upsampling layers. We evaluate LPS on image classification and semantic segmentation. Experiments show that LPS is on-par with or outperforms existing methods in both performance and shift consistency. For the first time, we achieve true shift-equivariance on semantic segmentation (PASCAL VOC), i.e., 100% shift consistency, outperforming baselines by an absolute 3.3%.
翻訳日:2022-10-17 14:56:46 公開日:2022-10-14
# 分散検出を改善するための総称文埋め込み

Holistic Sentence Embeddings for Better Out-of-Distribution Detection ( http://arxiv.org/abs/2210.07485v1 )

ライセンス: Link先を確認
Sishuo Chen, Xiaohan Bi, Rundong Gao, Xu Sun(参考訳) NLPモデルの安全なデプロイには、アウト・オブ・ディストリビューション(OOD)インスタンスの検出が重要である。 事前学習言語モデル(PLM)に基づく最近のテキストOOD検出作業の中で,距離ベース手法は優れた性能を示した。 しかし、最終層CLS埋め込み空間におけるサンプル距離スコアを推定し、PLMの根底にある言語情報を十分に活用することができない。 この問題に対処するために,より包括的な文埋め込みを導出し,OOD検出の促進を提案する。 トークン平均化と層結合がOOD検出の改善に寄与するという観測に基づいて,中間層から全てのトークン表現を文埋め込みとして平均化し,9.33%のFAR95マージンの総合ベンチマークで最先端を著しく上回る,Avg-Avgという単純な埋め込み手法を提案する。 さらに,本分析は,微調整PLMにおける言語知識の保存に有効であり,背景変化の検出にも有効であることを示す。 単純で効果的な埋め込み法は、微調整されたPLMに無視できる余剰コストで適用でき、OOD検出において自由な利得が得られる。 私たちのコードはhttps://github.com/lancopku/Avg-Avg.comで利用可能です。

Detecting out-of-distribution (OOD) instances is significant for the safe deployment of NLP models. Among recent textual OOD detection works based on pretrained language models (PLMs), distance-based methods have shown superior performance. However, they estimate sample distance scores in the last-layer CLS embedding space and thus do not make full use of linguistic information underlying in PLMs. To address the issue, we propose to boost OOD detection by deriving more holistic sentence embeddings. On the basis of the observations that token averaging and layer combination contribute to improving OOD detection, we propose a simple embedding approach named Avg-Avg, which averages all token representations from each intermediate layer as the sentence embedding and significantly surpasses the state-of-the-art on a comprehensive suite of benchmarks by a 9.33% FAR95 margin. Furthermore, our analysis demonstrates that it indeed helps preserve general linguistic knowledge in fine-tuned PLMs and substantially benefits detecting background shifts. The simple yet effective embedding method can be applied to fine-tuned PLMs with negligible extra costs, providing a free gain in OOD detection. Our code is available at https://github.com/lancopku/Avg-Avg.
翻訳日:2022-10-17 14:56:19 公開日:2022-10-14
# 心理誘導型制御可能なストーリー生成

Psychology-guided Controllable Story Generation ( http://arxiv.org/abs/2210.07493v1 )

ライセンス: Link先を確認
Yuqiang Xie, Yue Hu, Yunpeng Li, Guanqun Bi, Luxi Xing, Wei Peng(参考訳) 制御可能なストーリー生成は,近年研究の関心が高まっているNLP分野における課題である。 しかし、既存の作品の多くは、主人公の心理的な変化を無視して、指定されたキーワードや感情に基づいた物語全体を生成する。 心理学の理論に触発され、ストーリー生成システムがより制御可能で計画されたストーリーを作成するのを助けるために、主人公のニーズや感情を含むグローバルな心理状態連鎖を導入します。 本稿では,主役に与えられた先行状況と望ましい心理的状態連鎖に従属する物語を生成するために,心理学誘導型制御可能な物語生成システム(PICS)を提案する。 特に、心理状態追跡装置は、主人公の局所的な心理状態を記憶し、彼らの内的時間的関係を捉えるために用いられる。 さらに、心理状態プランナーは、ストーリープランニングのために主人公のグローバルな心理状態を得るために採用される。 最終的に、心理学コントローラは、心理学誘導ストーリーを構成するためのストーリーコンテキスト表現に、局所的およびグローバル心理学状態を統合するように設計されている。 自動的および手動的な評価では、PICSはベースラインよりも優れており、PICSの各部分はより一貫性のある心理的変化を持つストーリーを書く上での有効性を示している。

Controllable story generation is a challenging task in the field of NLP, which has attracted increasing research interest in recent years. However, most existing works generate a whole story conditioned on the appointed keywords or emotions, ignoring the psychological changes of the protagonist. Inspired by psychology theories, we introduce global psychological state chains, which include the needs and emotions of the protagonists, to help a story generation system create more controllable and well-planned stories. In this paper, we propose a Psychology-guIded Controllable Story Generation System (PICS) to generate stories that adhere to the given leading context and desired psychological state chains for the protagonist. Specifically, psychological state trackers are employed to memorize the protagonist's local psychological states to capture their inner temporal relationships. In addition, psychological state planners are adopted to gain the protagonist's global psychological states for story planning. Eventually, a psychology controller is designed to integrate the local and global psychological states into the story context representation for composing psychology-guided stories. Automatic and manual evaluations demonstrate that PICS outperforms baselines, and each part of PICS shows effectiveness for writing stories with more consistent psychological changes.
翻訳日:2022-10-17 14:55:56 公開日:2022-10-14
# 言語表現モデルはベットで考えることができるか?

Can Language Representation Models Think in Bets? ( http://arxiv.org/abs/2210.07519v1 )

ライセンス: Link先を確認
Zhisheng Tang, Mayank Kejriwal(参考訳) 近年,トランスフォーマーに基づく言語表現モデル (LRM) は,質問応答やテキスト要約などの難解な自然言語理解問題に対して,最先端の成果を上げている。 これらのモデルが現実世界のアプリケーションに統合されているため、合理的な意思決定を行う能力を評価することは重要な研究課題である。 本稿では,設計した意思決定ベンチマークと実験を通して,lrmsの合理的意思決定能力について検討する。 認知科学における古典的な研究に触発され、我々は意思決定問題を賭けとしてモデル化する。 次に、最適、または少なくとも肯定的な利得を持つ結果を選択するLRMの能力を調査する。 4つの確立されたLEMの頑健な実験体を通して、モデルが最初に同じ構造を持つベット問題に基づいて微調整された場合にのみ「賭けを考える」ことができることを示す。 ベット問題の構造を変更することは、基本的特性を維持しつつも、平均して LRM のパフォーマンスを 25 % 以上減少させるが、絶対的な性能は無作為に残る。 LRMは、最適または厳密な正の利得よりも、非負の利得で結果を選択する際にもより合理的である。 以上の結果から,LRMは認知的意思決定スキルに依存するタスクに適用できる可能性が示唆された。

In recent years, transformer-based language representation models (LRMs) have achieved state-of-the-art results on difficult natural language understanding problems, such as question answering and text summarization. As these models are integrated into real-world applications, evaluating their ability to make rational decisions is an important research agenda, with practical ramifications. This article investigates LRMs' rational decision-making ability through a carefully designed set of decision-making benchmarks and experiments. Inspired by classic work in cognitive science, we model the decision-making problem as a bet. We then investigate an LRM's ability to choose outcomes that have optimal, or at minimum, positive expected gain. Through a robust body of experiments on four established LRMs, we show that a model is only able to `think in bets' if it is first fine-tuned on bet questions with an identical structure. Modifying the bet question's structure, while still retaining its fundamental characteristics, decreases an LRM's performance by more than 25\%, on average, although absolute performance remains well above random. LRMs are also found to be more rational when selecting outcomes with non-negative expected gain, rather than optimal or strictly positive expected gain. Our results suggest that LRMs could potentially be applied to tasks that rely on cognitive decision-making skills, but that more research is necessary before they can robustly make rational decisions.
翻訳日:2022-10-17 14:55:34 公開日:2022-10-14
# BERTScoreは不公平:テキスト生成のための言語モデルに基づくメトリクスにおけるソーシャルバイアスについて

BERTScore is Unfair: On Social Bias in Language Model-Based Metrics for Text Generation ( http://arxiv.org/abs/2210.07626v1 )

ライセンス: Link先を確認
Tianxiang Sun, Junliang He, Xipeng Qiu, Xuanjing Huang(参考訳) 自動評価指標は、生成システムの開発に不可欠である。 近年, BERTScore などのプレトレーニング言語モデル (PLM) ベースのメトリクスが, 様々な世代タスクで広く採用されている。 しかしながら、PLMが様々なステレオタイプ的社会的バイアスを符号化していることが示されており、PLMの公平性に対する懸念が持たれている。 そこで本研究では,PLMに基づく指標における社会的バイアスに関する最初の体系的研究を行った。 PLMに基づく一般的な指標は、人種、性別、宗教、身体的外見、年齢、社会経済状態の6つの重要な属性の伝統的な指標に比べて、社会的偏見が著しく高いことを示した。 詳細な分析から、メトリックのパラダイム(マッチング、回帰、生成)の選択は、plmを選択するよりも公平性に大きな影響を与えることが示唆される。 さらに, PLM層に注入される脱バイアスアダプタを開発し, テキスト生成の評価に高い性能を維持しながら, PLMベースのメトリクスのバイアスを軽減する。

Automatic evaluation metrics are crucial to the development of generative systems. In recent years, pre-trained language model (PLM) based metrics, such as BERTScore, have been commonly adopted in various generation tasks. However, it has been demonstrated that PLMs encode a range of stereotypical societal biases, leading to a concern on the fairness of PLMs as metrics. To that end, this work presents the first systematic study on the social bias in PLM-based metrics. We demonstrate that popular PLM-based metrics exhibit significantly higher social bias than traditional metrics on 6 sensitive attributes, namely race, gender, religion, physical appearance, age, and socioeconomic status. In-depth analysis suggests that choosing paradigms (matching, regression, or generation) of the metric has a greater impact on fairness than choosing PLMs. In addition, we develop debiasing adapters that are injected into PLM layers, mitigating bias in PLM-based metrics while retaining high performance for evaluating text generation.
翻訳日:2022-10-17 14:55:08 公開日:2022-10-14
# 人的価値に比例した判断を行うための分類器の開発

Enabling Classifiers to Make Judgements Explicitly Aligned with Human Values ( http://arxiv.org/abs/2210.07652v1 )

ライセンス: Link先を確認
Yejin Bang, Tiezheng Yu, Andrea Madotto, Zhaojiang Lin, Mona Diab, Pascale Fung(参考訳) 多くのNLP分類タスク、例えば性差別/人種差別検出や毒性検出は人間の値に基づいている。 しかし、人間の価値観は様々な文化的条件下で異なる。 そこで本研究では,コマンド内で明示的に記述された人間の値に基づいて予測を行う値整合分類の枠組みを提案する。 そこで本研究では,大規模言語モデル(LLM)から価値整合知識を抽出し,価値整合型分類器を2段階で構築する手法を提案する。 まず, プロンプトベースの少数ショット学習により, LLMから値整合学習データを生成する。 次に、タスクの生成されたデータを用いて、より小さな分類モデルを微調整する。 実験の結果,op-175bを用いたマイショット学習や既存のテキスト拡張法など,vaモデルはf1-scoreのベースラインを少なくとも15.56%上回った。 明示的な人間の値入力を持つ分類器を用いることで、AIのインクリシティと説明可能性の両方が向上することが提案される。

Many NLP classification tasks, such as sexism/racism detection or toxicity detection, are based on human values. Yet, human values can vary under diverse cultural conditions. Therefore, we introduce a framework for value-aligned classification that performs prediction based on explicitly written human values in the command. Along with the task, we propose a practical approach that distills value-aligned knowledge from large-scale language models (LLMs) to construct value-aligned classifiers in two steps. First, we generate value-aligned training data from LLMs by prompt-based few-shot learning. Next, we fine-tune smaller classification models with the generated data for the task. Empirical results show that our VA-Models surpass multiple baselines by at least 15.56% on the F1-score, including few-shot learning with OPT-175B and existing text augmentation methods. We suggest that using classifiers with explicit human value input improves both inclusivity & explainability in AI.
翻訳日:2022-10-17 14:54:50 公開日:2022-10-14
# sqa3d: 3dシーンで質問に答える場所

SQA3D: Situated Question Answering in 3D Scenes ( http://arxiv.org/abs/2210.07474v1 )

ライセンス: Link先を確認
Xiaojian Ma, Silong Yong, Zilong Zheng, Qing Li, Yitao Liang, Song-Chun Zhu, Siyuan Huang(参考訳) 3dシーンにおける質問応答(sqa3d)の具体化エージェントのシーン理解をベンチマークするタスクを提案する。 シーンコンテキスト(例えば3Dスキャン)が与えられた場合、SQA3Dはテスト対象のエージェントに対して、まずテキストによって記述された3Dシーンの状況(位置、方向など)を理解し、その環境を判断し、その状況下で質問に答えるように要求する。 ScanNetの650のシーンに基づいて、20.4kの記述と33.4kの多様な推論問題とともに、6.8kのユニークな状況を中心としたデータセットを提供する。 これらの質問は、空間的関係理解からコモンセンス理解、ナビゲーション、マルチホップ推論まで、知的エージェントの推論能力の幅広い範囲について検討する。 SQA3Dは、現在のマルチモーダル、特に3D推論モデルに重大な課題を課している。 我々は様々な最先端のアプローチを評価し、最高のアプローチは47.20%のスコアしか得られず、アマチュアの人間の参加者は90.06%に達することができる。 SQA3Dは、より強力な状況理解と推論能力を備えた未来のAI研究を促進することができると信じている。

We propose a new task to benchmark scene understanding of embodied agents: Situated Question Answering in 3D Scenes (SQA3D). Given a scene context (e.g., 3D scan), SQA3D requires the tested agent to first understand its situation (position, orientation, etc.) in the 3D scene as described by text, then reason about its surrounding environment and answer a question under that situation. Based upon 650 scenes from ScanNet, we provide a dataset centered around 6.8k unique situations, along with 20.4k descriptions and 33.4k diverse reasoning questions for these situations. These questions examine a wide spectrum of reasoning capabilities for an intelligent agent, ranging from spatial relation comprehension to commonsense understanding, navigation, and multi-hop reasoning. SQA3D imposes a significant challenge to current multi-modal especially 3D reasoning models. We evaluate various state-of-the-art approaches and find that the best one only achieves an overall score of 47.20%, while amateur human participants can reach 90.06%. We believe SQA3D could facilitate future embodied AI research with stronger situation understanding and reasoning capability.
翻訳日:2022-10-17 14:48:52 公開日:2022-10-14
# avlen: 3次元環境における音声・視覚言語エンボディドナビゲーション

AVLEN: Audio-Visual-Language Embodied Navigation in 3D Environments ( http://arxiv.org/abs/2210.07940v1 )

ライセンス: Link先を確認
Sudipta Paul and Amit K. Roy-Chowdhury and Anoop Cherian(参考訳) 近年、視覚ナビゲーションの進歩は2つの異なる方向を向いている。 (i)自然言語指示に従うためにaiエージェントを装備する場合、及び (ii) ナビゲーション可能な世界をマルチモーダル(例えばオーディオ視覚ナビゲーション)にする。 しかし、現実の世界はマルチモーダルであるだけでなく、しばしば複雑であり、このような進歩にもかかわらず、エージェントは行動の不確実性を理解し、ナビゲートの指示を求める必要がある。 そこで我々は,音声・視覚言語エンボディドナビゲーションのための対話型エージェントであるavlen~を提案する。 音声ビジュアルナビゲーションタスクと同様に、我々の実施するエージェントの目標は、3dビジュアルワールドをナビゲートすることでオーディオイベントをローカライズすることにありますが、エージェントは人間(oracle)の助けを求めます。 これらの能力を実現するために、AVLENはマルチモーダル階層的な強化学習バックボーンを使用して学習する。 (a) ナビゲーションのためにオーディオキューを選択するか,oracleに問い合わせるか,あるいは,ハイレベルなポリシー b) 音声・視覚・言語入力に基づくナビゲーション動作を選択するための低レベルポリシー。 ポリシーはナビゲーションタスクの成功に対する報奨を通じてトレーニングされ、オラクルへのクエリの数を最小限にする。 AVLENを実験的に評価するために,意味的音声視覚ナビゲーションタスクのためのSoundSpacesフレームワークの実験を行った。 以上の結果から, エージェントに助けを求めることで, 特に訓練中に音が聞こえなかったり, 邪魔音があったりした場合に, パフォーマンスが向上することが示唆された。

Recent years have seen embodied visual navigation advance in two distinct directions: (i) in equipping the AI agent to follow natural language instructions, and (ii) in making the navigable world multimodal, e.g., audio-visual navigation. However, the real world is not only multimodal, but also often complex, and thus in spite of these advances, agents still need to understand the uncertainty in their actions and seek instructions to navigate. To this end, we present AVLEN~ -- an interactive agent for Audio-Visual-Language Embodied Navigation. Similar to audio-visual navigation tasks, the goal of our embodied agent is to localize an audio event via navigating the 3D visual world; however, the agent may also seek help from a human (oracle), where the assistance is provided in free-form natural language. To realize these abilities, AVLEN uses a multimodal hierarchical reinforcement learning backbone that learns: (a) high-level policies to choose either audio-cues for navigation or to query the oracle, and (b) lower-level policies to select navigation actions based on its audio-visual and language inputs. The policies are trained via rewarding for the success on the navigation task while minimizing the number of queries to the oracle. To empirically evaluate AVLEN, we present experiments on the SoundSpaces framework for semantic audio-visual navigation tasks. Our results show that equipping the agent to ask for help leads to a clear improvement in performance, especially in challenging cases, e.g., when the sound is unheard during training or in the presence of distractor sounds.
翻訳日:2022-10-17 14:48:30 公開日:2022-10-14
# 短文ソーシャルメディアにおけるエンティティリンクのためのロバスト候補生成

Robust Candidate Generation for Entity Linking on Short Social Media Texts ( http://arxiv.org/abs/2210.07472v1 )

ライセンス: Link先を確認
Liam Hebert and Raheleh Makki and Shubhanshu Mishra and Hamidreza Saghir and Anusha Kamath and Yuval Merhav(参考訳) エンティティリンク(EL)は知識ベースへのゲートウェイである。 ELの最近の進歩は、事前計算辞書に対するNERマッチングのルックアップに基づくアプローチの欠点に対処する、候補生成のための密度の高い検索アプローチを利用している。 本研究では,つぶやきの分野では,ユーザが非公式な綴りや文脈の制限,特異性の欠如といった問題に悩まされることが少なくないことを示す。 ELの大規模かつ最近のつぶやきベンチマークにおけるこれらの課題について検討し、検索手法のルックアップと高密度化を実証的に評価し、ウィキペディアからの長期的文脈表現を用いたハイブリッドソリューションが従来の作業よりも大幅に向上し、0.93リコールを達成したことを示す。

Entity Linking (EL) is the gateway into Knowledge Bases. Recent advances in EL utilize dense retrieval approaches for Candidate Generation, which addresses some of the shortcomings of the Lookup based approach of matching NER mentions against pre-computed dictionaries. In this work, we show that in the domain of Tweets, such methods suffer as users often include informal spelling, limited context, and lack of specificity, among other issues. We investigate these challenges on a large and recent Tweets benchmark for EL, empirically evaluate lookup and dense retrieval approaches, and demonstrate a hybrid solution using long contextual representation from Wikipedia is necessary to achieve considerable gains over previous work, achieving 0.93 recall.
翻訳日:2022-10-17 14:47:53 公開日:2022-10-14
# 階層的重み付き自己コントラスト学習による粗粒度監督下の細粒度カテゴリー発見

Fine-grained Category Discovery under Coarse-grained supervision with Hierarchical Weighted Self-contrastive Learning ( http://arxiv.org/abs/2210.07733v1 )

ライセンス: Link先を確認
Wenbin An, Feng Tian, Ping Chen, Siliang Tang, Qinghua Zheng, QianYing Wang(参考訳) 新たなカテゴリ発見は、既知のカテゴリで訓練されたモデルを新しいカテゴリに適応させることを目的としている。 以前の作品は、既知のカテゴリと新しいカテゴリが同じ粒度であるシナリオのみに焦点を当てていた。 本稿では、粗粒度監視(FCDC)の下で、ファイングラニュアルカテゴリー発見と呼ばれる新しい実践シナリオについて検討する。 FCDCは、粗いラベル付きデータのみを用いて、既知のデータと異なる粒度のカテゴリにモデルを適応させ、かなりのラベル付けコストを削減できるきめ細かなカテゴリを発見することを目的としている。 粗粒度カテゴリーの監督訓練はクラス間距離(粗粒度クラス間距離)に焦点をあてる傾向があるが、細粒度サブクラス間距離(細粒度クラス間距離)を無視する傾向があるため、これは難しい課題である。 現行の手法では,粗粒レベルから細粒レベルへの知識の伝達が不可能であり,新しい重み付き自己結合モジュールを構築し,階層的手法で教師付き学習と組み合わせることにより,階層的重み付き自己結合ネットワークを提案する。 公開データセットに対する大規模な実験は、比較手法よりもモデルの有効性と効率性を示している。 コードとデータはhttps://github.com/lackel/hierarchical_weighted_sclで入手できる。

Novel category discovery aims at adapting models trained on known categories to novel categories. Previous works only focus on the scenario where known and novel categories are of the same granularity. In this paper, we investigate a new practical scenario called Fine-grained Category Discovery under Coarse-grained supervision (FCDC). FCDC aims at discovering fine-grained categories with only coarse-grained labeled data, which can adapt models to categories of different granularity from known ones and reduce significant labeling cost. It is also a challenging task since supervised training on coarse-grained categories tends to focus on inter-class distance (distance between coarse-grained classes) but ignore intra-class distance (distance between fine-grained sub-classes) which is essential for separating fine-grained categories. Considering most current methods cannot transfer knowledge from coarse-grained level to fine-grained level, we propose a hierarchical weighted self-contrastive network by building a novel weighted self-contrastive module and combining it with supervised learning in a hierarchical manner. Extensive experiments on public datasets show both effectiveness and efficiency of our model over compared methods. Code and data are available at https://github.com/Lackel/Hierarchical_Weighted_SCL.
翻訳日:2022-10-17 14:47:38 公開日:2022-10-14
# タスク指向対話における生涯学習のためのプロンプトコンディショルドvae:生成リプレイの強化

Prompt Conditioned VAE: Enhancing Generative Replay for Lifelong Learning in Task-Oriented Dialogue ( http://arxiv.org/abs/2210.07783v1 )

ライセンス: Link先を確認
Yingxiu Zhao, Yinhe Zheng, Zhiliang Tian, Chang Gao, Bowen Yu, Haiyang Yu, Yongbin Li, Jian Sun, Nevin L. Zhang(参考訳) 生涯学習(LL)は高度なタスク指向対話(ToD)システムにとって不可欠である。 LLの破滅的な忘れの問題に対処するために、過去の知識と生成された擬似サンプルを統合するために生成的再生法が広く用いられている。 しかしながら、既存の生成リプレイメソッドのほとんどは、モデルを制御するために単一のタスク固有のトークンのみを使用する。 このスキームは通常、情報不足のため生成モデルに制約を与えるほど強力ではない。 本稿では,タスクの統計を取り入れて生成的リプレイを向上させるために,生涯学習(PCLL)のための新しい条件付きVAEを提案する。 PCLLは、擬似サンプル生成を誘導する自然言語プロンプトに条件付き可変オートエンコーダでタスク固有の分布をキャプチャする。 さらに、蒸留プロセスを利用して、疑似サンプルのノイズを緩和することで過去の知識をさらに強化する。 ToDシステムの自然言語理解タスクの実験は、PCLLがLLモデルの構築において競争ベースラインを大幅に上回ることを示した。

Lifelong learning (LL) is vital for advanced task-oriented dialogue (ToD) systems. To address the catastrophic forgetting issue of LL, generative replay methods are widely employed to consolidate past knowledge with generated pseudo samples. However, most existing generative replay methods use only a single task-specific token to control their models. This scheme is usually not strong enough to constrain the generative model due to insufficient information involved. In this paper, we propose a novel method, prompt conditioned VAE for lifelong learning (PCLL), to enhance generative replay by incorporating tasks' statistics. PCLL captures task-specific distributions with a conditional variational autoencoder, conditioned on natural language prompts to guide the pseudo-sample generation. Moreover, it leverages a distillation process to further consolidate past knowledge by alleviating the noise in pseudo samples. Experiments on natural language understanding tasks of ToD systems demonstrate that PCLL significantly outperforms competitive baselines in building LL models.
翻訳日:2022-10-17 14:47:16 公開日:2022-10-14
# パレートテストによる複数リスクの効率的な制御

Efficiently Controlling Multiple Risks with Pareto Testing ( http://arxiv.org/abs/2210.07913v1 )

ライセンス: Link先を確認
Bracha Laufer-Goldshtein, Adam Fisch, Regina Barzilay, Tommi Jaakkola(参考訳) 機械学習アプリケーションは多種多様な目的と制約を持ち、時間とともに変化する。 したがって、トレーニングされたモデルは、その予測行動(例えば、実行時の効率とエラー率)に影響するハイパーパラメータのセットで調整できる。 制約の数とハイパーパラメータ次元が増加するにつれて、自然選択された設定は、最適かつ/または信頼性の低い結果に繋がる可能性がある。 我々は,複数の明示的かつ同時的な統計的保証(上界誤差率など)を確実に満たすとともに,追加の制約のない目的(総実行時間コストなど)を最適化する効率的なモデル校正法を開発した。 一般損失に対する分布自由有限サンプルリスク制御の最近の結果に基づいて,多目的最適化と複数仮説テストを組み合わせた2段階プロセスであるPareto Testingを提案する。 最適化段階はパレート辺境に有望な組み合わせのセットを構築する。 このフロンティアに統計テストを適用するのは、構成を識別するだけです。 (i)我々の目的に関して高い実用性、 (二)我々の制約に対するリスクレベルを確実な高い確率で保証する。 自然言語処理(NLP)アプリケーションにおいて,大規模トランスフォーマーモデルの実行を確実に高速化する手法の有効性を示す。 特に,paretoテストを用いて,複数の相互依存型モデル属性 – 出口前に計算されたレイヤ数,注意ヘッド数,考慮されたテキストトークン数など – を動的に設定し,さまざまな精度とコストメトリクスを同時に制御し,最適化する方法を示す。

Machine learning applications frequently come with multiple diverse objectives and constraints that can change over time. Accordingly, trained models can be tuned with sets of hyper-parameters that affect their predictive behavior (e.g., their run-time efficiency versus error rate). As the number of constraints and hyper-parameter dimensions grow, naively selected settings may lead to sub-optimal and/or unreliable results. We develop an efficient method for calibrating models such that their predictions provably satisfy multiple explicit and simultaneous statistical guarantees (e.g., upper-bounded error rates), while also optimizing any number of additional, unconstrained objectives (e.g., total run-time cost). Building on recent results in distribution-free, finite-sample risk control for general losses, we propose Pareto Testing: a two-stage process which combines multi-objective optimization with multiple hypothesis testing. The optimization stage constructs a set of promising combinations on the Pareto frontier. We then apply statistical testing to this frontier only to identify configurations that have (i) high utility with respect to our objectives, and (ii) guaranteed risk levels with respect to our constraints, with specifiable high probability. We demonstrate the effectiveness of our approach to reliably accelerate the execution of large-scale Transformer models in natural language processing (NLP) applications. In particular, we show how Pareto Testing can be used to dynamically configure multiple inter-dependent model attributes -- including the number of layers computed before exiting, number of attention heads pruned, or number of text tokens considered -- to simultaneously control and optimize various accuracy and cost metrics.
翻訳日:2022-10-17 14:46:58 公開日:2022-10-14
# exaug:幾何経験の強化によるロボットコンディショニングナビゲーションポリシー

ExAug: Robot-Conditioned Navigation Policies via Geometric Experience Augmentation ( http://arxiv.org/abs/2210.07450v1 )

ライセンス: Link先を確認
Noriaki Hirose, Dhruv Shah, Ajay Sridhar, Sergey Levine(参考訳) 機械学習技術は、一般化のために大規模で多様なデータセットに依存している。 コンピュータビジョン、自然言語処理、その他のアプリケーションは、しばしば公開データセットを再利用して、多くの異なるモデルをトレーニングすることができる。 しかし、物理的な構成の違いから、新しいロボットプラットフォームや新しいタスクでロボット制御ポリシーをトレーニングするために、公開データセットを活用するのは難しい。 本研究では,多様な環境における複数のデータセットから異なるロボットプラットフォームを体験するための新しいフレームワークであるExAugを提案する。 exaugは、ポイントクラウドの形で3d情報を抽出することで、合成画像の生成と、異なるサイズ、回転半径、カメラ配置の異なる異なる異なる異なるロボットに同じ状況に適した幾何学的認識によるペナリゼーションの両方を利用して、より複雑で構造化された拡張を作成することができる。 トレーニングされたポリシーは、屋内と屋外の障害物のある3つの異なるカメラを備えた2つの新しいロボットプラットフォームで評価される。

Machine learning techniques rely on large and diverse datasets for generalization. Computer vision, natural language processing, and other applications can often reuse public datasets to train many different models. However, due to differences in physical configurations, it is challenging to leverage public datasets for training robotic control policies on new robot platforms or for new tasks. In this work, we propose a novel framework, ExAug to augment the experiences of different robot platforms from multiple datasets in diverse environments. ExAug leverages a simple principle: by extracting 3D information in the form of a point cloud, we can create much more complex and structured augmentations, utilizing both generating synthetic images and geometric-aware penalization that would have been suitable in the same situation for a different robot, with different size, turning radius, and camera placement. The trained policy is evaluated on two new robot platforms with three different cameras in indoor and outdoor environments with obstacles.
翻訳日:2022-10-17 14:46:18 公開日:2022-10-14
# 異常検出のための学習画像表現:創薬における組織学的変化の発見への応用

Learning image representations for anomaly detection: application to discovery of histological alterations in drug development ( http://arxiv.org/abs/2210.07675v1 )

ライセンス: Link先を確認
Igor Zingman, Birgit Stierstorfer, Charlotte Lempp, Fabian Heinemann(参考訳) 病理組織像における異常検出システムを提案する。 組織学では、正常なサンプルは通常豊富であるが、異常な(病理学的)症例は少ないか、使用できない。 このような設定下では、健全なデータで訓練された1つのクラス分類器は、分布異常なサンプルを検出することができる。 このようなアプローチと、事前訓練された画像の畳み込みニューラルネットワーク(CNN)表現が組み合わさって、以前は異常検出(AD)に用いられていた。 しかし、事前訓練された市販のcnn表現は、組織の異常な状況に敏感ではなく、健康な組織の自然な変化は遠方からの表現をもたらす可能性がある。 健康組織における関連詳細への表現を適応させるために, 異なる種, 臓器, 染色試薬の健康組織を識別する補助課題に対して, cnnを訓練することを提案する。 健全なサンプルには上記のラベルが付属するため、追加のラベル付け作業は必要ない。 トレーニング中、我々はセンターロス項でコンパクトな画像表現を強制し、ADの表現をさらに改善する。 提案するシステムは,肝臓異常の公開データセット上で確立したad法を上回っている。 さらに,肝異常の定量化に特化する従来の方法と同等の結果を得た。 本手法は, 早期開発段階における候補薬の毒性評価に有用であり, 費用のかかる後期薬乱用を低減できることを示す。

We present a system for anomaly detection in histopathological images. In histology, normal samples are usually abundant, whereas anomalous (pathological) cases are scarce or not available. Under such settings, one-class classifiers trained on healthy data can detect out-of-distribution anomalous samples. Such approaches combined with pre-trained Convolutional Neural Network (CNN) representations of images were previously employed for anomaly detection (AD). However, pre-trained off-the-shelf CNN representations may not be sensitive to abnormal conditions in tissues, while natural variations of healthy tissue may result in distant representations. To adapt representations to relevant details in healthy tissue we propose training a CNN on an auxiliary task that discriminates healthy tissue of different species, organs, and staining reagents. Almost no additional labeling workload is required, since healthy samples come automatically with aforementioned labels. During training we enforce compact image representations with a center-loss term, which further improves representations for AD. The proposed system outperforms established AD methods on a published dataset of liver anomalies. Moreover, it provided comparable results to conventional methods specifically tailored for quantification of liver anomalies. We show that our approach can be used for toxicity assessment of candidate drugs at early development stages and thereby may reduce expensive late-stage drug attrition.
翻訳日:2022-10-17 14:46:01 公開日:2022-10-14
# 二分木上の量子ウォークの効率的な回路実装と強化学習への応用

Efficient circuit implementation for coined quantum walks on binary trees and application to reinforcement learning ( http://arxiv.org/abs/2210.06784v2 )

ライセンス: Link先を確認
Thomas Mullor, David Vigouroux, Louis Bethune(参考訳) 二進木上の量子ウォークは多くの量子アルゴリズムで古典的アルゴリズムよりも重要なスピードアップを達成するために使われている。 量子回路としてのこの種のアルゴリズムの定式化は、容易に可読性があり、回路ベースの量子コンピュータやシミュレータ上で実行可能であり、リソースの使用に最適である。 普遍ゲートモデル量子計算の原理に従って二分木上で量子ウォークを行う量子回路を構成するための戦略を提案する。 我々はゲーム理論や強化学習に多くの応用が期待できるNAND公式評価アルゴリズムに特に注意を払っている。 そこで本稿では,このアルゴリズムを応用し,量子強化学習エージェントを2プレイヤーゲーム環境においてどのようにトレーニングできるかを示す。

Quantum walks on binary trees are used in many quantum algorithms to achieve important speedup over classical algorithms. The formulation of this kind of algorithms as quantum circuit presents the advantage of being easily readable, executable on circuit based quantum computers and simulators and optimal on the usage of resources. We propose a strategy to compose quantum circuit that performs quantum walk on binary trees following universal gate model quantum computation principles. We give a particular attention to NAND formula evaluation algorithm as it could have many applications in game theory and reinforcement learning. We therefore propose an application of this algorithm and show how it can be used to train a quantum reinforcement learning agent in a two player game environment.
翻訳日:2022-10-17 12:36:10 公開日:2022-10-14
# ERNIE-Layout: 視覚的にリッチな文書理解のための事前トレーニングを強化したレイアウト知識

ERNIE-Layout: Layout Knowledge Enhanced Pre-training for Visually-rich Document Understanding ( http://arxiv.org/abs/2210.06155v2 )

ライセンス: Link先を確認
Qiming Peng, Yinxu Pan, Wenjin Wang, Bin Luo, Zhenyu Zhang, Zhengjie Huang, Teng Hu, Weichong Yin, Yongfeng Chen, Yin Zhang, Shikun Feng, Yu Sun, Hao Tian, Hua Wu, Haifeng Wang(参考訳) 近年、視覚に富んだ文書理解における事前学習技術の台頭と成功を目撃している。 しかし、既存の手法のほとんどは、レイアウト中心の知識の体系的なマイニングと利用を欠いているため、準最適性能をもたらす。 本稿では,テキスト,レイアウト,画像といった特徴を組み合わせた表現を学習するために,ワークフロー全体におけるレイアウト知識の強化を伴う新しい文書事前学習ソリューションであるERNIE-Layoutを提案する。 具体的には、まず、シリアライズ段階で入力シーケンスを並べ替え、次に相関した事前学習タスク、読み出し順序予測を示し、文書の適切な読み出し順序を学習する。 モデルのレイアウト認識を改善するため,マルチモーダル変圧器に空間認識不連続な注意を配置し,事前学習フェーズに置き換えた領域予測タスクを統合する。 実験結果から、ERNIE-Layoutは、キー情報抽出、文書画像分類、文書質問応答データセットに新たな最先端設定を施し、様々な下流タスクにおいて優れた性能を発揮することが示された。 コードとモデルはhttp://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/ernie-layoutで公開されている。

Recent years have witnessed the rise and success of pre-training techniques in visually-rich document understanding. However, most existing methods lack the systematic mining and utilization of layout-centered knowledge, leading to sub-optimal performances. In this paper, we propose ERNIE-Layout, a novel document pre-training solution with layout knowledge enhancement in the whole workflow, to learn better representations that combine the features from text, layout, and image. Specifically, we first rearrange input sequences in the serialization stage, and then present a correlative pre-training task, reading order prediction, to learn the proper reading order of documents. To improve the layout awareness of the model, we integrate a spatial-aware disentangled attention into the multi-modal transformer and a replaced regions prediction task into the pre-training phase. Experimental results show that ERNIE-Layout achieves superior performance on various downstream tasks, setting new state-of-the-art on key information extraction, document image classification, and document question answering datasets. The code and models are publicly available at http://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/ernie-layout.
翻訳日:2022-10-17 12:34:42 公開日:2022-10-14
# 学習概念の論理結合によるGNNのグローバル説明可能性

Global Explainability of GNNs via Logic Combination of Learned Concepts ( http://arxiv.org/abs/2210.07147v2 )

ライセンス: Link先を確認
Steve Azzolin, Antonio Longa, Pietro Barbiero, Pietro Li\`o, Andrea Passerini(参考訳) GNNのインスタンスレベルの説明は、多くのアプローチが開発されているよく研究されている問題であるが、解釈可能性やデバッグの可能性にもかかわらず、GNNの振る舞いに関するグローバルな説明は、はるかに少ない。 既存の解は、与えられたクラスの局所的な説明を単にリストアップするか、あるいは与えられたクラスの最大スコアを持つ合成原型グラフを生成し、GNNが学べる組合せ的な側面を全く欠いている。 本稿では、学習したグラフィカル概念の任意のブール結合として説明を生成できる最初のグローバル説明器であるglgexplainer(global logic-based gnn explaineder)を提案する。 glgexplainerは、ローカルな説明を入力として取り、それらをグラフィカルな概念の上に論理式に結合し、ローカルな説明のクラスタとして表現する、完全に微分可能なアーキテクチャである。 既存のソリューションとは対照的に、GLGExplainerは、(合成データにおいて)地道的な説明と完全に整合した正確で人間の解釈可能なグローバルな説明を提供する。 抽出された公式はモデル予測に忠実であり、モデルによって学習される時に誤ったルールに対する洞察を提供するため、glgexplainerは学習したgnnにとって有望な診断ツールとなる。

While instance-level explanation of GNN is a well-studied problem with plenty of approaches being developed, providing a global explanation for the behaviour of a GNN is much less explored, despite its potential in interpretability and debugging. Existing solutions either simply list local explanations for a given class, or generate a synthetic prototypical graph with maximal score for a given class, completely missing any combinatorial aspect that the GNN could have learned. In this work, we propose GLGExplainer (Global Logic-based GNN Explainer), the first Global Explainer capable of generating explanations as arbitrary Boolean combinations of learned graphical concepts. GLGExplainer is a fully differentiable architecture that takes local explanations as inputs and combines them into a logic formula over graphical concepts, represented as clusters of local explanations. Contrary to existing solutions, GLGExplainer provides accurate and human-interpretable global explanations that are perfectly aligned with ground-truth explanations (on synthetic data) or match existing domain knowledge (on real-world data). Extracted formulas are faithful to the model predictions, to the point of providing insights into some occasionally incorrect rules learned by the model, making GLGExplainer a promising diagnostic tool for learned GNNs.
翻訳日:2022-10-17 12:34:21 公開日:2022-10-14
# qmrnet:eo画像品質評価と超解像のための品質指標回帰

QMRNet: Quality Metric Regression for EO Image Quality Assessment and Super-Resolution ( http://arxiv.org/abs/2210.06618v2 )

ライセンス: Link先を確認
David Berga, Pau Gall\'es, Katalin Tak\'ats, Eva Mohedano, Laura Riordan-Chen, Clara Garcia-Moll, David Vilaseca, Javier Mar\'in(参考訳) 超解像(SR)の最近の進歩は、主に超解像地球観測(EO)の画像に使われていない顔、風景、物体などの一般的な目的の画像でテストされている。 本研究では,全参照および非参照画像品質評価(IQA)メトリクスを用いて,異なるEOデータセットに対する最先端SRアルゴリズムのベンチマークを行う。 また、画像の任意の特性(解像度、歪みなど)をトレーニングすることで品質(非参照メトリック)を予測でき、また、特定のメトリック目的のためにSRアルゴリズムを最適化できる新しい品質メトリック回帰ネットワーク(QMRNet)を提案する。 この研究は、画像の品質、検出、分類、およびEOのユースケースにおける画像圧縮を評価するために開発されたフレームワークIQUAFLOWの実装の一部である。 実験を統合し,ぼかし,シャープネス,snr,rer,地中サンプリング距離(gsd)などの特徴を予測したqmrnetアルゴリズムをテストし,1.0(n=50以下)以下の検証 medr と95\%以上のリコール率を得た。 総合ベンチマークでは、LIIF、CAR、MSRNの有望な結果と、SR予測を最適化するためのロスとしてQMRNetが使用される可能性を示している。 その単純さから、QMRNetはアーキテクチャとデータ処理が完全にスケーラブルであるため、他のユースケースや画像ドメインにも使用できる。

Latest advances in Super-Resolution (SR) have been tested with general purpose images such as faces, landscapes and objects, mainly unused for the task of super-resolving Earth Observation (EO) images. In this research paper, we benchmark state-of-the-art SR algorithms for distinct EO datasets using both Full-Reference and No-Reference Image Quality Assessment (IQA) metrics. We also propose a novel Quality Metric Regression Network (QMRNet) that is able to predict quality (as a No-Reference metric) by training on any property of the image (i.e. its resolution, its distortions...) and also able to optimize SR algorithms for a specific metric objective. This work is part of the implementation of the framework IQUAFLOW which has been developed for evaluating image quality, detection and classification of objects as well as image compression in EO use cases. We integrated our experimentation and tested our QMRNet algorithm on predicting features like blur, sharpness, snr, rer and ground sampling distance (GSD) and obtain validation medRs below 1.0 (out of N=50) and recall rates above 95\%. Overall benchmark shows promising results for LIIF, CAR and MSRN and also the potential use of QMRNet as Loss for optimizing SR predictions. Due to its simplicity, QMRNet could also be used for other use cases and image domains, as its architecture and data processing is fully scalable.
翻訳日:2022-10-17 12:33:44 公開日:2022-10-14
# s4nd: 状態空間を用いた多次元信号としての映像と映像のモデリング

S4ND: Modeling Images and Videos as Multidimensional Signals Using State Spaces ( http://arxiv.org/abs/2210.06583v2 )

ライセンス: Link先を確認
Eric Nguyen, Karan Goel, Albert Gu, Gordon W. Downs, Preey Shah, Tri Dao, Stephen A. Baccus, Christopher R\'e(参考訳) 画像やビデオなどの視覚データは、本質的に連続した多次元信号の離散化としてモデル化される。 既存の連続信号モデルは、視覚データ(例えば画像)の信号を直接モデル化することで、この事実を活用しようとする。 しかし、これらのモデルは、大規模な画像分類やビデオ分類のような実用的な視覚タスクにおいて、まだ競争力のある性能を達成できていない。 近年の深部状態空間モデル(deep state space model, ssms)の研究成果を基に,画像や映像を含む多次元データに対して,ssmの連続信号モデリング能力を拡張した,新しい多次元ssm層s4ndを提案する。 我々は,S4NDが連続多次元信号として1D,2D,3Dの大規模視覚データをモデル化できることを示し,既存の最先端モデルにおいて,Conv2Dおよび自己保持層をS4ND層に置き換えることで,高い性能を示す。 ImageNet-1kでは、S4NDは1ドルのパッチシーケンスでトレーニングする場合、Vision Transformerベースラインのパフォーマンスを1.5\%以上上回り、イメージを2ドルでモデリングする場合はConvNeXtと一致する。 ビデオの場合、s4ndはhmdb-51のアクティビティ分類で$4\%$で膨らんだ$3$d convnextで改善される。 s4ndは、構成によって不変な大域的連続畳み込みカーネルを暗黙的に学習し、複数の解像度にわたる一般化を可能にする帰納的バイアスを提供する。 S4NDは、エイリアスを克服するためにS4の単純なバンドリミット修正を開発することで、強力なゼロショット(トレーニング時に見えない)解像度性能を実現し、ベースラインのConv2Dを8 \times 8$でトレーニングし、32$イメージで32$でテストすると、CIFAR-10で40\%以上のパフォーマンスを達成している。 プログレッシブリサイズでトレーニングすると、S4NDは高解像度モデルの$\sim 1\%$以内で、トレーニングは22\%$速くなります。

Visual data such as images and videos are typically modeled as discretizations of inherently continuous, multidimensional signals. Existing continuous-signal models attempt to exploit this fact by modeling the underlying signals of visual (e.g., image) data directly. However, these models have not yet been able to achieve competitive performance on practical vision tasks such as large-scale image and video classification. Building on a recent line of work on deep state space models (SSMs), we propose S4ND, a new multidimensional SSM layer that extends the continuous-signal modeling ability of SSMs to multidimensional data including images and videos. We show that S4ND can model large-scale visual data in $1$D, $2$D, and $3$D as continuous multidimensional signals and demonstrates strong performance by simply swapping Conv2D and self-attention layers with S4ND layers in existing state-of-the-art models. On ImageNet-1k, S4ND exceeds the performance of a Vision Transformer baseline by $1.5\%$ when training with a $1$D sequence of patches, and matches ConvNeXt when modeling images in $2$D. For videos, S4ND improves on an inflated $3$D ConvNeXt in activity classification on HMDB-51 by $4\%$. S4ND implicitly learns global, continuous convolutional kernels that are resolution invariant by construction, providing an inductive bias that enables generalization across multiple resolutions. By developing a simple bandlimiting modification to S4 to overcome aliasing, S4ND achieves strong zero-shot (unseen at training time) resolution performance, outperforming a baseline Conv2D by $40\%$ on CIFAR-10 when trained on $8 \times 8$ and tested on $32 \times 32$ images. When trained with progressive resizing, S4ND comes within $\sim 1\%$ of a high-resolution model while training $22\%$ faster.
翻訳日:2022-10-17 12:33:17 公開日:2022-10-14
# スパンの発見に関する実証的研究

An Empirical Study on Finding Spans ( http://arxiv.org/abs/2210.06824v2 )

ライセンス: Link先を確認
Weiwei Gu, Boyuan Zheng, Yunmo Chen, Tongfei Chen, Benjamin Van Durme(参考訳) 本研究では,いくつかの下流タスクに対して,スパン発見手法,テキスト中の連続トークンの選択に関する実証的研究を行う。 エンド・ツー・エンドの情報抽出システムのトレーニングに活用できるアプローチに注目し、タスク特性を考慮せずに決定的なソリューションが存在しないことを発見し、将来の設計選択を支援するために我々の観察結果を提供する。 1) タグ付けアプローチは、スパン列挙と境界予測がより高いリコールをもたらす間、しばしば高い精度をもたらす。 2) スパン型情報は境界予測アプローチに有用である。 3) 追加の文脈化は、ほとんどの場合、発見に役立ちません。

We present an empirical study on methods for span finding, the selection of consecutive tokens in text for some downstream tasks. We focus on approaches that can be employed in training end-to-end information extraction systems, and find there is no definitive solution without considering task properties, and provide our observations to help with future design choices: 1) a tagging approach often yields higher precision while span enumeration and boundary prediction provide higher recall; 2) span type information can benefit a boundary prediction approach; 3) additional contextualization does not help span finding in most cases.
翻訳日:2022-10-17 12:32:38 公開日:2022-10-14
# uplift and upsample:アップリフト変圧器を用いた効率的な3次元ポーズ推定

Uplift and Upsample: Efficient 3D Human Pose Estimation with Uplifting Transformers ( http://arxiv.org/abs/2210.06110v2 )

ライセンス: Link先を確認
Moritz Einfalt, Katja Ludwig, Rainer Lienhart(参考訳) ビデオにおけるモノラルな3Dポーズ推定の最先端は、2Dから3Dポーズアップリフトのパラダイムに支配されている。 アップリフトメソッド自体はかなり効率的であるが、真の計算複雑性はフレーム毎の2dポーズ推定に依存する。 本稿では, 時間的にスパースな2次元ポーズ列を操作できるが, 時間的に密な3次元ポーズ推定を生成できる変圧器ベースのポーズ上昇スキームを提案する。 トランスフォーマーブロック内のテンポラリアップサンプリングにマスクドトークンモデリングをどのように利用できるかを示す。 これにより、入力2Dポーズのサンプリングレートとビデオのターゲットフレームレートを分離し、全体的な計算複雑性を大幅に減らすことができる。 さらに,これまでほとんど無視されてきた大規模モーションキャプチャアーカイブの事前トレーニングオプションについても検討した。 我々は,Human3.6M と MPI-INF-3DHP の2つのベンチマークデータセットを用いて評価を行った。 提案手法は,それぞれ45.0mm,46.9mmのmpjpeを用いて,推定時間を12倍に削減しつつ,最先端の手法と競合することができる。 これにより、定常およびモバイルアプリケーションにおける可変コンシューマハードウェアによるリアルタイムスループットが可能になる。 コードとモデルはhttps://github.com/goldbricklemon/uplift-upsample-3dhpeでリリースします。

The state-of-the-art for monocular 3D human pose estimation in videos is dominated by the paradigm of 2D-to-3D pose uplifting. While the uplifting methods themselves are rather efficient, the true computational complexity depends on the per-frame 2D pose estimation. In this paper, we present a Transformer-based pose uplifting scheme that can operate on temporally sparse 2D pose sequences but still produce temporally dense 3D pose estimates. We show how masked token modeling can be utilized for temporal upsampling within Transformer blocks. This allows to decouple the sampling rate of input 2D poses and the target frame rate of the video and drastically decreases the total computational complexity. Additionally, we explore the option of pre-training on large motion capture archives, which has been largely neglected so far. We evaluate our method on two popular benchmark datasets: Human3.6M and MPI-INF-3DHP. With an MPJPE of 45.0 mm and 46.9 mm, respectively, our proposed method can compete with the state-of-the-art while reducing inference time by a factor of 12. This enables real-time throughput with variable consumer hardware in stationary and mobile applications. We release our code and models at https://github.com/goldbricklemon/uplift-upsample-3dhpe
翻訳日:2022-10-17 12:32:30 公開日:2022-10-14
# 話者プライバシ保護のための生成的対立ネットワークによる音声の匿名化

Anonymizing Speech with Generative Adversarial Networks to Preserve Speaker Privacy ( http://arxiv.org/abs/2210.07002v2 )

ライセンス: Link先を確認
Sarina Meyer, Pascal Tilli, Pavel Denisov, Florian Lux, Julia Koch, Ngoc Thang Vu(参考訳) 音声データのプライバシーを保護するため、話者匿名化は、音声録音中の音声を変更して話者のアイデンティティを隠すことを目的としている。 これは典型的には、個人の保護と下流アプリケーションにおけるデータのユーザビリティの間のプライバシ利用のトレードオフを伴う。 この文脈における課題の1つは、できるだけ自然に聞こえる、存在しない声を作り出すことである。 本稿では,wasserstein距離をコスト関数とする生成型逆ネットワークを用いて話者埋め込みを生成することにより,この問題に取り組むことを提案する。 これらの人工埋め込みを音声-テキスト-音声パイプラインに組み込むことで、プライバシとユーティリティの観点から従来のアプローチより優れている。 標準的な客観的指標と人的評価により,本手法はオリジナル録音の知的かつコンテンツ保護的かつプライバシー保護的バージョンを生成する。

In order to protect the privacy of speech data, speaker anonymization aims for hiding the identity of a speaker by changing the voice in speech recordings. This typically comes with a privacy-utility trade-off between protection of individuals and usability of the data for downstream applications. One of the challenges in this context is to create non-existent voices that sound as natural as possible. In this work, we propose to tackle this issue by generating speaker embeddings using a generative adversarial network with Wasserstein distance as cost function. By incorporating these artificial embeddings into a speech-to-text-to-speech pipeline, we outperform previous approaches in terms of privacy and utility. According to standard objective metrics and human evaluation, our approach generates intelligible and content-preserving yet privacy-protecting versions of the original recordings.
翻訳日:2022-10-17 12:31:48 公開日:2022-10-14
# 自己教師付き音声モデルの圧縮シーケンスについて

On Compressing Sequences for Self-Supervised Speech Models ( http://arxiv.org/abs/2210.07189v2 )

ライセンス: Link先を確認
Yen Meng, Hsuan-Jui Chen, Jiatong Shi, Shinji Watanabe, Paola Garcia, Hung-yi Lee, Hao Tang(参考訳) 自己教師モデルが大きくなるにつれて、自己教師モデル圧縮の必要性が高まっている。 従来のアプローチはモデルサイズを圧縮することに集中していたが、計算コストの削減にも効果がある。 本研究では,自己教師付き学習における時間軸に沿った固定長と可変長のサブサンプリングについて検討する。 個々の下流タスクが入力フレームレートにどのように敏感であるかを検討する。 自己教師型モデルのトレーニング中のサブサンプリングは、ダウンストリームタスク全体のパフォーマンスを特定のフレームレートで改善するだけでなく、推論の大幅なスピードアップをもたらす。 可変長サブサンプリングは特に低フレームレートでうまく機能する。 さらに, 音素境界にアクセスできる場合, 平均フレームレートが10Hz以下の場合, 性能劣化は生じない。

Compressing self-supervised models has become increasingly necessary, as self-supervised models become larger. While previous approaches have primarily focused on compressing the model size, shortening sequences is also effective in reducing the computational cost. In this work, we study fixed-length and variable-length subsampling along the time axis in self-supervised learning. We explore how individual downstream tasks are sensitive to input frame rates. Subsampling while training self-supervised models not only improves the overall performance on downstream tasks under certain frame rates, but also brings significant speed-up in inference. Variable-length subsampling performs particularly well under low frame rates. In addition, if we have access to phonetic boundaries, we find no degradation in performance for an average frame rate as low as 10 Hz.
翻訳日:2022-10-17 12:31:34 公開日:2022-10-14
# BLADERUNNER: 合成(AI生成)スタイルガン顔の迅速対策

BLADERUNNER: Rapid Countermeasure for Synthetic (AI-Generated) StyleGAN Faces ( http://arxiv.org/abs/2210.06587v2 )

ライセンス: Link先を確認
Adam Dorian Wong(参考訳) StyleGANはNVIDIAが開発したオープンソースのTensorFlow実装である。 高品質な顔画像生成に革命をもたらした。 しかし、この人工知能/機械学習(ai/ml)アルゴリズムの民主化により、敵対的な脅威俳優はソーシャルメディアプラットフォームにサイバーパーソナラまたはソック・パペットアカウントを確立することができるようになった。 超リアルな合成顔。 本稿では,AI/MLとサイバー・インフォメーション・オペレーションとの関連について調査する。 AI/MLアルゴリズムの普及は、DeepFakesや不正確なソーシャルメディアアカウントの増加につながっている。 脅威は戦略および作戦環境内で分析される。 既存の合成顔の識別方法は存在するが、これらは人間に頼って各写真を不整合として視覚的に精査する。 しかし,DLIB 68-landmark pre-trained ファイルを使用することで,StyleGAN 画像の繰り返し動作を利用して合成顔を分析し,検出することができる。 Project Blade RunnerはStyleGANイメージに対抗するために必要な2つのスクリプトを含んでいる。 アナライザとして作用するペーパープレアーゼにより、スクラップした画像サンプルから攻撃の指標(ioa)を導出することができる。 これらのIOAsは、実運用サンプルから合成顔を特定する検出器として機能する among_Us にフィードバックすることができる。 オープンソースのblade runnerのコピーには、追加のユニットテストといくつかの機能がないかもしれないが、オープンソースコピーは、よりリーンで、より最適化され、情報セキュリティコミュニティのための概念実証である。 希望するエンドステートは、クローズドソースの前任者と同等の自動化を漸進的に追加することだ。

StyleGAN is the open-sourced TensorFlow implementation made by NVIDIA. It has revolutionized high quality facial image generation. However, this democratization of Artificial Intelligence / Machine Learning (AI/ML) algorithms has enabled hostile threat actors to establish cyber personas or sock-puppet accounts in social media platforms. These ultra-realistic synthetic faces. This report surveys the relevance of AI/ML with respect to Cyber & Information Operations. The proliferation of AI/ML algorithms has led to a rise in DeepFakes and inauthentic social media accounts. Threats are analyzed within the Strategic and Operational Environments. Existing methods of identifying synthetic faces exists, but they rely on human beings to visually scrutinize each photo for inconsistencies. However, through use of the DLIB 68-landmark pre-trained file, it is possible to analyze and detect synthetic faces by exploiting repetitive behaviors in StyleGAN images. Project Blade Runner encompasses two scripts necessary to counter StyleGAN images. Through PapersPlease acting as the analyzer, it is possible to derive indicators-of-attack (IOA) from scraped image samples. These IOAs can be fed back into Among_Us acting as the detector to identify synthetic faces from live operational samples. The opensource copy of Blade Runner may lack additional unit tests and some functionality, but the open-source copy is a redacted version, far leaner, better optimized, and a proof-of-concept for the information security community. The desired end-state will be to incrementally add automation to stay on-par with its closed-source predecessor.
翻訳日:2022-10-17 12:31:22 公開日:2022-10-14
# CLASP:Semantic ParsingのためのFew-ShotクロスLingual Data Augmentation

CLASP: Few-Shot Cross-Lingual Data Augmentation for Semantic Parsing ( http://arxiv.org/abs/2210.07074v2 )

ライセンス: Link先を確認
Andy Rosenbaum, Saleh Soltan, Wael Hamza, Amir Saffari, Marco Damonte, Isabel Groves(参考訳) セマンティック解析(sp)モデルを開発する上でのボトルネックは、大量の人間ラベルトレーニングデータが必要であることだ。 SPの人間アノテーションの複雑さとコストを考えると、ラベル付きデータは、特に多言語設定では、しばしば不足する。 LLM(Large Language Models)は、いくつかの例を挙げるとSPで優れているが、LLMは低レイテンシを必要とするランタイムシステムには適していない。 本研究では,中規模モデルの低リソースspを改善するための簡易な手法であるclaspを提案する。我々は,モデル40倍小さく(500mパラメータ)のトレーニングセットを強化するために,alexatm 20bから合成データを生成する。 2つのデータセットを低リソース環境で評価した: 実例348または16のサンプルを含むイングリッシュピザと、トレーニングデータが英語でのみ利用可能で、モデルが4つの新しい言語に一般化しなければならないmtopクロスリンガルゼロショットである。 どちらのデータセットでも,強いベースライン法よりも大幅な改善が見られた。

A bottleneck to developing Semantic Parsing (SP) models is the need for a large volume of human-labeled training data. Given the complexity and cost of human annotation for SP, labeled data is often scarce, particularly in multilingual settings. Large Language Models (LLMs) excel at SP given only a few examples, however LLMs are unsuitable for runtime systems which require low latency. In this work, we propose CLASP, a simple method to improve low-resource SP for moderate-sized models: we generate synthetic data from AlexaTM 20B to augment the training set for a model 40x smaller (500M parameters). We evaluate on two datasets in low-resource settings: English PIZZA, containing either 348 or 16 real examples, and mTOP cross-lingual zero-shot, where training data is available only in English, and the model must generalize to four new languages. On both datasets, we show significant improvements over strong baseline methods.
翻訳日:2022-10-17 12:22:17 公開日:2022-10-14