このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220921となっている論文です。

PDF登録状況(公開日: 20220921)

TitleAuthorsAbstract論文公表日・翻訳日
# 紡糸粒子のスクランブルおよび絡み込み

Scrambling and Entangling Spinning Particles ( http://arxiv.org/abs/2208.12128v3 )

ライセンス: Link先を確認
Ling-Yan Hung, Kaixin Ji, Tianheng Wang(参考訳) 本稿では,2つの散乱スピン粒子の重力固有振幅を再検討し,三成分情報によって定量化されたスピン空間のスクランブルパワーを調べる。 非相対論的極限と特別な高エネルギー極限において、主寄与は普遍的かつ理論的に独立な量であることがわかった。 最小のカップリングは、異なる高モーメントの制限で最小のスクランブルで一元化される。 また, エンタングルメント生成の初期状態依存性を調べた結果, スピンが消えるスピンコヒーレント状態が, 絡み合うのが必ずしも難しいとは限らないことがわかった。 興味深いことに、混合状態の族の中で、古典的混合状態の最適近似として知られている唯一のP-rep状態は、最小の絡み合いが生じるものとして除外された。

In this paper we revisit the gravitational eikonal amplitudes of two scattering spinning particles and inspect their scrambling power in the spin spaces that is quantified through the tripartite information. We found that in the non-relativistic limit and a special high-energy limit the leading contribution is a quantity that is universal and theory independent. The minimal coupling is singled out with minimal scrambling in a different high momenta limit. We also inspected the initial state dependence of entanglement generation and found that the spin coherent state with vanishing spin may not necessarily be the hardest to entangle. Interestingly, among a family of mixed states, the only P-rep state there known to be the best approximation of classical mixed states was singled out as one with minimal entanglement generated.
翻訳日:2023-01-29 21:15:13 公開日:2022-09-21
# マルコフデコヒーレンスの影響下での2レベル系の重ね合わせ状態の最大生成と維持のための最適制御

Optimal control for maximally creating and maintaining a superposition state of a two-level system under the influence of Markovian decoherence ( http://arxiv.org/abs/2209.07062v2 )

ライセンス: Link先を確認
Yukiyoshi Ohtsuki, Suicho Mikami, Toru Ajiki and David J. Tannor(参考訳) デコヒーレンス低減は、現在のノイズの多い中間スケール量子コンピュータ(nisq)を超えて汎用量子コンピュータを実現するための重要なステップである。 この目的のために、外部フィールドをキュービットに適用する動的デカップリング(DD)アプローチが採用されることが多い。 そこで本研究では, 2段階モデルシステム (qubit) を用いて, 微調整された量子最適制御理論を用いて, 所定の制御周期における所定の重ね合わせ状態の最大生成と維持を目的とし, マルコフのデコヒーレンスの影響下でddを数値的に検討する。 最適パルスは, 2種類の目的関数と同様に, 劣化, 人口減少, パルス流速, 制御期間の値を体系的に変化させながら, 数値的に設計する。 デコヒーレンスによる純度の減少は、目標期待値、すなわち飽和値の上限となるが、最適な形状のパルスは、目標重ね合わせ状態を生成して可能な限り飽和値を実現することでデコヒーレンスを効果的に処理する。

Reducing decoherence is an essential step toward realizing general-purpose quantum computers beyond the present noisy intermediate-scale quantum (NISQ) computers. To this end, dynamical decoupling (DD) approaches in which external fields are applied to qubits are often adopted. We numerically study DD using a two-level model system (qubit) under the influence of Markovian decoherence by using quantum optimal control theory with slightly modified settings, in which the physical objective is to maximally create and maintain a specified superposition state in a specified control period. An optimal pulse is numerically designed while systematically varying the values of dephasing, population decay, pulse fluence, and control period as well as using two kinds of objective functionals. Although the decrease in purity due to the decoherence gives rise to the upper limit of the target expectation value, i.e., the saturated value, the optimally shaped pulse effectively deals with the decoherence by gradually creating the target superposition state to realize the saturated value as much as possible.
翻訳日:2023-01-26 12:20:35 公開日:2022-09-21
# 常磁性電子ガスの熱力学限界における相関エネルギー

Correlation energy of the paramagnetic electron gas at the thermodynamic limit ( http://arxiv.org/abs/2209.10227v1 )

ライセンス: Link先を確認
Sam Azadi and N.D. Drummond and S.M. Vinko(参考訳) 変動量子および拡散量子モンテカルロ法は、常磁性3次元同質電子ガスの中間から高密度での相関エネルギーを計算するために用いられる。 Slater-Jastrow-backflow 実験波動関数を用いて有限セルの基底状態エネルギーを算出し、ツイスト平均境界条件と粒子毎のエネルギーの無限系サイズ熱力学限界への外挿により有限サイズ誤差を除去する。 熱力学限界における相関エネルギーは、以前の結果よりも低い(すなわち、より負であり、従って変動原理に従ってより正確な)ので、高密度系に適用できる密度汎関数のパラメータ化に利用できる。

The variational and diffusion quantum Monte Carlo methods are used to calculate the correlation energy of the paramagnetic three-dimensional homogeneous electron gas at intermediate to high density. Ground state energies in finite cells are determined using Slater-Jastrow-backflow trial wave functions, and finite-size errors are removed using twist-averaged boundary conditions and extrapolation of the energy per particle to the thermodynamic limit of infinite system size. Our correlation energies in the thermodynamic limit are lower (i.e., more negative, and therefore more accurate according to the variational principle) than previous results, and can be used for the parameterization of density functionals to be applied to high-density systems.
翻訳日:2023-01-25 20:55:55 公開日:2022-09-21
# Hartree-Fock理論、リーブの変分原理とその一般化

Hartree--Fock Theory, Lieb's Variational Principle, and their Generalizations ( http://arxiv.org/abs/2209.10189v1 )

ライセンス: Link先を確認
Volker Bach(参考訳) 量子力学におけるハートリー-フォック理論は、量子力学が定式化された直後のハートリー-フォック近似の提案から、現代物理学への応用まで検討されている。 これには、量子化学における伝統的なハートリー-フォック理論の記述、様々な種類の一般化、対称性の破れの有無やその欠如を予測することの重要性が含まれる。

Hartree--Fock theory in quantum mechanics is reviewed, from the proposal of the Hartree--Fock approximation right after quantum mechanics was formulated to its applications in modern physics. This includes the description of traditional Hartree--Fock theory in quantum chemistry, its generalizations of various kinds, and its importance for predicting the presence of symmetry breaking, or the absence thereof.
翻訳日:2023-01-25 20:55:34 公開日:2022-09-21
# チャネル集合体の非古典性に関する資源理論

The resource theory of nonclassicality of channel assemblages ( http://arxiv.org/abs/2209.10177v1 )

ライセンス: Link先を確認
Beata Zjawin, David Schmid, Matty J. Hoban, Ana Bel\'en Sainz(参考訳) アリスとボブの両者が相関量子系を共有し、アリスが局所的な測定を行うとき、アリスのボブ状態に関する最新の記述は非古典的相関の証拠を与えることができる。 この単純なシナリオはアインシュタイン、ポドルスキー、ローゼン (EPR) によって研究され、ボブを入力として古典的あるいは量子的システムを持つことで修正することができる。 この場合、アリスはボブの研究室のチャンネルに関する知識を(州ではなく)更新する。 本稿では,eprシナリオの様々な一般化の非古典性を研究するための統一フレームワークを提案する。 我々は、自由操作が局所演算と共有ランダム性(LOSR)である資源理論を用いて行う。 本研究では,EPR資源の事前注文に関する半定的なプログラムを導出し,その変換の可能性を明らかにする。 さらに,ポスト量子資源間の変換を解析的および数値的に検討した。

When two parties, Alice and Bob, share correlated quantum systems and Alice performs local measurements, Alice's updated description of Bob's state can provide evidence of nonclassical correlations. This simple scenario, famously studied by Einstein, Podolsky and Rosen (EPR), can be modified by allowing Bob to also have a classical or quantum system as an input. In this case, Alice updates her knowledge of the channel (rather than the state) in Bob's lab. In this paper, we provide a unified framework for studying the nonclassicality of various such generalizations of the EPR scenario. We do so using a resource theory wherein the free operations are local operations and shared randomness (LOSR). We derive a semidefinite program for studying the pre-order of EPR resources, and discover possible conversions between the latter. Moreover, we study conversions between post-quantum resources both analytically and numerically.
翻訳日:2023-01-25 20:55:27 公開日:2022-09-21
# 無限量子信号処理

Infinite quantum signal processing ( http://arxiv.org/abs/2209.10162v1 )

ライセンス: Link先を確認
Yulong Dong, Lin Lin, Hongkang Ni, Jiasu Wang(参考訳) 量子信号処理 (QSP) は、位相因子と呼ばれる実数でパラメタ化される、大きさ2\times 2$のユニタリ行列の積を用いて、次数$d$の真のスカラー多項式を表す。 この多項式の革新的な表現は、量子計算に幅広い応用がある。 無限多項式級数の切り抜きによって興味の多項式が得られるとき、自然な疑問は位相因子が$d\to \infty$のようによく定義された極限を持つかどうかである。 位相係数は一般に一意ではないが、パラメータ化の一貫した選択が存在するので、極限は $\ell^1$ 空間でよく定義される。 このqspの一般化は無限量子信号処理と呼ばれ、非多項関数の大きなクラスを表現するのに使うことができる。 解析の結果,対象関数の正則性と位相因子の減衰特性との間に驚くべき相関が認められた。 我々の分析はまた、$\ell^1$空間の位相因子を概算する非常に単純で効率的なアルゴリズムを刺激する。 このアルゴリズムは2倍精度の算術演算のみを使用し、目標関数のチェビシェフ係数の$\ell^1$ノルムが$d$とは独立な定数で上界されたときに、確実に収束する。 これはまた、証明可能な性能保証を持つ位相因子を見つけるための最初の数値安定なアルゴリズムである。

Quantum signal processing (QSP) represents a real scalar polynomial of degree $d$ using a product of unitary matrices of size $2\times 2$, parameterized by $(d+1)$ real numbers called the phase factors. This innovative representation of polynomials has a wide range of applications in quantum computation. When the polynomial of interest is obtained by truncating an infinite polynomial series, a natural question is whether the phase factors have a well defined limit as the degree $d\to \infty$. While the phase factors are generally not unique, we find that there exists a consistent choice of parameterization so that the limit is well defined in the $\ell^1$ space. This generalization of QSP, called the infinite quantum signal processing, can be used to represent a large class of non-polynomial functions. Our analysis reveals a surprising connection between the regularity of the target function and the decay properties of the phase factors. Our analysis also inspires a very simple and efficient algorithm to approximately compute the phase factors in the $\ell^1$ space. The algorithm uses only double precision arithmetic operations, and provably converges when the $\ell^1$ norm of the Chebyshev coefficients of the target function is upper bounded by a constant that is independent of $d$. This is also the first numerically stable algorithm for finding phase factors with provable performance guarantees in the limit $d\to \infty$.
翻訳日:2023-01-25 20:54:54 公開日:2022-09-21
# Jaynes-Cummings モデルに対する GUP 補正

GUP Corrections to the Jaynes-Cummings Model ( http://arxiv.org/abs/2209.10152v1 )

ライセンス: Link先を確認
Kabir Khanna, Saurya Das(参考訳) 一般化不確実性原理(gup)は、いくつかの量子重力理論によって予測されるハイゼンベルクの不確実性原理の修正である。 本研究では、量子光学系における量子重力効果の観測を目的とした、有名なJaynes-Cummings Model(JCM)に対するGUP補正を計算する。 この目的のために、まず GUP 補正 JCM を解析的に解き、2次 GUP モデルで修正された Rabi 周波数を得る。 その後、コヒーレント状態における光との分散相互作用の効果を計算し、1991年にアガルワルとタラによって初めて研究された光子付加コヒーレント状態が生じることを示す。 後者は、実験室で検出された場合、実質的に量子重力の符号となるウィグナー関数の値の変化を引き起こす。

The Generalized Uncertainty Principle (GUP) is a modification of Heisenberg's Uncertainty Principle predicted by several theories of quantum gravity. In this work, we compute GUP corrections to the well-known Jaynes-Cummings Model (JCM) with the aim of eventually observing quantum gravity effects in quantum optical systems. To this end, we first analytically solve the GUP-corrected JCM and obtain the corrected Rabi frequency in the quadratic GUP model. Following this, we calculate the effects of a dispersive interaction with light in a coherent state and show that this gives rise to photon-added coherent states that were first studied by Agarwal and Tara in 1991. The latter causes a change in the value of the Wigner function, which if detected in the laboratory, would in effect be a signature of quantum gravity.
翻訳日:2023-01-25 20:54:30 公開日:2022-09-21
# 量子古典型OWFからの量子抵抗型古典型OWFの作成

Creating quantum-resistant classical-classical OWFs from quantum-classical OWFs ( http://arxiv.org/abs/2209.10146v1 )

ライセンス: Link先を確認
Wei Zheng Teo and Marco Carmosino and Lior Horesh(参考訳) ワンウェイ関数(OWF)は最も必須な暗号プリミティブの1つであり、その存在は秘密鍵暗号や$P \neq NP$の証明のような幅広い影響をもたらす。 これらのOWFは古典的な入力と出力(すなわちバイナリ文字列)を持つと考えられることが多いが、最近の研究は、入力と出力が量子であるOWF構造を提案する。 本稿では、量子古典的(量子入力、古典的出力) owf が、任意の量子多項式の逆(すなわち量子抵抗)に対して一方通行性を保持する古典的古典的(古典的入力、古典的出力) owf を生成するために使用できることを実証する。 これを2つの方法で示します。 まず、量子古典 OWF の定義を提案し、そのような量子古典 OWF の存在が古典古典 OWF の存在を意味することを示す。 次に,提案した量子古典 OWF を古典古典 OWF に変換する方法を示す。 まとめると、本論文では、古典情報と量子情報の間の「ドメインシフト」技術を用いて、古典古典的owf(中間量子計算を許容する)の存在を証明するための別の可能性を示す。

One-way functions (OWF) are one of the most essential cryptographic primitives, the existence of which results in wide-ranging ramifications such as private-key encryption and proving $P \neq NP$. These OWFs are often thought of as having classical input and output (i.e. binary strings), however, recent work proposes OWF constructions where the input and/or the output can be quantum. In this paper, we demonstrate that quantum-classical (i.e. quantum input, classical output) OWFs can be used to produce classical-classical (i.e. classical input, classical output) OWFs that retain the one-wayness property against any quantum polynomial adversary (i.e. quantum-resistant). We demonstrate this in two ways. Firstly, we propose a definition of quantum-classical OWFs and show that the existence of such a quantum-classical OWF would imply the existence of a classical-classical OWF. Secondly, we take a proposed quantum-classical OWF and demonstrate how to turn it into a classical-classical OWF. In summary, this paper showcases another possible route into proving the existence of classical-classical OWFs (assuming intermediate quantum computations are allowed) using a "domain-shifting" technique between classical and quantum information, with the added bonus that such OWFs are also going to be quantum-resistant.
翻訳日:2023-01-25 20:54:15 公開日:2022-09-21
# 量子テレポーテーションにおけるEPRステアリングの2ビットまたは3ビット系への応用

The applications of EPR steering in quantum teleportation for two- or three-qubit system ( http://arxiv.org/abs/2209.10133v1 )

ライセンス: Link先を確認
Yi Fan, Liang Qiu, Chuanlei Jia, Yiyue Gu(参考訳) EPRステアリングは、量子情報と計算において重要な量子資源である。 本稿では,量子テレポーテーションにおけるその応用について述べる。 まず、EPRステアリングに基づく平均テレポーテーション忠実度の上界を導出する。 受信機が同一性またはポーリ回転操作しか実行できない場合、3セットの線形ステアリング不等式に違反するx型状態はテレポーテーションに使用できる。 最終的に、ステアリングオブザーバブルと3量子ビット純粋な状態に対する2量子ビット低減状態の平均テレポーテーションフィデルは同じ順序を維持する。 また、制御可能な可観測性と3量子純状態の平均テレポーテーションフィデリティとの間の相補的な関係も確立される。

EPR steering is an important quantum resource in quantum information and computation. In this paper, its applications in quantum teleportation are investigated. First of all, the upper bound of the average teleportation fidelity based on the EPR steering is derived. When the receiver can only perform the identity or the Pauli rotation operations, the X-type states which violate the three-setting linear steering inequality could be used for teleportation. In the end, the steering observables and the average teleportation fidelities of the two-qubit reduced states for three-qubit pure states maintain the same ordering. The complementary relations between the steerable observables and the average teleportation fidelities for three-qubit pure states are also established.
翻訳日:2023-01-25 20:53:47 公開日:2022-09-21
# ポラリトン化学シミュレーションのための準ダイアバティック伝播法

Quasi-Diabatic Propagation Scheme for Simulating Polariton Chemistry ( http://arxiv.org/abs/2209.10409v1 )

ライセンス: Link先を確認
Deping Hu, Arkajit Mandal, Braden M. Weight, and Pengfei Huo(参考訳) 分子-キャビティハイブリッド系における非断熱ポラリトンダイナミクスをシミュレートするために、準断熱(qd)伝播スキームを一般化する。 分子と光子フォック状態の断熱電子状態のテンソル生成状態である断熱フォック状態は、ダイナミクス伝播の局所的に明確に定義されたダイアバティック状態として用いられる。 これらの局所的によく定義されたダイアバティック状態は、任意のダイアバティック量子ダイナミクス法を動力学伝播に利用することができ、これらの状態の定義は核の時間ステップごとに更新される。 光キャビティに結合した新メートルモデルにおける偏光子量子力学をシミュレートするダイアバティックダイナミクス法として,最近開発された非断熱マッピング法をいくつか用いた。 マッピングアプローチから得られた結果は、数値的に正確な方法と比較して非常に正確な人口動態を提供し、エーレンフェストダイナミクスや最少スイッチス表面ホッピングアプローチのような広く使われている混合量子古典的手法よりも優れています。 本研究で開発された一般化QDスキームは,ダイアバティック・ダイナミックス法とアブイニシアチノ・ポラリトン情報との直接的インターフェースを許容することにより,非断熱ポラリトンシミュレーションを行う強力なツールを提供する。

We generalize the quasi-diabatic (QD) propagation scheme to simulate the non-adiabatic polariton dynamics in molecule-cavity hybrid systems. The adiabatic-Fock states, which are the tensor product states of the adiabatic electronic states of the molecule and photon Fock states, are used as the locally well-defined diabatic states for the dynamics propagation. These locally well-defined diabatic states allow using any diabatic quantum dynamics methods for dynamics propagation, and the definition of these states will be updated at every nuclear time step. We use several recently developed non-adiabatic mapping approaches as the diabatic dynamics methods to simulate polariton quantum dynamics in a Shin-Metiu model coupled to an optical cavity. The results obtained from the mapping approaches provide very accurate population dynamics compared to the numerically exact method and outperform the widely used mixed quantum-classical approaches, such as the Ehrenfest dynamics and the fewest switches surface hopping approach. We envision that the generalized QD scheme developed in this work will provide a powerful tool to perform the non-adiabatic polariton simulations by allowing a direct interface between the diabatic dynamics methods and ab initio polariton information.
翻訳日:2023-01-25 20:48:20 公開日:2022-09-21
# パラメトリック量子回路の学習能力

Learning capability of parametrized quantum circuits ( http://arxiv.org/abs/2209.10345v1 )

ライセンス: Link先を確認
Dirk Heimann, Gunnar Sch\"onhoff, Frank Kirchner(参考訳) 変分量子アルゴリズム(VQA)とそのパラメタライズド量子回路(PQC)による量子機械学習分野への応用は、ノイズの多い中間スケール量子コンピューティングデバイスを活用する主要な方法の1つであると考えられている。 しかしながら、特定のVQAアーキテクチャの性能の違いは、確立されたベストプラクティスと詳細な研究が欠落しているため、しばしば不明である。 本稿では、Schuldらによる研究に基づいて、学習能力の新たな尺度を用いて、PQCsの一般的なAns\atzeを比較した。 また,Beerらが導入した分散量子ニューラルネットワーク(dQNN)についても検討し,学習能力を高めるために,データ再アップロード構造を提案する。 異なるPQCアーキテクチャの結果を比較することで、効率的なPQCの設計ガイドラインを提供することができる。

Variational quantum algorithms (VQAs) and their applications in the field of quantum machine learning through parametrized quantum circuits (PQCs) are thought to be one major way of leveraging noisy intermediate-scale quantum computing devices. However, differences in the performance of certain VQA architectures are often unclear since established best practices as well as detailed studies are missing. In this paper, we build upon the work by Schuld et al. and compare popular ans\"atze for PQCs through the new measure of learning capability. We also examine dissipative quantum neural networks (dQNN) as introduced by Beer et al. and propose a data re-upload structure for dQNNs to increase their learning capability. Comparing the results for the different PQC architectures, we can provide guidelines for designing efficient PQCs.
翻訳日:2023-01-25 20:46:18 公開日:2022-09-21
# LEO小型衛星QKDダウンリンク性能:QuantSat-PTケーススタディ

LEO small satellite QKD downlink performance: QuantSat-PT case study ( http://arxiv.org/abs/2209.10293v1 )

ライセンス: Link先を確認
Vladlen Galetsky, Manfred Niehus(参考訳) 本研究では,低地球軌道(LEO)から光学地上局(OGS)への量子鍵分布(QKD)ダウンリンクの性能を,QuantSat-PTミッションの概念と予備設計フェーズの不可欠な部分としてモデル化し,シミュレーションする。 bb84およびe91プロトコルの乱流および大気損失に着目して、詳細なダウンリンク伝送チャネル効果をモデル化しシミュレーションすることにより、この研究以前に報告されたミッション実験データの曖昧さを解決する性能エンベロープの一貫した値セットを見出した。 4状態bb84プロトコルでは、750km軌道上のzenithに対して、sifted key rateとquantum bit error rate (qber)をそれぞれ32.1 kbit/sと4\%$とする。 E91プロトコルでは、Cluser, Horne, Shimony and Holt (CHSH) テストが行われ、ミッションの相関係数は$S \in[-2.63\pm0.02,-1.91\pm0.03]となった。 実験衛星を用いたQKDにおけるこれらの結果と技術シミュレータの状態の整合性について考察した。

In this work, we model and simulate the performance of a quantum key distribution (QKD) downlink from a low earth orbit (LEO) small satellite to an optical ground station (OGS), as integral part of the concept and preliminary design phase of the QuantSat-PT mission. By modelling and simulating in detail downlink transmission channel effects, with emphasis on turbulent and atmospheric losses for BB84 and E91 protocols, we find a consistent set of values for the performance envelope that resolves ambiguities of mission experimental data that had been reported previous to this work. We obtain for the 4-state BB84 protocol a sifted key rate and Quantum Bit Error Rate (QBER) of 32.1 kbit/s and $4\%$, respectively, for zenith at 750 km orbit. For the E91 protocol the Clauser, Horne, Shimony and Holt (CHSH) test was performed resulting in a correlation factor of $S \in[-2.63\pm0.02,-1.91\pm0.03]$ for the mission. The consistency of these results with the state of the art simulators and its relevance on experimental satellite based QKD is discussed.
翻訳日:2023-01-25 20:45:30 公開日:2022-09-21
# 固有ベクトル継続を用いた量子コンピュータのサブスペース対角化

Subspace Diagonalization on Quantum Computers using Eigenvector Continuation ( http://arxiv.org/abs/2209.10571v1 )

ライセンス: Link先を確認
Akhil Francis, Anjali A. Agrawal, Jack H. Howard, Efekan K\"okc\"u, A. F. Kemper(参考訳) 量子部分空間対角化法(Quantum subspace diagonalization、QSD)は量子古典的ハイブリッド法であり、ハミルトニアンを小さな部分空間に投影することで基底状態と励起状態のエネルギーを見つけるために一般的に用いられる。 これらの応用において、部分空間基底の選択は、基礎完全性と量子コンピュータの実装効率の観点から決定的に重要である。 本研究では,パラメータ空間の異なる点におけるハミルトニアンの低エネルギー状態が部分空間基底として選択されるQSD法として固有ベクトル継続(EC)を提案する。 このユニークな選択は、最小限のハードウェア労力で、地上および近くの励起状態を含む低エネルギースペクトルの迅速な評価を可能にする。 特に利点として、ecは問題の異なる対称性のセクタに対応する基底状態のクロスオーバーのスペクトルを捉えることができる。 本手法はスピンモデルと分子の相互作用を示す。

Quantum subspace diagonalization (QSD) methods are quantum-classical hybrid methods, commonly used to find ground and excited state energies by projecting the Hamiltonian to a smaller subspace. In applying these, the choice of subspace basis is critical from the perspectives of basis completeness and efficiency of implementation on quantum computers. In this work, we present Eigenvector Continuation (EC) as a QSD method, where low-energy states of the Hamiltonian at different points in parameter space are chosen as the subspace basis. This unique choice enables rapid evaluation of low-energy spectra, including ground and nearby excited states, with minimal hardware effort. As a particular advantage, EC is able to capture the spectrum across ground state crossovers corresponding to different symmetry sectors of the problem. We demonstrate this method for interacting spin models and molecules.
翻訳日:2023-01-25 20:38:45 公開日:2022-09-21
# TETRIS-ADAPT-VQE: より浅い、より密度の高い回路Ans\atzeを生成する適応アルゴリズム

TETRIS-ADAPT-VQE: An adaptive algorithm that yields shallower, denser circuit ans\"atze ( http://arxiv.org/abs/2209.10562v1 )

ライセンス: Link先を確認
Panagiotis G. Anastasiou, Yanzhu Chen, Nicholas J. Mayhall, Edwin Barnes, Sophia E. Economou(参考訳) アダプティブ量子変分アルゴリズムは、短期量子ハードウェア上で強相関系をシミュレートするのに特に有望であるが、そのほとんどが現在のデバイスにおける厳密なコヒーレンス時間制限のため、まだ実現不可能である。 そこで本研究では,TETRIS-ADAPT-VQEと呼ばれるアルゴリズムを導入する。 このアルゴリズムはADAPT-VQEアルゴリズムの修正版で、1-operator-at-a-timeルールを解除し、複数の演算子の追加を可能にする。 TETRIS-ADAPT-VQEは、CNOTゲート数や変動パラメータを増大させることなく、より密度が高く、より浅い回路をもたらす。 回路深さの点での元のアルゴリズムに対する利点は、システムサイズによって増大する。 また、ADAPT-VQEと比較して、各イテレーションにおける各候補単位に対するエネルギー勾配を測定するための高価なステップをわずかに行う。 これらの改善により、量子ハードウェアに実用的な量子優位性を示すという目標に近づきます。

Adaptive quantum variational algorithms are particularly promising for simulating strongly correlated systems on near-term quantum hardware, but they are not yet viable due, in large part, to the severe coherence time limitations on current devices. In this work, we introduce an algorithm called TETRIS-ADAPT-VQE, which iteratively builds up variational ans\"atze a few operators at a time in a way dictated by the problem being simulated. This algorithm is a modified version of the ADAPT-VQE algorithm in which the one-operator-at-a-time rule is lifted to allow for the addition of multiple operators with disjoint supports in each iteration. TETRIS-ADAPT-VQE results in denser but significantly shallower circuits, without increasing the number of CNOT gates or variational parameters. Its advantage over the original algorithm in terms of circuit depths increases with the system size. Moreover, the expensive step of measuring the energy gradient with respect to each candidate unitary at each iteration is performed only a fraction of the time compared to ADAPT-VQE. These improvements bring us closer to the goal of demonstrating a practical quantum advantage on quantum hardware.
翻訳日:2023-01-25 20:38:18 公開日:2022-09-21
# ポストセレクト量子仮説試験

Postselected quantum hypothesis testing ( http://arxiv.org/abs/2209.10550v1 )

ライセンス: Link先を確認
Bartosz Regula, Ludovico Lami, Mark M. Wilde(参考訳) 我々は、さらなる「決定的」な測定結果が加えられ、仮説を識別しようとすることを禁ずる量子仮説テストのバリエーションについて研究する。 エラー確率は成功した試みで条件付けされ、決定的でない試行は無視される。 我々は、このタスクを単発と漸近の両方で完全に特徴付け、最適な誤差確率の正確な公式を提供する。 特に、任意の2つの量子状態を判別する漸近的誤差指数である$\rho$ と $\sigma$ は、非対称な仮説テストにおいてヒルベルト射影距離 $d_{\max}(\rho\|\sigma) + d_{\max}(\sigma \| \rho)$ と、対称な仮説テストにおいて$\max \{d_{\max}(\rho\|\sigma), d_{\max}(\sigma \| \rho) \} によって与えられる。 これはこれらの2つの量に量子状態判別の基本的な操作的解釈を与える。 その結果、任意の密度行列の凸集合に対する非対称誤差指数はヒルベルト射影計量の正則化によって与えられることが示された。 また, 量子チャネルにも適用し, 非対称的, 対称的両面において, 並列性よりも適応的, あるいはより一般的な識別方式を用いることで, 優位性は得られないことを示した。 我々の状態判別結果は量子力学に特有な性質を一切用いておらず、一般確率論においても有効である。

We study a variant of quantum hypothesis testing wherein an additional 'inconclusive' measurement outcome is added, allowing one to abstain from attempting to discriminate the hypotheses. The error probabilities are then conditioned on a successful attempt, with inconclusive trials disregarded. We completely characterise this task in both the single-shot and asymptotic regimes, providing exact formulas for the optimal error probabilities. In particular, we prove that the asymptotic error exponent of discriminating any two quantum states $\rho$ and $\sigma$ is given by the Hilbert projective metric $D_{\max}(\rho\|\sigma) + D_{\max}(\sigma \| \rho)$ in asymmetric hypothesis testing, and by the Thompson metric $\max \{ D_{\max}(\rho\|\sigma), D_{\max}(\sigma \| \rho) \}$ in symmetric hypothesis testing. This endows these two quantities with fundamental operational interpretations in quantum state discrimination. Our findings extend to composite hypothesis testing, where we show that the asymmetric error exponent with respect to any convex set of density matrices is given by a regularisation of the Hilbert projective metric. We apply our results also to quantum channels, showing that no advantage is gained by employing adaptive or even more general discrimination schemes over parallel ones, in both the asymmetric and symmetric settings. Our state discrimination results make use of no properties specific to quantum mechanics and are also valid in general probabilistic theories.
翻訳日:2023-01-25 20:37:44 公開日:2022-09-21
# フラストレーションの複雑さ:非局所的非安定性の新たな源

Complexity of frustration: a new source of non-local non-stabilizerness ( http://arxiv.org/abs/2209.10541v1 )

ライセンス: Link先を確認
J. Odavi\'c, T. Haug, G. Torre, A. Hamma, F. Franchini, S. M. Giampaolo(参考訳) 我々はスピン鎖に埋め込まれた$W$状態を調べることにより、量子多体系の複雑性のキャラクタリゼーションを進める。 このような状態は、量子ビット/スピンの数と対数的になる非安定化性あるいは「魔法」の量(安定化性R\'enyi Entropy - SRE-)を示す。 我々は、ハミルトニアンが広範な退化を伴う古典的点を認める系に焦点をあてる。 これらの点の近くでは、クリフォード回路は基底状態を$W$状態に変換することができ、古典的な点が属する位相の残りの部分は局所的な量子相関で表される。 位相的フラストレーションを持つ量子スピン鎖は、所望の現象学で位相をホストし、それらの基底状態のSREは、$W$状態の総和であり、局所的な貢献も大きいことを示す。 我々の研究によると、$W$状態/フラストレーション基底状態は、量子資源として収穫できる非局所的な複雑さを示し、GHZ状態/フラストレーション系にはない。

We advance the characterization of complexity in quantum many-body systems by examining $W$-states embedded in a spin chain. Such states show an amount of non-stabilizerness or "magic" (measured as the Stabilizer R\'enyi Entropy -SRE-) that grows logarithmic with the number of qubits/spins. We focus on systems whose Hamiltonian admits a classical point with an extensive degeneracy. Near these points, a Clifford circuit can convert the ground state into a $W$-state, while in the rest of the phase to which the classic point belongs, it is dressed with local quantum correlations. Topological frustrated quantum spin-chains host phases with the desired phenomenology, and we show that their ground state's SRE is the sum of that of the $W$-states plus an extensive local contribution. Our work reveals that $W$-states/frustrated ground states display a non-local degree of complexity that can be harvested as a quantum resource and has no counterpart in GHZ states/non-frustrated systems.
翻訳日:2023-01-25 20:36:46 公開日:2022-09-21
# 自然界における創発現象:理論とのパラドックス?

Emergent phenomena in Nature: a paradox with Theory? ( http://arxiv.org/abs/2209.10488v1 )

ライセンス: Link先を確認
Christiaan J. F. van de Ven(参考訳) 様々な物理的現象の存在は漸近的出現 (asymptotic emerge) と呼ばれる概念に由来する。 これらの現象は、有限量子系において、関連する状態の特異性のため、理論によって除外されるため、基礎となる有限量子系の古典的あるいは熱力学的極限においてのみ発生する。 しかし自然界では、実物質を記述する有限量子系は明らかにそのような効果を示す。 本稿では,これらの「パラドキカル」現象を論じ,物理的・数学的観点から理論と現実の両方を包含する様々な概念とメカニズムを概説する。

The existence of various physical phenomena stems from the concept called asymptotic emergence, that is, they seem to be exclusively reserved for certain limiting theories. Important examples are spontaneous symmetry breaking (SSB) and phase transitions: these would only occur in the classical or thermodynamic limit of underlying finite quantum systems, since in finite quantum systems, due to the uniqueness of the relevant states, such phenomena are excluded by Theory. In Nature, however, finite quantum systems describing real materials clearly exhibit such effects. In this paper we discuss these "paradoxical" phenomena and outline various ideas and mechanisms that encompass both theory and reality, from physical and mathematical perspectives.
翻訳日:2023-01-25 20:36:26 公開日:2022-09-21
# 相関ramsey測定による低周波信号検出

Low frequency signal detection via correlated Ramsey measurements ( http://arxiv.org/abs/2209.10466v1 )

ライセンス: Link先を確認
Santiago Oviedo-Casado, Javier Prior, Javier Cerrillo(参考訳) 動的デカップリングプロトコルは、ターゲット信号の半周期に合うようにパルス間の時間分離を調整し、プローブの特徴的なデコヒーレンス時間よりも周期が短い信号にその範囲を限定することが多い。 低周波環境では、動的デカップリングシーケンスの適合に苦労するのではなく、各測定が開始される時刻を慎重に制御するラムジー測定を行うことがより有利であることを示す。 このような時間的タグ付けにより、信号の位相に関する情報が記録され、後処理における相関測定が重要となり、効率的なスペクトル再構成に繋がる。

Dynamical decoupling protocols often rely on adjusting the time separation between pulses to match the half period of the target signal, limiting their scope to signals whose period is shorter than the characteristic decoherence time of the probe. We show that, in the low frequency regime, rather than struggling to fit dynamical decoupling sequences, it is more advantageous to perform Ramsey measurements carefully controlling the time at which each measurement is initiated. With such time-tagging, information about the phase of the signal is recorded, which crucially allows correlating measurements in post-processing, leading to efficient spectral reconstruction.
翻訳日:2023-01-25 20:36:00 公開日:2022-09-21
# 真空からのフライングアトムバックリアクションと機械的生成光子

Flying atom back-reaction and mechanically generated photons from vacuum ( http://arxiv.org/abs/2209.10419v1 )

ライセンス: Link先を確認
Alberto Mercurio, Simone De Liberato, Franco Nori, Salvatore Savasta, Roberto Stassi(参考訳) 光物質相互作用が超強結合状態にある場合、光子空洞を飛行する二層原子のダイナミクスについて検討する。 我々は、内部自由度と量子化されたフォトニックキャビティ場に加えて、原子中心質量運動の量子化を考慮に入れた閉完全量子記述を採用する。 複数の定性的異なる力学系は、運動エネルギーと素の励起エネルギーの比と、原子が空洞を飛ぶのにかかる時間に伴うこれらの素のエネルギーの積の2つの重要な特徴によって達成できることがわかった。 それらの値によると、原子は \emph{dressed} 真空によって反映されるか、その運動エネルギーの一部を空洞から放出されるかもしれない実励起に変換することができる。 第1のケースでは、原子は仮想励起へのエネルギーの一時的貯蔵に基づく「emph{quantum generatedive braking}」機構を経験する。

We investigate the dynamics of a two-level atom flying through a photonic cavity when the light-matter interaction is in the ultrastrong coupling regime. We adopt a closed full quantum description that takes into account the quantization of the atom center-of-mass motion in addition to its internal degree of freedom and to the quantized photonic cavity field. We find that multiple qualitatively different dynamical regimes are achievable according to two key figures of merit: the ratio between the kinetic energy and the bare excitation energies, and the product of these bare energies with the time the atom takes to fly through the cavity. According to the values of those figures of merit, the atom can be reflected by the \emph{dressed} vacuum, or can convert part of its kinetic energy into real excitations which might be emitted out of the cavity. In the first case, the atom experiences a \emph{quantum regenerative braking} mechanism, based on temporary storage of energy into virtual excitations.
翻訳日:2023-01-25 20:35:41 公開日:2022-09-21
# 量子はおしゃれで変か? tedxトークにおける量子科学と技術に関する大衆コミュニケーションの探求

Is everything quantum spooky and weird? An exploration of popular communication about quantum science and technology in TEDx talks ( http://arxiv.org/abs/2209.11182v1 )

ライセンス: Link先を確認
Aletta Lucia Meinsma, Sanne Willemijn Kristensen, W. Gudrun Reijnierse, Ionica Smeets, Julia Cramer(参考訳) 研究者は量子科学とテクノロジーの普及に関連する4つの潜在的な問題を指摘している。 量子2.0技術の根底にある量子概念の説明の欠如、量子科学とテクノロジーのフレーミングはばかばかでエニグマティックであり、量子技術は公益の点で狭く、量子コンピューティングに強い焦点をあてている。 現在、これらの潜在的な問題が量子科学に関する一般的なコミュニケーションに実際に存在するかどうかはまだ研究されていない。 本稿では,501 TEDxの量子科学と技術コンテンツに関する講演において,これらの潜在的な問題の存在について検討した。 その結果、ほとんどの専門家(70%)は量子2.0技術の少なくとも1つの基礎となる量子概念(重畳、絡み合い、文脈性)を説明したが、非専門家の28%しか説明しなかった。 第二に、会話の約4分の1にスポーキー/エニグマティックフレームが存在した。 第3に、量子科学と技術の利点(リスクよりも6倍以上の講演が生まれている)を強調して、狭い公共の善フレームが発見された。 最後に、主な焦点は他の量子技術を犠牲にして量子コンピューティングであった。 結論として、提案されたフレームは確かにtedxトークに見られる。量子コンピューティングに焦点が当てられているが、少なくとも専門家は基礎となる量子概念をしばしば説明している。

Researchers point to four potential issues related to the popularisation of quantum science and technology. These include a lack of explaining underlying quantum concepts of quantum 2.0 technology, framing quantum science and technology as spooky and enigmatic, framing quantum technology narrowly in terms of public good and having a strong focus on quantum computing. To date, no research has yet assessed whether these potential issues are actually present in popular communication about quantum science. In this content analysis, we have examined the presence of these potential issues in 501 TEDx talks with quantum science and technology content. Results show that while most experts (70%) explained at least one underlying quantum concept (superposition, entanglement or contextuality) of quantum 2.0 technology, only 28% of the non-experts did so. Secondly, the spooky/enigmatic frame was present in about a quarter of the talks. Thirdly, a narrow public good frame was found, predominantly by highlighting the benefits of quantum science and technology (found in over 6 times more talks than risks). Finally, the main focus was on quantum computing at the expense of other quantum technologies. In conclusion, the proposed frames are indeed found in TEDx talks, there is indeed a focus on quantum computing, but at least experts explain underlying quantum concepts often.
翻訳日:2023-01-25 20:29:26 公開日:2022-09-21
# 多成分領域に対するモジュラー共役

Modular conjugation for multicomponent regions ( http://arxiv.org/abs/2209.10711v1 )

ライセンス: Link先を確認
Nicol\'as Abate, David Blanco, Mateo Koifman, Guillem P\'erez-Nadal(参考訳) 我々は質量のないディラック場を1+1ドルの次元で考慮し、真空状態と一般的な多成分時空領域に対応する富田・竹崎モジュラー共役を計算する。 最近計算されたモジュラーフローの解析的継続によって行う。 本稿では,このモデルにおけるhaag双対性の有効性について考察する。

We consider a massless Dirac field in $1+1$ dimensions, and compute the Tomita-Takesaki modular conjugation corresponding to the vacuum state and a generic multicomponent spacetime region. We do it by analytic continuation from the modular flow, which was computed recently. We use our result to discuss the validity of Haag duality in this model.
翻訳日:2023-01-25 20:29:01 公開日:2022-09-21
# スペクトル形状とパルスバイパルス多重化多モード集光状態

Spectrally shaped and pulse-by-pulse multiplexed multimode squeezed states of light ( http://arxiv.org/abs/2209.10678v1 )

ライセンス: Link先を確認
Tiphaine Kouadou, Francesca Sansavini, Matthieu Ansquer, Johan Henaff, Nicolas Treps, Valentina Parigi(参考訳) スペクトルと時間多重化は現在、量子技術のための大規模な多部量子状態を生成するために研究されている。 連続変数のアプローチでは、大きな絡み合った状態の決定論的生成は、多くの絞り込みモードの生成を必要とする。 ここでは、156MHzで21個のストライクスペクトルモードの同時生成を実証する。 我々は、フェムト秒光源のフル繰り返し率と超高速整形を利用して、マルチモードスクイーズにおける周波数および時間多重化を初めて組み合わせる。 これにより、スケーラブルで完全に再構成可能なマルチパートの絡み合った状態の実装への道が開ける。

Spectral- and time- multiplexing are currently explored to generate large multipartite quantum states of light for quantum technologies. In the continuous variable approach, the deterministic generation of large entangled states demands the generation of a large number of squeezed modes. Here, we demonstrate the simultaneous generation of 21 squeezed spectral modes at 156 MHz. We exploit the full repetition rate and the ultrafast shaping of a femtosecond light source to combine, for the first time, frequency- and time- multiplexing in multimode squeezing. This paves the way to the implementation of multipartite entangled states that are both scalable and fully reconfigurable.
翻訳日:2023-01-25 20:28:55 公開日:2022-09-21
# 確率的量子軌道は開スピン系における量子ゼノ効果を示す

Stochastic quantum trajectories demonstrate the Quantum Zeno Effect in an open spin system ( http://arxiv.org/abs/2209.10626v1 )

ライセンス: Link先を確認
Sophia M. Walls, Julien M. Schachter, Haocheng Qian and Ian J. Ford(参考訳) スピン1/2,スピン1,スピン3/2の開量子系においてラビ振動を受ける量子ゼノ効果を調べる。 システムは可観測体の連続的な測定を行うように設計された環境と相互作用し、対応する作用素の固有状態の1つに確率的にシステムを駆動する。 システム環境結合定数は測定の強さを表す。 確率的量子軌道は、量子状態拡散形式(英語版)(quantum state diffusion formalism)を用いてマルコフのリンドブラッドマスター方程式を解いて生成される。 これは、後者が測定の効果を隠蔽できるため、平均的な進化を考えるよりもシステム行動のより良い表現と見なされている。 完全な肯定性は維持され、従って軌道は物理的意味を持つと見なすことができる。 測定強度の増大は、測定された観測可能な固有状態の近傍にある系によってより膨らみ、その固有状態に戻るために系が要する時間を延長し、量子ゼノ効果を示す。 非常に強い測定のために、ラビ振動は固有状態間のランダムに瞬時に発生するジャンプに発展する。 確率的測定ダイナミクスは、システムの内在的で決定論的量子力学と競合し、それぞれ異なる方法でヒルベルト空間内の系を駆動しようとする。 そのため、量子系に続く軌道は、ラビ振動の減速とノイズ付加以外の測定強度に大きく依存し、スピン位相空間で取られた経路を円周偏差から精巧な8の図形に変化させる。

We investigate the Quantum Zeno Effect in spin 1/2, spin 1 and spin 3/2 open quantum systems undergoing Rabi oscillations. The systems interact with an environment designed to perform continuous measurements of an observable, driving the systems stochastically towards one of the eigenstates of the corresponding operator. The system-environment coupling constant represents the strength of the measurement. Stochastic quantum trajectories are generated by unravelling a Markovian Lindblad master equation using the quantum state diffusion formalism. This is regarded as a better representation of system behaviour than consideration of the averaged evolution since the latter can mask the effect of measurement. Complete positivity is maintained and thus the trajectories can be considered as physically meaningful. Increasing the measurement strength leads to greater dwell by the system in the vicinity of the eigenstates of the measured observable and lengthens the time taken by the system to return to that eigenstate, thus demonstrating the Quantum Zeno Effect. For very strong measurement, the Rabi oscillations develop into randomly occurring near-instantaneous jumps between eigenstates. The stochastic measurement dynamics compete with the intrinsic, deterministic quantum dynamics of the system, each attempting to drive the system in the Hilbert space in different ways. As such, the trajectories followed by the quantum system are heavily dependent on the measurement strength which other than slowing down and adding noise to the Rabi oscillations, changes the paths taken in spin phase space from a circular precession into elaborate figures-of-eight.
翻訳日:2023-01-25 20:28:21 公開日:2022-09-21
# 不均一ホッピングをもつフェルミオン鎖の枯渇

Depletion in fermionic chains with inhomogeneous hoppings ( http://arxiv.org/abs/2209.10624v1 )

ライセンス: Link先を確認
Bego\~na Mula, Nadir Samos S\'aenz de Buruaga, Germ\'an Sierra, Silvia N. Santalla, Javier Rodr\'iguez-Laguna(参考訳) 半充填で不均質なホッピングを持つ自由フェルミイオン鎖の基底状態は、静的な曲線時空上のディラック真空にマッピングできる。 しかし, 密度変調と劣化効果は, 半充填とは程遠い。 この系は、異なる静的時空上の1d schr\"odinger方程式によって記述され、枯渇した領域を説明する効果的なポテンシャルを持つ。 単粒子モードおよび異なるホッピングパターンおよび充填率に関連する密度プロファイルに対する半古典的表現を提供する。 さらに, ホッピングに比例する化学ポテンシャルを添加することにより, 全ての充填率に対して枯渇効果を補償できることを示した。 興味深いことに、基底状態が元のものと異なるとしても、ホッピング強度に逆の化学ポテンシャルを導入すると、均質鎖上の全く同じ密度プロファイルが得られる。

The ground state of a free-fermionic chain with inhomogeneous hoppings at half-filling can be mapped into the Dirac vacuum on a static curved space-time, which presents exactly homogeneous occupations due to particle-hole symmetry. Yet, far from half-filling we observe density modulations and depletion effects. The system can be described by a 1D Schr\"odinger equation on a different static space-time, with an effective potential which accounts for the depleted regions. We provide a semiclassical expression for the single-particle modes and the density profiles associated to different hopping patterns and filling fractions. Moreover, we show that the depletion effects can be compensated for all filling fractions by adding a chemical potential proportional to the hoppings. Interestingly, we can obtain exactly the same density profiles on a homogeneous chain if we introduce a chemical potential which is inverse to the hopping intensities, even though the ground state is different from the original one.
翻訳日:2023-01-25 20:27:56 公開日:2022-09-21
# 変分量子アルゴリズムの反復複雑性

Iteration Complexity of Variational Quantum Algorithms ( http://arxiv.org/abs/2209.10615v1 )

ライセンス: Link先を確認
Vyacheslav Kungurtsev and Georgios Korpas and Jakub Marecek and Elton Yechao Zhu(参考訳) 近年、量子コンピュータの短期的応用への関心が高まっている。 古典的コンピュータに実装された最適化アルゴリズムがパラメータ化された量子回路を目的関数として評価する変分量子アルゴリズム(vqa)は、この分野において主要な枠組みである。 本稿では、VQAの反復複雑性、すなわち、反復が最適性の代理測度を満たすまで必要なステップ数を分析する。 VQAプロシージャは、最適化文献において古典的なプロシージャとしてモデル化できるアルゴリズムを組み込んでいるが、短期デバイスにおけるノイズの特定の性質は、これらのアルゴリズムの既製の解析の適用性の主張を無効にする。 特に、ノイズの形式は、回路バイアスによる客観的関数の評価を行い、これらの古典的最適化手順の変種を収束解析する視点を必要とし、その評価が系統的バイアスを示す。 パラメータシフト規則(spsa)は、偏関数評価を用いたゼロ次あるいはデリバティブフリーな最適化アルゴリズムと見なすことができる。 収束の漸近速度はバイアスの影響を受けないことが示されるが、バイアスのレベルはその定数と定常性への漸近距離の両方に不都合に寄与する。

There has been much recent interest in near-term applications of quantum computers. Variational quantum algorithms (VQA), wherein an optimization algorithm implemented on a classical computer evaluates a parametrized quantum circuit as an objective function, are a leading framework in this space. In this paper, we analyze the iteration complexity of VQA, that is, the number of steps VQA required until the iterates satisfy a surrogate measure of optimality. We argue that although VQA procedures incorporate algorithms that can, in the idealized case, be modeled as classic procedures in the optimization literature, the particular nature of noise in near-term devices invalidates the claim of applicability of off-the-shelf analyses of these algorithms. Specifically, the form of the noise makes the evaluations of the objective function via circuits biased, necessitating the perspective of convergence analysis of variants of these classical optimization procedures, wherein the evaluations exhibit systematic bias. We apply our reasoning to the most often used procedures, including SPSA the parameter shift rule, which can be seen as zeroth-order, or derivative-free, optimization algorithms with biased function evaluations. We show that the asymptotic rate of convergence is unaffected by the bias, but the level of bias contributes unfavorably to both the constant therein, and the asymptotic distance to stationarity.
翻訳日:2023-01-25 20:27:38 公開日:2022-09-21
# グラフェン様量子電磁力学における量子スケール不変性

The quantum scale invariance in graphene-like quantum electrodynamics ( http://arxiv.org/abs/2209.10611v1 )

ライセンス: Link先を確認
O.M. Del Cima, D.H.T. Franco, L.S. Lima, E.S. Miranda(参考訳) パリティ均一な質量を持たない平面量子電磁力学の紫外および赤外有限性は、グラフェンのスケール不変性を模倣している。

The ultraviolet and infrared finiteness of a parity-even massless planar quantum electrodynamics mimics the scale invariance in graphene.
翻訳日:2023-01-25 20:27:16 公開日:2022-09-21
# 磁束と電荷雑音の存在下での多レベル共振トンネル

Multilevel resonant tunneling in the presence of flux and charge noise ( http://arxiv.org/abs/2209.10605v1 )

ライセンス: Link先を確認
Anatoly Y. Smirnov, Alexander Whiticar, and Mohammad H. Amin(参考訳) フラックス量子ビットにおけるマクロ共鳴トンネル(MRT)は、量子ビットの周囲で発生するノイズに関する情報を抽出するための重要な実験ツールである。 本稿では,RF-SQUIDフラックス量子ビットにおけるMRT信号の詳細な導出について述べる。 初期井戸の基底状態と目標井戸の励起状態の遷移を考慮したことにより,フラックスキュービットの動作に影響を与えるフラックスと電荷の両方のノイズ源を特徴付けることができる。 mrtピークは、特定の遷移に影響を与える支配的なノイズ源によって形成され、磁束ノイズは地面から地面への線状を決定づけるが、電荷ノイズは、地面から励起ピークへのさらなる拡大を示す。

Macroscopic resonant tunneling (MRT) in flux qubits is an important experimental tool for extracting information about noise produced by a qubit's surroundings. Here we present a detailed derivation of the MRT signal in the RF-SQUID flux qubit allowing for effects of flux and charge fluctuations on the interwell and intrawell transitions in the system. Taking into consideration transitions between the ground state in the initial well and excited states in the target well enable us to characterize both flux and charge noise source affecting the operation of the flux qubit. The MRT peak is formed by the dominant noise source affecting specific transition, with flux noise determining the lineshape of the ground to ground tunneling, whereas charge noise reveals itself as additional broadening of the ground to excited peak.
翻訳日:2023-01-25 20:27:12 公開日:2022-09-21
# アミノ酸配列に基づくマクロ分子分類

Macromolecule Classification Based on the Amino-acid Sequence ( http://arxiv.org/abs/2001.01717v2 )

ライセンス: Link先を確認
Faisal Ghaffar, Sarwar Khan, Gaddisa O., Chen Yu-jhen(参考訳) ディープラーニングは、データを含むあらゆる分野において重要な役割を果たす。 従来の機械学習技術では解決が困難だった、幅広い複雑な学習問題に適用可能な、強力で効率的なフレームワークとして登場した。 本研究では,深層学習によるタンパク質配列の分類に焦点をあてた。 アミノ酸配列の研究は生命科学において不可欠である。 自然言語処理と異なる単語埋め込み技術を用いてアミノ酸配列をベクターとして表現した。 我々の主な目標は、配列をDNA、RNA、タンパク質、ハイブリッドの4つのグループに分類することであった。 いくつかのテストの後、列車とテストの精度の約99%を達成しました。 我々は,CNN,LSTM,双方向LSTM,GRUの実験を行った。

Deep learning is playing a vital role in every field which involves data. It has emerged as a strong and efficient framework that can be applied to a broad spectrum of complex learning problems which were difficult to solve using traditional machine learning techniques in the past. In this study we focused on classification of protein sequences with deep learning techniques. The study of amino acid sequence is vital in life sciences. We used different word embedding techniques from Natural Language processing to represent the amino acid sequence as vectors. Our main goal was to classify sequences to four group of classes, that are DNA, RNA, Protein and hybrid. After several tests we have achieved almost 99% of train and test accuracy. We have experimented on CNN, LSTM, Bidirectional LSTM, and GRU.
翻訳日:2023-01-14 03:04:11 公開日:2022-09-21
# アグリゲーションによる再帰的ルール:単純な統一セマンティクス

Recursive Rules with Aggregation: A Simple Unified Semantics ( http://arxiv.org/abs/2007.13053v3 )

ライセンス: Link先を確認
Yanhong A. Liu and Scott D. Stoller(参考訳) 複雑な推論問題は論理規則を用いて最も明確かつ容易に特定できるが、実用的な用途にはカウントや和といった集約を伴う再帰的ルールが必要である。 残念なことに、このようなルールの意味は重大な課題であり、多くの矛盾する意味論を生み出した。 本稿では、集約を伴う再帰的ルールの統一的セマンティクスを記述し、否定を伴う再帰的ルールの統一的セマンティクスと制約セマンティクスを拡張した。 鍵となる考え方は、異なるセマンティクスに基づく異なる仮定の単純表現をサポートし、直交的にそれらの単純な意味を使って集約操作を解釈することである。 意味論を形式的に定義し,意味論の重要な性質を証明し,先行意味論と比較する。 特に,文献から考察したすべての例に対して正確な回答を与える,集約による効率的な推論を提案する。 また、我々のセマンティクスを幅広い挑戦的な例に適用し、私たちのセマンティクスがシンプルであり、すべてのケースで望ましい結果と一致することを示す。 最後に,最も難解な例について実験を行い,正解を計算できる時,よく知られたシステムよりも予期せぬ優れた性能を示す。

Complex reasoning problems are most clearly and easily specified using logical rules, but require recursive rules with aggregation such as count and sum for practical applications. Unfortunately, the meaning of such rules has been a significant challenge, leading to many disagreeing semantics. This paper describes a unified semantics for recursive rules with aggregation, extending the unified founded semantics and constraint semantics for recursive rules with negation. The key idea is to support simple expression of the different assumptions underlying different semantics, and orthogonally interpret aggregation operations using their simple usual meaning. We present a formal definition of the semantics, prove important properties of the semantics, and compare with prior semantics. In particular, we present an efficient inference over aggregation that gives precise answers to all examples we have studied from the literature. We also apply our semantics to a wide range of challenging examples, and show that our semantics is simple and matches the desired results in all cases. Finally, we describe experiments on the most challenging examples, exhibiting unexpectedly superior performance over well-known systems when they can compute correct answers.
翻訳日:2022-11-06 20:10:38 公開日:2022-09-21
# 模擬四脚エージェントのための階層型分散深層強化学習アーキテクチャ

Hierarchical Decentralized Deep Reinforcement Learning Architecture for a Simulated Four-Legged Agent ( http://arxiv.org/abs/2210.08003v1 )

ライセンス: Link先を確認
W. Zai El Amri and L. Hermes and M. Schilling(参考訳) レッグド・ロコモーションは自然界に広まり、現在のロボットの設計に影響を与えた。 これらの脚付きロボットのコントローラーは、しばしば1つの集中型インスタンスとして実現される。 しかし、自然界では、運動の制御は階層的で分散的な方法で起こる。 これらの生物学的設計原則をロボット制御システムに導入することが、この研究の動機となった。 本稿では, 分散型・階層型制御が脚ロボットにとって有益かどうかを問うとともに, 模擬脚型エージェントを制御するための, 分散型・階層型アーキテクチャを提案する。 複雑性の異なる3つのタスクは、5つのアーキテクチャ(分散、分散、階層、階層的アーキテクチャの2つの異なる組み合わせ)をベンチマークするように設計されている。 その結果,階層型アーキテクチャの異なるレベルを分散化することでエージェントの学習が容易になり,エネルギー効率が向上し,新たな未知環境へのロバスト性も向上した。 さらに、この比較は、複雑な目標指向タスクを解決するために階層アーキテクチャにおけるモジュラリティの重要性に光を当てている。 アーキテクチャのオープンソースコード実装(https://github.com/wzaielamri/hddrl)を提供しています。

Legged locomotion is widespread in nature and has inspired the design of current robots. The controller of these legged robots is often realized as one centralized instance. However, in nature, control of movement happens in a hierarchical and decentralized fashion. Introducing these biological design principles into robotic control systems has motivated this work. We tackle the question whether decentralized and hierarchical control is beneficial for legged robots and present a novel decentral, hierarchical architecture to control a simulated legged agent. Three different tasks varying in complexity are designed to benchmark five architectures (centralized, decentralized, hierarchical and two different combinations of hierarchical decentralized architectures). The results demonstrate that decentralizing the different levels of the hierarchical architectures facilitates learning of the agent, ensures more energy efficient movements as well as robustness towards new unseen environments. Furthermore, this comparison sheds light on the importance of modularity in hierarchical architectures to solve complex goal-directed tasks. We provide an open-source code implementation of our architecture (https://github.com/wzaielamri/hddrl).
翻訳日:2022-10-23 21:02:18 公開日:2022-09-21
# 信頼度の高いaiによるオンライン広告オークションのリアルタイム入札に向けて

Towards Trustworthy AI-Empowered Real-Time Bidding for Online Advertisement Auctioning ( http://arxiv.org/abs/2210.07770v1 )

ライセンス: Link先を確認
Xiaoli Tang and Han Yu(参考訳) 人工知能が採用するリアルタイム入札(AIRTB)は、オンライン広告において最も実現可能な技術の1つである。 パターン認識、ゲーム理論、機構設計といった様々な分野から大きな研究の注目を集めている。 その顕著な開発と展開にもかかわらず、AIRTBシステムは参加者の興味を損なうことがある(例えば、広告主の予算を様々な種類の詐欺で損なう)。 近年,この分野では,信頼性の高いAIRTBオークションシステムの構築が重要視されている。 この分野の学際的な性質と包括的調査の欠如のため,研究者がこの分野に参入し,信頼できるAIRTB技術の構築に貢献することは困難である。 本稿では,信頼性のあるAIRTB文学におけるこの重要なギャップを橋渡しする。 まず、様々なAIRTB利害関係者の主要な関心事を分析し、AIRTBにおける信頼構築の3つの主要な側面、すなわちセキュリティ、堅牢性、公正性を特定します。 それぞれの次元について,芸術の状況に関する一意な分類法を提案し,信頼の崩壊の根本原因を追跡し,与えられた次元の必要性について議論する。 続いて、各信頼次元の要件を満たすための既存の戦略の包括的なレビューが行われる。 また,オンライン広告の分野において,信頼性の高いAIRTBシステム構築に必要な研究の今後の方向性についても論じる。

Artificial intelligence-empowred Real-Time Bidding (AIRTB) is regarded as one of the most enabling technologies for online advertising. It has attracted significant research attention from diverse fields such as pattern recognition, game theory and mechanism design. Despite of its remarkable development and deployment, the AIRTB system can sometimes harm the interest of its participants (e.g., depleting the advertisers' budget with various kinds of fraud). As such, building trustworthy AIRTB auctioning systems has emerged as an important direction of research in this field in recent years. Due to the highly interdisciplinary nature of this field and a lack of a comprehensive survey, it is a challenge for researchers to enter this field and contribute towards building trustworthy AIRTB technologies. This paper bridges this important gap in trustworthy AIRTB literature. We start by analysing the key concerns of various AIRTB stakeholders and identify three main dimensions of trust building in AIRTB, namely security, robustness and fairness. For each of these dimensions, we propose a unique taxonomy of the state of the art, trace the root causes of possible breakdown of trust, and discuss the necessity of the given dimension. This is followed by a comprehensive review of existing strategies for fulfilling the requirements of each trust dimension. In addition, we discuss the promising future directions of research essential towards building trustworthy AIRTB systems to benefit the field of online advertising.
翻訳日:2022-10-23 21:02:01 公開日:2022-09-21
# 持続可能生産における極端気象事象の影響低減のための人工知能とイノベーション

Artificial Intelligence and Innovation to Reduce the Impact of Extreme Weather Events on Sustainable Production ( http://arxiv.org/abs/2210.08962v1 )

ライセンス: Link先を確認
Derrick Effah, Chunguang Bai, and Matthew Quayson(参考訳) 極端な気象現象の頻発は、社会、特に農業関連経済における特権の低い人々の生活に大きな影響を及ぼす。 極端な火災、洪水、干ばつ、サイクロンなどの予測不可能さは、土地での持続可能な生産と生活を危険にさらす(SDG目標15)。 幸いなことに、AI(Artificial Intelligent)、IoT(Internet of Things)、ブロックチェーン、3Dプリンティング、バーチャルおよび拡張現実(VRとAR)といった現代技術は、私たちの社会における極端な天候のリスクと影響を減らすことを約束しています。 しかし、これらの技術が極端な天候の影響を減少させる方法に関する研究の方向性は明らかでない。 これにより、極度の気象圏内でのデジタル技術の展開が困難になる。 本稿では,delphi best worst method と machine learning approach を用いて技術プッシュ要因の同定と評価を行った。 BWMの評価では、予測性はAIの最も重要な基準と役割であり、大衆市場の可能性は重要でない基準であることがわかった。 この結果に基づいて,aiの予測ロルを回避すべく,publilclyが利用可能なデータセット上でのマシンリーニングの予測能力をテストした。 本研究は, 研究と実践に不可欠である, 管理的, 方法論的意義を提示する。 本研究で活用した手法は, 持続可能な生産を守るための戦略開発と介入を支援する。 これにより、不足するリソースの割り当てや、極端な出来事の有害な影響を減らすためにAI技術の改善への投資も促進される。 それに対応して,今後の研究を必要とする限界を提起した。

Frequent occurrences of extreme weather events substantially impact the lives of the less privileged in our societies, particularly in agriculture-inclined economies. The unpredictability of extreme fires, floods, drought, cyclones, and others endangers sustainable production and life on land (SDG goal 15), which translates into food insecurity and poorer populations. Fortunately, modern technologies such as Artificial Intelligent (AI), the Internet of Things (IoT), blockchain, 3D printing, and virtual and augmented reality (VR and AR) are promising to reduce the risk and impact of extreme weather in our societies. However, research directions on how these technologies could help reduce the impact of extreme weather are unclear. This makes it challenging to emploring digital technologies within the spheres of extreme weather. In this paper, we employed the Delphi Best Worst method and Machine learning approaches to identify and assess the push factors of technology. The BWM evaluation revealed that predictive nature was AI's most important criterion and role, while the mass-market potential was the less important criterion. Based on this outcome, we tested the predictive ability of machine elarning on a publilcly available dataset to affrm the predictive rols of AI. We presented the managerial and methodological implications of the study, which are crucial for research and practice. The methodology utilized in this study could aid decision-makers in devising strategies and interventions to safeguard sustainable production. This will also facilitate allocating scarce resources and investment in improving AI techniques to reduce the adverse impacts of extreme events. Correspondingly, we put forward the limitations of this, which necessitate future research.
翻訳日:2022-10-23 21:01:39 公開日:2022-09-21
# FAL-CUR:不確かさと代表性を用いたフェアクラスタリングによるフェアアクティブラーニング

FAL-CUR: Fair Active Learning using Uncertainty and Representativeness on Fair Clustering ( http://arxiv.org/abs/2209.12756v1 )

ライセンス: Link先を確認
Ricky Fajri, Akrati Saxena, Yulong Pei, Mykola Pechenizkiy(参考訳) 文献では、データアノテーションのコストを削減するために、いくつかのアクティブな学習技術が提案されている。 しかし, 試料選択が感度特性に対して公平であるか否かは疑わしい。 アクティブな学習モデルが公平性を考慮したとしても、精度が低下するコストが伴う。 したがって、不足しているグループに対する公平さだけでなく、パフォーマンスを維持できるアクティブな学習アルゴリズムを設計することは、依然としてオープンな課題である。 本稿では,fal-cur(fal-cur)を用いて,サンプル取得段階で公正性を維持しながら高精度に学習を行う,fal-cur(fal-cur)と呼ばれる新しいアクティブラーニング戦略を提案する。 サンプル選択のための不確実性および類似性スコアに基づいて各サンプルの代表スコアを算出するFAL-CURサンプル取得関数を提案する。 この獲得関数は、フェアクラスタリング法の上に付加され、アクティブラーニング法にフェアネス制約を加える。 提案手法の性能を比較するために,4つの実世界のデータセットについて広範な実験を行った。 実験の結果,fal-curアルゴリズムは,高い公平度を保ちながら精度を維持し,知名度の高いアクティブラーニング問題に対する最先端手法よりも優れていた。

In the literature, several active learning techniques have been proposed for reducing the cost of data annotation. However, it is questionable whether the sample selection is fair with respect to sensitive attributes. Even when the active learning model considers fairness, it comes with a cost of reduced accuracy performance. Thus, it remains an open challenge to design an active learning algorithm that can maintain performance as well as fairness to underprivileged groups. This paper presents a novel active learning strategy called Fair Active Learning using fair Clustering, Uncertainty, and Representativeness (FAL-CUR) that provides a high accuracy while maintaining fairness during the sample acquisition phase. We introduce the FAL-CUR sample acquisition function that computes each sample's representative score based on the uncertainty and similarity score for sample selection. This acquisition function is added on top of the fair clustering method to add fairness constraints to the active learning method. We perform extensive experiments on four real-world datasets to compare the performance of the proposed methods. The experimental results show that the FAL-CUR algorithm maintains the performance accuracy while achieving high fairness measures and outperforms state-of-the-art methods on well-known fair active learning problems.
翻訳日:2022-10-02 23:15:13 公開日:2022-09-21
# グラフニューラルネットワークを用いた設計最適化のための実時間熱シミュレーション

Towards Real Time Thermal Simulations for Design Optimization using Graph Neural Networks ( http://arxiv.org/abs/2209.13348v1 )

ライセンス: Link先を確認
Helios Sanchis-Alepuz and Monika Stipsitz(参考訳) 本稿では,グラフニューラルネットワークを用いて3次元システムの熱挙動をシミュレーションする手法を提案する。 提案手法は,従来の有限要素シミュレーションに対して,大幅な高速化を実現する。 グラフニューラルネットワークは3次元CAD設計の多様なデータセットと対応する有限要素シミュレーションに基づいてトレーニングされ、電子システムの設計に現れる様々な幾何学、材料特性、損失を表す。 テストシステムの過渡的熱挙動について述べる。 1ステップ予測に対するネットワーク結果の精度は驚くべきものである(\si{0.003}{\%} 誤差)。 400の時間ステップの後、累積誤差は \SI{0.78}{\%} に達する。 各時間ステップの計算時間は \SI{50}{ms} である。 累積エラーを減らすことが現在の作業の焦点です。 将来的には、我々が提示するツールのようなツールによって、設計最適化に使用できるシステムの熱的挙動を、ほぼ瞬時に近似することができる。

This paper presents a method to simulate the thermal behavior of 3D systems using a graph neural network. The method discussed achieves a significant speed-up with respect to a traditional finite-element simulation. The graph neural network is trained on a diverse dataset of 3D CAD designs and the corresponding finite-element simulations, representative of the different geometries, material properties and losses that appear in the design of electronic systems. We present for the transient thermal behavior of a test system. The accuracy of the network result for one-step predictions is remarkable (\SI{0.003}{\%} error). After 400 time steps, the accumulated error reaches \SI{0.78}{\%}. The computing time of each time step is \SI{50}{ms}. Reducing the accumulated error is the current focus of our work. In the future, a tool such as the one we are presenting could provide nearly instantaneous approximations of the thermal behavior of a system that can be used for design optimization.
翻訳日:2022-10-02 23:12:27 公開日:2022-09-21
# ファーザー計測単位データを用いたハイブリッドAIによる異常検出モデル

Hybrid AI-based Anomaly Detection Model using Phasor Measurement Unit Data ( http://arxiv.org/abs/2209.12665v1 )

ライセンス: Link先を確認
Yuval Abraham Regev, Henrik Vassdal, Ugur Halden, Ferhat Ozgur Catak, Umit Cali(参考訳) 過去数十年間、情報通信技術の広範囲な利用が電力システムのデジタル化の原動力となっている。 重要なグリッドインフラの適正かつ安全な監視は、現代の電力システムに不可欠な部分となった。 ファサー計測装置(PMU)を用いて電力システムを監視することは、将来有望な技術の一つである。 計測頻度の増加とデータハンドリングのためのよりスマートな手法は、電力グリッドを確実に運用する能力を向上させることができる。 サイバー物理的相互作用の増加は、利点と欠点の両方をもたらし、そこでは、測定データの異常の形で欠点の1つが生まれる。 この異常は、パワーグリッド上の物理的障害と、サイバー層における妨害、エラー、サイバー攻撃の両方によって引き起こされる可能性がある。 本稿では,Long Short Term Memory (LSTM) やConvolutional Neural Network (CNN) など,ファサー計測単位データにおける異常検出のための様々な手法に基づくハイブリッドAIベースのモデルを開発することを目的とする。 この研究で使用されたデータセットは、グリッド測定からの実際のデータからなるテキサス大学によって取得された。 実データに加えて、異常を生成するために注入された偽データも分析されている。 このような異常を防止するための影響と緩和法について論じる。

Over the last few decades, extensive use of information and communication technologies has been the main driver of the digitalization of power systems. Proper and secure monitoring of the critical grid infrastructure became an integral part of the modern power system. Using phasor measurement units (PMUs) to surveil the power system is one of the technologies that have a promising future. Increased frequency of measurements and smarter methods for data handling can improve the ability to reliably operate power grids. The increased cyber-physical interaction offers both benefits and drawbacks, where one of the drawbacks comes in the form of anomalies in the measurement data. The anomalies can be caused by both physical faults on the power grid, as well as disturbances, errors, and cyber attacks in the cyber layer. This paper aims to develop a hybrid AI-based model that is based on various methods such as Long Short Term Memory (LSTM), Convolutional Neural Network (CNN) and other relevant hybrid algorithms for anomaly detection in phasor measurement unit data. The dataset used within this research was acquired by the University of Texas, which consists of real data from grid measurements. In addition to the real data, false data that has been injected to produce anomalies has been analyzed. The impacts and mitigating methods to prevent such kind of anomalies are discussed.
翻訳日:2022-10-02 23:05:13 公開日:2022-09-21
# 識別プライバシーを保持する形状と構造

Shape And Structure Preserving Differential Privacy ( http://arxiv.org/abs/2209.12667v1 )

ライセンス: Link先を確認
Carlos Soto and Karthik Bharath and Matthew Reimherr and Aleksandra Slavkovic(参考訳) 2dオブジェクトの像や形状などのデータ構造が多様体上の点として表現されることは一般的である。 このようなデータからナトリウム化微分プライベート推定を生成するメカニズムの効用は、それが空間の基盤構造と幾何とどのように互換性があるかに密接に関連している。 特に、最近示したように、ケンドールの2次元形状空間のような正曲率多様体上のラプラス機構の有用性は曲率によって著しく影響を受ける。 多様体上の点のサンプルのfr\'echet平均をサニタイズする問題に焦点を当て、二乗距離の和からなる対象関数の最小化として平均のキャラクタリゼーションを利用し、対象関数の零点に近い勾配を生成する値を好むリーマン多様体上のk-ノルム勾配機構を開発する。 正の曲線多様体の場合、二乗距離関数の勾配を用いることでラプラス機構よりも感度の制御が良くなり、コーパスカロサの形状のデータセット上で数値的にこれを実証する。 さらに、球面上の機構の効用と対称正定値行列の多様体のさらなる例も示される。

It is common for data structures such as images and shapes of 2D objects to be represented as points on a manifold. The utility of a mechanism to produce sanitized differentially private estimates from such data is intimately linked to how compatible it is with the underlying structure and geometry of the space. In particular, as recently shown, utility of the Laplace mechanism on a positively curved manifold, such as Kendall's 2D shape space, is significantly influences by the curvature. Focusing on the problem of sanitizing the Fr\'echet mean of a sample of points on a manifold, we exploit the characterisation of the mean as the minimizer of an objective function comprised of the sum of squared distances and develop a K-norm gradient mechanism on Riemannian manifolds that favors values that produce gradients close to the the zero of the objective function. For the case of positively curved manifolds, we describe how using the gradient of the squared distance function offers better control over sensitivity than the Laplace mechanism, and demonstrate this numerically on a dataset of shapes of corpus callosa. Further illustrations of the mechanism's utility on a sphere and the manifold of symmetric positive definite matrices are also presented.
翻訳日:2022-10-02 23:04:36 公開日:2022-09-21
# 意図的スタンスを真に捉える:人工知能の進歩へのガイド

Taking the Intentional Stance Seriously: A Guide to Progress in Artificial Intelligence ( http://arxiv.org/abs/2209.11764v1 )

ライセンス: Link先を確認
Will Bridewell(参考訳) 過去数十年、研究者たちが人工知能をかなり進歩させたと主張するのは簡単です。 しかし、私たちの日々の認知システムとのやりとりは、興味をそそるものからイライラさせるものへと素早く移行します。 これらのフラストレーションの根源は、我々の本質的で民俗心理学的な理論による期待と、既存のコンピュータプログラムで見られる真の限界との不一致にある。 AppleのSiriに対処する方法は、AmazonのAlexaに対処する方法と異なり、Midjourneyで印象的な画像を生成するプロンプトは、OpenAIのDALL-Eで不満足なレンダリングを生成する可能性がある。 認知システムの研究において意図性を強調することは、これらの相違を減らし、システムの振る舞いを民間心理学に近づける手段を提供する。 本稿では,この主張を明確にする意図の命題的態度を精査する。 この分析は、近年の大規模研究プログラムにおける実践から得られた幅広い方法論的提案と結びついている。 全体的な目標は、人工知能の進歩を測定するための新しいアプローチを特定することだ。

Finding claims that researchers have made considerable progress in artificial intelligence over the last several decades is easy. However, our everyday interactions with cognitive systems quickly move from intriguing to frustrating. The root of those frustrations rests in a mismatch between the expectations we have due to our inherent, folk-psychological theories and the real limitations we see in existing computer programs. To address the discordance, we find ourselves building mental models of how each unique tool works: how we address Apple's Siri may differ from how we address Amazon's Alexa, the prompts that create striking images in Midjourney may produce unsatisfactory renderings in OpenAI's DALL-E. Emphasizing intentionality in research on cognitive systems provides a way to reduce these discrepancies, bringing system behavior closer to folk psychology. This paper scrutinizes the propositional attitude of intention to clarify this claim. That analysis is joined with broad methodological suggestions informed by recent practices within large-scale research programs. The overall goal is to identify a novel approach for measuring and making progress in artificial intelligence.
翻訳日:2022-10-02 23:04:14 公開日:2022-09-21
# 機械画像符号化における速度歪み

Rate-Distortion in Image Coding for Machines ( http://arxiv.org/abs/2209.11694v1 )

ライセンス: Link先を確認
Alon Harell, Anderson De Andrade, and Ivan V. Bajic(参考訳) 近年,特にコンピュータビジョンを目的としたリモートサーバへの画像送信が急増している。 監視のような多くのアプリケーションでは、画像は自動分析のために送信され、人間が見ることは滅多にない。 このシナリオに従来の圧縮を使用する場合、ビットレートの面では非効率であることが示されている。 したがって、人間と機械が共用するための特定の画像符号化手法を作成することが重要である。 このようなコーデックのマシンサイドを作成する1つの方法は、機械タスクを実行するディープニューラルネットワークにおいて、中間層の特徴マッチングを実行することである。 本研究では,人間と機械の学習可能なコーデックの学習に使用する層選択の効果について検討する。 我々は、データ処理の不等式を用いて、より深い層からのマッチング機能が、レート歪みという意味で好ましいことを証明した。 次に,スケーラブルなヒューマンマシンコーディングのための既存モデルを再トレーニングすることにより,実験的に知見を確認した。 実験では、このようなスケーラブルなモデルの人間側と機械側とのトレードオフを示し、その点でより深い層を用いたトレーニングのメリットについて論じる。

In recent years, there has been a sharp increase in transmission of images to remote servers specifically for the purpose of computer vision. In many applications, such as surveillance, images are mostly transmitted for automated analysis, and rarely seen by humans. Using traditional compression for this scenario has been shown to be inefficient in terms of bit-rate, likely due to the focus on human based distortion metrics. Thus, it is important to create specific image coding methods for joint use by humans and machines. One way to create the machine side of such a codec is to perform feature matching of some intermediate layer in a Deep Neural Network performing the machine task. In this work, we explore the effects of the layer choice used in training a learnable codec for humans and machines. We prove, using the data processing inequality, that matching features from deeper layers is preferable in the sense of rate-distortion. Next, we confirm our findings empirically by re-training an existing model for scalable human-machine coding. In our experiments we show the trade-off between the human and machine sides of such a scalable model, and discuss the benefit of using deeper layers for training in that regard.
翻訳日:2022-09-26 17:15:47 公開日:2022-09-21
# フラクタル分解に基づくアルゴリズムに基づく動的カメラアライメント最適化問題

Dynamic camera alignment optimization problem based on Fractal Decomposition based Algorithm ( http://arxiv.org/abs/2209.11695v1 )

ライセンス: Link先を確認
Arcadi Llanza and Nadiya Shvai and Amir Nakib(参考訳) 本研究では,最近導入されたフラクタル分解アルゴリズム (fda) と呼ばれる動的最適化アルゴリズム (doa) を用いて,実世界におけるiaの動的最適化問題 (dop) に取り組む。 我々は、トンネルからのCCTVカメラフィードでIAを行うためにFDAを使用しました。 カメラの視点は風やメンテナンスなどの複数の理由によって変化しうるため、ビデオベースの交通セキュリティシステムの正しい機能を保証するためにアライメントが必要である。

In this work, we tackle the Dynamic Optimization Problem (DOP) of IA in a real-world application using a Dynamic Optimization Algorithm (DOA) called Fractal Decomposition Algorithm (FDA), introduced by recently. We used FDA to perform IA on CCTV camera feed from a tunnel. As the camera viewpoint can change by multiple reasons such as wind, maintenance, etc. the alignment is required to guarantee the correct functioning of video-based traffic security system.
翻訳日:2022-09-26 17:15:29 公開日:2022-09-21
# 3DPCT:デュアル自己注意型3Dポイントクラウドトランス

3DPCT: 3D Point Cloud Transformer with Dual Self-attention ( http://arxiv.org/abs/2209.11255v1 )

ライセンス: Link先を確認
Dening Lu, Kyle Gao, Qian Xie, Linlin Xu, Jonathan Li(参考訳) トランスフォーマーは画像処理の分野で顕著な成果を上げている。 この大きな成功にインスパイアされたTransformerの3Dポイントクラウド処理への応用は、ますます注目を集めている。 本稿では,新しい点クラウド表現学習ネットワークである3dポイントクラウドトランスフォーマ(3dpct)とエンコーダ・デコーダ構造を提案する。 具体的には、3dpctは階層的エンコーダを持ち、分類タスクのための2つのローカルグローバルデュアルアテンションモジュール(セグメンテーションタスクのための3つのモジュール)と、各モジュールがローカルフィーチャーアグリゲーション(lfa)ブロックとグローバルフィーチャー学習(gfl)ブロックで構成される。 GFLブロックは、特徴抽出を改善するために、ポイントワイドとチャンネルワイドの両方の自己アテンションを持つ二重自己アテンションである。 さらに、LFAにおいて、抽出したローカル情報をよりよく活用するために、ポイント・パッチ・セルフ・アテンション(PPSA)と呼ばれる新しいポイントワイド・セルフアテンション・モデルが設計されている。 性能は、合成データと実世界データの両方を含む分類データセットとセグメンテーションデータセットの両方で評価される。 広範な実験により,提案手法は分類と分割作業の両方において最先端の結果を得た。

Transformers have resulted in remarkable achievements in the field of image processing. Inspired by this great success, the application of Transformers to 3D point cloud processing has drawn more and more attention. This paper presents a novel point cloud representational learning network, 3D Point Cloud Transformer with Dual Self-attention (3DPCT) and an encoder-decoder structure. Specifically, 3DPCT has a hierarchical encoder, which contains two local-global dual-attention modules for the classification task (three modules for the segmentation task), with each module consisting of a Local Feature Aggregation (LFA) block and a Global Feature Learning (GFL) block. The GFL block is dual self-attention, with both point-wise and channel-wise self-attention to improve feature extraction. Moreover, in LFA, to better leverage the local information extracted, a novel point-wise self-attention model, named as Point-Patch Self-Attention (PPSA), is designed. The performance is evaluated on both classification and segmentation datasets, containing both synthetic and real-world data. Extensive experiments demonstrate that the proposed method achieved state-of-the-art results on both classification and segmentation tasks.
翻訳日:2022-09-26 16:43:23 公開日:2022-09-21
# Adaptive-SpikeNet:学習可能なニューラルネットワークを用いたイベントベース光フロー推定

Adaptive-SpikeNet: Event-based Optical Flow Estimation using Spiking Neural Networks with Learnable Neuronal Dynamics ( http://arxiv.org/abs/2209.11741v1 )

ライセンス: Link先を確認
Adarsh Kumar Kosta and Kaushik Roy(参考訳) イベントベースカメラは, 時間的にリッチな情報を非同期にキャプチャできるため, 高速な動き推定が可能となった。 神経にインスパイアされたイベント駆動処理を備えたスパイキングニューラルネットワーク(snn)は、そのような非同期データを効率的に処理できる一方で、リークインテグレートやファイア(lif)といったニューロンモデルは、入力に含まれる重要なタイミング情報を追跡することができる。 snnはニューロンメモリの動的状態を維持し、時間とともに冗長なデータを忘れることなく重要な情報を保持することでこれを達成する。 したがって、SNNは、同様の大きさのアナログニューラルネットワーク(ANN)と比較して、逐次回帰タスクの性能を向上させることができると仮定する。 しかし、深層SNNは後層でのスパイクの消失により訓練が困難である。 そこで本研究では,学習可能なニューロン動力学を用いた適応型完全スパイキングフレームワークを提案する。 時間的勾配に基づくバックプロパゲーション(BPTT)を用いて、深いSNNをゼロから訓練する。 我々は,MVSEC(Multi-Vehicle Stereo Event-Camera)データセットとDSEC-Flowデータセットを用いた光フロー推定の課題に対するアプローチを検証する。 これらのデータセットに対する実験では,最先端のANNと比較して平均終端誤差(AEE)が平均13%減少した。 また、いくつかのダウンスケールモデルを調べ、我々のSNNモデルは、AEEが10%-16%低いANNよりも一貫して優れています。 これらの結果は、より小さなモデルに対するSNNの重要性とエッジでの適合性を示している。 効率の面では、我々のSNNはネットワークパラメータ(48倍)と計算エネルギー(51倍)の大幅な節約を提供しながら、最先端のANN実装と比較して約10%低いEPEを実現している。

Event-based cameras have recently shown great potential for high-speed motion estimation owing to their ability to capture temporally rich information asynchronously. Spiking Neural Networks (SNNs), with their neuro-inspired event-driven processing can efficiently handle such asynchronous data, while neuron models such as the leaky-integrate and fire (LIF) can keep track of the quintessential timing information contained in the inputs. SNNs achieve this by maintaining a dynamic state in the neuron memory, retaining important information while forgetting redundant data over time. Thus, we posit that SNNs would allow for better performance on sequential regression tasks compared to similarly sized Analog Neural Networks (ANNs). However, deep SNNs are difficult to train due to vanishing spikes at later layers. To that effect, we propose an adaptive fully-spiking framework with learnable neuronal dynamics to alleviate the spike vanishing problem. We utilize surrogate gradient-based backpropagation through time (BPTT) to train our deep SNNs from scratch. We validate our approach for the task of optical flow estimation on the Multi-Vehicle Stereo Event-Camera (MVSEC) dataset and the DSEC-Flow dataset. Our experiments on these datasets show an average reduction of 13% in average endpoint error (AEE) compared to state-of-the-art ANNs. We also explore several down-scaled models and observe that our SNN models consistently outperform similarly sized ANNs offering 10%-16% lower AEE. These results demonstrate the importance of SNNs for smaller models and their suitability at the edge. In terms of efficiency, our SNNs offer substantial savings in network parameters (48x) and computational energy (51x) while attaining ~10% lower EPE compared to the state-of-the-art ANN implementations.
翻訳日:2022-09-26 13:44:52 公開日:2022-09-21
# バイオレンス検出技術の概観:現状と今後の展望

An Overview of Violence Detection Techniques: Current Challenges and Future Directions ( http://arxiv.org/abs/2209.11680v1 )

ライセンス: Link先を確認
Nadia Mumtaz, Naveed Ejaz, Shabana Habib, Syed Muhammad Mohsin, Prayag Tiwari, Shahab S. Band, Neeraj Kumar(参考訳) 今日のスマートシティーで生成されたビッグデータは、監視カメラが膨大な量のデータに寄与する最も顕著なリソースであり、計算と正確性の観点からは自動分析が難しい課題となっているという、その目的のある利用の観点から懸念を喚起している。 暴力検出(vd、英: violence detection)は、行動や活動の認識領域で広く認知される、人間の異常な行動に対するビッグデータを分析するために用いられる。 VD文学は伝統的に手動で設計された機能に基づいているが、ディープラーニングベースのスタンドアロンモデルへの進歩はリアルタイムなVD分析のために開発されている。 本稿では,検出された暴力のローカライズ戦略とともに,ディープシーケンス学習のアプローチの概要について述べる。 この概要は、初期の画像処理と機械学習ベースのvd文献、そして現在の複雑なモデルに対する効率性など、それらの利点にも目を向ける。 さらに,従来の手法の深部分析から得られたVD領域におけるモデルの有効性と今後の方向性を説明するため,これらのデータセットについて考察した。

The Big Video Data generated in today's smart cities has raised concerns from its purposeful usage perspective, where surveillance cameras, among many others are the most prominent resources to contribute to the huge volumes of data, making its automated analysis a difficult task in terms of computation and preciseness. Violence Detection (VD), broadly plunging under Action and Activity recognition domain, is used to analyze Big Video data for anomalous actions incurred due to humans. The VD literature is traditionally based on manually engineered features, though advancements to deep learning based standalone models are developed for real-time VD analysis. This paper focuses on overview of deep sequence learning approaches along with localization strategies of the detected violence. This overview also dives into the initial image processing and machine learning-based VD literature and their possible advantages such as efficiency against the current complex models. Furthermore,the datasets are discussed, to provide an analysis of the current models, explaining their pros and cons with future directions in VD domain derived from an in-depth analysis of the previous methods.
翻訳日:2022-09-26 13:34:47 公開日:2022-09-21
# オンライン線形および半定義型プログラミングのための学習型アルゴリズム

Learning-Augmented Algorithms for Online Linear and Semidefinite Programming ( http://arxiv.org/abs/2209.10614v1 )

ライセンス: Link先を確認
Elena Grigorescu, Young-San Lin, Sandeep Silwal, Maoyuan Song, Samson Zhou(参考訳) 半有限プログラミング(SDP)は、線形プログラミングと二次制約付き二次プログラミングの両方を一般化する統一的なフレームワークであり、理論と実際の両方において効率的な解法を得られる。 しかし、SDPをカバーするための制約がオンラインに届くと、最適解を近似する不可能な結果が知られている。 本稿では,線形プログラムと半定値プログラムを網羅し,そのアルゴリズムを誤予測器からのアドバイスで拡張する手法を提案する。 予測器が正確であれば、これらの不合理性の結果を効率よく回避し、最適解、すなわち一貫性に対する定数係数近似を達成できることが示される。 一方、もし予測器が不正確であれば、いくつかの技術的条件下では、古典的最適上界と厳密な下界、すなわちロバスト性の両方に一致する結果が得られる。 より広義には、(1)Bamas、Maggiori、およびSvensson(NeurIPS 2020)が研究した機械学習予測器で強化したオンライン・セット・カバー問題と、(2)Elad、Kale、Naor(ICALP 2016)によるオンライン・カバー・SDP問題の両方を拡張するフレームワークを導入する。 具体的には,線形プログラムを分数的なアドバイスと制約でカバーする一般的なオンライン学習支援アルゴリズムを求め,sdp問題をカバーする学習支援アルゴリズムの研究を開始する。 我々の手法は,buchbinder と naor (mathematics of operations research, 34, 2009) の初歩的枠組みに基づいており,変数が境界領域,すなわちボックス制約に存在する制約を扱うように,さらに調整することができる。

Semidefinite programming (SDP) is a unifying framework that generalizes both linear programming and quadratically-constrained quadratic programming, while also yielding efficient solvers, both in theory and in practice. However, there exist known impossibility results for approximating the optimal solution when constraints for covering SDPs arrive in an online fashion. In this paper, we study online covering linear and semidefinite programs in which the algorithm is augmented with advice from a possibly erroneous predictor. We show that if the predictor is accurate, we can efficiently bypass these impossibility results and achieve a constant-factor approximation to the optimal solution, i.e., consistency. On the other hand, if the predictor is inaccurate, under some technical conditions, we achieve results that match both the classical optimal upper bounds and the tight lower bounds up to constant factors, i.e., robustness. More broadly, we introduce a framework that extends both (1) the online set cover problem augmented with machine-learning predictors, studied by Bamas, Maggiori, and Svensson (NeurIPS 2020), and (2) the online covering SDP problem, initiated by Elad, Kale, and Naor (ICALP 2016). Specifically, we obtain general online learning-augmented algorithms for covering linear programs with fractional advice and constraints, and initiate the study of learning-augmented algorithms for covering SDP problems. Our techniques are based on the primal-dual framework of Buchbinder and Naor (Mathematics of Operations Research, 34, 2009) and can be further adjusted to handle constraints where the variables lie in a bounded region, i.e., box constraints.
翻訳日:2022-09-23 14:55:04 公開日:2022-09-21
# ピアノ音の知覚ラウドネスのモデル化:理論と応用

Modeling Perceptual Loudness of Piano Tone: Theory and Applications ( http://arxiv.org/abs/2209.10674v1 )

ライセンス: Link先を確認
Yang Qu, Yutian Qin, Lecheng Chao, Hangkai Qian, Ziyu Wang, Gus Xia(参考訳) 聴覚と音の物理的特性の関係は、コンピュータ音楽と精神音響学の両方において重要である。 等度ラウドネス輪郭」の初期の研究は1920年代までさかのぼり、それ以来、強度と周波数に関する測定されたラウドネスは何度も改訂されてきた。 しかし、ほとんどの研究は合成音のみに焦点を当てており、複雑な音色を持つ自然音に関する誘導理論はほとんど正当化されていない。 そこで本研究では,ピアノ音のモデル化による自然な音高知覚の理論と応用について検討する。 理論部は以下の通りである。 1)ピッチのピアノ音等ラウドネスパターンの高精度測定と, 2)人体測定に基づいて訓練されたスペクトル特徴に基づいて純粋に音質を推定できる機械学習モデル。 そこで本研究では,2つの異なる演奏者ピアノのmidi速度を(異なる音響環境において)調整し,同じ知覚効果を達成するための理論をピアノ制御伝達に適用する。 実験により,我々の理論的ラウドネスモデリングとそれに対応する性能制御伝達アルゴリズムの両方がベースラインを著しく上回ることがわかった。

The relationship between perceptual loudness and physical attributes of sound is an important subject in both computer music and psychoacoustics. Early studies of "equal-loudness contour" can trace back to the 1920s and the measured loudness with respect to intensity and frequency has been revised many times since then. However, most studies merely focus on synthesized sound, and the induced theories on natural tones with complex timbre have rarely been justified. To this end, we investigate both theory and applications of natural-tone loudness perception in this paper via modeling piano tone. The theory part contains: 1) an accurate measurement of piano-tone equal-loudness contour of pitches, and 2) a machine-learning model capable of inferring loudness purely based on spectral features trained on human subject measurements. As for the application, we apply our theory to piano control transfer, in which we adjust the MIDI velocities on two different player pianos (in different acoustic environments) to achieve the same perceptual effect. Experiments show that both our theoretical loudness modeling and the corresponding performance control transfer algorithm significantly outperform their baselines.
翻訳日:2022-09-23 14:54:31 公開日:2022-09-21
# SPICE, 薬物様分子とペプチドのデータセットによる機械学習の可能性の育成

SPICE, A Dataset of Drug-like Molecules and Peptides for Training Machine Learning Potentials ( http://arxiv.org/abs/2209.10702v1 )

ライセンス: Link先を確認
Peter Eastman, Pavan Kumar Behara, David L. Dotson, Raimondas Galvelis, John E. Herr, Josh T. Horton, Yuezhi Mao, John D. Chodera, Benjamin P. Pritchard, Yuanqing Wang, Gianni De Fabritiis, Thomas E. Markland(参考訳) 機械学習のポテンシャルは分子シミュレーションの重要なツールであるが、それらの開発はそれらを訓練するための高品質なデータセットが不足していることに支えられている。 SPICEデータセットは、タンパク質と相互作用する薬物のような小さな分子のシミュレーションに関連するポテンシャルをトレーニングするための新しい量子化学データセットである。 それは、様々な小さな分子、二量体、ジペプチド、溶解アミノ酸の1.1百万以上のコンフォメーションを含んでいる。 15個の元素、荷電および非荷電分子、および幅広い共有結合および非共有結合相互作用を含む。 B97M-D3(BJ)/def2-TZVPPD理論で計算された力とエネルギー、および多重極モーメントやボンドオーダーなどの有用な量を提供する。 機械学習のポテンシャルのセットをトレーニングし、化学空間の広い領域にわたって化学的精度を達成できることを実証する。 トランスファー可能(transportable)を作成するための貴重な資源となり、分子シミュレーションで使用するために潜在的な機能を利用する準備ができている。

Machine learning potentials are an important tool for molecular simulation, but their development is held back by a shortage of high quality datasets to train them on. We describe the SPICE dataset, a new quantum chemistry dataset for training potentials relevant to simulating drug-like small molecules interacting with proteins. It contains over 1.1 million conformations for a diverse set of small molecules, dimers, dipeptides, and solvated amino acids. It includes 15 elements, charged and uncharged molecules, and a wide range of covalent and non-covalent interactions. It provides both forces and energies calculated at the {\omega}B97M-D3(BJ)/def2-TZVPPD level of theory, along with other useful quantities such as multipole moments and bond orders. We train a set of machine learning potentials on it and demonstrate that they can achieve chemical accuracy across a broad region of chemical space. It can serve as a valuable resource for the creation of transferable, ready to use potential functions for use in molecular simulations.
翻訳日:2022-09-23 14:54:14 公開日:2022-09-21
# 時系列予測法の概要と粒子加速器への応用

Review of Time Series Forecasting Methods and Their Applications to Particle Accelerators ( http://arxiv.org/abs/2209.10705v1 )

ライセンス: Link先を確認
Sichen Li, Andreas Adelmann(参考訳) 粒子加速器は、大量の構造化データを生成し、明確な最適化目標と正確に定義された制御要件を持つ複雑な施設である。 そのため、データ駆動型研究手法に自然に適応できる。 加速器内のセンサーとモニターのデータは、多変量時系列を形成する。 加速器制御と診断において高速プリエンプティブアプローチが好まれているため、データ駆動時系列予測手法の適用は特に有望である。 本稿では,時系列予測問題を定式化し,既存のモデルを様々な科学分野に適用した。 粒子加速器の分野におけるいくつかの現在および将来の試みが紹介されている。 粒子加速器への時系列予測の適用は、奨励的な結果と幅広い利用への期待を示しており、データ一貫性や互換性といった既存の問題に対処し始めている。

Particle accelerators are complex facilities that produce large amounts of structured data and have clear optimization goals as well as precisely defined control requirements. As such they are naturally amenable to data-driven research methodologies. The data from sensors and monitors inside the accelerator form multivariate time series. With fast pre-emptive approaches being highly preferred in accelerator control and diagnostics, the application of data-driven time series forecasting methods is particularly promising. This review formulates the time series forecasting problem and summarizes existing models with applications in various scientific areas. Several current and future attempts in the field of particle accelerators are introduced. The application of time series forecasting to particle accelerators has shown encouraging results and the promise for broader use, and existing problems such as data consistency and compatibility have started to be addressed.
翻訳日:2022-09-23 14:53:57 公開日:2022-09-21
# コダイカナル・ソーラー・オブザーバによる393.37nmの太陽プラッジの画像処理による検出

An Image Processing approach to identify solar plages observed at 393.37 nm by Kodaikanal Solar Observatory ( http://arxiv.org/abs/2209.10631v1 )

ライセンス: Link先を確認
Sarvesh Gharat and Bhaskar Bose(参考訳) 太陽プラッジ(英: Solar Plages)は、太陽のCa II Kで観測される明るい色相の特徴である。 これらは高磁場の領域であり、そのため太陽の磁気活動のトレーサであり、1世紀以上にわたってCa II K分光ヘリオグラムが記録されているため、太陽の長期変動を研究する上で最も重要な特徴の1つである。 . しかし、1世紀にわたるデータベースからプラージュを検知するのは簡単な作業であり、手作業で行うにはかなりの人的資源が必要である。 そこで本研究では,Ca II K写真観測から太陽プラッジを同定する画像処理アルゴリズムを提案する。 本研究は、高台カナル太陽観測所のアーカイブデータに基づいて実施されている。 ノイズレベル,輝度,その他の画像特性に関わらず,アルゴリズムが動作することを保証するため,データアーカイブから画像サンプルをランダムに描画してアルゴリズムをテストする。

Solar Plages are bright chromospheric features observed in Ca II K photographic observations of the sun. These are regions of high magnetic field concentration thus tracer of magnetic activity of the Sun and are one of the most important features to study long-term variability of the Sun as Ca II K spectroheliograms are recorded for more than a century. . However, detection of the plages from century-long databases is a non-trivial task and need significant human resources for doing it manually. Hence, in this study, we propose an image processing algorithm that can identify solar plages from Ca II K photographic observations. The proposed study has been implemented on archival data from Kodaikanal Solar Observatory. To ensure that the algorithm works, irrespective of noise level, brightness, and other image properties, we randomly draw a sample of images from the data archive to test our algorithm.
翻訳日:2022-09-23 14:43:26 公開日:2022-09-21
# SGC:遺伝子共発現ネットワークにおける自己学習アプローチを用いた遺伝子クラスタリングのための半教師付きパイプライン

SGC: A semi-supervised pipeline for gene clustering using self-training approach in gene co-expression networks ( http://arxiv.org/abs/2209.10545v1 )

ライセンス: Link先を確認
Niloofar Aghaieabiane and Ioannis Koutis(参考訳) 遺伝子発現データから情報を抽出するために広く用いられているアプローチは、遺伝子共表現ネットワークの構築と、ネットワーク構造を発見するアルゴリズムのその後の応用である。 特に、共通の目標は、一般的にモジュールと呼ばれる遺伝子クラスターの計算的発見である。 新規な遺伝子発現データセットに適用すると、計算モジュールにおける遺伝子オントロジ項の頻度を測定し、その確率を評価する方法であるジーンオントロジエンリッチメントを用いて、計算モジュールの品質を自動的に評価することができる。 本研究では、スペクトルネットワーク理論の数学における比較的最近の研究に基づいて、遺伝子クラスタリングのための新しいパイプラインSGCを提案する。 SGCは、教師なしの方法で高度に強化されたモジュールの計算を可能にする複数の新しいステップで構成されている。 しかし、既存のフレームワークと異なり、計算されたモジュールの品質をさらに向上させる半教師付きクラスタリング法において、遺伝子オントロジー情報を活用する新しいステップを取り入れている。 既知の既存のフレームワークと比較して,SGCは実データに高い富化をもたらすことを示す。 特に、12個の実際の遺伝子発現データセットにおいて、SGCは1つを除いて全てに優れる。

A widely used approach for extracting information from gene expression data employ the construction of a gene co-expression network and the subsequent application of algorithms that discover network structure. In particular, a common goal is the computational discovery of gene clusters, commonly called modules. When applied on a novel gene expression dataset, the quality of the computed modules can be evaluated automatically, using Gene Ontology enrichment, a method that measures the frequencies of Gene Ontology terms in the computed modules and evaluates their statistical likelihood. In this work we propose SGC a novel pipeline for gene clustering based on relatively recent seminal work in the mathematics of spectral network theory. SGC consists of multiple novel steps that enable the computation of highly enriched modules in an unsupervised manner. But unlike all existing frameworks, it further incorporates a novel step that leverages Gene Ontology information in a semi-supervised clustering method that further improves the quality of the computed modules. Comparing with already well-known existing frameworks, we show that SGC results in higher enrichment in real data. In particular, in 12 real gene expression datasets, SGC outperforms in all except one.
翻訳日:2022-09-23 14:38:13 公開日:2022-09-21
# ビッグデータ分類によるApache SparkとHadoop MapReduceのベンチマーク

Benchmarking Apache Spark and Hadoop MapReduce on Big Data Classification ( http://arxiv.org/abs/2209.10637v1 )

ライセンス: Link先を確認
Taha Tekdogan, Ali Cakmak(参考訳) 一般的なビッグデータ分析ツールのほとんどは、作業環境に適応して、大量の非構造化データから貴重な情報を抽出するために進化しました。 データマイニング技術がビッグデータから有用な情報をフィルタリングする能力は、ビッグデータマイニング(Big Data Mining)という用語につながった。 データの範囲を小さく、構造化され、安定したデータから巨大なボリューム、非構造化、迅速な変更へとシフトすることは、多くのデータ管理の課題をもたらす。 異なるツールは、アーキテクチャ上の制限のため、独自の方法でこれらの課題に対処します。 目の前のタスクに基づいて適切なデータ管理フレームワークを選択する際に考慮すべきパラメータはたくさんあります。 本稿では,Apache SparkとHadoop MapReduceという2つの広く使用されているビッグデータ分析ツールの共通データマイニングタスク,すなわち分類に関する包括的なベンチマークを示す。 ベンチマークフレームワークのパフォーマンスを比較するために,実行時間や正確性,スケーラビリティなど,いくつかの評価指標を採用しています。 これらのメトリクスは、分類タスクのパフォーマンスを測定するために特別です。 私たちの知る限りでは、タスク固有の懸念を考慮に入れながらこれらの指標をすべて活用する文献には、これまでの研究はない。 Sparkは、モデルのトレーニングにおいてMapReduceよりも5倍高速です。 それでもSparkのパフォーマンスは、入力ワークロードが大きくなると低下する。 追加のクラスタによる環境のスケーリングは、Sparkのパフォーマンスを大幅に改善する。 しかし、hadoopでは同様の拡張は見られない。 mapreduceの機械学習ユーティリティは、小さなデータセットであっても、約3%のようにsparkよりも精度の高いスコアを持つ傾向がある。

Most of the popular Big Data analytics tools evolved to adapt their working environment to extract valuable information from a vast amount of unstructured data. The ability of data mining techniques to filter this helpful information from Big Data led to the term Big Data Mining. Shifting the scope of data from small-size, structured, and stable data to huge volume, unstructured, and quickly changing data brings many data management challenges. Different tools cope with these challenges in their own way due to their architectural limitations. There are numerous parameters to take into consideration when choosing the right data management framework based on the task at hand. In this paper, we present a comprehensive benchmark for two widely used Big Data analytics tools, namely Apache Spark and Hadoop MapReduce, on a common data mining task, i.e., classification. We employ several evaluation metrics to compare the performance of the benchmarked frameworks, such as execution time, accuracy, and scalability. These metrics are specialized to measure the performance for classification task. To the best of our knowledge, there is no previous study in the literature that employs all these metrics while taking into consideration task-specific concerns. We show that Spark is 5 times faster than MapReduce on training the model. Nevertheless, the performance of Spark degrades when the input workload gets larger. Scaling the environment by additional clusters significantly improves the performance of Spark. However, similar enhancement is not observed in Hadoop. Machine learning utility of MapReduce tend to have better accuracy scores than that of Spark, like around 3%, even in small size data sets.
翻訳日:2022-09-23 14:37:57 公開日:2022-09-21
# 財務表データに対するデノージングオートエンコーダを用いた異常説明

Explaining Anomalies using Denoising Autoencoders for Financial Tabular Data ( http://arxiv.org/abs/2209.10658v1 )

ライセンス: Link先を確認
Timur Sattarov, Dayananda Herurkar, J\"orn Hees(参考訳) 説明可能なAI(XAI)の最近の進歩は、安全で解釈可能なAIモデルをさまざまな業界に展開する必要性を高めた。 さまざまな領域におけるディープニューラルネットワークの最近の成功にもかかわらず、このような複雑なモデルの意思決定プロセスを理解することは、依然としてドメインエキスパートにとって困難な課題である。 特に金融分野では、しばしば数百の混合型列からなる異常を示すだけであり、専門家には限られた価値がある。 そこで本稿では,混合型表データ用に設計された自動エンコーダを用いた異常記述フレームワークを提案する。 我々はこの手法を、誤った観測である異常に特に焦点を当てている。 これは、潜在的なエラーを伴う個々のサンプル列(セル)をローカライズし、対応する信頼度スコアを割り当てることで実現される。 さらに、モデルはエラーを修正するために期待されるセル値の推定を提供する。 提案手法は,3つの標準グラフデータセット(Credit Default, adult, IEEE Fraud)と1つのプロプライエタリデータセット(Holdings)に基づいて評価する。 我々は、このタスクに適用されるノイズ除去オートエンコーダが、セルエラー検出率と期待値率の他のアプローチよりも優れていることを見出した。 さらに,セルエラー検出のための特別な損失が,これらの指標をさらに改善する方法について分析する。 本フレームワークは,データ品質管理プロセスの改善とともに,異常の異常な特徴をドメインの専門家が理解できるように設計されている。

Recent advances in Explainable AI (XAI) increased the demand for deployment of safe and interpretable AI models in various industry sectors. Despite the latest success of deep neural networks in a variety of domains, understanding the decision-making process of such complex models still remains a challenging task for domain experts. Especially in the financial domain, merely pointing to an anomaly composed of often hundreds of mixed type columns, has limited value for experts. Hence, in this paper, we propose a framework for explaining anomalies using denoising autoencoders designed for mixed type tabular data. We specifically focus our technique on anomalies that are erroneous observations. This is achieved by localizing individual sample columns (cells) with potential errors and assigning corresponding confidence scores. In addition, the model provides the expected cell value estimates to fix the errors. We evaluate our approach based on three standard public tabular datasets (Credit Default, Adult, IEEE Fraud) and one proprietary dataset (Holdings). We find that denoising autoencoders applied to this task already outperform other approaches in the cell error detection rates as well as in the expected value rates. Additionally, we analyze how a specialized loss designed for cell error detection can further improve these metrics. Our framework is designed for a domain expert to understand abnormal characteristics of an anomaly, as well as to improve in-house data quality management processes.
翻訳日:2022-09-23 14:37:35 公開日:2022-09-21
# 家庭配送頻度のモデル化--covid-19パンデミックにおけるトロントの誇張されたeショップの旅行需要の寄与

Modelling the Frequency of Home Deliveries: An Induced Travel Demand Contribution of Aggrandized E-shopping in Toronto during COVID-19 Pandemics ( http://arxiv.org/abs/2209.10664v1 )

ライセンス: Link先を確認
Yicong Liu, Kaili Wang, Patrick Loa, and Khandker Nurul Habib(参考訳) 新型コロナウイルスのパンデミックは、eショッピングの急増を劇的に触媒した。 e-shoppingの劇的な成長は、間違いなく旅行需要に大きな影響を与えるだろう。 その結果、輸送モデラーがeショップ需要をモデル化する能力がますます重要になっている。 本研究は、世帯の毎週の宅配頻度を予測するモデルを開発した。 古典的エコノメトリと機械学習の両方を用いて、最良のモデルを得た。 その結果, オンライン食料品の会員数, 世帯の平均年齢, 男性世帯の割合, 世帯内の労働者数, 様々な土地利用要因が, 宅配需要に影響を与えていることがわかった。 本研究は,機械学習モデルと古典計量モデルの解釈と性能を比較検討した。 一致は、機械学習と計量モデルを通して特定された変数の効果に見出される。 しかし、同様のリコール精度で、古典的計量モデルである順序付きプロビットモデルは、宅配需要の総和分布を正確に予測することができる。 対照的に、両方の機械学習モデルは観測された分布と一致しなかった。

The COVID-19 pandemic dramatically catalyzed the proliferation of e-shopping. The dramatic growth of e-shopping will undoubtedly cause significant impacts on travel demand. As a result, transportation modeller's ability to model e-shopping demand is becoming increasingly important. This study developed models to predict household' weekly home delivery frequencies. We used both classical econometric and machine learning techniques to obtain the best model. It is found that socioeconomic factors such as having an online grocery membership, household members' average age, the percentage of male household members, the number of workers in the household and various land use factors influence home delivery demand. This study also compared the interpretations and performances of the machine learning models and the classical econometric model. Agreement is found in the variable's effects identified through the machine learning and econometric models. However, with similar recall accuracy, the ordered probit model, a classical econometric model, can accurately predict the aggregate distribution of household delivery demand. In contrast, both machine learning models failed to match the observed distribution.
翻訳日:2022-09-23 14:37:12 公開日:2022-09-21
# ガウス過程の流体力学

Gaussian Process Hydrodynamics ( http://arxiv.org/abs/2209.10707v1 )

ライセンス: Link先を確認
Houman Owhadi(参考訳) オイラー方程式とナヴィエ・ストークス方程式を解くためのガウス過程(GP)アプローチ(ガウス過程流体力学、GPH)を提案する。 Smoothed Particle Hydrodynamics (SPH) と同様に、GPH は流れによって輸送される有限個の粒子の追跡を含むラグランジュ粒子に基づくアプローチである。 しかし、これらの粒子は物質の軟化粒子を表すのではなく、連続の流れに関する離散的/部分的な情報を運ぶ。 クロージャは、速度場に$\xi$の前に発散のないGPを配置し、粒子位置での渦度を条件付けることで達成される。 物理学(例えば、リチャードソンカスケードと速度インクリメントのパワー法則)は、物理インフォームドされた加法的カーネルを通じてGPに組み込まれている。 これは、独立したGPの和として$\xi$を表現することと等価であり、モードと呼ばれ、異なるスケールで作用する。 このアプローチは、これらのモードの活性化の解析を通してリチャードソンカスケードを定量的に解析し、決定論的ではなく統計的に粗粒乱流を許容する。 GPHは渦性方程式で定式化されているため、圧力方程式を解く必要はない。 核の選択によって非圧縮性と流体/構造境界条件を強制することにより、GPHはSPHよりもはるかに少ない粒子を必要とする。 GPHは自然な確率論的解釈を持つため、数値的な結果は、UQパイプラインへの組み入れと粒子の追加/除去を適応的に行える不確実性推定を伴う。 提案手法は解析に適しており、高密度核行列に対する最先端解法の複雑性を継承し、情報損失として乱流を自然な定義へと導く。 数値実験は物理インフォームドカーネルの選択の重要性を支持し、そのようなカーネルが精度と安定性に与える影響を説明している。

We present a Gaussian Process (GP) approach (Gaussian Process Hydrodynamics, GPH) for solving the Euler and Navier-Stokes equations. As in Smoothed Particle Hydrodynamics (SPH), GPH is a Lagrangian particle-based approach involving the tracking of a finite number of particles transported by the flow. However, these particles do not represent mollified particles of matter but carry discrete/partial information about the continuous flow. Closure is achieved by placing a divergence-free GP prior $\xi$ on the velocity field and conditioning on vorticity at particle locations. Known physics (e.g., the Richardson cascade and velocity-increments power laws) is incorporated into the GP prior through physics-informed additive kernels. This is equivalent to expressing $\xi$ as a sum of independent GPs $\xi^l$, which we call modes, acting at different scales. This approach leads to a quantitative analysis of the Richardson cascade through the analysis of the activation of these modes and allows us to coarse-grain turbulence in a statistical manner rather than a deterministic one. Since GPH is formulated on the vorticity equations, it does not require solving a pressure equation. By enforcing incompressibility and fluid/structure boundary conditions through the selection of the kernel, GPH requires much fewer particles than SPH. Since GPH has a natural probabilistic interpretation, numerical results come with uncertainty estimates enabling their incorporation into a UQ pipeline and the adding/removing of particles in an adapted manner. The proposed approach is amenable to analysis, it inherits the complexity of state-of-the-art solvers for dense kernel matrices, and it leads to a natural definition of turbulence as information loss. Numerical experiments support the importance of selecting physics-informed kernels and illustrate the major impact of such kernels on accuracy and stability.
翻訳日:2022-09-23 14:26:25 公開日:2022-09-21
# データ駆動による分子結晶の安定性の解釈

A data-driven interpretation of the stability of molecular crystals ( http://arxiv.org/abs/2209.10709v1 )

ライセンス: Link先を確認
Rose K. Cersonsky, Maria Pakhnova, Edgar A. Engel, Michele Ceriotti(参考訳) 構造-物性関係を管理する分子間相互作用の微妙なバランスのため、分子構造ブロックから形成される結晶構造の安定性を予測することは、非常に非自明な科学的問題である。 特に活発で実りあるアプローチは、相互作用する化学のモーティの異なる組み合わせを分類することであり、相互作用の相対エネルギーの理解は分子結晶の設計とそれらの安定性の微調整を可能にする。 この手法は通常、既知の結晶構造における最もよく見られるモチーフの実証的な観察に基づいて行われるが、教師なしと教師なしの機械学習技術を組み合わせて、分子構造ブロックの広範なライブラリ構築を自動化することを提案する。 本研究では, 有機結晶の硬化したデータセットの結合エネルギーの予測に適した構造記述子を導入し, その原子中心の性質を利用して, 結晶の格子エネルギーに対する異なる化学基の寄与をデータ駆動で評価する。 次に, 構造エネルギー景観の低次元表現を用いてこのライブラリを解釈し, この分析から抽出できる知見の選択例について考察し, 分子材料の設計を導くための完全なデータベースを提供する。

Due to the subtle balance of intermolecular interactions that govern structure-property relations, predicting the stability of crystal structures formed from molecular building blocks is a highly non-trivial scientific problem. A particularly active and fruitful approach involves classifying the different combinations of interacting chemical moieties, as understanding the relative energetics of different interactions enables the design of molecular crystals and fine-tuning their stabilities. While this is usually performed based on the empirical observation of the most commonly encountered motifs in known crystal structures, we propose to apply a combination of supervised and unsupervised machine-learning techniques to automate the construction of an extensive library of molecular building blocks. We introduce a structural descriptor tailored to the prediction of the binding energy for a curated dataset of organic crystals and exploit its atom-centered nature to obtain a data-driven assessment of the contribution of different chemical groups to the lattice energy of the crystal. We then interpret this library using a low-dimensional representation of the structure-energy landscape and discuss selected examples of the insights that can be extracted from this analysis, providing a complete database to guide the design of molecular materials.
翻訳日:2022-09-23 14:25:58 公開日:2022-09-21
# 3次元CTによる頭蓋内出血の自動化

Automated segmentation of intracranial hemorrhages from 3D CT ( http://arxiv.org/abs/2209.10648v1 )

ライセンス: Link先を確認
Md Mahfuzur Rahman Siddiquee, Dong Yang, Yufan He, Daguang Xu, Andriy Myronenko(参考訳) 脳内出血セグメンテーションチャレンジ (INSTANCE 2022) は、研究者が3次元CTからの出血脳梗塞領域のセグメンテーションに対する解決策を比較するためのプラットフォームを提供する。 本稿では,INSTANCE 2022に対するソリューションについて述べる。 2DセグメンテーションネットワークであるMONAIのSegResNetを使い、再サンプリングせずにスライス的に動作します。 最後の提案は18のモデルからなるアンサンブルである。 我々のソリューション(チーム名NVAUTO)は、Diceのメートル法(0.721)と全体的なランク2でトップとなる。 Auto3DSegで実装されている。

Intracranial hemorrhage segmentation challenge (INSTANCE 2022) offers a platform for researchers to compare their solutions to segmentation of hemorrhage stroke regions from 3D CTs. In this work, we describe our solution to INSTANCE 2022. We use a 2D segmentation network, SegResNet from MONAI, operating slice-wise without resampling. The final submission is an ensemble of 18 models. Our solution (team name NVAUTO) achieves the top place in terms of Dice metric (0.721), and overall rank 2. It is implemented with Auto3DSeg.
翻訳日:2022-09-23 14:19:30 公開日:2022-09-21
# 3次元意味マッピングのための畳み込みベイズカーネル推論

Convolutional Bayesian Kernel Inference for 3D Semantic Mapping ( http://arxiv.org/abs/2209.10663v1 )

ライセンス: Link先を確認
Joey Wilson, Yuewei Fu, Arthur Zhang, Jingyu Song, Andrew Capodieci, Paramsothy Jayakumar, Kira Barton, and Maani Ghaffari(参考訳) ロボットの知覚は現在、効率的な潜在空間で操作する現代の方法と、数学的に確立され、解釈可能で信頼できる結果を提供する古典的な方法の交差点にある。 本稿では,深い分離可能な畳み込み層内でベイズ推論を明示的に実行し,信頼性を維持しつつ効率を同時に最大化する畳み込みベイズカーネル推論(ConvBKI)層を提案する。 そこで我々は,LiDARセンサ情報に対する意味幾何学的確率分布をリアルタイムで学習する3次元意味マッピングの課題に適用する。 kittiデータセット上の最先端のセマンティックマッピングアルゴリズムに対してネットワークを評価し,同等のセマンティック結果によるレイテンシ向上を実証した。

Robotic perception is currently at a cross-roads between modern methods which operate in an efficient latent space, and classical methods which are mathematically founded and provide interpretable, trustworthy results. In this paper, we introduce a Convolutional Bayesian Kernel Inference (ConvBKI) layer which explicitly performs Bayesian inference within a depthwise separable convolution layer to simultaneously maximize efficiency while maintaining reliability. We apply our layer to the task of 3D semantic mapping, where we learn semantic-geometric probability distributions for LiDAR sensor information in real time. We evaluate our network against state-of-the-art semantic mapping algorithms on the KITTI data set, and demonstrate improved latency with comparable semantic results.
翻訳日:2022-09-23 14:19:19 公開日:2022-09-21
# DeepVARwT:トレンド付きVARモデルのディープラーニング

DeepVARwT: Deep Learning for a VAR Model with Trend ( http://arxiv.org/abs/2209.10587v1 )

ライセンス: Link先を確認
Xixi Li and Jingsong Yuan(参考訳) ベクトル自己回帰(VAR)モデルは、複数の時系列間の依存を記述するために使われてきた。 これは定常時系列のモデルであり、各系列に決定論的傾向が存在するように拡張することができる。 varモデルに適合する前にパラメトリックまたは非パラメトリックにデータをデトレクトすることは、後半部でより多くのエラーを引き起こす。 本研究では,DeepVARwTと呼ばれる新しい手法を提案する。この手法は,トレンドと依存構造を同時に最大に推定する深層学習手法を用いている。 この目的のためにLong Short-Term Memory (LSTM) ネットワークが使用される。 モデルの安定性を確保するため、Ansley & Kohn (1986) の変換を用いて自己回帰係数の因果条件を適用する。 シミュレーション研究と実データへの応用について述べる。 本研究では,実データから生成した現実的傾向関数を用いて,実関数/パラメータ値と比較する。 実データアプリケーションでは,本モデルの予測性能を文献の最先端モデルと比較する。

The vector autoregressive (VAR) model has been used to describe the dependence within and across multiple time series. This is a model for stationary time series which can be extended to allow the presence of a deterministic trend in each series. Detrending the data either parametrically or nonparametrically before fitting the VAR model gives rise to more errors in the latter part. In this study, we propose a new approach called DeepVARwT that employs deep learning methodology for maximum likelihood estimation of the trend and the dependence structure at the same time. A Long Short-Term Memory (LSTM) network is used for this purpose. To ensure the stability of the model, we enforce the causality condition on the autoregressive coefficients using the transformation of Ansley & Kohn (1986). We provide a simulation study and an application to real data. In the simulation study, we use realistic trend functions generated from real data and compare the estimates with true function/parameter values. In the real data application, we compare the prediction performance of this model with state-of-the-art models in the literature.
翻訳日:2022-09-23 13:59:54 公開日:2022-09-21
# 潜在リスク要因としてのAIの現状と将来展望

Current and Near-Term AI as a Potential Existential Risk Factor ( http://arxiv.org/abs/2209.10604v1 )

ライセンス: Link先を確認
Benjamin S. Bucknall and Shiri Dori-Hacohen(参考訳) 人工知能(AI)技術が社会、政治、人類全体に与える影響を探求する証拠と文献の実質的かつ絶え間なく成長しているコーパスがある。 別個の平行な研究機関は、非整合の人工知能(AGI)に由来するものを含め、人類への存在的リスクを探求してきた。 本稿では,現在および短期の人工知能技術が,中間的リスク要因として機能することによって現実的リスクに寄与する可能性があり,このポテンシャルは非整合AGIシナリオに限らない,という概念を論じる。 我々は、すでに文書化されているAIの効果が実在リスク要因として機能し、すでに特定されている存在リスク源の可能性を拡大する仮説を提案する。 さらに、今後10年間の今後の発展は、人工知能がなくても、これらのリスク要因を著しく悪化させる可能性がある。 私たちの主な貢献は、潜在的なAIリスク要因とそれら間の因果関係の(非排除的な)展示であり、AIがパワーダイナミクスや情報セキュリティにどのように影響するかに焦点を当てています。 この説明は、AIシステムから、仮説的な未来のAI能力を前提としない存在リスクへの因果経路が存在することを示している。

There is a substantial and ever-growing corpus of evidence and literature exploring the impacts of Artificial intelligence (AI) technologies on society, politics, and humanity as a whole. A separate, parallel body of work has explored existential risks to humanity, including but not limited to that stemming from unaligned Artificial General Intelligence (AGI). In this paper, we problematise the notion that current and near-term artificial intelligence technologies have the potential to contribute to existential risk by acting as intermediate risk factors, and that this potential is not limited to the unaligned AGI scenario. We propose the hypothesis that certain already-documented effects of AI can act as existential risk factors, magnifying the likelihood of previously identified sources of existential risk. Moreover, future developments in the coming decade hold the potential to significantly exacerbate these risk factors, even in the absence of artificial general intelligence. Our main contribution is a (non-exhaustive) exposition of potential AI risk factors and the causal relationships between them, focusing on how AI can affect power dynamics and information security. This exposition demonstrates that there exist causal pathways from AI systems to existential risks that do not presuppose hypothetical future AI capabilities.
翻訳日:2022-09-23 13:59:39 公開日:2022-09-21
# 目に見えない: ファジィ推論システムがトレーニングフェーズに現れていないiotデバイス位置決めラベルを予測したとき

Seen to Unseen: When Fuzzy Inference System Predicts IoT Device Positioning Labels That Had Not Appeared in Training Phase ( http://arxiv.org/abs/2209.10627v1 )

ライセンス: Link先を確認
Han Xu, Zheming Zuo, Jie Li, Victor Chang(参考訳) 人工知能(AI)、機械学習(ML)、さらに具体的に言えば、ディープラーニング(DL)は過去20年間で大きな成功を収めてきた。 しかし、mlモデルやdlモデルのトレーニングではクラスが見えないため、未発見のクラスラベルの予測ははるかに少ない。 本稿では,tsk+ファジィ推論エンジンとcfs(curvature-based feature selection)手法を併用したファジィ推論システムを提案する。 本システムの実現性は,IoT(Internet of Things)領域内のネットワークデバイスの位置ラベルを予測することによって評価されている。 競合予測性能は,特にモデル学習段階において多数の連続クラスラベルが見えない場合に,システムの効率性と有効性を確認する。

Situating at the core of Artificial Intelligence (AI), Machine Learning (ML), and more specifically, Deep Learning (DL) have embraced great success in the past two decades. However, unseen class label prediction is far less explored due to missing classes being invisible in training ML or DL models. In this work, we propose a fuzzy inference system to cope with such a challenge by adopting TSK+ fuzzy inference engine in conjunction with the Curvature-based Feature Selection (CFS) method. The practical feasibility of our system has been evaluated by predicting the positioning labels of networking devices within the realm of the Internet of Things (IoT). Competitive prediction performance confirms the efficiency and efficacy of our system, especially when a large number of continuous class labels are unseen during the model training stage.
翻訳日:2022-09-23 13:52:40 公開日:2022-09-21
# 層変動パラメータを持つ神経一般常微分方程式

Neural Generalized Ordinary Differential Equations with Layer-varying Parameters ( http://arxiv.org/abs/2209.10633v1 )

ライセンス: Link先を確認
Duo Yu, Hongyu Miao, Hulin Wu(参考訳) ディープ残差ネットワーク(ResNets)は、様々な現実世界のアプリケーションで最先端の性能を示している。 近年、resnetsモデルは再パラメータ化され、連続常微分方程式やニューラルオデモデルに対する解として解釈された。 本研究では,階層的パラメータを持つニューラル一般化常微分方程式(ニューラル-GODE)モデルを提案し,さらにニューラル-ODEを拡張して離散ResNetを近似する。 具体的には,非パラメトリックなb-スプライン関数を用いてニューラルネットワークをパラメータ化することにより,モデルの複雑性と計算効率のトレードオフを容易にバランスできる。 ResNetとNeural-ODEモデルは,提案したNeural-GODEモデルの特別な場合である。 MNIST と CIFAR-10 という2つのベンチマークデータセットに基づいて, 層状ニューラルGODE は標準ニューラルGODE よりも柔軟で汎用的であることを示す。 さらに、Neural-GODEは、予測精度でResNetsと互換性を持って実行しながら、計算とメモリの利点を享受する。

Deep residual networks (ResNets) have shown state-of-the-art performance in various real-world applications. Recently, the ResNets model was reparameterized and interpreted as solutions to a continuous ordinary differential equation or Neural-ODE model. In this study, we propose a neural generalized ordinary differential equation (Neural-GODE) model with layer-varying parameters to further extend the Neural-ODE to approximate the discrete ResNets. Specifically, we use nonparametric B-spline functions to parameterize the Neural-GODE so that the trade-off between the model complexity and computational efficiency can be easily balanced. It is demonstrated that ResNets and Neural-ODE models are special cases of the proposed Neural-GODE model. Based on two benchmark datasets, MNIST and CIFAR-10, we show that the layer-varying Neural-GODE is more flexible and general than the standard Neural-ODE. Furthermore, the Neural-GODE enjoys the computational and memory benefits while performing comparably to ResNets in prediction accuracy.
翻訳日:2022-09-23 13:52:26 公開日:2022-09-21
# 重ね合わせの玩具モデル

Toy Models of Superposition ( http://arxiv.org/abs/2209.10652v1 )

ライセンス: Link先を確認
Nelson Elhage, Tristan Hume, Catherine Olsson, Nicholas Schiefer, Tom Henighan, Shauna Kravec, Zac Hatfield-Dodds, Robert Lasenby, Dawn Drain, Carol Chen, Roger Grosse, Sam McCandlish, Jared Kaplan, Dario Amodei, Martin Wattenberg, Christopher Olah(参考訳) ニューラルネットワークは、しばしば多くの無関係な概念を単一のニューロンに詰め込む。 本稿では,余分な特徴を「重畳」に蓄積したモデルにより,多意味性を完全に理解できる玩具モデルを提案する。 位相変化の存在、一様ポリトープの幾何学への驚くべき関連、および敵の例へのリンクの証拠を実証する。 また,機械解釈の可能性についても考察する。

Neural networks often pack many unrelated concepts into a single neuron - a puzzling phenomenon known as 'polysemanticity' which makes interpretability much more challenging. This paper provides a toy model where polysemanticity can be fully understood, arising as a result of models storing additional sparse features in "superposition." We demonstrate the existence of a phase change, a surprising connection to the geometry of uniform polytopes, and evidence of a link to adversarial examples. We also discuss potential implications for mechanistic interpretability.
翻訳日:2022-09-23 13:52:09 公開日:2022-09-21
# mega: 移動平均装備のゲート付き注意

Mega: Moving Average Equipped Gated Attention ( http://arxiv.org/abs/2209.10655v1 )

ライセンス: Link先を確認
Xuezhe Ma, Chunting Zhou, Xiang Kong, Junxian He, Liangke Gui, Graham Neubig, Jonathan May, Luke Zettlemoyer(参考訳) 弱いインダクティブバイアスや二次計算複雑性を含む変圧器の注意機構の設計選択は、長い列のモデリングに限定された。 本稿では,位置認識型局所依存の帰納的バイアスを位置依存的注意機構に組み込むために,(指数)移動平均を備えた単純で理論的に接地された単頭ゲート型注意機構であるmegaを紹介する。 さらに, 線形時間と空間の複雑さを提供するが, 最小品質の損失しか生じないmegaの変種を提案し, シーケンス全体を一定長さの複数のチャンクに効率的に分割する。 Long Range Arena、ニューラルマシン翻訳、自動回帰言語モデリング、画像と音声の分類を含む幅広いシーケンスモデリングベンチマークに関する広範な実験は、Megaがトランスフォーマーの変種や最近の状態空間モデルを含む他のシーケンスモデルよりも大幅に改善されていることを示している。

The design choices in the Transformer attention mechanism, including weak inductive bias and quadratic computational complexity, have limited its application for modeling long sequences. In this paper, we introduce Mega, a simple, theoretically grounded, single-head gated attention mechanism equipped with (exponential) moving average to incorporate inductive bias of position-aware local dependencies into the position-agnostic attention mechanism. We further propose a variant of Mega that offers linear time and space complexity yet yields only minimal quality loss, by efficiently splitting the whole sequence into multiple chunks with fixed length. Extensive experiments on a wide range of sequence modeling benchmarks, including the Long Range Arena, neural machine translation, auto-regressive language modeling, and image and speech classification, show that Mega achieves significant improvements over other sequence models, including variants of Transformers and recent state space models.
翻訳日:2022-09-23 13:51:59 公開日:2022-09-21
# 動的グラフを用いた時系列のコントラスト学習

Contrastive Learning for Time Series on Dynamic Graphs ( http://arxiv.org/abs/2209.10662v1 )

ライセンス: Link先を確認
Yitian Zhang, Florence Regol, Antonios Valkanas, Mark Coates(参考訳) 教師なし学習フレームワークで多変量時系列表現を開発するための最近の取り組みはいくつかある。 このような表現は、活動認識、健康モニタリング、異常検出などのタスクにおいて有益である。 本稿では,各ノードの時系列を動的グラフで観測する環境について考察する。 本稿では,グラフと時系列の同時表現を教師なし学習するためのフレームワークgraphtncを提案する。 我々のアプローチは対照的な学習戦略を用いる。 時系列とグラフの進化ダイナミクスが区分的に滑らかであるという仮定に基づき、信号がほぼ定常性を示す時間の局所的な窓を同定する。 次に、近傍における信号の分布を非隣接信号の分布と区別する符号化を訓練する。 まず,提案フレームワークの性能を合成データを用いて実証し,その後,実世界のデータセットを用いた分類タスクに有益であることを示す。

There have been several recent efforts towards developing representations for multivariate time-series in an unsupervised learning framework. Such representations can prove beneficial in tasks such as activity recognition, health monitoring, and anomaly detection. In this paper, we consider a setting where we observe time-series at each node in a dynamic graph. We propose a framework called GraphTNC for unsupervised learning of joint representations of the graph and the time-series. Our approach employs a contrastive learning strategy. Based on an assumption that the time-series and graph evolution dynamics are piecewise smooth, we identify local windows of time where the signals exhibit approximate stationarity. We then train an encoding that allows the distribution of signals within a neighborhood to be distinguished from the distribution of non-neighboring signals. We first demonstrate the performance of our proposed framework using synthetic data, and subsequently we show that it can prove beneficial for the classification task with real-world datasets.
翻訳日:2022-09-23 13:51:40 公開日:2022-09-21
# マルチタスク学習によるグレープ冷硬度予測

Grape Cold Hardiness Prediction via Multi-Task Learning ( http://arxiv.org/abs/2209.10585v1 )

ライセンス: Link先を確認
Aseem Saxena, Paola Pesantez-Cabrera, Rohan Ballapragada, Kin-Ho Lam, Alan Fern and Markus Keller(参考訳) 秋から春にかけての低温は、ブドウや他の果実に凍害をもたらす可能性があり、収穫量を大幅に減少させる。 これらの損失を防ぐため、農家はスプリンクラー、ヒーター、風力機械などの高価な凍害対策を施し、被害を判断する。 しかし、休眠期間を通じて植物の寒冷な硬さが変化し、直接測定することが困難であるため、この判断は困難である。 この結果、研究チームは、フィールド計測データに基づいて異なるブドウ品種に調整できる冷硬度予測モデルを開発した。 本稿では,30年以上にわたって収集されたデータに基づいて,深層学習モデルがブドウの冷硬度予測を改善するかどうかを検討する。 重要な課題は、品種ごとのデータ量が非常に可変であり、一部の品種は少量しかないことである。 そこで本研究では,各品種の予測性能を向上させるため,マルチタスク学習を用いた品種間データの活用について検討する。 本研究では,マルチタスク学習の手法を数多く評価し,最も高いパフォーマンスの手法が単一品種の学習よりも大幅に向上し,ほとんどの品種において最新の科学的モデルを上回ることを示した。

Cold temperatures during fall and spring have the potential to cause frost damage to grapevines and other fruit plants, which can significantly decrease harvest yields. To help prevent these losses, farmers deploy expensive frost mitigation measures, such as, sprinklers, heaters, and wind machines, when they judge that damage may occur. This judgment, however, is challenging because the cold hardiness of plants changes throughout the dormancy period and it is difficult to directly measure. This has led scientists to develop cold hardiness prediction models that can be tuned to different grape cultivars based on laborious field measurement data. In this paper, we study whether deep-learning models can improve cold hardiness prediction for grapes based on data that has been collected over a 30-year time period. A key challenge is that the amount of data per cultivar is highly variable, with some cultivars having only a small amount. For this purpose, we investigate the use of multi-task learning to leverage data across cultivars in order to improve prediction performance for individual cultivars. We evaluate a number of multi-task learning approaches and show that the highest performing approach is able to significantly improve over learning for single cultivars and outperforms the current state-of-the-art scientific model for most cultivars.
翻訳日:2022-09-23 13:42:06 公開日:2022-09-21
# DeepGraphONet:ネットワークシステムの動的応答を学習・ゼロショット転送するディープグラフ演算子ネットワーク

DeepGraphONet: A Deep Graph Operator Network to Learn and Zero-shot Transfer the Dynamic Response of Networked Systems ( http://arxiv.org/abs/2209.10622v1 )

ライセンス: Link先を確認
Yixuan Sun, Christian Moya, Guang Lin, Meng Yue(参考訳) 本稿では,複雑なシステム(電力グリッドやトラヒックなど)のダイナミクスを基礎となるサブグラフ構造で近似する,ディープグラフ演算子ネットワーク(deepgraphonet)フレームワークを開発した。 私たちはDeepGraphONetの機能を融合して構築しています (i)グラフニューラルネットワーク(gnn)による空間相関グラフ情報の利用 (II)動的システムの解演算子を近似するためのDeep Operator Networks~(DeepONet)。 結果のDeepGraphONetは、グラフ状態情報の有限履歴を観察することによって、与えられた短期/中期の時間水平線内のダイナミクスを予測することができる。 さらに,我々はdeepgraphonetを解像度非依存に設計する。 すなわち、正確な/同じ解像度で収集する有限履歴を必要としない。 さらに,訓練されたdeepgraphonetから結果を広めるために,異なるサブグラフで使用するためのゼロショット学習戦略を設計する。 最後に 実証的な結果です (i)送電網の過渡安定予測問題、及び (2)車両システムの交通流予測問題は,提案したDeepGraphONetの有効性を示す。

This paper develops a Deep Graph Operator Network (DeepGraphONet) framework that learns to approximate the dynamics of a complex system (e.g. the power grid or traffic) with an underlying sub-graph structure. We build our DeepGraphONet by fusing the ability of (i) Graph Neural Networks (GNN) to exploit spatially correlated graph information and (ii) Deep Operator Networks~(DeepONet) to approximate the solution operator of dynamical systems. The resulting DeepGraphONet can then predict the dynamics within a given short/medium-term time horizon by observing a finite history of the graph state information. Furthermore, we design our DeepGraphONet to be resolution-independent. That is, we do not require the finite history to be collected at the exact/same resolution. In addition, to disseminate the results from a trained DeepGraphONet, we design a zero-shot learning strategy that enables using it on a different sub-graph. Finally, empirical results on the (i) transient stability prediction problem of power grids and (ii) traffic flow forecasting problem of a vehicular system illustrate the effectiveness of the proposed DeepGraphONet.
翻訳日:2022-09-23 13:41:30 公開日:2022-09-21
# コンディショニングニューラルフィールドのための注意ビート結合

Attention Beats Concatenation for Conditioning Neural Fields ( http://arxiv.org/abs/2209.10684v1 )

ライセンス: Link先を確認
Daniel Rebain, Mark J. Matthews, Kwang Moo Yi, Gopal Sharma, Dmitry Lagun, Andrea Tagliasacchi(参考訳) 座標入力をサンプル値にマッピングしたニューラルフィールドモデル信号。 視覚、グラフィックス、生物学、天文学など、多くの分野において重要なバックボーンアーキテクチャになりつつある。 本稿では,これらのネットワーク内の共通条件付け機構の違いについて検討する。この機構は,多様体上の信号の集合が協調的にモデル化されるような,信号の記憶から一般化へ神経場を移行させる上で不可欠な要素である。 特に、より高次元の条件付け変数へのこれらのメカニズムのスケーリング挙動に興味があります。 実験で示したように、高次元条件付けは複雑なデータ分布のモデリングの鍵であり、このような問題に取り組む際に、どのアーキテクチャの選択が最も効果的かを決定することが重要である。 この目的のために、我々は2D、3D、および4D信号をニューラルネットワークでモデル化し、結合性、ハイパーネットワーク、注意に基づく条件付け戦略を採用する実験を行っている。 注意に基づくコンディショニングは、さまざまな設定で他のアプローチよりも優れています。

Neural fields model signals by mapping coordinate inputs to sampled values. They are becoming an increasingly important backbone architecture across many fields from vision and graphics to biology and astronomy. In this paper, we explore the differences between common conditioning mechanisms within these networks, an essential ingredient in shifting neural fields from memorization of signals to generalization, where the set of signals lying on a manifold is modelled jointly. In particular, we are interested in the scaling behaviour of these mechanisms to increasingly high-dimensional conditioning variables. As we show in our experiments, high-dimensional conditioning is key to modelling complex data distributions, thus it is important to determine what architecture choices best enable this when working on such problems. To this end, we run experiments modelling 2D, 3D, and 4D signals with neural fields, employing concatenation, hyper-network, and attention-based conditioning strategies -- a necessary but laborious effort that has not been performed in the literature. We find that attention-based conditioning outperforms other approaches in a variety of settings.
翻訳日:2022-09-23 13:35:18 公開日:2022-09-21
# 熱画像のセマンティックセグメンテーションのための自己反転型マルチスケールコントラスト学習

Self-adversarial Multi-scale Contrastive Learning for Semantic Segmentation of Thermal Facial Images ( http://arxiv.org/abs/2209.10700v1 )

ライセンス: Link先を確認
Jitesh Joshi, Nadia Bianchi-Berthouze, Youngjun Cho(参考訳) サーマルアンビエンスやオクルージョンなどの無拘束環境におけるサーマルフェイスイメージの信頼性の高いセグメンテーションは、顔の特徴が塩分を欠くため困難である。 このような設定によるデータセットの可用性の制限により、セグメンテーションネットワークのトレーニングがさらに困難になる。 そこで本研究では,セグメンテーションネットワークを学習するための汎用学習フレームワークとして,自己逆マルチスケールコントラスト学習(SAM-CL)を提案する。 SAM-CLフレームワークはSAM-CL損失関数と熱画像拡張(TiAug)をドメイン固有の拡張技術として構成し、制御された設定から収集された既存のデータセットに基づいて制約のない設定をシミュレートする。 Thermal-Face-Databaseを使って、アプローチの有効性を実証します。 既存のセグメンテーションネットワーク-unet, attention-unet, deeplabv3, hrnetv2における実験は、sam-clフレームワークによる一貫したパフォーマンス向上を示している。 さらに,ubcomfortとdeepbreathデータセットを用いた定性解析を行い,制約のない状況の処理において提案手法がどのように機能するかを考察する。

Reliable segmentation of thermal facial images in unconstrained settings such as thermal ambience and occlusions is challenging as facial features lack salience. Limited availability of datasets from such settings further makes it difficult to train segmentation networks. To address the challenge, we propose Self-Adversarial Multi-scale Contrastive Learning (SAM-CL) as a generic learning framework to train segmentation networks. SAM-CL framework constitutes SAM-CL loss function and a thermal image augmentation (TiAug) as a domain-specific augmentation technique to simulate unconstrained settings based upon existing datasets collected from controlled settings. We use the Thermal-Face-Database to demonstrate effectiveness of our approach. Experiments conducted on the existing segmentation networks- UNET, Attention-UNET, DeepLabV3 and HRNetv2 evidence the consistent performance gain from the SAM-CL framework. Further, we present a qualitative analysis with UBComfort and DeepBreath datasets to discuss how our proposed methods perform in handling unconstrained situations.
翻訳日:2022-09-23 13:35:02 公開日:2022-09-21
# 対称性から学ぶ:対称データと言語命令を用いたメタ強化学習

Learning from Symmetry: Meta-Reinforcement Learning with Symmetric Data and Language Instructions ( http://arxiv.org/abs/2209.10656v1 )

ライセンス: Link先を確認
Xiangtong Yao, Zhenshan Bing, Genghang Zhuang, Kejia Chen, Hongkuan Zhou, Kai Huang and Alois Knoll(参考訳) メタ強化学習(Meta-RL)は,エージェントが新しいタスクを素早く学習できるようにする,有望なアプローチである。 しかし、ほとんどのメタRLアルゴリズムは、報酬のみによって提供されるタスク情報不足のため、マルチタスクシナリオでの一般化が不十分である。 言語条件付きメタRLは、言語命令とエージェントの振る舞いを一致させて一般化を改善する。 対称性から学ぶことは人間の学習の重要な形態であり、対称性と言語命令をメタrlに組み合わせることでアルゴリズムの一般化と学習効率を向上させることができる。 そこで本稿では,新しいタスクを対称データと言語命令で効率的に学習できる2次元MDPメタ強化学習法を提案する。 提案手法は,複数の難解な操作タスクで評価し,実験により,メタ強化学習の一般化と効率を大幅に向上できることを示した。

Meta-reinforcement learning (meta-RL) is a promising approach that enables the agent to learn new tasks quickly. However, most meta-RL algorithms show poor generalization in multiple-task scenarios due to the insufficient task information provided only by rewards. Language-conditioned meta-RL improves the generalization by matching language instructions and the agent's behaviors. Learning from symmetry is an important form of human learning, therefore, combining symmetry and language instructions into meta-RL can help improve the algorithm's generalization and learning efficiency. We thus propose a dual-MDP meta-reinforcement learning method that enables learning new tasks efficiently with symmetric data and language instructions. We evaluate our method in multiple challenging manipulation tasks, and experimental results show our method can greatly improve the generalization and efficiency of meta-reinforcement learning.
翻訳日:2022-09-23 13:24:09 公開日:2022-09-21
# gnpm:幾何学的アウェアニューラルパラメトリックモデル

GNPM: Geometric-Aware Neural Parametric Models ( http://arxiv.org/abs/2209.10621v1 )

ライセンス: Link先を確認
Mirgahney Mohamed, Lourdes Agapito(参考訳) 本稿では,GNPM(Geometric Neural Parametric Models)を提案する。このモデルでは,データの局所的構造を考慮し,点雲上の幾何認識アーキテクチャを用いて,不整形を学習し,4次元ダイナミックスの潜時空間を描画する。 サイクル整合性を利用して、トレーニング時に密度の高い対応を必要とせず、時間的に一貫した3次元変形を推定する。 密度の高い対応を学習する能力に加えて、GNPMは補間や形状/位置移動などの潜在空間操作を可能にする。 布を被った人間の様々なデータセット上でGNPMを評価し,訓練中に高密度の通信を必要とする最先端の手法と同等の性能を示すことを示す。

We propose Geometric Neural Parametric Models (GNPM), a learned parametric model that takes into account the local structure of data to learn disentangled shape and pose latent spaces of 4D dynamics, using a geometric-aware architecture on point clouds. Temporally consistent 3D deformations are estimated without the need for dense correspondences at training time, by exploiting cycle consistency. Besides its ability to learn dense correspondences, GNPMs also enable latent-space manipulations such as interpolation and shape/pose transfer. We evaluate GNPMs on various datasets of clothed humans, and show that it achieves comparable performance to state-of-the-art methods that require dense correspondences during training.
翻訳日:2022-09-23 13:23:36 公開日:2022-09-21
# 脳波と深層学習を用いた自己教師型脳速度としての認知負荷のモデル化

Modeling cognitive load as a self-supervised brain rate with electroencephalography and deep learning ( http://arxiv.org/abs/2209.10992v1 )

ライセンス: Link先を確認
Luca Longo(参考訳) メンタルワーク負荷を測定する主な理由は、タスクの実行の認知的コストを定量化し、人間のパフォーマンスを予測することである。 残念ながら、一般に適用可能なメンタルワークロードを評価する方法はまだ存在しない。 本研究では,人間の宣言的知識を必要とせず,深層学習と認知活性化指標である連続脳速度を用いた脳波データからメンタルワークロードをモデル化する新しい自己教師あり手法を提案する。 脳波データからスペクトル地形図を空間的に保存して脳速度変数に適合させることができる畳み込みリカレントニューラルネットワークである。 脳波データから有意義な高レベル表現を学習するための畳み込み層の能力は、オブジェクト内モデルでは平均11%の絶対誤差がテストされた。 高レベル表現のシーケンスを処理するための長期記憶層の追加は重要ではなかったが、精度は向上した。 学習した認知活性化の準安定ブロックの存在は、畳み込みによって誘導され、時間とともに互いに依存していないように見えるため、脳反応の非定常的性質と直感的に一致している。 より多くの参加者からのデータによって誘導されるクロスサブジェクトモデルは、より多くの変動性を持つので、イントラサブジェクトモデルと同様の精度を得た。 これは、被写体非依存の認知活性化パターンの存在を示唆する、人々間で誘導される高レベル表現の潜在的な一般化可能性を強調している。 本研究は, 一般応用を目指すメンタルワークロードモデリングの新しい計算手法を研究者に提供し, 再現性とファルシフィフィビリティを補助する有能な人体モデルに頼らないことにより, 知識の体系に寄与する。

The principal reason for measuring mental workload is to quantify the cognitive cost of performing tasks to predict human performance. Unfortunately, a method for assessing mental workload that has general applicability does not exist yet. This research presents a novel self-supervised method for mental workload modelling from EEG data employing Deep Learning and a continuous brain rate, an index of cognitive activation, without requiring human declarative knowledge. This method is a convolutional recurrent neural network trainable with spatially preserving spectral topographic head-maps from EEG data to fit the brain rate variable. Findings demonstrate the capacity of the convolutional layers to learn meaningful high-level representations from EEG data since within-subject models had a test Mean Absolute Percentage Error average of 11%. The addition of a Long-Short Term Memory layer for handling sequences of high-level representations was not significant, although it did improve their accuracy. Findings point to the existence of quasi-stable blocks of learnt high-level representations of cognitive activation because they can be induced through convolution and seem not to be dependent on each other over time, intuitively matching the non-stationary nature of brain responses. Across-subject models, induced with data from an increasing number of participants, thus containing more variability, obtained a similar accuracy to the within-subject models. This highlights the potential generalisability of the induced high-level representations across people, suggesting the existence of subject-independent cognitive activation patterns. This research contributes to the body of knowledge by providing scholars with a novel computational method for mental workload modelling that aims to be generally applicable, does not rely on ad-hoc human-crafted models supporting replicability and falsifiability.
翻訳日:2022-09-23 13:17:26 公開日:2022-09-21
# 単語埋め込みにおける影響情報の表現

Representing Affect Information in Word Embeddings ( http://arxiv.org/abs/2209.10583v1 )

ライセンス: Link先を確認
Yuhan Zhang, Wenqi Chen, Ruihan Zhang, Xiajie Zhang(参考訳) 自然言語処理(NLP)と自然言語理解(NLU)における研究の活発化は、大きな言語モデルから単語の埋め込みに学習またはエンコードされた人間のような知識を調査している。 これは、言語とコミュニケーションの人間の理解に似た知識言語モデルが捉えるものを理解するための一歩です。 そこで我々は,大容量ニューラルネットワークに事前学習した単語の埋め込みにおいて,単語の意味(価,覚醒,支配)がどのように符号化されているかを検討した。 人間のラベル付きデータセットを具体的真実として使用し,4種類の単語埋め込みの相関および分類試験を行った。 埋め込みは静的あるいは文脈的に変化し、事前学習と微調整の段階で特定の情報にどの程度影響するかが優先された。 解析の結果,バニラ・バートモデルによる単語埋め込みは,英語単語の影響情報を十分にエンコードしなかった。 BERTモデルが感情に関連したタスクを微調整したり、感情に富んだコンテキストからの余分なコンテキスト情報を含む場合のみ、対応する埋め込みエンコードはより関連性の高い影響情報をよりコード化できる。

A growing body of research in natural language processing (NLP) and natural language understanding (NLU) is investigating human-like knowledge learned or encoded in the word embeddings from large language models. This is a step towards understanding what knowledge language models capture that resembles human understanding of language and communication. Here, we investigated whether and how the affect meaning of a word (i.e., valence, arousal, dominance) is encoded in word embeddings pre-trained in large neural networks. We used the human-labeled dataset as the ground truth and performed various correlational and classification tests on four types of word embeddings. The embeddings varied in being static or contextualized, and how much affect specific information was prioritized during the pre-training and fine-tuning phase. Our analyses show that word embedding from the vanilla BERT model did not saliently encode the affect information of English words. Only when the BERT model was fine-tuned on emotion-related tasks or contained extra contextualized information from emotion-rich contexts could the corresponding embedding encode more relevant affect information.
翻訳日:2022-09-23 13:16:57 公開日:2022-09-21
# データボトルネックのドーディング:st corporaの自動分割による自動サブトイト

Dodging the Data Bottleneck: Automatic Subtitling with Automatically Segmented ST Corpora ( http://arxiv.org/abs/2209.10608v1 )

ライセンス: Link先を確認
Sara Papi, Alina Karakanta, Matteo Negri, Marco Turchi(参考訳) サブタイリング用音声翻訳(SubST)は、特定の表示ガイドラインに準拠したサブタイトルブレークを挿入することにより、音声データを適切な字幕に自動翻訳するタスクである。 音声翻訳(ST)と同様に、モデルトレーニングでは、テキスト翻訳と組み合わせた音声入力を含む並列データを必要とする。 しかしSubSTでは、テキストにはサブタイトルのブレークがアノテートされなければならない。 これまでのところ、この要件はシステム開発におけるボトルネックであり、公に入手可能なsubst corporaによって確認された。 このギャップを埋めるために,既存のSTコーパスを人間の介入なしにSubSTリソースに変換する手法を提案する。 音声とテキストをマルチモーダルな方法で活用し,ゼロショット条件下で高いセグメンテーション品質を実現することによって,テキストを適切な字幕に自動的に分割するセグメンタモデルを構築した。 また,手動および自動セグメンテーションを訓練したSubSTシステムとの比較実験により,本手法の有効性を示した。

Speech translation for subtitling (SubST) is the task of automatically translating speech data into well-formed subtitles by inserting subtitle breaks compliant to specific displaying guidelines. Similar to speech translation (ST), model training requires parallel data comprising audio inputs paired with their textual translations. In SubST, however, the text has to be also annotated with subtitle breaks. So far, this requirement has represented a bottleneck for system development, as confirmed by the dearth of publicly available SubST corpora. To fill this gap, we propose a method to convert existing ST corpora into SubST resources without human intervention. We build a segmenter model that automatically segments texts into proper subtitles by exploiting audio and text in a multimodal fashion, achieving high segmentation quality in zero-shot conditions. Comparative experiments with SubST systems respectively trained on manual and automatic segmentations result in similar performance, showing the effectiveness of our approach.
翻訳日:2022-09-23 13:16:36 公開日:2022-09-21
# SERF:埋め込み、ルール、特徴を用いた解釈可能な睡眠ステージング

SERF: Interpretable Sleep Staging using Embeddings, Rules, and Features ( http://arxiv.org/abs/2209.11174v1 )

ライセンス: Link先を確認
Irfan Al-Hussaini (1), Cassie S. Mitchell (1) ((1) Georgia Institute of Technology)(参考訳) 最近の深層学習に基づく臨床判断支援システムの精度は有望である。 しかし、モデル解釈能力の欠如は、医療における人工知能の普及の妨げとなっている。 睡眠をケーススタディとして,ブラックボックス深層学習から得られた高い精度と臨床解釈可能性を組み合わせるための一般化可能な手法を提案する。 ポリソムノグラム(PSG)の睡眠段階は、睡眠の質を評価するための金の基準である。 しかし、専門家によるpsgマニュアルアノテーションは高価で、時間がかかる。 我々は,PSGを読むための埋め込み,ルール,特徴を用いたSERF,解釈可能な睡眠ステージを提案する。 SERFは、睡眠と関連する出来事の装飾のためのAASMマニュアルから派生した意味のある特徴を通して、分類された睡眠ステージの解釈を提供する。 SERFでは、畳み込みニューラルネットワークと繰り返しニューラルネットワークのハイブリッドから得られる埋め込みを解釈可能な特徴空間に変換する。 これらの代表的解釈可能な特徴は、分類のための浅い決定木のような単純なモデルを訓練するために使用される。 モデル結果は2つの公開データセットで検証される。 SERFは、解釈可能な睡眠ステージングの最先端を2%超えている。 SERFはグラディエントブーストツリーを分類器として使用し、現在の最先端のブラックボックスモデルの2%以内に0.766$\kappa$と0.870 AUC-ROCを得る。

The accuracy of recent deep learning based clinical decision support systems is promising. However, lack of model interpretability remains an obstacle to widespread adoption of artificial intelligence in healthcare. Using sleep as a case study, we propose a generalizable method to combine clinical interpretability with high accuracy derived from black-box deep learning. Clinician-determined sleep stages from polysomnogram (PSG) remain the gold standard for evaluating sleep quality. However, PSG manual annotation by experts is expensive and time-prohibitive. We propose SERF, interpretable Sleep staging using Embeddings, Rules, and Features to read PSG. SERF provides interpretation of classified sleep stages through meaningful features derived from the AASM Manual for the Scoring of Sleep and Associated Events. In SERF, the embeddings obtained from a hybrid of convolutional and recurrent neural networks are transposed to the interpretable feature space. These representative interpretable features are used to train simple models like a shallow decision tree for classification. Model results are validated on two publicly available datasets. SERF surpasses the current state-of-the-art for interpretable sleep staging by 2%. Using Gradient Boosted Trees as the classifier, SERF obtains 0.766 $\kappa$ and 0.870 AUC-ROC, within 2% of the current state-of-the-art black-box models.
翻訳日:2022-09-23 13:09:01 公開日:2022-09-21
# 改良型サブシーズン予測のための適応バイアス補正

Adaptive Bias Correction for Improved Subseasonal Forecasting ( http://arxiv.org/abs/2209.10666v1 )

ライセンス: Link先を確認
Soukayna Mouatadid, Paulo Orenstein, Genevieve Flaspohler, Judah Cohen, Miruna Oprescu, Ernest Fraenkel, Lester Mackey(参考訳) サブシーズン予測$\unicode{x2013}$ 気温と降水量の予測 2 - 6週間 $\unicode{x2013}$ 前は効果的な水の割り当て、山火事の管理、干ばつと洪水の軽減に重要である。 近年の国際研究により、運用力学モデルの季節的能力が向上しているが、温度と降水予測のスキルは乏しいままである。 そこで本研究では,最先端の動的予測と機械学習を用いた観測を組み合わせた適応バイアス補正(abc)手法を提案する。 欧州中レージ気象予報センター(ECMWF)の先行サブシーズンモデルに適用すると、ABCは連続した米国において60~90%、降水予測技術は40~69%向上する。 これらの性能改善を,コホート・シャプリー(Cohort Shapley)をベースとした実践的なワークフローと組み合わせ,ABCのスキル向上を説明するとともに,特定の気候条件に基づいて高度な機会窓を特定する。

Subseasonal forecasting $\unicode{x2013}$ predicting temperature and precipitation 2 to 6 weeks $\unicode{x2013}$ ahead is critical for effective water allocation, wildfire management, and drought and flood mitigation. Recent international research efforts have advanced the subseasonal capabilities of operational dynamical models, yet temperature and precipitation prediction skills remains poor, partly due to stubborn errors in representing atmospheric dynamics and physics inside dynamical models. To counter these errors, we introduce an adaptive bias correction (ABC) method that combines state-of-the-art dynamical forecasts with observations using machine learning. When applied to the leading subseasonal model from the European Centre for Medium-Range Weather Forecasts (ECMWF), ABC improves temperature forecasting skill by 60-90% and precipitation forecasting skill by 40-69% in the contiguous U.S. We couple these performance improvements with a practical workflow, based on Cohort Shapley, for explaining ABC skill gains and identifying higher-skill windows of opportunity based on specific climate conditions.
翻訳日:2022-09-23 13:08:41 公開日:2022-09-21
# 過パラメータ行列の検証と画像復元

A Validation Approach to Over-parameterized Matrix and Image Recovery ( http://arxiv.org/abs/2209.10675v1 )

ライセンス: Link先を確認
Lijun Ding, Zhen Qin, Liwei Jiang, Jinxin Zhou, Zhihui Zhu(参考訳) そこで本研究では,多数の雑音のランダムな線形測定から低ランク行列を復元する問題について検討する。 ここでは, 基底トラス行列のランクが未知であるような設定について考察し, 大域最適解が過度に適合し, 基底トラスと対応しない行列変数の過特定因子表現を用いる。 次に,小さなランダム初期化を伴う勾配降下を用いて,関連する非凸問題を解く。 以上の結果から, 測定演算子は, 過比行列変数にスケールするよりも, 接地行列のランクにスケールするランクパラメータで, 制限等長性 (rip) を満たす限り, 傾斜降下イテレーションは接地行列への特定の軌道上にあり, 適切に停止すると, ほぼ情報理論上最適回復が達成されることが示された。 そこで我々は,共通ホールドアウト法に基づく効率的な早期停止戦略を提案し,ほぼ最適な推定器を確実に検出することを示す。 さらに,提案手法は,ディープネットワークによる画像の過剰パラメータ化に先行する深層画像を用いた画像復元にも効果的に使用できることを示す実験を行った。

In this paper, we study the problem of recovering a low-rank matrix from a number of noisy random linear measurements. We consider the setting where the rank of the ground-truth matrix is unknown a prior and use an overspecified factored representation of the matrix variable, where the global optimal solutions overfit and do not correspond to the underlying ground-truth. We then solve the associated nonconvex problem using gradient descent with small random initialization. We show that as long as the measurement operators satisfy the restricted isometry property (RIP) with its rank parameter scaling with the rank of ground-truth matrix rather than scaling with the overspecified matrix variable, gradient descent iterations are on a particular trajectory towards the ground-truth matrix and achieve nearly information-theoretically optimal recovery when stop appropriately. We then propose an efficient early stopping strategy based on the common hold-out method and show that it detects nearly optimal estimator provably. Moreover, experiments show that the proposed validation approach can also be efficiently used for image restoration with deep image prior which over-parameterizes an image with a deep network.
翻訳日:2022-09-23 13:08:18 公開日:2022-09-21
# ホームドローンの深層学習 : 最適なアーキテクチャを求めて

Deep Learning on Home Drone: Searching for the Optimal Architecture ( http://arxiv.org/abs/2209.11064v1 )

ライセンス: Link先を確認
Alaa Maalouf and Yotam Gurfinkel and Barak Diker and Oren Gal and Daniela Rus and Dan Feldman(参考訳) 我々は,Raspberry Pi Zero v2 (価格は15ドル) のような弱いマイクロコンピュータ上で,ディープラーニングによるリアルタイムセマンティックセマンティックセマンティクスを実行する最初のシステムを提案する。 特に、raspberry piの重さは16ドル未満で、そのサイズはクレジットカードの半分なので、一般的な市販のdji tello toy-drone (<$100, <90g, 98 $\times$ 92.5$\times$ 41 mm)に簡単に取り付けることができる。 その結果、自律ドローン(ラップトップもループの人間もいない)が、オンボードの単眼のRGBカメラ(GPSやLIDARセンサーなし)のビデオストリームからオブジェクトをリアルタイムで検出し、分類することができる。 このビデオでは、Telloドローンが実験室(消防士や治安部隊の使用など)や、実験室の外の空の駐車場をスキャンする方法が示されている。 既存のディープラーニングソリューションは、そのようなIoTデバイス上でリアルタイム計算を行うにはあまりにも遅すぎるか、あるいは非現実的な品質の結果を提供する。 私たちの主な課題は、ネットワーク、ディープラーニングプラットフォーム/フレームワーク、圧縮技術、圧縮比の多くの組み合わせの中で、すべての世界のベストを尽くすシステムを設計することでした。 そこで本研究では,ネットワーク実行時間と精度・性能の最適なトレードオフをもたらす最適な組み合わせを見つけることを目的とした効率的な探索アルゴリズムを提案する。

We suggest the first system that runs real-time semantic segmentation via deep learning on a weak micro-computer such as the Raspberry Pi Zero v2 (whose price was \$15) attached to a toy-drone. In particular, since the Raspberry Pi weighs less than $16$ grams, and its size is half of a credit card, we could easily attach it to the common commercial DJI Tello toy-drone (<\$100, <90 grams, 98 $\times$ 92.5 $\times$ 41 mm). The result is an autonomous drone (no laptop nor human in the loop) that can detect and classify objects in real-time from a video stream of an on-board monocular RGB camera (no GPS or LIDAR sensors). The companion videos demonstrate how this Tello drone scans the lab for people (e.g. for the use of firefighters or security forces) and for an empty parking slot outside the lab. Existing deep learning solutions are either much too slow for real-time computation on such IoT devices, or provide results of impractical quality. Our main challenge was to design a system that takes the best of all worlds among numerous combinations of networks, deep learning platforms/frameworks, compression techniques, and compression ratios. To this end, we provide an efficient searching algorithm that aims to find the optimal combination which results in the best tradeoff between the network running time and its accuracy/performance.
翻訳日:2022-09-23 13:06:30 公開日:2022-09-21
# BERTScoreを用いた障害音声のASRモデル品質評価

Assessing ASR Model Quality on Disordered Speech using BERTScore ( http://arxiv.org/abs/2209.10591v1 )

ライセンス: Link先を確認
Jimmy Tobin, Qisheng Li, Subhashini Venugopalan, Katie Seaver, Richard Cave, Katrin Tomanek(参考訳) 単語誤り率(WER)は、自動音声認識(ASR)モデルの品質を評価するために使われる主要な指標である。 ASRモデルは、典型的な英語話者よりも、音声障害のある話者に対してWERが高い傾向が示されている。 このような高いエラー率でモデルが有用かどうかを判断することは困難である。 本研究は,テキスト生成のための評価指標であるbertscoreを用いて,asrモデルの品質と有用性をより有益に評価する。 BERTScore と WER は、誤りタイプと評価のために、音声言語病理医が手動で注釈付けした予測誤差と比較した。 BERTScoreは, エラータイプおよび評価の人為的評価と相関が認められた。 BERTScoreは特に、意味が保存されている正書法的な変更(抽出と正規化の誤り)に対して堅牢であった。 さらに、BERTScoreは、通常のロジスティック回帰とAkaike's Information Criterion(AIC)を用いて測定したように、WERよりもエラー評価に適していた。 全体として, bertscore はasrモデルの性能を実用的観点から評価する場合, 特にアクセシビリティ・アプリケーションにおいて, 従来の音声よりも精度が低い場合にも, ベルツコアは wer を補完できることが示唆された。

Word Error Rate (WER) is the primary metric used to assess automatic speech recognition (ASR) model quality. It has been shown that ASR models tend to have much higher WER on speakers with speech impairments than typical English speakers. It is hard to determine if models can be be useful at such high error rates. This study investigates the use of BERTScore, an evaluation metric for text generation, to provide a more informative measure of ASR model quality and usefulness. Both BERTScore and WER were compared to prediction errors manually annotated by Speech Language Pathologists for error type and assessment. BERTScore was found to be more correlated with human assessment of error type and assessment. BERTScore was specifically more robust to orthographic changes (contraction and normalization errors) where meaning was preserved. Furthermore, BERTScore was a better fit of error assessment than WER, as measured using an ordinal logistic regression and the Akaike's Information Criterion (AIC). Overall, our findings suggest that BERTScore can complement WER when assessing ASR model performance from a practical perspective, especially for accessibility applications where models are useful even at lower accuracy than for typical speech.
翻訳日:2022-09-23 12:59:34 公開日:2022-09-21
# ロバストマルコフ決定過程の1次政策最適化

First-order Policy Optimization for Robust Markov Decision Process ( http://arxiv.org/abs/2209.10579v1 )

ライセンス: Link先を確認
Yan Li, Tuo Zhao, Guanghui Lan(参考訳) 我々は,安定なマルコフ決定過程 (MDP) の解法について考察する。これは,不確実な遷移カーネルを持つ,割引された有限状態有限作用空間 MDP の集合を含む。 計画の目標は、移行の不確実性に対して最悪の場合の値を最適化し、そのため、特別のケースとして標準のMDP計画を包含する堅牢な政策を見つけることである。 例えば、$(\mathbf{s},\mathbf{a})$-rectangularの不確実性集合に対して、ポリシーベースの一階法、すなわちロバストなポリシーミラー降下 (rpmd) を開発し、$\mathcal{o}(\log(1/\epsilon))$ と $\mathcal{o}(1/\epsilon)$ という2つの段階的なスキームで$\epsilon$-optimalポリシーを見つけるための反復複雑性を確立する。 RPMDの先行収束は、ポリシー空間が初期ポリシーの中心となるときに発散によって測定される有界半径を持つならば、任意のブレグマン発散に適用できる。 さらに、ブレグマンの発散が二乗ユークリッド距離に対応するとき、任意の定数のステップを持つ rpmd の複雑性を $\eta$ とする $\mathcal{o}(\max \{1/\epsilon, 1/(\eta \epsilon^2)\}) を確立する。 ブレグマン発散の一般クラスに対しては、相対的な強い凸性を満たす不確実性集合が成立すれば、RPMD にも同様の複雑性が確立される。 SRPMDという名前の確率的変種をさらに発展させ、一階情報は名目環境とのオンラインインタラクションを通してのみ利用可能である。 一般的なブレグマンの発散に対して、$\mathcal{O}(1/\epsilon^2)$と$\mathcal{O}(1/\epsilon^3)$のサンプル複雑性を2つの増分スキームで確立する。 ユークリッドブレグマンの発散に対して、定数のステップ化を伴うサンプル複雑性の $\mathcal{o}(1/\epsilon^3)$ を確立する。 我々の知る限り、上記の結果はすべて、ロバストなMDP問題に適用されたポリシーベースの一階法に新しいものと思われる。

We consider the problem of solving robust Markov decision process (MDP), which involves a set of discounted, finite state, finite action space MDPs with uncertain transition kernels. The goal of planning is to find a robust policy that optimizes the worst-case values against the transition uncertainties, and thus encompasses the standard MDP planning as a special case. For $(\mathbf{s},\mathbf{a})$-rectangular uncertainty sets, we develop a policy-based first-order method, namely the robust policy mirror descent (RPMD), and establish an $\mathcal{O}(\log(1/\epsilon))$ and $\mathcal{O}(1/\epsilon)$ iteration complexity for finding an $\epsilon$-optimal policy, with two increasing-stepsize schemes. The prior convergence of RPMD is applicable to any Bregman divergence, provided the policy space has bounded radius measured by the divergence when centering at the initial policy. Moreover, when the Bregman divergence corresponds to the squared euclidean distance, we establish an $\mathcal{O}(\max \{1/\epsilon, 1/(\eta \epsilon^2)\})$ complexity of RPMD with any constant stepsize $\eta$. For a general class of Bregman divergences, a similar complexity is also established for RPMD with constant stepsizes, provided the uncertainty set satisfies the relative strong convexity. We further develop a stochastic variant, named SRPMD, when the first-order information is only available through online interactions with the nominal environment. For general Bregman divergences, we establish an $\mathcal{O}(1/\epsilon^2)$ and $\mathcal{O}(1/\epsilon^3)$ sample complexity with two increasing-stepsize schemes. For the euclidean Bregman divergence, we establish an $\mathcal{O}(1/\epsilon^3)$ sample complexity with constant stepsizes. To the best of our knowledge, all the aforementioned results appear to be new for policy-based first-order methods applied to the robust MDP problem.
翻訳日:2022-09-23 12:58:29 公開日:2022-09-21
# SW-VAE: 遅延因子スワッピングによる非交叉表現の弱監視

SW-VAE: Weakly Supervised Learn Disentangled Representation Via Latent Factor Swapping ( http://arxiv.org/abs/2209.10623v1 )

ライセンス: Link先を確認
Jiageng Zhu, Hanchen Xie, Wael Abd-Almageed(参考訳) 表現の絡み合いは、様々な下流タスクに役立つ表現学習の重要な目標である。 この目的を達成するために、教師なし学習表現非絡み合いアプローチが数多く開発されている。 しかし, 教師信号を使用しない訓練プロセスは, 絡み合い表現学習には不十分であることが証明されている。 そこで本研究では,データセットの生成因子を用いて,入力観測のペアを監督信号として組み込む,sw-vaeと呼ばれる新しい弱教師付き学習手法を提案する。 さらに,学習過程の円滑化を図るため,学習の難しさを徐々に増す戦略を導入する。 いくつかのデータセットで示されるように、このモデルでは、表現の不整合タスクにおける最先端(SOTA)メソッドよりも大幅に改善されている。

Representation disentanglement is an important goal of representation learning that benefits various downstream tasks. To achieve this goal, many unsupervised learning representation disentanglement approaches have been developed. However, the training process without utilizing any supervision signal have been proved to be inadequate for disentanglement representation learning. Therefore, we propose a novel weakly-supervised training approach, named as SW-VAE, which incorporates pairs of input observations as supervision signals by using the generative factors of datasets. Furthermore, we introduce strategies to gradually increase the learning difficulty during training to smooth the training process. As shown on several datasets, our model shows significant improvement over state-of-the-art (SOTA) methods on representation disentanglement tasks.
翻訳日:2022-09-23 12:50:47 公開日:2022-09-21
# クラスタリングのためのアルゴリズム非依存解釈

Algorithm-Agnostic Interpretations for Clustering ( http://arxiv.org/abs/2209.10578v1 )

ライセンス: Link先を確認
Christian A. Scholbeck, Henri Funk, Giuseppe Casalicchio(参考訳) 高次元データのクラスタリング結果は通常、次元の縮小とその後の可視化を含む後処理によって解釈される。 これはデータの意味を破壊し、解釈を曖昧にする。 本稿では,データの完全性を維持しつつ,縮小次元でのクラスタリング結果を説明するアルゴリズム非依存解釈手法を提案する。 クラスタリングにおける置換機能の重要性は、特徴値のシャッフルと、カスタムスコア関数によるクラスタ割り当ての変化の測定に基づく一般的なフレームワークを表している。 クラスタリングに対する個々の条件予測は、データの変化によるクラスタ割り当ての観察的変化を示している。 クラスタリングに対する部分依存は、機能空間全体のクラスタ割り当ての平均的な変化を評価する。 すべてのメソッドは、ソフトラベルやハードラベルでインスタンスを再割り当て可能なクラスタリングアルゴリズムで使用できる。 主成分分析などの一般的な後処理手法とは対照的に,提案手法は特徴の本来の構造を維持している。

A clustering outcome for high-dimensional data is typically interpreted via post-processing, involving dimension reduction and subsequent visualization. This destroys the meaning of the data and obfuscates interpretations. We propose algorithm-agnostic interpretation methods to explain clustering outcomes in reduced dimensions while preserving the integrity of the data. The permutation feature importance for clustering represents a general framework based on shuffling feature values and measuring changes in cluster assignments through custom score functions. The individual conditional expectation for clustering indicates observation-wise changes in the cluster assignment due to changes in the data. The partial dependence for clustering evaluates average changes in cluster assignments for the entire feature space. All methods can be used with any clustering algorithm able to reassign instances through soft or hard labels. In contrast to common post-processing methods such as principal component analysis, the introduced methods maintain the original structure of the features.
翻訳日:2022-09-23 12:49:52 公開日:2022-09-21
# nashae: 逆共分散最小化による分散表現

NashAE: Disentangling Representations through Adversarial Covariance Minimization ( http://arxiv.org/abs/2209.10677v1 )

ライセンス: Link先を確認
Eric Yeats, Frank Liu, David Womble, Hai Li(参考訳) 本研究では,従来の変動プロファイルの知識に依存しない高次元データ(例えば,抽出すべき個々の潜伏変数の数や分布に関する仮定は存在しない)の変動係数を乱す自己教師手法を提案する。 NashAEと呼ぶこの方法は、各エンコーディング要素と他のエンコーディング要素から回収された要素の情報との相違を促進させることにより、標準オートエンコーダ(AE)の低次元潜在空間において高次元特徴分散を実現する。 アンタングルメントは、これをAEと回帰ネットワークのアンサンブルとのミニマックスゲームとしてフレーミングすることで効率よく促進され、それぞれが他のすべての要素の観測に基づいて条件付けられた要素の見積もりを提供する。 提案手法を,既存の乱れ指標を用いた先行的乱れ手法と定量的に比較する。 さらに,NashAEの信頼性は向上し,学習した潜在表現における有能なデータ特性を捉える能力も向上した。

We present a self-supervised method to disentangle factors of variation in high-dimensional data that does not rely on prior knowledge of the underlying variation profile (e.g., no assumptions on the number or distribution of the individual latent variables to be extracted). In this method which we call NashAE, high-dimensional feature disentanglement is accomplished in the low-dimensional latent space of a standard autoencoder (AE) by promoting the discrepancy between each encoding element and information of the element recovered from all other encoding elements. Disentanglement is promoted efficiently by framing this as a minmax game between the AE and an ensemble of regression networks which each provide an estimate of an element conditioned on an observation of all other elements. We quantitatively compare our approach with leading disentanglement methods using existing disentanglement metrics. Furthermore, we show that NashAE has increased reliability and increased capacity to capture salient data characteristics in the learned latent representation.
翻訳日:2022-09-23 12:49:40 公開日:2022-09-21
# PreF: 予測可能性の正規化ニューラルモーションフィールド

PREF: Predictability Regularized Neural Motion Fields ( http://arxiv.org/abs/2209.10691v1 )

ライセンス: Link先を確認
Liangchen Song, Xuan Gong, Benjamin Planche, Meng Zheng, David Doermann, Junsong Yuan, Terrence Chen, Ziyan Wu(参考訳) ダイナミックなシーンで3dの動きを知ることは、多くの視覚アプリケーションにとって不可欠である。 最近の進歩は主に、人間のような特定の要素の活性を推定することに焦点を当てている。 本稿では,多視点環境における全点の動きを推定するために,神経運動場を利用する。 動的シーンからの動作をマルチビューデータでモデル化するのは,類似色点と時間変化色点のあいまいさのため困難である。 予測可能な動きを正規化することを提案する。 前のフレームからの動作が分かっている場合、近い将来の動作は予測可能であるべきである。 そこで我々は,まず遅延埋め込みに推定動作を条件付け,次に予測ネットワークを用いて埋め込みに予測可能性を適用することによって予測可能性正則化を提案する。 提案したフレームワーク PreF (Predictability Regularized Fields) は、最先端のニューラルモーション場に基づく動的シーン表現法よりも同等以上の結果が得られるが、シーンの事前の知識は不要である。

Knowing the 3D motions in a dynamic scene is essential to many vision applications. Recent progress is mainly focused on estimating the activity of some specific elements like humans. In this paper, we leverage a neural motion field for estimating the motion of all points in a multiview setting. Modeling the motion from a dynamic scene with multiview data is challenging due to the ambiguities in points of similar color and points with time-varying color. We propose to regularize the estimated motion to be predictable. If the motion from previous frames is known, then the motion in the near future should be predictable. Therefore, we introduce a predictability regularization by first conditioning the estimated motion on latent embeddings, then by adopting a predictor network to enforce predictability on the embeddings. The proposed framework PREF (Predictability REgularized Fields) achieves on par or better results than state-of-the-art neural motion field-based dynamic scene representation methods, while requiring no prior knowledge of the scene.
翻訳日:2022-09-23 12:49:22 公開日:2022-09-21
# 現実の運転シナリオにおける確率的未来予測

Stochastic Future Prediction in Real World Driving Scenarios ( http://arxiv.org/abs/2209.10693v1 )

ライセンス: Link先を確認
Adil Kaan Akan(参考訳) 不確実性は将来の予測において重要な役割を果たす。 未来は定かではない。 つまり、多くの将来性があるかもしれない。 将来予測法は、堅牢である可能性全体を網羅するべきである。 自動運転では、予測部分の複数のモードをカバーすることが、安全クリティカルな決定を行う上で極めて重要である。 近年,コンピュータビジョンシステムは非常に進歩しているが,将来予測はいまだに困難である。 いくつか例は、未来の不確実性、全シーン理解の必要性、ノイズ出力空間である。 本稿では,運動を確率的方法で明示的にモデル化し,時間的ダイナミクスを潜時空間で学習することにより,これらの課題に対する解決策を提案する。

Uncertainty plays a key role in future prediction. The future is uncertain. That means there might be many possible futures. A future prediction method should cover the whole possibilities to be robust. In autonomous driving, covering multiple modes in the prediction part is crucially important to make safety-critical decisions. Although computer vision systems have advanced tremendously in recent years, future prediction remains difficult today. Several examples are uncertainty of the future, the requirement of full scene understanding, and the noisy outputs space. In this thesis, we propose solutions to these challenges by modeling the motion explicitly in a stochastic way and learning the temporal dynamics in a latent space.
翻訳日:2022-09-23 12:49:05 公開日:2022-09-21
# 統計的適応のための繰り返しニューラルネットワークの学習ダイナミクスを加速するインターニューロロン

Interneurons accelerate learning dynamics in recurrent neural networks for statistical adaptation ( http://arxiv.org/abs/2209.10634v1 )

ライセンス: Link先を確認
David Lipshutz, Cengiz Pehlevan, Dmitri B. Chklovskii(参考訳) 脳の初期の感覚システムは、ニューロン間の繰り返し通信を必要とする入力統計に急速に適応する。 機械的には、そのような繰り返し通信はしばしば間接的であり、局所的な介在物によって媒介される。 本研究では,リカレント通信と直接リカレント接続を比較することで,リカレント通信を仲介する計算上の利点について検討する。 この目的のために、数学的に抽出可能な2つのリカレントニューラルネットワークについて検討する。1つは直接リカレント接続を持ち、もう1つは再カレント通信を仲介するインターニューロンを持つ。 対応する連続的なシナプス力学を解析し、ネットワークを数値的にシミュレーションすることにより、相互ニューロンを持つネットワークは、その初期化のスペクトルに対数的に(線形に)スケールするネットワークにおけるシナプス力学の収束時間という観点から、直接再帰接続を持つネットワークよりも初期化に頑健であることを示す。 以上の結果から,インターニューロンは入力統計の変化に迅速に適応するために計算上有用であることが示唆された。 興味深いことに、インターニューロンのネットワークは、直接リカレント接続を持つネットワークのホワイト化目的のオーバーパラメトリズド解であり、この結果は、オーバーパラメタ化されたフィードフォワード線形ネットワークで観測される暗黙的加速度現象のリカレントニューラルネットワーク類似物と見なすことができる。

Early sensory systems in the brain rapidly adapt to fluctuating input statistics, which requires recurrent communication between neurons. Mechanistically, such recurrent communication is often indirect and mediated by local interneurons. In this work, we explore the computational benefits of mediating recurrent communication via interneurons compared with direct recurrent connections. To this end, we consider two mathematically tractable recurrent neural networks that statistically whiten their inputs -- one with direct recurrent connections and the other with interneurons that mediate recurrent communication. By analyzing the corresponding continuous synaptic dynamics and numerically simulating the networks, we show that the network with interneurons is more robust to initialization than the network with direct recurrent connections in the sense that the convergence time for the synaptic dynamics in the network with interneurons (resp. direct recurrent connections) scales logarithmically (resp. linearly) with the spectrum of their initialization. Our results suggest that interneurons are computationally useful for rapid adaptation to changing input statistics. Interestingly, the network with interneurons is an overparameterized solution of the whitening objective for the network with direct recurrent connections, so our results can be viewed as a recurrent neural network analogue of the implicit acceleration phenomenon observed in overparameterized feedforward linear networks.
翻訳日:2022-09-23 12:33:28 公開日:2022-09-21
# トラクタブル確率モデルの連続混合

Continuous Mixtures of Tractable Probabilistic Models ( http://arxiv.org/abs/2209.10584v1 )

ライセンス: Link先を確認
Alvaro H.C. Correia, Gennaro Gala, Erik Quaeghebeur, Cassio de Campos, Robert Peharz(参考訳) 変分オートエンコーダのような連続的潜在空間に基づく確率的モデルは、コンポーネントが潜在コードに依存する可算混合モデルとして理解することができる。 それらは生成的および確率的モデリングのための表現的ツールを証明してきたが、引き算可能な確率的推論、すなわち、表現された確率分布の限界と条件の計算に反する。 一方、確率的回路(pcs)のような扱いやすい確率的モデルは、正確な推論を可能にする階層的離散混合モデルとして理解することができるが、連続的潜在空間モデルと比較してサブパー性能を示すことが多い。 本稿では,少ない潜在次元のトラクタブルモデルの連続混合というハイブリッドアプローチについて検討する。 これらのモデルは解析的に難解であるが、有限の積分点集合に基づく数値積分スキームによく対応できる。 十分な数の統合ポイントがあれば、近似は正確にデファクトになる。 さらに、有限の積分点集合を用いて近似法を「近似モデルにおける正確な推論」を行うPCにコンパイルすることができる。 実験では、PCが多くの標準密度推定ベンチマーク上で、トラクタブルモデルのための新しい最先端のモデルを設定することで、この単純なスキームが極めて効果的であることを示す。

Probabilistic models based on continuous latent spaces, such as variational autoencoders, can be understood as uncountable mixture models where components depend continuously on the latent code. They have proven expressive tools for generative and probabilistic modelling, but are at odds with tractable probabilistic inference, that is, computing marginals and conditionals of the represented probability distribution. Meanwhile, tractable probabilistic models such as probabilistic circuits (PCs) can be understood as hierarchical discrete mixture models, which allows them to perform exact inference, but often they show subpar performance in comparison to continuous latent-space models. In this paper, we investigate a hybrid approach, namely continuous mixtures of tractable models with a small latent dimension. While these models are analytically intractable, they are well amenable to numerical integration schemes based on a finite set of integration points. With a large enough number of integration points the approximation becomes de-facto exact. Moreover, using a finite set of integration points, the approximation method can be compiled into a PC performing `exact inference in an approximate model'. In experiments, we show that this simple scheme proves remarkably effective, as PCs learned this way set new state-of-the-art for tractable models on many standard density estimation benchmarks.
翻訳日:2022-09-23 12:32:59 公開日:2022-09-21
# 高周波側チャネルによるロボットの動作再建

Reconstructing Robot Operations via Radio-Frequency Side-Channel ( http://arxiv.org/abs/2209.10179v1 )

ライセンス: Link先を確認
Ryan Shah, Mujeeb Ahmed, Shishir Nagaraja(参考訳) 接続された遠隔操作ロボットシステムは、高い精度と低いエラーマージンで運用ワークフローが実行されることを保証する上で重要な役割を果たす。 近年、サイバードメインからロボット自身を積極的に標的とする様々な攻撃が提案されている。 しかし、受動的攻撃の能力にはほとんど注意が払われていない。 本研究では,内部敵が無線周波数側チャネルを介して,正確に指紋ロボットの動きや操作用ウェアハウジングワークフローを行うことができるかどうかをステルス的に検討する。 分類にSVMを用いると、敵は少なくとも96%の精度で個々のロボットの動きをフィンガープリントすることができ、ウェアハウジングのワークフロー全体を再構築するとほぼ完全に精度が向上することがわかった。

Connected teleoperated robotic systems play a key role in ensuring operational workflows are carried out with high levels of accuracy and low margins of error. In recent years, a variety of attacks have been proposed that actively target the robot itself from the cyber domain. However, little attention has been paid to the capabilities of a passive attacker. In this work, we investigate whether an insider adversary can accurately fingerprint robot movements and operational warehousing workflows via the radio frequency side channel in a stealthy manner. Using an SVM for classification, we found that an adversary can fingerprint individual robot movements with at least 96% accuracy, increasing to near perfect accuracy when reconstructing entire warehousing workflows.
翻訳日:2022-09-22 17:38:54 公開日:2022-09-21
# アコースティックサイドチャネルによる指先ロボットの動き

Fingerprinting Robot Movements via Acoustic Side Channel ( http://arxiv.org/abs/2209.10240v1 )

ライセンス: Link先を確認
Ryan Shah, Mujeeb Ahmed, Shishir Nagaraja(参考訳) 本稿では,音声の音響特性を利用してロボットの動きをフィンガープリントするために,動作中のロボットを録音するスマートフォンマイクを用いた音響サイドチャネル攻撃を提案する。 本研究では,スマートフォンマイクのみを装備したロボットシステム(技術者やロボットオペレーターなど)の物理的近接状態にあるインサイダー敵の可能性を検討する。 3d空間内の個々のロボットの動きだけでなく、その動きの目的(つまり手術ロボットが行う手術手順)を推測しうる動きのパターンを指紋化することが可能であり、それによって潜在的なプライバシー侵害を生じさせる可能性があることを、音響サイドチャネルを通じて実証する。 評価の結果,個々のロボットの動きを約75%の精度で指紋化することができ,距離や速度などのよりきめ細かい移動メタデータでわずかに減少することがわかった。 さらに、ワークフローは全体として約62%の精度で再構築でき、ピック・アンド・プレイスやパッキングといったより複雑な動きをほぼ完璧に再現できる。 また、外科的設定など一部の環境では、教育・教育目的や遠隔遠隔医療など、VoIP経由で音声を録音・送信することができる。 ここでの問題は、VoIP通信が採用されても、同じ攻撃が成功するか、パケットロスがキャプチャされたオーディオと攻撃の成功にどのように影響するか、ということだ。 スマートフォンが捉えた音声の音響特性と同じで,VoIPコーデックを使わずに,VoIPサンプルを平均で90%,ベースラインより15%高い精度で指紋認証を行った。 これにより、匿名通信に関する新たな研究課題が開かれ、VoIP通信ネットワークを介して音響サイドチャネル攻撃からロボットシステムを保護する。

In this paper, we present an acoustic side channel attack which makes use of smartphone microphones recording a robot in operation to exploit acoustic properties of the sound to fingerprint a robot's movements. In this work we consider the possibility of an insider adversary who is within physical proximity of a robotic system (such as a technician or robot operator), equipped with only their smartphone microphone. Through the acoustic side-channel, we demonstrate that it is indeed possible to fingerprint not only individual robot movements within 3D space, but also patterns of movements which could lead to inferring the purpose of the movements (i.e. surgical procedures which a surgical robot is undertaking) and hence, resulting in potential privacy violations. Upon evaluation, we find that individual robot movements can be fingerprinted with around 75% accuracy, decreasing slightly with more fine-grained movement meta-data such as distance and speed. Furthermore, workflows could be reconstructed with around 62% accuracy as a whole, with more complex movements such as pick-and-place or packing reconstructed with near perfect accuracy. As well as this, in some environments such as surgical settings, audio may be recorded and transmitted over VoIP, such as for education/teaching purposes or in remote telemedicine. The question here is, can the same attack be successful even when VoIP communication is employed, and how does packet loss impact the captured audio and the success of the attack? Using the same characteristics of acoustic sound for plain audio captured by the smartphone, the attack was 90% accurate in fingerprinting VoIP samples on average, 15% higher than the baseline without the VoIP codec employed. This opens up new research questions regarding anonymous communications to protect robotic systems from acoustic side channel attacks via VoIP communication networks.
翻訳日:2022-09-22 17:38:43 公開日:2022-09-21
# 測度を超えた階層的計量構造を学ぶ

Learning Hierarchical Metrical Structure Beyond Measures ( http://arxiv.org/abs/2209.10259v1 )

ライセンス: Link先を確認
Junyan Jiang, Daniel Chin, Yixiao Zhang, Gus Xia(参考訳) 音楽はビートや測度を超えた階層構造を含んでいる。 階層構造アノテーションは音楽情報検索やコンピュータ音楽学に役立つが、現在のデジタル音楽データベースではそのようなアノテーションは少ない。 本稿では,スコアから階層的計量構造を自動的に抽出するデータ駆動手法を提案する。 本稿では,時間的畳み込みネットワーク-畳み込みランダムフィールド(TCN-CRF)アーキテクチャを用いた新しいモデルを提案する。 記号的な楽譜が与えられた場合、我々のモデルはビート量子化形式で任意の数の音声を取り込み、ダウンビートレベルからセクションレベルまでの4レベルの階層的計量構造を予測する。 また、RWC-POP MIDIファイルを用いてデータセットに注釈を付け、トレーニングと評価を容易にする。 実験により,提案手法は異なるオーケストレーション環境下でのルールベースアプローチよりも優れた性能を示す。 また,モデル予測について簡単な音楽学的解析を行った。 デモ、データセット、事前トレーニングされたモデルはすべて、githubで公開されている。

Music contains hierarchical structures beyond beats and measures. While hierarchical structure annotations are helpful for music information retrieval and computer musicology, such annotations are scarce in current digital music databases. In this paper, we explore a data-driven approach to automatically extract hierarchical metrical structures from scores. We propose a new model with a Temporal Convolutional Network-Conditional Random Field (TCN-CRF) architecture. Given a symbolic music score, our model takes in an arbitrary number of voices in a beat-quantized form, and predicts a 4-level hierarchical metrical structure from downbeat-level to section-level. We also annotate a dataset using RWC-POP MIDI files to facilitate training and evaluation. We show by experiments that the proposed method performs better than the rule-based approach under different orchestration settings. We also perform some simple musicological analysis on the model predictions. All demos, datasets and pre-trained models are publicly available on Github.
翻訳日:2022-09-22 17:38:11 公開日:2022-09-21
# マルチユーザmimoシステムのためのディープラーニング:パイロットの合同設計、限られたフィードバック、プリコーディング

Deep Learning for Multi-User MIMO Systems: Joint Design of Pilot, Limited Feedback, and Precoding ( http://arxiv.org/abs/2209.10332v1 )

ライセンス: Link先を確認
Jeonghyeon Jang, Hoon Lee, Il-Min Kim, Inkyu Lee(参考訳) 従来のマルチユーザマルチインプット多重出力(MU-MIMO)システムでは、チャネル取得とプリコーダ最適化は高結合性ながら別々に設計されている。 本稿では、パイロットシーケンス、限られたフィードバック、プリコーディングを含むダウンリンクMU-MIMOシステムのエンドツーエンド設計について述べる。 本稿では,ユーザによるフィードバック情報生成とベースステーション(BS)におけるプリコーダ設計を協調的に最適化する,新しいディープラーニング(DL)フレームワークを提案する。 MU-MIMOシステムの各手順は、インテリジェントに設計されたマルチディープニューラルネットワーク(DNN)ユニットに置き換えられる。 BSでは、ニューラルネットワークがパイロットシーケンスを生成し、ユーザが正確なチャネル状態情報を取得するのを助ける。 各ユーザにおいて、チャネルフィードバック操作は、個々のユーザdnnによって分散的に実行される。 そして、別のBS DNNがユーザからフィードバック情報を収集し、MIMOプリコーディング行列を決定する。 全てのDNNユニットをエンドツーエンドに最適化する共同トレーニングアルゴリズムを提案する。 また,スケーラブルな設計のために,異なるネットワークサイズに対する再トレーニングを回避できるトレーニング戦略を提案する。 従来の最適化手法や従来のDNN方式と比較して,提案したDLフレームワークの有効性を示す。

In conventional multi-user multiple-input multiple-output (MU-MIMO) systems with frequency division duplexing (FDD), channel acquisition and precoder optimization processes have been designed separately although they are highly coupled. This paper studies an end-to-end design of downlink MU-MIMO systems which include pilot sequences, limited feedback, and precoding. To address this problem, we propose a novel deep learning (DL) framework which jointly optimizes the feedback information generation at users and the precoder design at a base station (BS). Each procedure in the MU-MIMO systems is replaced by intelligently designed multiple deep neural networks (DNN) units. At the BS, a neural network generates pilot sequences and helps the users obtain accurate channel state information. At each user, the channel feedback operation is carried out in a distributed manner by an individual user DNN. Then, another BS DNN collects feedback information from the users and determines the MIMO precoding matrices. A joint training algorithm is proposed to optimize all DNN units in an end-to-end manner. In addition, a training strategy which can avoid retraining for different network sizes for a scalable design is proposed. Numerical results demonstrate the effectiveness of the proposed DL framework compared to classical optimization techniques and other conventional DNN schemes.
翻訳日:2022-09-22 17:37:57 公開日:2022-09-21
# ディジタル変調を用いたタスク指向通信のためのロバスト情報基盤

Robust Information Bottleneck for Task-Oriented Communication with Digital Modulation ( http://arxiv.org/abs/2209.10382v1 )

ライセンス: Link先を確認
Songjie Xie, Youlong Wu, Shuai Ma, Ming Ding, Yuanming Shi, Mingjian Tang(参考訳) タスク指向通信は、主に学習ベースのジョイントソースチャネル符号化(JSCC)を用いて、タスク関連情報を受信機に送信することで、コミュニケーション効率の高いエッジ推論システムを設計することを目的としている。 しかし、冗長性を導入することなくタスク関連情報のみを送信すると、チャネル変動による学習の堅牢性の問題が発生する可能性があり、ソースデータを連続チャネル入力シンボルに直接マッピングするJSCCは、既存のデジタル通信システム上で互換性の問題を引き起こす。 本稿では、まず、符号化された表現の情報性と、受信した表現の情報歪みに対する頑健性との間の固有のトレードオフを調査し、次に、デジタル変調を用いたタスク指向通信方式(DT-JSCC)を提案し、送信機が特徴を離散表現に符号化し、デジタル変調方式で受信機に送信する。 dt-jscc方式では,チャネル変動に対する通信ロバスト性を向上させるためのロバスト情報ボトルネック(rib)と呼ばれるロバスト符号化フレームワークを開発し,変動近似を用いてリブ目的関数の移動可能な変動上限を導出し,相互情報の計算の難解さを克服する。 実験の結果,提案したDT-JSCCは,通信遅延の低いベースライン手法よりも優れた推論性能を示し,適用されたRIBフレームワークによるチャネル変動に対する堅牢性を示すことがわかった。

Task-oriented communications, mostly using learning-based joint source-channel coding (JSCC), aim to design a communication-efficient edge inference system by transmitting task-relevant information to the receiver. However, only transmitting task-relevant information without introducing any redundancy may cause robustness issues in learning due to the channel variations, and the JSCC which directly maps the source data into continuous channel input symbols poses compatibility issues on existing digital communication systems. In this paper, we address these two issues by first investigating the inherent tradeoff between the informativeness of the encoded representations and the robustness to information distortion in the received representations, and then propose a task-oriented communication scheme with digital modulation, named discrete task-oriented JSCC (DT-JSCC), where the transmitter encodes the features into a discrete representation and transmits it to the receiver with the digital modulation scheme. In the DT-JSCC scheme, we develop a robust encoding framework, named robust information bottleneck (RIB), to improve the communication robustness to the channel variations, and derive a tractable variational upper bound of the RIB objective function using the variational approximation to overcome the computational intractability of mutual information. The experimental results demonstrate that the proposed DT-JSCC achieves better inference performance than the baseline methods with low communication latency, and exhibits robustness to channel variations due to the applied RIB framework.
翻訳日:2022-09-22 17:37:35 公開日:2022-09-21
# SAE L2車両における入出力による適応運転スタイルの予測

Identification of Adaptive Driving Style Preference through Implicit Inputs in SAE L2 Vehicles ( http://arxiv.org/abs/2209.10536v1 )

ライセンス: Link先を確認
Zhaobo K. Zheng, Kumar Akash, Teruhisa Misu, Vidya Krishmoorthy, Miaomiao Dong, Yuni Lee, Gaojian Huang(参考訳) 自動走行車の機能を最適に受け入れ、快適にするための重要な要素は、運転スタイルである。 自動と運転者の好みの運転スタイルのミスマッチにより、ユーザーはより頻繁に乗っ取り、自動化機能を無効にすることができる。 本研究は,マルチモーダル信号を用いたユーザの運転スタイル選択の同定を提案するものである。 被験者36名を対象に運転シミュレータ実験を行い,行動,生理,状況などの多モーダルデータを収集した。 これには、視線、ステアリンググリップ力、運転操作、ブレーキとスロットルペダル入力、ペダルからの足の距離、瞳孔径、ガルバニック皮膚反応、心拍数、状況変化などが含まれる。 そして、好みの運転スタイルを特定するために機械学習モデルを構築し、すべてのモダリティがユーザの好みを特定する上で重要であることを確認した。 この作業は、自動運転車の暗黙の適応型運転スタイルへの道を開くものだ。

A key factor to optimal acceptance and comfort of automated vehicle features is the driving style. Mismatches between the automated and the driver preferred driving styles can make users take over more frequently or even disable the automation features. This work proposes identification of user driving style preference with multimodal signals, so the vehicle could match user preference in a continuous and automatic way. We conducted a driving simulator study with 36 participants and collected extensive multimodal data including behavioral, physiological, and situational data. This includes eye gaze, steering grip force, driving maneuvers, brake and throttle pedal inputs as well as foot distance from pedals, pupil diameter, galvanic skin response, heart rate, and situational drive context. Then, we built machine learning models to identify preferred driving styles, and confirmed that all modalities are important for the identification of user preference. This work paves the road for implicit adaptive driving styles on automated vehicles.
翻訳日:2022-09-22 17:37:06 公開日:2022-09-21
# t5ql: sql生成のための言語モデル変更

T5QL: Taming language models for SQL generation ( http://arxiv.org/abs/2209.10254v1 )

ライセンス: Link先を確認
Samuel Arcadinho, David Apar\'icio, Hugo Veiga, Ant\'onio Alegria(参考訳) SQLの自動生成は、SQLを書く代わりに、自然言語を所定の意図で書くことによって、データベースへのアクセスを合理化することを目的として、活発な研究領域である。 セマンティック解析のための現在のSOTA法は、ベンチマークデータセット上で高い予測精度を達成するためにLLMに依存する。 LLMは高価なGPUを必要とするため、適用性が低下する。 さらに、SOTAメソッドはアングラウンド化されており、常に有効なSQLを生成することは保証されていない。 本稿では,より小さなLMであるT5-Baseを使用する場合,ベンチマークデータセットのパフォーマンスを改善する新しいSQL生成方法であるT5QLについて,SOTA法と比較した場合,13ppずつ提案する。 さらに、T5QLは、SQL生成を制限するためにコンテキストフリー文法を使用して、常に有効なSQLを出力することが保証されている。 最後に,2つのタスク,候補SQLの生成と候補再ランクのセマンティック解析を分割することが,大規模なLMの必要性を低減できる有望な研究手法であることを示す。

Automatic SQL generation has been an active research area, aiming at streamlining the access to databases by writing natural language with the given intent instead of writing SQL. Current SOTA methods for semantic parsing depend on LLMs to achieve high predictive accuracy on benchmark datasets. This reduces their applicability, since LLMs requires expensive GPUs. Furthermore, SOTA methods are ungrounded and thus not guaranteed to always generate valid SQL. Here we propose T5QL, a new SQL generation method that improves the performance in benchmark datasets when using smaller LMs, namely T5-Base, by 13pp when compared against SOTA methods. Additionally, T5QL is guaranteed to always output valid SQL using a context-free grammar to constrain SQL generation. Finally, we show that dividing semantic parsing in two tasks, candidate SQLs generation and candidate re-ranking, is a promising research avenue that can reduce the need for large LMs.
翻訳日:2022-09-22 17:30:31 公開日:2022-09-21
# 非平滑最適化における小次数探索の複雑さについて

On the Complexity of Finding Small Subgradients in Nonsmooth Optimization ( http://arxiv.org/abs/2209.10346v1 )

ライセンス: Link先を確認
Guy Kornowski, Ohad Shamir(参考訳) 我々は、zhangらによって提案された意味で、リプシッツ関数の(\delta,\epsilon)$-stationary pointを生成するoracleの複雑さを研究した。 [2020]. そのような点を生成するための次元自由ランダム化アルゴリズムは、$\widetilde{O}(1/\delta\epsilon^3)$ 1次オラクル呼び出しでは存在するが、決定論的アルゴリズムでは次元自由度は達成できない。 一方, この速度は, 滑らか性パラメータの対数依存性だけで, 滑らかな関数に対して分散可能であることを指摘した。 さらに、任意のランダム化アルゴリズムに対して凸性の有無にかかわらず、このタスクのいくつかの下限を設定する。 最後に、関数が凸である場合に、(\delta,\epsilon)$-定常点を求める収束率がいかに改善されるかを示す。

We study the oracle complexity of producing $(\delta,\epsilon)$-stationary points of Lipschitz functions, in the sense proposed by Zhang et al. [2020]. While there exist dimension-free randomized algorithms for producing such points within $\widetilde{O}(1/\delta\epsilon^3)$ first-order oracle calls, we show that no dimension-free rate can be achieved by a deterministic algorithm. On the other hand, we point out that this rate can be derandomized for smooth functions with merely a logarithmic dependence on the smoothness parameter. Moreover, we establish several lower bounds for this task which hold for any randomized algorithm, with or without convexity. Finally, we show how the convergence rate of finding $(\delta,\epsilon)$-stationary points can be improved in case the function is convex, a setting which we motivate by proving that in general no finite time algorithm can produce points with small subgradients even for convex functions.
翻訳日:2022-09-22 17:30:16 公開日:2022-09-21
# GP-net: モバイルマニピュレータのためのGrasp提案

GP-net: Grasp Proposal for Mobile Manipulators ( http://arxiv.org/abs/2209.10404v1 )

ライセンス: Link先を確認
Anna Konrad, John McDonald and Rudi Villing(参考訳) 移動マニピュレータの6-DOFグリップを生成する畳み込みニューラルネットワークモデルであるGrasp Proposal Network (GP-net)を提案する。 gp-netを訓練するために,1400以上の物体に対して深度画像と地中把握情報を含むデータセットを合成的に生成する。 実世界の実験では、PAL TIAGoモバイルマニピュレータ上で、GP-netを評価するためにEGAD!グラウンディングベンチマークを使用し、VGN(Volumetric Grasping Network)とGPD(Grasp Pose Detection Pack)の2つのアルゴリズムに対してGP-netを評価する。 GP-net は VGN の57.8% と GPD の63.3% に対して 82.2% の達成率を達成した。 ロボットの把持における最先端の手法とは対照的に、gp-netは作業スペースを制限せず、テーブルのセグメンテーションやハイエンドgpuを必要とする移動マニピュレータで物体をつかむのに使える。 GP-netの使用を促進するため、コードと事前訓練されたモデルと共にROSパッケージをhttps://aucoroboticsmu.github.io/GP-net/.comで提供します。

We present the Grasp Proposal Network (GP-net), a Convolutional Neural Network model which can generate 6-DOF grasps for mobile manipulators. To train GP-net, we synthetically generate a dataset containing depth-images and ground-truth grasp information for more than 1400 objects. In real-world experiments we use the EGAD! grasping benchmark to evaluate GP-net against two commonly used algorithms, the Volumetric Grasping Network (VGN) and the Grasp Pose Detection package (GPD), on a PAL TIAGo mobile manipulator. GP-net achieves grasp success rates of 82.2% compared to 57.8% for VGN and 63.3% with GPD. In contrast to the state-of-the-art methods in robotic grasping, GP-net can be used out-of-the-box for grasping objects with mobile manipulators without limiting the workspace, requiring table segmentation or needing a high-end GPU. To encourage the usage of GP-net, we provide a ROS package along with our code and pre-trained models at https://aucoroboticsmu.github.io/GP-net/.
翻訳日:2022-09-22 17:29:52 公開日:2022-09-21
# ニューラルネットワークを用いた分割関数の近似サンプリングと推定

Approximate sampling and estimation of partition functions using neural networks ( http://arxiv.org/abs/2209.10423v1 )

ライセンス: Link先を確認
George T. Cantwell(参考訳) 本稿では,正規化定数まで既知の分布からのサンプリング問題と,その正規化定数の推定について考察する。 本研究では, 可変オートエンコーダ (VAE) をいかに応用できるかを示す。 標準的なアプリケーションでは、VAEは難解な分散から引き出されたデータに適合するように訓練される。 論理を逆転させ、正規化まで特定された複雑で難解な潜在分布を仮定して、VAEを単純かつトラクタブルな分布に適合するように訓練する。 この手順は、トレーニングデータやマルコフ連鎖モンテカルロサンプリングを使わずに近似を構成する。 本稿では,Isingモデル,グラフクラスタリング,ランキングの3つの例について述べる。

We consider the closely related problems of sampling from a distribution known up to a normalizing constant, and estimating said normalizing constant. We show how variational autoencoders (VAEs) can be applied to this task. In their standard applications, VAEs are trained to fit data drawn from an intractable distribution. We invert the logic and train the VAE to fit a simple and tractable distribution, on the assumption of a complex and intractable latent distribution, specified up to normalization. This procedure constructs approximations without the use of training data or Markov chain Monte Carlo sampling. We illustrate our method on three examples: the Ising model, graph clustering, and ranking.
翻訳日:2022-09-22 17:29:25 公開日:2022-09-21
# NWDAFによる5Gコアネットワーク信号トラフィックの解析と評価

An NWDAF Approach to 5G Core Network Signaling Traffic: Analysis and Characterization ( http://arxiv.org/abs/2209.10428v1 )

ライセンス: Link先を確認
Dimitrios Michael Manias, Ali Chouman, Abdallah Shami(参考訳) データ駆動アプローチとパラダイムは最適化を通じて効率的なネットワークパフォーマンスを実現する有望なソリューションになっています。 これらのアプローチは、5Gネットワークやアクティブなロードバランシングなど、明日のネットワークのニーズに対処できる最先端の機械学習技術に焦点を当てている。 モデルベースアプローチとは対照的に、データ駆動アプローチはターゲット問題に取り組むために正確なモデルを必要としないため、関連するアーキテクチャは、モバイル無線ネットワークにおける学習ベースのアルゴリズムの実現可能性を改善するために利用可能なシステムパラメータの柔軟性を提供する。 本稿では,5G Core (5GC) ネットワークとNetwork Data Analytics Function (NWDAF) の動作システムのプロトタイプを実演し,データ駆動方式の利点を実演することに焦点を当てた。 ネットワーク生成データの解析は、教師なし学習、クラスタリングを通じてネットワーク内相互作用の中核を探索し、これらの結果を将来の機会と作業の洞察として評価する。

Data-driven approaches and paradigms have become promising solutions to efficient network performances through optimization. These approaches focus on state-of-the-art machine learning techniques that can address the needs of 5G networks and the networks of tomorrow, such as proactive load balancing. In contrast to model-based approaches, data-driven approaches do not need accurate models to tackle the target problem, and their associated architectures provide a flexibility of available system parameters that improve the feasibility of learning-based algorithms in mobile wireless networks. The work presented in this paper focuses on demonstrating a working system prototype of the 5G Core (5GC) network and the Network Data Analytics Function (NWDAF) used to bring the benefits of data-driven techniques to fruition. Analyses of the network-generated data explore core intra-network interactions through unsupervised learning, clustering, and evaluate these results as insights for future opportunities and works.
翻訳日:2022-09-22 17:29:15 公開日:2022-09-21
# アセットアロケーションのためのモデルフリー強化学習

Model-Free Reinforcement Learning for Asset Allocation ( http://arxiv.org/abs/2209.10458v1 )

ライセンス: Link先を確認
Adebayo Oshingbesan, Eniola Ajiboye, Peruth Kamashazi, Timothy Mbaka(参考訳) アセットアロケーション(またはポートフォリオマネジメント)は、有限予算の資金を株式などの金融商品や資産に最適に割り当てる方法を決定するタスクである。 本研究では, モデルフリー深部RLエージェントを用いたポートフォリオ管理における強化学習(RL)の性能について検討した。 実物価格で複数のRLエージェントを訓練し、アセットアロケーションの実施方法を学びました。 我々はこれらのRLエージェントの性能をベースラインエージェントと比較した。 また,RLエージェントをそれぞれ比較して,どのエージェントが優れているか理解した。 分析の結果,RLエージェントは2つのベースラインエージェント(ランダムアロケーションと均一アロケーション)を著しく上回り,ポートフォリオ管理のタスクを実行することができた。 4つのRL剤(A2C, SAC, PPO, TRPO)は, 総じてMPTよりも優れていた。 これはRLエージェントがより利益のある取引戦略を明らかにする能力を示している。 さらに, 価値ベースとポリシーベースのrlエージェント間には有意な性能差は認められなかった。 アクタクリティックエージェントは、他のタイプのエージェントよりもパフォーマンスが良かった。 また、オンポリシーエージェントは、政策評価が優れ、サンプル効率がポートフォリオ管理において大きな問題にならないため、オフポリシーエージェントよりもパフォーマンスが良かった。 本研究では,RLエージェントが強いベースラインを上回り,資産配分を大幅に改善できることを示す。 分析の結果, アクター・クリティカルなRLエージェントが最も有望であった。

Asset allocation (or portfolio management) is the task of determining how to optimally allocate funds of a finite budget into a range of financial instruments/assets such as stocks. This study investigated the performance of reinforcement learning (RL) when applied to portfolio management using model-free deep RL agents. We trained several RL agents on real-world stock prices to learn how to perform asset allocation. We compared the performance of these RL agents against some baseline agents. We also compared the RL agents among themselves to understand which classes of agents performed better. From our analysis, RL agents can perform the task of portfolio management since they significantly outperformed two of the baseline agents (random allocation and uniform allocation). Four RL agents (A2C, SAC, PPO, and TRPO) outperformed the best baseline, MPT, overall. This shows the abilities of RL agents to uncover more profitable trading strategies. Furthermore, there were no significant performance differences between value-based and policy-based RL agents. Actor-critic agents performed better than other types of agents. Also, on-policy agents performed better than off-policy agents because they are better at policy evaluation and sample efficiency is not a significant problem in portfolio management. This study shows that RL agents can substantially improve asset allocation since they outperform strong baselines. On-policy, actor-critic RL agents showed the most promise based on our analysis.
翻訳日:2022-09-22 17:28:59 公開日:2022-09-21
# 凝縮物質および粒子物理学におけるニューロモルフィックコンピューティングのエネルギー消費と遅延のベンチマーク

Benchmarking energy consumption and latency for neuromorphic computing in condensed matter and particle physics ( http://arxiv.org/abs/2209.10481v1 )

ライセンス: Link先を確認
Dominique J. K\"osters, Bryan A. Kortman, Irem Boybat, Elena Ferro, Sagar Dolas, Roberto de Austri, Johan Kwisthout, Hans Hilgenkamp, Theo Rasing, Heike Riel, Abu Sebastian, Sascha Caron and Johan H. Mentink(参考訳) ANN(Artificial Neural Network)の大規模利用は、科学計算の多くの分野で急速に普及し、現代の高性能コンピューティングシステムのエネルギー消費を急速に増加させている。 魅力的で持続可能な代替手段として、ハードウェアにANNを直接実装する新しいニューロモルフィックパラダイムがある。 しかし、科学計算のユースケースにおいて、ニューロモルフィックハードウェア上でANNを実行することの実際の利点についてはほとんど分かっていない。 本稿では,従来のハードウェア上で ann を用いた推論タスクのエネルギーコストと計算時間を計測する手法を提案する。 さらに、我々はこれらのタスクのためのアーキテクチャを設計し、ニューロモルフィックコンピューティングの重要なパラダイムの一つである最先端のアナログインメモリコンピューティング(AIMC)プラットフォームに基づいて、同じメトリクスを推定した。 どちらの手法も、2次元凝縮物質系における量子多体物理学のユースケースと、粒子物理学における大型ハドロン衝突型加速器における40MHzの異常検出のために比較される。 我々は、aimcが従来のハードウェアよりも最大1桁短い計算時間を、最大3桁のエネルギーコストで達成できることを見出した。 これは、ニューロモルフィックハードウェアによるより高速で持続可能な科学計算の可能性を示している。

The massive use of artificial neural networks (ANNs), increasingly popular in many areas of scientific computing, rapidly increases the energy consumption of modern high-performance computing systems. An appealing and possibly more sustainable alternative is provided by novel neuromorphic paradigms, which directly implement ANNs in hardware. However, little is known about the actual benefits of running ANNs on neuromorphic hardware for use cases in scientific computing. Here we present a methodology for measuring the energy cost and compute time for inference tasks with ANNs on conventional hardware. In addition, we have designed an architecture for these tasks and estimate the same metrics based on a state-of-the-art analog in-memory computing (AIMC) platform, one of the key paradigms in neuromorphic computing. Both methodologies are compared for a use case in quantum many-body physics in two dimensional condensed matter systems and for anomaly detection at 40 MHz rates at the Large Hadron Collider in particle physics. We find that AIMC can achieve up to one order of magnitude shorter computation times than conventional hardware, at an energy cost that is up to three orders of magnitude smaller. This suggests great potential for faster and more sustainable scientific computing with neuromorphic hardware.
翻訳日:2022-09-22 17:28:35 公開日:2022-09-21
# 社会逆:タスク移行による社会感染管理の逆決定-

Social-Inverse: Inverse Decision-making of Social Contagion Management with Task Migrations ( http://arxiv.org/abs/2209.10493v1 )

ライセンス: Link先を確認
Guangmo Tong(参考訳) a$ と $b$ の2つの意思決定タスクを考えると、それぞれが所定の \textit{query} $x$ に対して効果的な \textit{decision} $y$ を計算したいと考えています。 } このような問題は \textit{inverse decision-making with task migrations} と呼ばれ、現実のアプリケーションの複雑で確率的な性質がエージェントが基盤となるシステムを完全に把握することを妨げることに関心を持っている。 本稿では,形式的定式化に関する新たな問題を紹介し,社会的伝染管理における意思決定タスクに対処するための汎用的な枠組みを提案する。 理論面では,フレームワークの学習性能を正当化するための一般化分析を提案する。 実験的な研究において,提案手法を他の学習ベースおよびグラフベース手法と比較し,正当性チェックを行う。 我々は有望な実験結果を取得し、ある意思決定課題を他の課題に関連する解を用いて解決できることを初めて確認した。

Considering two decision-making tasks $A$ and $B$, each of which wishes to compute an effective \textit{decision} $Y$ for a given \textit{query} $X$, {can we solve task $B$ by using query-decision pairs $(X, Y)$ of $A$ without knowing the latent decision-making model?} Such problems, called \textit{inverse decision-making with task migrations}, are of interest in that the complex and stochastic nature of real-world applications often prevents the agent from completely knowing the underlying system. In this paper, we introduce such a new problem with formal formulations and present a generic framework for addressing decision-making tasks in social contagion management. On the theory side, we present a generalization analysis for justifying the learning performance of our framework. In empirical studies, we perform a sanity check and compare the presented method with other possible learning-based and graph-based methods. We have acquired promising experimental results, confirming for the first time that it is possible to solve one decision-making task by using the solutions associated with another one.
翻訳日:2022-09-22 17:28:13 公開日:2022-09-21
# 経験過程に対するインスタンス依存一様尾辺

Instance-dependent uniform tail bounds for empirical processes ( http://arxiv.org/abs/2209.10053v1 )

ライセンス: Link先を確認
Sohail Bahmani(参考訳) 検討されたクラスにおける最悪のケース偏差ではなく、関数の個々の偏差の観点から、関数のクラスによってインデックス付けされた経験的過程の均一なテールを定式化する。 テール境界は、標準のジェネリック連鎖引数に最初の「定義」ステップを導入することによって確立される。 結果として得られるテールバウンドは、主な複雑性成分であり、拡張された関数クラスに対するtalagrandの$\gamma$ functionalの変形であり、適切なノルムの適切なスケールバージョンによって測定されるインスタンス依存の偏差項を持つ。 これらの用語は、関連する累積生成関数に基づいて定式化された係数を用いて表される。 また、関数クラスが与えられた(指数型)オルリッツ空間にあるとき、上記の係数についてより明示的な近似を与える。

We formulate a uniform tail bound for empirical processes indexed by a class of functions, in terms of the individual deviations of the functions rather than the worst-case deviation in the considered class. The tail bound is established by introducing an initial "deflation" step to the standard generic chaining argument. The resulting tail bound has a main complexity component, a variant of Talagrand's $\gamma$ functional for the deflated function class, as well as an instance-dependent deviation term, measured by an appropriately scaled version of a suitable norm. Both of these terms are expressed using certain coefficients formulated based on the relevant cumulant generating functions. We also provide more explicit approximations for the mentioned coefficients, when the function class lies in a given (exponential type) Orlicz space.
翻訳日:2022-09-22 17:20:54 公開日:2022-09-21
# ガウス信号に対する非定常音源分離の大サンプル特性

Large-Sample Properties of Non-Stationary Source Separation for Gaussian Signals ( http://arxiv.org/abs/2209.10176v1 )

ライセンス: Link先を確認
Fran\c{c}ois Bachoc, Christoph Muehlmann, Klaus Nordhausen, Joni Virta(参考訳) 非定常ソース分離は、多数の異なる方法でブラインドソース分離の確立されたブランチである。 しかし、これらのメソッドでは大きなサンプル結果が得られない。 このギャップを埋めるために,ブロック方向共分散行列の結合対角化に基づく非定常音源分離法であるnss-jdの大規模サンプル理論を開発した。 我々は、独立ガウス的非定常音源信号に対する瞬時線形混合モデルと、非常に一般的な仮定のセットの下で働く:有界性条件に加えて、ソースが有限依存を示し、それらの分散関数が漸近的に分離可能であることを仮定する。 未混合推定子の整合性と標準平方根率におけるガウス分布に対する収束性は、以前の条件で保たれることを示す。 シミュレーション実験は、理論結果を検証し、ブロック長が分離に与える影響を調べるために用いられる。

Non-stationary source separation is a well-established branch of blind source separation with many different methods. However, for none of these methods large-sample results are available. To bridge this gap, we develop large-sample theory for NSS-JD, a popular method of non-stationary source separation based on the joint diagonalization of block-wise covariance matrices. We work under an instantaneous linear mixing model for independent Gaussian non-stationary source signals together with a very general set of assumptions: besides boundedness conditions, the only assumptions we make are that the sources exhibit finite dependency and that their variance functions differ sufficiently to be asymptotically separable. The consistency of the unmixing estimator and its convergence to a limiting Gaussian distribution at the standard square root rate are shown to hold under the previous conditions. Simulation experiments are used to verify the theoretical results and to study the impact of block length on the separation.
翻訳日:2022-09-22 17:20:38 公開日:2022-09-21
# モノトニック・ニューラル付加モデル:クレジット・スコーリングのための規則付き機械学習モデルの提案

Monotonic Neural Additive Models: Pursuing Regulated Machine Learning Models for Credit Scoring ( http://arxiv.org/abs/2209.10070v1 )

ライセンス: Link先を確認
Dangxing Chen and Weicheng Ye(参考訳) クレジットデフォルトリスクの予測は数十年にわたって活発な研究分野となっている。 歴史的にロジスティック回帰は、透明性、説明可能性、公平性といった規制要件に準拠しているため、主要なツールとして使われてきた。 近年、研究者は予測精度を向上させるために複雑で高度な機械学習手法をますます利用してきた。 機械学習手法はモデルの精度を向上する可能性があるが、単純なロジスティック回帰を複雑にし、説明性が低下し、しばしば公正性に反する。 規制要件の遵守がなければ、高い精度の機械学習手法でさえ、クレジットスコアリングの企業によって受け入れられる可能性は低い。 本稿では,ニューラルネットワークアーキテクチャを簡素化し,モノトニック性を強制することによって,規制要件を満たす新しいモノトニックニューラルネットワーク付加モデルを提案する。 神経添加モデルの特殊な構造的特徴を利用して、単調神経添加モデルは単調性侵害を効果的にペナルティ化する。 したがって、単調神経添加モデルの訓練の計算コストは、自由ランチとしての神経添加モデルの訓練と類似している。 実験結果から,本モデルがブラックボックス完全接続ニューラルネットワークと同じくらい正確であることを示し,高精度かつ規制された機械学習手法を提案する。

The forecasting of credit default risk has been an active research field for several decades. Historically, logistic regression has been used as a major tool due to its compliance with regulatory requirements: transparency, explainability, and fairness. In recent years, researchers have increasingly used complex and advanced machine learning methods to improve prediction accuracy. Even though a machine learning method could potentially improve the model accuracy, it complicates simple logistic regression, deteriorates explainability, and often violates fairness. In the absence of compliance with regulatory requirements, even highly accurate machine learning methods are unlikely to be accepted by companies for credit scoring. In this paper, we introduce a novel class of monotonic neural additive models, which meet regulatory requirements by simplifying neural network architecture and enforcing monotonicity. By utilizing the special architectural features of the neural additive model, the monotonic neural additive model penalizes monotonicity violations effectively. Consequently, the computational cost of training a monotonic neural additive model is similar to that of training a neural additive model, as a free lunch. We demonstrate through empirical results that our new model is as accurate as black-box fully-connected neural networks, providing a highly accurate and regulated machine learning method.
翻訳日:2022-09-22 17:19:11 公開日:2022-09-21
# フィッシャー情報を用いた分割層プライバシー漏洩の測定と制御

Measuring and Controlling Split Layer Privacy Leakage Using Fisher Information ( http://arxiv.org/abs/2209.10119v1 )

ライセンス: Link先を確認
Kiwan Maeng, Chuan Guo, Sanjay Kariyappa, Edward Suh(参考訳) 分割学習と推論は、クライアントデバイスとクラウドにまたがる大きなモデルのトレーニング/推論を実行することを提案する。 しかし、分割層を流れるアクティベーションがクライアントのプライベート入力データに関する情報を漏洩させる可能性があるため、そのような分割モデルではプライバシー上の懸念が生じる。 現在、スプリット層を通じてどれだけのプライベート情報が漏洩しているかを定量化する良い方法はなく、望ましいレベルまでプライバシーを改善する良い方法もない。 本研究では,情報漏洩を計測・制御するためのプライバシー指標としてフィッシャー情報を用いることを提案する。 我々は,フィッシャー情報が分割層を通してどの程度のプライベート情報が漏洩しているかを,非バイアスの復元攻撃者に対する誤りの形で直感的に理解できることを示す。 次に,分割層において利用者が希望するレベルの情報漏洩を強制し,高いプライバシを実現するためのプライバシー向上手法であるrefilを提案する。

Split learning and inference propose to run training/inference of a large model that is split across client devices and the cloud. However, such a model splitting imposes privacy concerns, because the activation flowing through the split layer may leak information about the clients' private input data. There is currently no good way to quantify how much private information is being leaked through the split layer, nor a good way to improve privacy up to the desired level. In this work, we propose to use Fisher information as a privacy metric to measure and control the information leakage. We show that Fisher information can provide an intuitive understanding of how much private information is leaking through the split layer, in the form of an error bound for an unbiased reconstruction attacker. We then propose a privacy-enhancing technique, ReFIL, that can enforce a user-desired level of Fisher information leakage at the split layer to achieve high privacy, while maintaining reasonable utility.
翻訳日:2022-09-22 17:18:51 公開日:2022-09-21
# 一般化完全断面カラビ・ヤウ多様体の機械学習

Machine Learning on generalized Complete Intersection Calabi-Yau Manifolds ( http://arxiv.org/abs/2209.10157v1 )

ライセンス: Link先を確認
Wei Cui, Xin Gao and Juntao Wang(参考訳) 一般化された完全交叉カラビ・ヤウ多様体(gcicy)は、近年確立されたカラビ・ヤウ多様体の新しい構成である。 しかし、標準代数法による新しいgCICYの生成は非常に困難である。 この複雑さのため、gCICYの数とその分類はまだ不明である。 本稿では,ニューラルネットワークを用いて,この方向の進展について検討する。 その結果,本モデルでは既存の$(1,1)$と$(2,1)$ gcicysの精度が向上した。 さらに、トレーニングやテストで使用されるものとは違い、新しいgCICYを予測することで、9,7\%の精度を達成することができる。 これは機械学習が新しいgCICYの分類と生成に有効な方法であることを示している。

Generalized Complete Intersection Calabi-Yau Manifold (gCICY) is a new construction of Calabi-Yau manifolds established recently. However, the generation of new gCICYs using standard algebraic method is very laborious. Due to this complexity, the number of gCICYs and their classification still remain unknown. In this paper, we try to make some progress in this direction using neural network. The results showed that our trained models can have a high precision on the existing type $(1,1)$ and type $(2,1)$ gCICYs in the literature. Moreover, They can achieve a $97\%$ precision in predicting new gCICY which is generated differently from those used for training and testing. This shows that machine learning could be an effective method to classify and generate new gCICY.
翻訳日:2022-09-22 17:18:34 公開日:2022-09-21
# ロバストマルコフ決定過程の凸定式化について

On the convex formulations of robust Markov decision processes ( http://arxiv.org/abs/2209.10187v1 )

ライセンス: Link先を確認
Julien Grand-Cl\'ement, Marek Petrik(参考訳) ロバスト・マルコフ決定過程(MDP)は不確実な環境での動的最適化の応用に使われ、広く研究されている。 MDPの主な特性やアルゴリズム、例えば値反復やポリシー反復はRMDPに直接拡張される。 驚いたことに、RMDPを解くためのMDP凸最適化の定式化の類似は知られていない。 本研究は, 古典的 sa-rectangularity と s-rectangularity 仮定の下での rmdps の最初の凸最適化定式化について述べる。 我々は、エントロピー正則化と変数の指数変化を用いて、線形な変数数と制約付き凸定式化を導出するが、制約の大きい係数を導出する。 我々の定式化は凸最適化の効率的な手法と組み合わせて、不確実な確率でRMDPを解くための新しいアルゴリズムを得ることができる。 さらに、多面体不確実集合を持つRMDPの定式化をさらに単純化する。 本研究は, RMDPの新たな研究方向を開拓し, RMDPのトラクタブル凸定式化に向けた第一歩として機能する。

Robust Markov decision processes (MDPs) are used for applications of dynamic optimization in uncertain environments and have been studied extensively. Many of the main properties and algorithms of MDPs, such as value iteration and policy iteration, extend directly to RMDPs. Surprisingly, there is no known analog of the MDP convex optimization formulation for solving RMDPs. This work describes the first convex optimization formulation of RMDPs under the classical sa-rectangularity and s-rectangularity assumptions. We derive a convex formulation with a linear number of variables and constraints but large coefficients in the constraints by using entropic regularization and exponential change of variables. Our formulation can be combined with efficient methods from convex optimization to obtain new algorithms for solving RMDPs with uncertain probabilities. We further simplify the formulation for RMDPs with polyhedral uncertainty sets. Our work opens a new research direction for RMDPs and can serve as a first step toward obtaining a tractable convex formulation of RMDPs.
翻訳日:2022-09-22 17:18:22 公開日:2022-09-21
# KXNet: Blind Super-Resolutionのためのモデル駆動型ディープニューラルネットワーク

KXNet: A Model-Driven Deep Neural Network for Blind Super-Resolution ( http://arxiv.org/abs/2209.10305v1 )

ライセンス: Link先を確認
Jiahong Fu, Hong Wang, Qi Xie, Qian Zhao, Deyu Meng, and Zongben Xu(参考訳) 現在のディープラーニングベースの手法は、ブラインドシングルイメージスーパーレゾリューション(sisr)タスクで有望な性能を得ているが、その大部分はヒューリスティックなネットワークアーキテクチャの構築に重点を置いており、ぼやけたカーネルとハイレゾリューション(hr)イメージの間の物理生成メカニズムの明示的な埋め込みに重点を置いていない。 そこで本研究では,視覚障害者のためのモデル駆動型深層ニューラルネットワークであるkxnetを提案する。 具体的には,従来のsisrモデルを解くために,単純なイエト効率の反復アルゴリズムを提案する。 そして、関連する反復ステップを対応するネットワークモジュールに展開することで、自然にkxnetを構築する。 提案されたKXNetの主な特異性は、学習プロセス全体が、このSISRタスクの根底にある固有の物理的メカニズムと完全に明示的に統合されていることである。 これにより、学習されたぼかしカーネルは明確な物理パターンを有し、ぼかしカーネルとHR画像の相互反復プロセスは、KXNetを正しい方向に進化させるように音で導くことができる。 合成データと実データに関する広範囲な実験により,現在の最先端のブラインド sisr 法以上の精度と汎用性が実証された。 コードは \url{https://github.com/jiahong-fu/kxnet} で入手できる。

Although current deep learning-based methods have gained promising performance in the blind single image super-resolution (SISR) task, most of them mainly focus on heuristically constructing diverse network architectures and put less emphasis on the explicit embedding of the physical generation mechanism between blur kernels and high-resolution (HR) images. To alleviate this issue, we propose a model-driven deep neural network, called KXNet, for blind SISR. Specifically, to solve the classical SISR model, we propose a simple-yet-effective iterative algorithm. Then by unfolding the involved iterative steps into the corresponding network module, we naturally construct the KXNet. The main specificity of the proposed KXNet is that the entire learning process is fully and explicitly integrated with the inherent physical mechanism underlying this SISR task. Thus, the learned blur kernel has clear physical patterns and the mutually iterative process between blur kernel and HR image can soundly guide the KXNet to be evolved in the right direction. Extensive experiments on synthetic and real data finely demonstrate the superior accuracy and generality of our method beyond the current representative state-of-the-art blind SISR methods. Code is available at: \url{https://github.com/jiahong-fu/KXNet}.
翻訳日:2022-09-22 17:12:47 公開日:2022-09-21
# 双曲空間における正則化による点雲の構成性の再考

Rethinking the compositionality of point clouds through regularization in the hyperbolic space ( http://arxiv.org/abs/2209.10318v1 )

ライセンス: Link先を確認
Antonio Montanaro, Diego Valsesia, Enrico Magli(参考訳) 3Dオブジェクトの点雲は、単純な部品を徐々に複雑な形状に組み立てて全体を形成するという、固有の構成特性を示す。 このような部分的な階層を明示的に捉えることは、効果的なモデルを構築するための長い目標であるが、その木のような性質はタスクを不可解なものにした。 本稿では,点クラウド分類器の特徴を双曲空間に埋め込んで,部分全体階層を考慮した空間を明示的に正規化することを提案する。 双曲空間は、木のような階層の性質をうまく埋め込むことのできる唯一の空間である。 これにより、ポイントクラウド分類のための最先端の教師付きモデルの性能が大幅に向上する。

Point clouds of 3D objects exhibit an inherent compositional nature where simple parts can be assembled into progressively more complex shapes to form whole objects. Explicitly capturing such part-whole hierarchy is a long-sought objective in order to build effective models, but its tree-like nature has made the task elusive. In this paper, we propose to embed the features of a point cloud classifier into the hyperbolic space and explicitly regularize the space to account for the part-whole hierarchy. The hyperbolic space is the only space that can successfully embed the tree-like nature of the hierarchy. This leads to substantial improvements in the performance of state-of-art supervised models for point cloud classification.
翻訳日:2022-09-22 17:12:22 公開日:2022-09-21
# 人間ライクなテキストに基づく視覚的質問応答のための3次元空間推論

Toward 3D Spatial Reasoning for Human-like Text-based Visual Question Answering ( http://arxiv.org/abs/2209.10326v1 )

ライセンス: Link先を確認
Hao Li, Jinfa Huang, Peng Jin, Guoli Song, Qi Wu, Jie Chen(参考訳) テキストベースのVisual Question Answering~(TextVQA)は、複数のシーンテキストによる画像に関する所定の質問に対する正しい回答を作成することを目的としている。 ほとんどの場合、テキストは自然にオブジェクトの表面に取り付けられます。 そのため、テキストとオブジェクト間の空間的推論はTextVQAでは不可欠である。 しかし、既存のアプローチは入力画像から学んだ2次元空間情報内に制約があり、融合過程中に暗黙的に推論するためにトランスフォーマーベースのアーキテクチャに依存している。 このような2次元空間推論手法では、同一画像平面上の視覚物体とシーンテキスト間の微細な空間関係を区別できないため、textvqaモデルの解釈性と性能が損なわれる。 本稿では,人間の空間的推論プロセスに3次元幾何学情報を導入して,重要対象の文脈知識を段階的に捉える。 %は,キーオブジェクトの文脈的知識を捉えるために3次元幾何学的情報を導入することにより,人間のような空間的推論過程を定式化する。 モデルによる3次元空間的関係の理解を高めること。 (i)→重要対象の関心領域を正確に特定するための関係予測モジュールを提案する。 (ii)-我々は,ocrトークンの注目度を臨界物体に応じて校正するための深さ対応注意校正モジュールを設計した。 本手法は,TextVQAおよびST-VQAデータセット上での最先端性能を実現する。 さらに,本モデルでは,テキストVQAとST-VQAの有効分割における空間的推論に関わる質問に対して,5.7\%と12.1\%の明確なマージンで他より優れている。 また,テキストベースの画像キャプションタスクにおいて,モデルの一般化可能性を検証する。

Text-based Visual Question Answering~(TextVQA) aims to produce correct answers for given questions about the images with multiple scene texts. In most cases, the texts naturally attach to the surface of the objects. Therefore, spatial reasoning between texts and objects is crucial in TextVQA. However, existing approaches are constrained within 2D spatial information learned from the input images and rely on transformer-based architectures to reason implicitly during the fusion process. Under this setting, these 2D spatial reasoning approaches cannot distinguish the fine-grain spatial relations between visual objects and scene texts on the same image plane, thereby impairing the interpretability and performance of TextVQA models. In this paper, we introduce 3D geometric information into a human-like spatial reasoning process to capture the contextual knowledge of key objects step-by-step. %we formulate a human-like spatial reasoning process by introducing 3D geometric information for capturing key objects' contextual knowledge. To enhance the model's understanding of 3D spatial relationships, Specifically, (i)~we propose a relation prediction module for accurately locating the region of interest of critical objects; (ii)~we design a depth-aware attention calibration module for calibrating the OCR tokens' attention according to critical objects. Extensive experiments show that our method achieves state-of-the-art performance on TextVQA and ST-VQA datasets. More encouragingly, our model surpasses others by clear margins of 5.7\% and 12.1\% on questions that involve spatial reasoning in TextVQA and ST-VQA valid split. Besides, we also verify the generalizability of our model on the text-based image captioning task.
翻訳日:2022-09-22 17:12:11 公開日:2022-09-21
# 教師なし診断のための理解メタ適応学習

Consecutive Knowledge Meta-Adaptation Learning for Unsupervised Medical Diagnosis ( http://arxiv.org/abs/2209.10425v1 )

ライセンス: Link先を確認
Yumin Zhang, Yawen Hou, Xiuyi Chen, Hongyuan Yu, Long Xia(参考訳) 深層学習に基づくコンピュータ支援診断(cad)は学術研究や臨床応用において注目を集めている。 それでも、畳み込みニューラルネットワーク(CNN)診断システムは、十分にラベル付けされた病変データセットに大きく依存しており、データ分布の変化に対する感度もまたCADにおけるCNNの潜在的な適用を制限する。 非教師付きドメイン適応(UDA)法は、高価なアノテーションとドメインギャップ問題を解決するために開発され、医用画像解析において顕著な成功を収めた。 しかし、既存のUDAアプローチは、ソース病変ドメインから学んだ知識を単一のターゲット病変ドメインに適応させるだけであり、これは臨床シナリオに反している。 さらに,既存の手法の性能は,学習した知識(すなわち破滅的な記憶)を上書きする新たな知識によって,既往の学習対象領域において劇的に低下する。 上記の問題に対処するために,semantic adaptation phase (sap) と representation adaptation phase (rap) を主とし,オンラインかつ連続的に診断モデルを学ぶための,semanal lesion knowledge meta-adaptation (clkm) というメタ適応フレームワークを開発した。 SAPでは、ソース病変ドメインから学んだ意味知識を連続的なターゲット病変ドメインに転送する。 RAPでは、特徴抽出器はソースと複数のターゲット病変領域間で伝達可能な表現知識を整列するように最適化されている。

Deep learning-based Computer-Aided Diagnosis (CAD) has attracted appealing attention in academic researches and clinical applications. Nevertheless, the Convolutional Neural Networks (CNNs) diagnosis system heavily relies on the well-labeled lesion dataset, and the sensitivity to the variation of data distribution also restricts the potential application of CNNs in CAD. Unsupervised Domain Adaptation (UDA) methods are developed to solve the expensive annotation and domain gaps problem and have achieved remarkable success in medical image analysis. Yet existing UDA approaches only adapt knowledge learned from the source lesion domain to a single target lesion domain, which is against the clinical scenario: the new unlabeled target domains to be diagnosed always arrive in an online and continual manner. Moreover, the performance of existing approaches degrades dramatically on previously learned target lesion domains, due to the newly learned knowledge overwriting the previously learned knowledge (i.e., catastrophic forgetting). To deal with the above issues, we develop a meta-adaptation framework named Consecutive Lesion Knowledge Meta-Adaptation (CLKM), which mainly consists of Semantic Adaptation Phase (SAP) and Representation Adaptation Phase (RAP) to learn the diagnosis model in an online and continual manner. In the SAP, the semantic knowledge learned from the source lesion domain is transferred to consecutive target lesion domains. In the RAP, the feature-extractor is optimized to align the transferable representation knowledge across the source and multiple target lesion domains.
翻訳日:2022-09-22 17:11:42 公開日:2022-09-21
# Gemino:ビデオ会議のための実用的でロバストなニューラル圧縮

Gemino: Practical and Robust Neural Compression for Video Conferencing ( http://arxiv.org/abs/2209.10507v1 )

ライセンス: Link先を確認
Vibhaalakshmi Sivaraman, Pantea Karimi, Vedantha Venkatapathy, Mehrdad Khani, Sadjad Fouladi, Mohammad Alizadeh, Fr\'edo Durand, Vivienne Sze(参考訳) ビデオ会議システムは、現在のビデオコーデックが極端に低ビットレートで動作できないため、ネットワーク状態が悪化するとユーザエクスペリエンスが低下する。 近年,顔のランドマーク情報などの各フレームのスパース表現を用いて,非常に低ビットレートでの音声ヘッドビデオの再構成が提案されている。 しかし、これらの手法は、呼び出しの途中で大きな動きや閉塞を伴うシナリオにおいて貧弱な再構成をもたらし、より高い解像度にスケールしない。 我々は,新しい高周波数条件超解像パイプラインに基づくビデオ会議用ニューラル圧縮システムgeminoを設計した。 Geminoは、単一の高解像度参照画像から抽出された情報に基づいて、高周波の詳細(皮膚のテクスチャ、毛髪など)を高めながら、ターゲットフレームの非常に低解像度バージョンをアップサンプリングする。 私たちは、異なる解像度でモデルの異なるコンポーネントを実行し、720pに匹敵する解像度にスケールできるマルチスケールアーキテクチャを使用し、モデルをパーソナライズして各人の特定の詳細を学習し、低ビットレートでより優れた忠実度を実現します。 我々は,webrtc のオープンソース python 実装である aiortc 上で gemino を実装し,a100 gpu 上で 1024x1024 の動画をリアルタイムに動作させ,従来のビデオコーデックの2.9倍の低ビットレートを実現している。

Video conferencing systems suffer from poor user experience when network conditions deteriorate because current video codecs simply cannot operate at extremely low bitrates. Recently, several neural alternatives have been proposed that reconstruct talking head videos at very low bitrates using sparse representations of each frame such as facial landmark information. However, these approaches produce poor reconstructions in scenarios with major movement or occlusions over the course of a call, and do not scale to higher resolutions. We design Gemino, a new neural compression system for video conferencing based on a novel high-frequency-conditional super-resolution pipeline. Gemino upsamples a very low-resolution version of each target frame while enhancing high-frequency details (e.g., skin texture, hair, etc.) based on information extracted from a single high-resolution reference image. We use a multi-scale architecture that runs different components of the model at different resolutions, allowing it to scale to resolutions comparable to 720p, and we personalize the model to learn specific details of each person, achieving much better fidelity at low bitrates. We implement Gemino atop aiortc, an open-source Python implementation of WebRTC, and show that it operates on 1024x1024 videos in real-time on a A100 GPU, and achieves 2.9x lower bitrate than traditional video codecs for the same perceptual quality.
翻訳日:2022-09-22 17:11:17 公開日:2022-09-21
# 強化学習を用いたルックアヘッド経済分散の評価

Evaluation of Look-ahead Economic Dispatch Using Reinforcement Learning ( http://arxiv.org/abs/2209.10207v1 )

ライセンス: Link先を確認
Zekuan Yu, Guangchun Ruan, Xinyue Wang, Guanglun Zhang, Yiliu He, Haiwang Zhong(参考訳) 現代の電力システムには再生可能エネルギーによる様々な課題があり、強化学習(RL)のような新しいディスパッチ手法の開発が求められている。 これらの方法とRL剤の評価は, 主に検討中である。 本稿では,先見的経済派遣方式におけるrlエージェントの性能評価手法を提案する。 このアプローチは複数の運用シナリオをスキャンすることで実行される。 特に、評価のためのネットワークシナリオと需要シナリオを生成するシナリオ生成法を開発し、電力フローの変化率に応じてネットワーク構造を集約する。 その後、経済と安全保障の観点からエージェントのパフォーマンスを評価するためにいくつかの指標が定義される。 ケーススタディでは,改良型IEEE 30バスシステムを用いて,提案手法の有効性を実証し,シミュレーション結果から,異なるシナリオへの適応性,迅速な適応性を示した。 異なるRLエージェントの比較も有益であり、学習戦略をより良く設計するためのアドバイスを提供する。

Modern power systems are experiencing a variety of challenges driven by renewable energy, which calls for developing novel dispatch methods such as reinforcement learning (RL). Evaluation of these methods as well as the RL agents are largely under explored. In this paper, we propose an evaluation approach to analyze the performance of RL agents in a look-ahead economic dispatch scheme. This approach is conducted by scanning multiple operational scenarios. In particular, a scenario generation method is developed to generate the network scenarios and demand scenarios for evaluation, and network structures are aggregated according to the change rates of power flow. Then several metrics are defined to evaluate the agents' performance from the perspective of economy and security. In the case study, we use a modified IEEE 30-bus system to illustrate the effectiveness of the proposed evaluation approach, and the simulation results reveal good and rapid adaptation to different scenarios. The comparison between different RL agents is also informative to offer advice for a better design of the learning strategies.
翻訳日:2022-09-22 17:10:09 公開日:2022-09-21
# リカレントニューラルネットワークを用いた感情の次元アノテーションの動的時間アライメント

Dynamic Time-Alignment of Dimensional Annotations of Emotion using Recurrent Neural Networks ( http://arxiv.org/abs/2209.10223v1 )

ライセンス: Link先を確認
Sina Alisamir, Fabien Ringeval, Francois Portet(参考訳) ほとんどの自動感情認識システムは、リアルタイムの相互作用で見られる自然表現の詳細な記述を提供するために、感情の時間連続アノテーションを利用する。 感情はむしろ主観的であるため、その注釈は通常、与えられた次元、すなわち覚醒や原子価などの次元を記述する時間連続列のトレースを提供する複数の注釈家によって実行される。 しかし、同じ表現のアノテーションは、時間的または価値的に、注釈者間で一貫性を持たず、感情の予測モデルを学ぶために使われるトレースにバイアスと遅延を付加する。 そこで本研究では,アノテーション間の不整合を動的に補償し,対応する音響特徴と同期する手法を提案する。 実験的な評価は、中国、フランス、ドイツ、ハンガリーの参加者を含む複数の感情データセットを用いて行われた。 以上の結果から,提案手法は音節間アグリーメントを著しく増加させるだけでなく,音素と音響特徴の相関性も高めることができることが示唆された。 また, 簡易な軽量モデル, 特に無騒音環境における原子価, 被写体内記録の覚醒を用いて, これらの寸法の自動予測において改善が得られた。

Most automatic emotion recognition systems exploit time-continuous annotations of emotion to provide fine-grained descriptions of spontaneous expressions as observed in real-life interactions. As emotion is rather subjective, its annotation is usually performed by several annotators who provide a trace for a given dimension, i.e. a time-continuous series describing a dimension such as arousal or valence. However, annotations of the same expression are rarely consistent between annotators, either in time or in value, which adds bias and delay in the trace that is used to learn predictive models of emotion. We therefore propose a method that can dynamically compensate inconsistencies across annotations and synchronise the traces with the corresponding acoustic features using Recurrent Neural Networks. Experimental evaluations were carried on several emotion data sets that include Chinese, French, German, and Hungarian participants who interacted remotely in either noise-free conditions or in-the-wild. The results show that our method can significantly increase inter-annotator agreement, as well as correlation between traces and audio features, for both arousal and valence. In addition, improvements are obtained in the automatic prediction of these dimensions using simple light-weight models, especially for valence in noise-free conditions, and arousal for recordings captured in-the-wild.
翻訳日:2022-09-22 17:09:54 公開日:2022-09-21
# ロボティクスにおける部分観測可能なマルコフ決定過程:調査

Partially Observable Markov Decision Processes in Robotics: A Survey ( http://arxiv.org/abs/2209.10342v1 )

ライセンス: Link先を確認
Mikko Lauri, David Hsu, Joni Pajarinen(参考訳) ノイズセンシング、不完全な制御、環境変化は多くの現実世界のロボットタスクの特徴を定義している。 部分的に観測可能なマルコフ決定プロセス(POMDP)は、不確実性の下でロボットの決定と制御タスクをモデル化し、解決するための基本的な数学的枠組みを提供する。 過去10年間、ローカライゼーションとナビゲーション、検索とトラッキング、自動運転、マルチロボットシステム、操作、人間とロボットのインタラクションなど、多くのアプリケーションが成功してきた。 本調査は,POMDPモデルとアルゴリズムの一方の端におけるギャップを埋めることと,他方の多様なロボット決定タスクに適用することを目的としている。 これらのタスクの特徴を解析し、効果的なモデリングと解法のためにpomdpフレームワークの数学的およびアルゴリズム的特性と結びつける。 実践者にとって、この調査は、ロボットタスクにPOMDPをいつ、どのように適用するかを決定する上で重要なタスクの特徴をいくつか提供する。 POMDPアルゴリズムの設計者にとって、この調査は、ロボットシステムにPOMDPを適用するというユニークな課題に関する新たな洞察を与え、さらなる研究のための新たな方向性を示す。

Noisy sensing, imperfect control, and environment changes are defining characteristics of many real-world robot tasks. The partially observable Markov decision process (POMDP) provides a principled mathematical framework for modeling and solving robot decision and control tasks under uncertainty. Over the last decade, it has seen many successful applications, spanning localization and navigation, search and tracking, autonomous driving, multi-robot systems, manipulation, and human-robot interaction. This survey aims to bridge the gap between the development of POMDP models and algorithms at one end and application to diverse robot decision tasks at the other. It analyzes the characteristics of these tasks and connects them with the mathematical and algorithmic properties of the POMDP framework for effective modeling and solution. For practitioners, the survey provides some of the key task characteristics in deciding when and how to apply POMDPs to robot tasks successfully. For POMDP algorithm designers, the survey provides new insights into the unique challenges of applying POMDPs to robot systems and points to promising new directions for further research.
翻訳日:2022-09-22 17:09:28 公開日:2022-09-21
# 一般化ハイパーツリー分解のインクリメンタルアップデート

Incremental Updates of Generalized Hypertree Decompositions ( http://arxiv.org/abs/2209.10375v1 )

ライセンス: Link先を確認
Georg Gottlob, Matthias Lanzinger, Davide Mario Longo, Cem Okulmus(参考訳) 一般化された高木分解のような構造分解法は、制約満足度問題(CSP)の解決に成功している。 分解は、同じ制約スコープでCSPを解くために再利用できるため、計算自体が困難であるにもかかわらず、優れた分解にリソースを投資することは有益である。 残念ながら、現在の方法はスコープがわずかに変化しても完全に新しい分解を計算する必要がある。 本稿では、CSP$P$の分解を更新することで、CSP$P’$のいくつかの変更によって生成される新しいCSP$P’$の有効な分解となるように、最初のステップを作成する。 この問題は理論上は難しいが,GHDを効果的に更新するためのフレームワークを提案し,実装する。 本アルゴリズムの実験的評価は実用的適用可能性を強く示唆する。

Structural decomposition methods, such as generalized hypertree decompositions, have been successfully used for solving constraint satisfaction problems (CSPs). As decompositions can be reused to solve CSPs with the same constraint scopes, investing resources in computing good decompositions is beneficial, even though the computation itself is hard. Unfortunately, current methods need to compute a completely new decomposition even if the scopes change only slightly. In this paper, we make the first steps toward solving the problem of updating the decomposition of a CSP $P$ so that it becomes a valid decomposition of a new CSP $P'$ produced by some modification of $P$. Even though the problem is hard in theory, we propose and implement a framework for effectively updating GHDs. The experimental evaluation of our algorithm strongly suggests practical applicability.
翻訳日:2022-09-22 17:03:56 公開日:2022-09-21
# RNGDet++: インスタンスセグメンテーションとマルチスケール機能強化を備えたトランスフォーマによる道路網グラフ検出

RNGDet++: Road Network Graph Detection by Transformer with Instance Segmentation and Multi-scale Features Enhancement ( http://arxiv.org/abs/2209.10150v1 )

ライセンス: Link先を確認
Zhenhua Xu, Yuxuan Liu, Yuxiang Sun, Ming Liu, Lujia Wang(参考訳) 道路網のグラフ構造は、グローバルな計画、動き予測、制御など、自律運転システムの下流業務において重要である。 これまでは、道路ネットワークグラフは人の専門家によって手動で注釈付けされていた。 道路網グラフの有効性と効率性を向上させるためには,道路網グラフの自動検出手法が必要である。 前者は、プロセス後セマンティックセグメンテーションマップや、ロードネットワークグラフを直接予測するグラフベースのアルゴリズムを提案している。 しかし、以前の研究はハードコードされたヒューリスティックな処理アルゴリズムと劣った最終性能に悩まされていた。 従来のSOTA(State-of-the-Art)アプローチであるRNGDetを強化するために、モデルトレーニングをよりよく監視するためのインスタンスセグメンテーションヘッドを追加し、バックボーンネットワークのマルチスケール機能を活用する。 新しいアプローチはrngdetから改善されているので、rngdet++と呼ばれている。 すべてのアプローチは、大きな公開データセットで評価されます。 RNGDet++は、ほぼすべてのメトリクススコアでベースラインモデルを上回っている。 位相補正apls(平均経路長類似度)を約3\%改善する。 デモビデオと補足資料はプロジェクトページ \url{https://tonyxuqaq.github.io/projects/RNGDetPlusPlus/} で公開されている。

The graph structure of road networks is critical for downstream tasks of autonomous driving systems, such as global planning, motion prediction and control. In the past, the road network graph is usually manually annotated by human experts, which is time-consuming and labor-intensive. To obtain the road network graph with better effectiveness and efficiency, automatic approaches for road network graph detection are required. Previous works either post-process semantic segmentation maps or propose graph-based algorithms to directly predict the road network graph. However, previous works suffer from hard-coded heuristic processing algorithms and inferior final performance. To enhance the previous SOTA (State-of-the-Art) approach RNGDet, we add an instance segmentation head to better supervise the model training, and enable the model to leverage multi-scale features of the backbone network. Since the new proposed approach is improved from RNGDet, it is named RNGDet++. All approaches are evaluated on a large publicly available dataset. RNGDet++ outperforms baseline models on almost all metrics scores. It improves the topology correctness APLS (Average Path Length Similarity) by around 3\%. The demo video and supplementary materials are available on our project page \url{https://tonyxuqaq.github.io/projects/RNGDetPlusPlus/}.
翻訳日:2022-09-22 17:02:48 公開日:2022-09-21
# ドローン飛行経路計画のための学習再構成可能性

Learning Reconstructability for Drone Aerial Path Planning ( http://arxiv.org/abs/2209.10174v1 )

ライセンス: Link先を確認
Yilin Liu, Liqiang Lin, Yue Hu, Ke Xie, Chi-Wing Fu, Hao Zhang, Hui Huang(参考訳) 本稿では,無人ドローンを用いた大規模3次元都市景観獲得のための視点と経路計画を改善するために,最初の学習に基づく再構成可能性予測器を提案する。 従来のヒューリスティック手法とは対照的に,本手法では,一組の視点から3次元都市景観の再現性を明確に予測するモデルを学習する。 このようなモデルをドローン経路計画に同時に適用可能にするため,訓練中のプロキシベースの3Dシーン再構成をシミュレートし,予測設定を行う。 特に、我々が設計したニューラルネットワークは、プロキシジオメトリ、ビューのセット、飛行中に取得した一連のシーンイメージの関数として、シーンの再構成可能性を予測するように訓練されています。 新しい都市景観を再構築するために,我々はまず3Dシーン・プロキシを構築し,その後,プロキシ・ジオメトリに基づくネットワークによる予測された再構築品質と不確実性に頼って,ドローンの経路計画の指導を行う。 データ駆動型再構築可能性予測は,従来のヒューリスティック指標よりも真の再構築品質と密接に関連していることを示す。 さらに,学習した予測器を既存のパスプランナに統合することで,改善を実現することができる。 最後に,学習した再構築可能性に基づいて,新しい反復的視点計画フレームワークを考案し,合成シーンと実シーンの両方を再現する上で,新しいプランナーの性能を示す。

We introduce the first learning-based reconstructability predictor to improve view and path planning for large-scale 3D urban scene acquisition using unmanned drones. In contrast to previous heuristic approaches, our method learns a model that explicitly predicts how well a 3D urban scene will be reconstructed from a set of viewpoints. To make such a model trainable and simultaneously applicable to drone path planning, we simulate the proxy-based 3D scene reconstruction during training to set up the prediction. Specifically, the neural network we design is trained to predict the scene reconstructability as a function of the proxy geometry, a set of viewpoints, and optionally a series of scene images acquired in flight. To reconstruct a new urban scene, we first build the 3D scene proxy, then rely on the predicted reconstruction quality and uncertainty measures by our network, based off of the proxy geometry, to guide the drone path planning. We demonstrate that our data-driven reconstructability predictions are more closely correlated to the true reconstruction quality than prior heuristic measures. Further, our learned predictor can be easily integrated into existing path planners to yield improvements. Finally, we devise a new iterative view planning framework, based on the learned reconstructability, and show superior performance of the new planner when reconstructing both synthetic and real scenes.
翻訳日:2022-09-22 17:02:25 公開日:2022-09-21
# ニューラルハーフスペース表現によるマニフォールドB-Rep固体のインプシット変換

Implicit Conversion of Manifold B-Rep Solids by Neural Halfspace Representation ( http://arxiv.org/abs/2209.10191v1 )

ライセンス: Link先を確認
Hao-Xiang Guo and Yang Liu and Hao Pan and Baining Guo(参考訳) 我々は,多様体b-rep固体を暗黙表現に変換するために,新しい暗黙表現 -- neural halfspace representation (nh-rep) を提案する。 NH-Repはニューラルネットワークで表される暗黙の関数の集合上に構築されたブール木であり、複合ブール関数は鋭い特徴を保ちながら立体幾何学を表現することができる。 本稿では,B-Repソリッドからブール木を抽出し,暗黙関数を計算するニューラルネットワークに基づく最適化手法を提案する。 NURBSを含む様々な湾曲パッチを含む1万個の多様体B-Rep CADモデル上での変換アルゴリズムの高品質化と, 表面再構成, シャープ特徴保存, 符号付き距離場近似, 各種表面形状に対する堅牢性, および NH-Rep が支持する一連のアプリケーションに対して, 学習手法が他の代表的暗黙変換アルゴリズムよりも優れていることを実証する。

We present a novel implicit representation -- neural halfspace representation (NH-Rep), to convert manifold B-Rep solids to implicit representations. NH-Rep is a Boolean tree built on a set of implicit functions represented by the neural network, and the composite Boolean function is capable of representing solid geometry while preserving sharp features. We propose an efficient algorithm to extract the Boolean tree from a manifold B-Rep solid and devise a neural network-based optimization approach to compute the implicit functions. We demonstrate the high quality offered by our conversion algorithm on ten thousand manifold B-Rep CAD models that contain various curved patches including NURBS, and the superiority of our learning approach over other representative implicit conversion algorithms in terms of surface reconstruction, sharp feature preservation, signed distance field approximation, and robustness to various surface geometry, as well as a set of applications supported by NH-Rep.
翻訳日:2022-09-22 17:02:03 公開日:2022-09-21
# 変形可能な畳み込み残差ブロックと自己付着を用いたマルチフィールドデインターレース

Multi-Field De-interlacing using Deformable Convolution Residual Blocks and Self-Attention ( http://arxiv.org/abs/2209.10192v1 )

ライセンス: Link先を確認
Ronglei Ji and A. Murat Tekalp(参考訳) 深層学習は画像/映像の復元と超高解像度化に大きな影響を与えてきたが、学界や業界では学界の関心が薄れている。 これは, 劣化モデルが知られ, 固定されているため, 合成データからの教師あり学習に適しているにもかかわらずである。 本稿では,最先端のスーパーレゾリューション手法をデインターレースタスクに適用した,マルチフィールドフルフレームレートデインターレースネットワークを提案する。 本モデルは,変形可能な畳み込み残差ブロックと自己注意の両方を用いて,隣接フィールドから参照フィールドへの特徴を整合させる。 提案手法は,数値的および知覚的性能の両面で,最先端のデインターレース結果を提供することを示す。 この記事執筆時点で、私たちのモデルは、https://videoprocessing.ai/benchmarks/deinterlacer.comでFull FrameRate LeaderBoardにランクインしています。

Although deep learning has made significant impact on image/video restoration and super-resolution, learned deinterlacing has so far received less attention in academia or industry. This is despite deinterlacing is well-suited for supervised learning from synthetic data since the degradation model is known and fixed. In this paper, we propose a novel multi-field full frame-rate deinterlacing network, which adapts the state-of-the-art superresolution approaches to the deinterlacing task. Our model aligns features from adjacent fields to a reference field (to be deinterlaced) using both deformable convolution residual blocks and self attention. Our extensive experimental results demonstrate that the proposed method provides state-of-the-art deinterlacing results in terms of both numerical and perceptual performance. At the time of writing, our model ranks first in the Full FrameRate LeaderBoard at https://videoprocessing.ai/benchmarks/deinterlacer.html
翻訳日:2022-09-22 17:01:41 公開日:2022-09-21
# HiFuse: 医用画像分類のための階層型マルチスケール機能融合ネットワーク

HiFuse: Hierarchical Multi-Scale Feature Fusion Network for Medical Image Classification ( http://arxiv.org/abs/2209.10218v1 )

ライセンス: Link先を確認
Xiangzuo Huo, Gang Sun, Shengwei Tian, Yan Wang, Long Yu, Jun Long, Wendong Zhang, Aolun Li(参考訳) 医用画像分類は畳み込みニューラルネットワーク(cnn)の影響で急速に発展してきた。 コンボリューションカーネルの受容野の大きさが一定であるため,医用画像のグローバルな特徴を捉えることは困難である。 自己注意に基づくトランスフォーマーは、長距離依存をモデル化できるが、計算複雑性が高く、局所帰納バイアスがない。 多くの研究により、グローバルおよびローカル機能は画像分類に不可欠であることが示されている。 しかし、医用画像には多くのノイズ、散在した特徴、クラス内変異、クラス間の類似点がある。 本稿では,医用画像分類のためのHiFuseと呼ばれる3分岐階層型マルチスケール核融合ネットワーク構造を提案する。 様々な医用画像の分類精度を向上させるため、各モデルを破壊することなく、トランスフォーマーとcnnの利点をマルチスケール階層から融合させることができる。 局所的および大域的特徴ブロックの並列階層は、様々な意味的スケールで局所的特徴と大域的表現を効率的に抽出し、異なるスケールでモデル化する柔軟性と、画像サイズに関連する線形計算複雑性を持つように設計されている。 さらに、異なる階層レベルで得られた特徴を包括的に活用するために、適応的階層的特徴融合ブロック(HFFブロック)を設計する。 HFFブロックは、空間的注意、チャネル的注意、残差反転MLP、および各ブランチの様々なスケール特徴間で適応的に意味情報を融合するショートカットを含む。 ISIC2018データセットにおける提案したモデルの精度は、ベースラインよりも7.6%高く、Covid-19データセットでは21.5%、Kvasirデータセットでは10.4%である。 他の先進モデルと比較すると、hifuseモデルは最高の性能を発揮する。 私たちのコードはオープンソースで、https://github.com/huoxiangzuo/hifuseから利用できます。

Medical image classification has developed rapidly under the impetus of the convolutional neural network (CNN). Due to the fixed size of the receptive field of the convolution kernel, it is difficult to capture the global features of medical images. Although the self-attention-based Transformer can model long-range dependencies, it has high computational complexity and lacks local inductive bias. Much research has demonstrated that global and local features are crucial for image classification. However, medical images have a lot of noisy, scattered features, intra-class variation, and inter-class similarities. This paper proposes a three-branch hierarchical multi-scale feature fusion network structure termed as HiFuse for medical image classification as a new method. It can fuse the advantages of Transformer and CNN from multi-scale hierarchies without destroying the respective modeling so as to improve the classification accuracy of various medical images. A parallel hierarchy of local and global feature blocks is designed to efficiently extract local features and global representations at various semantic scales, with the flexibility to model at different scales and linear computational complexity relevant to image size. Moreover, an adaptive hierarchical feature fusion block (HFF block) is designed to utilize the features obtained at different hierarchical levels comprehensively. The HFF block contains spatial attention, channel attention, residual inverted MLP, and shortcut to adaptively fuse semantic information between various scale features of each branch. The accuracy of our proposed model on the ISIC2018 dataset is 7.6% higher than baseline, 21.5% on the Covid-19 dataset, and 10.4% on the Kvasir dataset. Compared with other advanced models, the HiFuse model performs the best. Our code is open-source and available from https://github.com/huoxiangzuo/HiFuse.
翻訳日:2022-09-22 17:01:27 公開日:2022-09-21
# airfi: ドメインの一般化により、wi-fiベースのパッシブヒューマンジェスチャ認識を未認識環境にもたらす

AirFi: Empowering WiFi-based Passive Human Gesture Recognition to Unseen Environment via Domain Generalization ( http://arxiv.org/abs/2209.10285v1 )

ライセンス: Link先を確認
Dazhuo Wang, Jianfei Yang, Wei Cui, Lihua Xie, Sumei Sun(参考訳) チャネル状態情報(csi)によるwi-fiベースのスマートヒューマンセンシング技術が近年注目されている。 しかし、csiベースのセンシングシステムは、異なる環境にデプロイすると性能が低下する。 既存の作業では、新しい環境から大量のラベルなしの高品質データを使用してドメイン適応を行うことでこの問題を解決している。 本稿では,新しい視点から環境依存の問題に対処する,拡張環境不変の頑健なWi-Fiジェスチャー認識システムAirFiを提案する。 AirFiは、異なる環境によらずCSIの重要な部分を学習し、新しい環境に適応するためのデータを収集する必要のないシナリオにモデルを一般化する新しいドメイン一般化フレームワークである。 AirFiは、いくつかのトレーニング環境設定から共通の特徴を抽出し、それらの違いを最小化する。 この機能は環境に対してより堅牢になるよう拡張されている。 さらに, 少人数学習技術により, システムをさらに改善することができる。 最先端の手法と比較して、airfiは新しい環境からcsiデータを取得することなく、異なる環境設定で動作することができる。 実験の結果,本システムは新環境においても頑健であり,比較したシステムよりも優れていた。

WiFi-based smart human sensing technology enabled by Channel State Information (CSI) has received great attention in recent years. However, CSI-based sensing systems suffer from performance degradation when deployed in different environments. Existing works solve this problem by domain adaptation using massive unlabeled high-quality data from the new environment, which is usually unavailable in practice. In this paper, we propose a novel augmented environment-invariant robust WiFi gesture recognition system named AirFi that deals with the issue of environment dependency from a new perspective. The AirFi is a novel domain generalization framework that learns the critical part of CSI regardless of different environments and generalizes the model to unseen scenarios, which does not require collecting any data for adaptation to the new environment. AirFi extracts the common features from several training environment settings and minimizes the distribution differences among them. The feature is further augmented to be more robust to environments. Moreover, the system can be further improved by few-shot learning techniques. Compared to state-of-the-art methods, AirFi is able to work in different environment settings without acquiring any CSI data from the new environment. The experimental results demonstrate that our system remains robust in the new environment and outperforms the compared systems.
翻訳日:2022-09-22 17:00:57 公開日:2022-09-21
# 心臓磁気共鳴における人工知能による画像再構成

Artificial Intelligence-Based Image Reconstruction in Cardiac Magnetic Resonance ( http://arxiv.org/abs/2209.10298v1 )

ライセンス: Link先を確認
Chen Qin and Daniel Rueckert(参考訳) 人工知能(AI)と機械学習(ML)は、画像取得や再構成から病気の診断、治療に至るまで、医療画像ワークフローを改善する大きな可能性を示している。 特に近年,医療画像再構成のためのAIとMLアルゴリズム,特にDeep Learning(DL)ベースの手法の利用が著しく増加している。 DL技術は, 従来の復元手法に比べて, 再現品質と計算効率の両面で競争力があり, 優れていることが示されている。 DLベースの画像再構成は、心画像の取得と再構成の方法を変える有望な機会を提供する。 本章では, 心磁気共鳴(CMR)画像再構成を中心に, DLを用いた心臓画像再構成技術の最近の進歩を概観する。 我々は、主に、画像処理技術、モデル駆動アプローチ、k空間に基づく手法を含む、アプリケーションのdlメソッドを監督することに焦点を当てる。 心画像再建におけるDLの限界,課題,今後の可能性についても論じる。

Artificial intelligence (AI) and Machine Learning (ML) have shown great potential in improving the medical imaging workflow, from image acquisition and reconstruction to disease diagnosis and treatment. Particularly, in recent years, there has been a significant growth in the use of AI and ML algorithms, especially Deep Learning (DL) based methods, for medical image reconstruction. DL techniques have shown to be competitive and often superior over conventional reconstruction methods in terms of both reconstruction quality and computational efficiency. The use of DL-based image reconstruction also provides promising opportunities to transform the way cardiac images are acquired and reconstructed. In this chapter, we will review recent advances in DL-based reconstruction techniques for cardiac imaging, with emphasis on cardiac magnetic resonance (CMR) image reconstruction. We mainly focus on supervised DL methods for the application, including image post-processing techniques, model-driven approaches and k-space based methods. Current limitations, challenges and future opportunities of DL for cardiac image reconstruction are also discussed.
翻訳日:2022-09-22 17:00:39 公開日:2022-09-21
# 機械学習モデルを用いた天然ガスパイプラインの漏れ検出

Leak Detection in Natural Gas Pipeline Using Machine Learning Models ( http://arxiv.org/abs/2209.10121v1 )

ライセンス: Link先を確認
Adebayo Oshingbesan(参考訳) ガスパイプラインの漏れ検出は、石油・ガス産業において重要かつ永続的な問題である。 これはパイプラインが天然ガスを輸送する最も一般的な方法であるため、特に重要である。 本研究は,自然ガスパイプラインの小規模リークを基本動作パラメータを用いて検出するデータ駆動型インテリジェントモデルの性能を検証し,既存の性能指標を用いてそれ自身でインテリジェントモデルを比較することを目的とする。 本稿では, 知的モデルが回帰器として機能し, 変形ロジスティック回帰モデルが分類器として機能する回帰分類階層モデルを用いて, 天然ガスパイプラインの漏れを検出するために, オブザーバ設計手法を適用した。 4週間のパイプラインデータストリームを用いて,5つのインテリジェントモデル(段階的ブースティング,決定木,ランダムフォレスト,サポートベクターマシン,人工ニューラルネットワーク)について検討した。 その結果、ベクターマシンと人工ニューラルネットワークは、他のものよりも優れた回帰器であるが、内部の複雑さと使用するデータ量のために、リーク検出の最良の結果を提供していないことがわかった。 ランダムな森林と決定木モデルは、約2時間で0.1%の名目の流れを検知できるため、最も敏感である。 インテリジェントモデルはすべて信頼性が高く、テスト段階では誤警報速度はゼロだった。 全てのインテリジェントモデルに対する平均リーク検出時間は、文学におけるリアルタイム過渡モデルと比較された。 その結果, リーク検出問題において, インテリジェントモデルの性能は比較的良好であった。 この結果から,知的モデルとリアルタイム・トランジェントモデルとの併用により,リーク検出結果の大幅な改善が期待できる。

Leak detection in gas pipelines is an important and persistent problem in the Oil and Gas industry. This is particularly important as pipelines are the most common way of transporting natural gas. This research aims to study the ability of data-driven intelligent models to detect small leaks for a natural gas pipeline using basic operational parameters and then compare the intelligent models among themselves using existing performance metrics. This project applies the observer design technique to detect leaks in natural gas pipelines using a regressoclassification hierarchical model where an intelligent model acts as a regressor and a modified logistic regression model acts as a classifier. Five intelligent models (gradient boosting, decision trees, random forest, support vector machine and artificial neural network) are studied in this project using a pipeline data stream of four weeks. The results shows that while support vector machine and artificial neural networks are better regressors than the others, they do not provide the best results in leak detection due to their internal complexities and the volume of data used. The random forest and decision tree models are the most sensitive as they can detect a leak of 0.1% of nominal flow in about 2 hours. All the intelligent models had high reliability with zero false alarm rate in testing phase. The average time to leak detection for all the intelligent models was compared to a real time transient model in literature. The results show that intelligent models perform relatively well in the problem of leak detection. This result suggests that intelligent models could be used alongside a real time transient model to significantly improve leak detection results.
翻訳日:2022-09-22 16:54:39 公開日:2022-09-21
# 層状添加物製造におけるデータ中心による異常検出

A data-centric approach to anomaly detection in layer-based additive manufacturing ( http://arxiv.org/abs/2209.10178v1 )

ライセンス: Link先を確認
Alexander Zeiser, Bekir \"Ozcan, Bas van Stein, Thomas B\"ack(参考訳) 異常検出は、通常の値空間とは異なる異常状態、インスタンス、データポイントを検出する方法を記述する。 産業プロセスは、品質向上のために異常なデータインスタンスを見つけるために述語モデルを必要とする領域である。 しかし、この環境ではラベルがないことが大きな課題である。 本稿では,産業生産における人工知能へのデータ中心のアプローチに寄与する。 自動車部品用添加物製造のユースケースでは,ディープラーニングに基づく画像処理パイプラインを提案する。 深層学習の進歩に期待できる結果を示すループ内にドメインランダム化と合成データの概念を統合し,その実世界の産業生産プロセスへの応用について述べる。

Anomaly detection describes methods of finding abnormal states, instances or data points that differ from a normal value space. Industrial processes are a domain where predicitve models are needed for finding anomalous data instances for quality enhancement. A main challenge, however, is absence of labels in this environment. This paper contributes to a data-centric way of approaching artificial intelligence in industrial production. With a use case from additive manufacturing for automotive components we present a deep-learning-based image processing pipeline. We integrate the concept of domain randomisation and synthetic data in the loop that shows promising results for bridging advances in deep learning and its application to real-world, industrial production processes.
翻訳日:2022-09-22 16:54:11 公開日:2022-09-21
# 無線ネットワークにおける可変ビット幅フェデレーション学習の性能最適化

Performance Optimization for Variable Bitwidth Federated Learning in Wireless Networks ( http://arxiv.org/abs/2209.10200v1 )

ライセンス: Link先を確認
Sihua Wang and Mingzhe Chen and Christopher G. Brinton and Changchuan Yin and Walid Saad and Shuguang Cui(参考訳) 本稿では,モデル量子化による統合学習(FL)における無線通信と計算効率の向上について考察する。 提案したビット幅FL方式では、エッジデバイスは、ローカルFLモデルパラメータの量子化されたバージョンをコーディネートサーバにトレーニングし、送信し、それらを量子化されたグローバルモデルに集約し、デバイスを同期させる。 目標は、ローカルflモデルの量子化に使用されるビット幅と、各イテレーションでflトレーニングに参加するデバイスの集合を共同で決定することである。 この問題は, 定量化FLのトレーニング損失を最小限に抑えることを目的とした最適化問題として提案される。 提案手法を導出するために,無線リソースの制限と量子化誤差がFL法の性能にどのように影響するかを示すため,解析的特徴付けを行う。 分析の結果,連続する2つのイテレーション間のflトレーニングロスの改善は,デバイス選択と量子化のスキームと,学習対象モデルに固有のパラメータに依存することがわかった。 これらのモデル特性の線形回帰に基づく推定を仮定すると、fl訓練過程はマルコフ決定過程(mdp)として記述でき、その上でモデルベース強化学習(rl)法が反復よりも行動選択を最適化するために提案されている。 モデルフリーRLと比較して、このモデルベースRLアプローチは、FLトレーニングプロセスの導出した数学的特徴を利用して、追加のデバイス通信オーバーヘッドを伴わずに効果的なデバイス選択と量子化スキームを発見する。 シミュレーションの結果,提案アルゴリズムはモデル自由RL法と標準FL法と比較して29%,63%の収束時間を短縮できることがわかった。

This paper considers improving wireless communication and computation efficiency in federated learning (FL) via model quantization. In the proposed bitwidth FL scheme, edge devices train and transmit quantized versions of their local FL model parameters to a coordinating server, which, in turn, aggregates them into a quantized global model and synchronizes the devices. The goal is to jointly determine the bitwidths employed for local FL model quantization and the set of devices participating in FL training at each iteration. This problem is posed as an optimization problem whose goal is to minimize the training loss of quantized FL under a per-iteration device sampling budget and delay requirement. To derive the solution, an analytical characterization is performed in order to show how the limited wireless resources and induced quantization errors affect the performance of the proposed FL method. The analytical results show that the improvement of FL training loss between two consecutive iterations depends on the device selection and quantization scheme as well as on several parameters inherent to the model being learned. Given linear regression-based estimates of these model properties, it is shown that the FL training process can be described as a Markov decision process (MDP), and, then, a model-based reinforcement learning (RL) method is proposed to optimize action selection over iterations. Compared to model-free RL, this model-based RL approach leverages the derived mathematical characterization of the FL training process to discover an effective device selection and quantization scheme without imposing additional device communication overhead. Simulation results show that the proposed FL algorithm can reduce 29% and 63% convergence time compared to a model free RL method and the standard FL method, respectively.
翻訳日:2022-09-22 16:54:01 公開日:2022-09-21
# 信用リスクの解釈可能な選択学習

Interpretable Selective Learning in Credit Risk ( http://arxiv.org/abs/2209.10127v1 )

ライセンス: Link先を確認
Dangxing Chen, Weicheng Ye, and Jiahui Ye(参考訳) 信用デフォルトリスクの予測は、数十年にわたり重要な研究分野となっている。 伝統的にロジスティック回帰は、その正確さと解釈可能性から解として広く認識されてきた。 最近の傾向として、研究者は予測の精度を改善するためにより複雑で高度な機械学習手法を使う傾向がある。 特定の非線形機械学習手法はより優れた予測能力を持つが、金融規制当局による解釈可能性に欠けることが多い。 そのため、信用リスク評価には広く適用されていない。 線形モデルで説明できるか否かを識別することで、解釈可能性を高めるための選択的なオプションを備えたニューラルネットワークを導入する。 ほとんどのデータセットにおいて、ロジスティック回帰は妥当な精度で十分である。一方、特定のデータ部分では、浅いニューラルネットワークモデルにより、解釈可能性を大幅に犠牲にすることなく、はるかに精度が向上する。

The forecasting of the credit default risk has been an important research field for several decades. Traditionally, logistic regression has been widely recognized as a solution due to its accuracy and interpretability. As a recent trend, researchers tend to use more complex and advanced machine learning methods to improve the accuracy of the prediction. Although certain non-linear machine learning methods have better predictive power, they are often considered to lack interpretability by financial regulators. Thus, they have not been widely applied in credit risk assessment. We introduce a neural network with the selective option to increase interpretability by distinguishing whether the datasets can be explained by the linear models or not. We find that, for most of the datasets, logistic regression will be sufficient, with reasonable accuracy; meanwhile, for some specific data portions, a shallow neural network model leads to much better accuracy without significantly sacrificing the interpretability.
翻訳日:2022-09-22 16:52:59 公開日:2022-09-21
# ソフトウェア保守性予測のためのソフトコンピューティング技術の体系的レビュー:最新技術,課題,今後の展望

A Systematic Literature Review of Soft Computing Techniques for Software Maintainability Prediction: State-of-the-Art, Challenges and Future Directions ( http://arxiv.org/abs/2209.10131v1 )

ライセンス: Link先を確認
Gokul Yenduri, Thippa Reddy Gadekallu(参考訳) ソフトウェアは高度な技術と方法論の発明によって急速に変化している。 ビジネス要件の変化に対応してソフトウェアを迅速かつうまくアップグレードできる能力は、これまで以上に不可欠です。 ソフトウェア製品の長期的な管理には、ソフトウェアの保守性の測定が不可欠です。 ソフト保守性予測のためのソフトコンピューティング技術の使用は、ソフトウェアの保守性を正確に予測することで、ソフトウェアのメンテナンスプロセスに多大な期待を示してきた。 ソフトウェア保守性予測におけるソフトコンピューティング技術の役割をよりよく理解するため,ソフトウェア保守性予測のためのソフトコンピューティング技術の体系的な文献レビューを行う。 まず,ソフトウェアの保守性に関する詳細な概要を紹介する。 次に,ソフトウェア保守性の基本とソフトコンピューティング手法をソフトウェア保守性予測に採用する理由について考察する。 その後,ソフトウェア保守性予測のプロセスで用いられるソフトコンピューティング手法について検討する。 さらに,ソフトコンピューティング技術を用いたソフトウェアの保守性予測の難しさと潜在的な解決策について考察する。 最後に、この将来的な領域において、さらなる研究革新と開発を推進するためのいくつかの将来的な方向性でレビューを締めくくります。

The software is changing rapidly with the invention of advanced technologies and methodologies. The ability to rapidly and successfully upgrade software in response to changing business requirements is more vital than ever. For the long-term management of software products, measuring software maintainability is crucial. The use of soft computing techniques for software maintainability prediction has shown immense promise in software maintenance process by providing accurate prediction of software maintainability. To better understand the role of soft computing techniques for software maintainability prediction, we aim to provide a systematic literature review of soft computing techniques for software maintainability prediction. Firstly, we provide a detailed overview of software maintainability. Following this, we explore the fundamentals of software maintainability and the reasons for adopting soft computing methodologies for predicting software maintainability. Later, we examine the soft computing approaches employed in the process of software maintainability prediction. Furthermore, we discuss the difficulties and potential solutions associated with the use of soft computing techniques to predict software maintainability. Finally, we conclude the review with some promising future directions to drive further research innovations and developments in this promising area.
翻訳日:2022-09-22 16:52:47 公開日:2022-09-21
# ddghm: クロスドメインシーケンシャルレコメンデーションのためのハイブリッドメトリックトレーニングを備えたデュアルダイナミックグラフ

DDGHM: Dual Dynamic Graph with Hybrid Metric Training for Cross-Domain Sequential Recommendation ( http://arxiv.org/abs/2209.10163v1 )

ライセンス: Link先を確認
Xiaolin Zheng, Jiajie Su, Weiming Liu, and Chaochao Chen(参考訳) Sequential Recommendation (SR) は、ユーザがアイテム間を移動する方法をモデル化することによって、ユーザの行動の進化パターンを特徴付ける。 しかし、短い相互作用列は既存のSRの性能を制限する。 本論文では,他のドメインからの情報を活用して,単一ドメインのシーケンシャルレコメンデーション性能を向上させることを目的とした,クロスドメインシーケンスレコメンデーション(CDSR)に焦点を当てる。 CDSRの解決は難しい。 一方、単一ドメインの選好を維持し、ドメイン間の影響力を統合する方法は、依然として重要な問題である。 一方、マージシーケンスの長さが限られているため、他のドメインからの知識を単純に活用すれば、データの疎結合問題は完全には解決できない。 そこで我々は,cdsr問題に対する新しいフレームワークであるddghmを提案する。ddghmには2つの主要なモジュール,すなわちデュアルダイナミックグラフモデリングとハイブリッドメトリックトレーニングが含まれている。 前者は、局所グラフと大域グラフの2段階グラフを動的に構築し、それらをヒューズ注意ゲーティング機構に組み込むことにより、ドメイン内およびドメイン間シーケンシャル遷移をキャプチャする。 後者は、アライメントを達成するための協調メトリックと、均一性を維持するためのコントラストメトリックとを含むハイブリッドメトリック学習を用いて、ユーザとアイテムの表現を強化し、データの分散問題を緩和し、予測精度を向上させる。 2つのベンチマークデータセットで実験を行い、DDHMGの有効性を実証した。

Sequential Recommendation (SR) characterizes evolving patterns of user behaviors by modeling how users transit among items. However, the short interaction sequences limit the performance of existing SR. To solve this problem, we focus on Cross-Domain Sequential Recommendation (CDSR) in this paper, which aims to leverage information from other domains to improve the sequential recommendation performance of a single domain. Solving CDSR is challenging. On the one hand, how to retain single domain preferences as well as integrate cross-domain influence remains an essential problem. On the other hand, the data sparsity problem cannot be totally solved by simply utilizing knowledge from other domains, due to the limited length of the merged sequences. To address the challenges, we propose DDGHM, a novel framework for the CDSR problem, which includes two main modules, i.e., dual dynamic graph modeling and hybrid metric training. The former captures intra-domain and inter-domain sequential transitions through dynamically constructing two-level graphs, i.e., the local graphs and the global graph, and incorporating them with a fuse attentive gating mechanism. The latter enhances user and item representations by employing hybrid metric learning, including collaborative metric for achieving alignment and contrastive metric for preserving uniformity, to further alleviate data sparsity issue and improve prediction accuracy. We conduct experiments on two benchmark datasets and the results demonstrate the effectiveness of DDHMG.
翻訳日:2022-09-22 16:52:31 公開日:2022-09-21
# 雑音下におけるアングルインL*アルゴリズムのロバスト性の解析

Analyzing Robustness of Angluin's L* Algorithm in Presence of Noise ( http://arxiv.org/abs/2209.10315v1 )

ライセンス: Link先を確認
Igor Khmelnitsky (Universit\'e Paris-Saclay, CNRS, ENS Paris-Saclay, INRIA, LMF, France), Serge Haddad (Universit\'e Paris-Saclay, CNRS, ENS Paris-Saclay, INRIA, LMF, France), Lina Ye (Universit\'e Paris-Saclay, CNRS, ENS Paris-Saclay, CentraleSup\'elec, LMF, France), Beno\^it Barbot (Universit\'e Paris-Est Cr\'eteil, France), Benedikt Bollig (Universit\'e Paris-Saclay, CNRS, ENS Paris-Saclay, LMF, France), Martin Leucker (Institute for Software Engineering and Programming Languages, Universit\"at zu L\"ubeck, Germany), Daniel Neider (Carl von Ossietzky University of Oldenburg, Germany), Rajarshi Roy (Max Planck Institute for Software Systems, Germany)(参考訳) アングルインのL*アルゴリズムは、正規言語の最小(完全)決定論的有限オートマトン(DFA)をメンバシップと等価クエリを用いて学習する。 その確率的近似的正解(PAC)バージョンは、その答えに高い信頼を得るのに十分な数のランダムなメンバシップクエリによって等価クエリを代用する。 したがって、任意の種類の(あるいは非正規な)デバイスに適用することができ、観察に基づいてデバイスの動作を抽象化するオートマトンを合成するアルゴリズムと見なすことができる。 ここでは、ノイズを導入してDFAから得られるデバイスに対して、AngluinのPAC学習アルゴリズムがどのように振る舞うかに興味がある。 より正確には、Angluinのアルゴリズムがノイズを低減し、ノイズの多いデバイスよりも元のものに近いDFAを生成するかどうかを研究する。 本稿では,(1)DFA の単語 w.r.t の分類を小さな確率で反転させるノイズ装置,(2) DFA の分類を問う前に単語の文字を小さい確率で修正するノイズ装置,(3) DFA の単語 w.r.t の分類と、その分類をカウンターオートマトンとするノイズ装置を提案する。 数百のDFAで実験を行った。 angluinのアルゴリズムは、無作為なプロセスによってノイズのあるデバイスが生成されるたびにうまく振る舞うが、構造化されたノイズでは不十分であり、(3)ほぼ確実にランダム性は、非帰納的可算言語を持つシステムをもたらす。

Angluin's L* algorithm learns the minimal (complete) deterministic finite automaton (DFA) of a regular language using membership and equivalence queries. Its probabilistic approximatively correct (PAC) version substitutes an equivalence query by a large enough set of random membership queries to get a high level confidence to the answer. Thus it can be applied to any kind of (also non-regular) device and may be viewed as an algorithm for synthesizing an automaton abstracting the behavior of the device based on observations. Here we are interested on how Angluin's PAC learning algorithm behaves for devices which are obtained from a DFA by introducing some noise. More precisely we study whether Angluin's algorithm reduces the noise and produces a DFA closer to the original one than the noisy device. We propose several ways to introduce the noise: (1) the noisy device inverts the classification of words w.r.t. the DFA with a small probability, (2) the noisy device modifies with a small probability the letters of the word before asking its classification w.r.t. the DFA, and (3) the noisy device combines the classification of a word w.r.t. the DFA and its classification w.r.t. a counter automaton. Our experiments were performed on several hundred DFAs. Our main contributions, bluntly stated, consist in showing that: (1) Angluin's algorithm behaves well whenever the noisy device is produced by a random process, (2) but poorly with a structured noise, and, that (3) almost surely randomness yields systems with non-recursively enumerable languages.
翻訳日:2022-09-22 16:52:06 公開日:2022-09-21
# 表情認識のための不確実性認識ラベル分布学習

Uncertainty-aware Label Distribution Learning for Facial Expression Recognition ( http://arxiv.org/abs/2209.10448v1 )

ライセンス: Link先を確認
Nhat Le, Khanh Nguyen, Quang Tran, Erman Tjiputra, Bac Le, Anh Nguyen(参考訳) 過去数年間の大きな進歩にもかかわらず、あいまいさは表情認識(fer)において依然として重要な課題である。 これは、現実のシナリオにおけるディープラーニングモデルのパフォーマンスを妨げる、騒々しく一貫性のないアノテーションにつながる可能性がある。 本稿では,不確実性と曖昧性に対する深層モデルのロバスト性を改善するための新しい不確実性認識ラベル分布学習法を提案する。 学習サンプルの感情分布を適応的に構築するために,valence-arousal空間における近傍情報を活用する。 また,ラベル分布にラベルを組み込む際に提供されるラベルの不確実性も考慮する。 本手法は深層ネットワークに容易に統合でき,さらなる訓練監督と認識精度の向上が期待できる。 さまざまなノイズやあいまいな設定下でのデータセットの集中的な実験は、この手法が最近の最先端のアプローチよりも競争力のある結果を達成していることを示している。 私たちのコードとモデルはhttps://github.com/minhnhatvt/label-distribution-learning-fer-tfで利用可能です。

Despite significant progress over the past few years, ambiguity is still a key challenge in Facial Expression Recognition (FER). It can lead to noisy and inconsistent annotation, which hinders the performance of deep learning models in real-world scenarios. In this paper, we propose a new uncertainty-aware label distribution learning method to improve the robustness of deep models against uncertainty and ambiguity. We leverage neighborhood information in the valence-arousal space to adaptively construct emotion distributions for training samples. We also consider the uncertainty of provided labels when incorporating them into the label distributions. Our method can be easily integrated into a deep network to obtain more training supervision and improve recognition accuracy. Intensive experiments on several datasets under various noisy and ambiguous settings show that our method achieves competitive results and outperforms recent state-of-the-art approaches. Our code and models are available at https://github.com/minhnhatvt/label-distribution-learning-fer-tf.
翻訳日:2022-09-22 16:45:38 公開日:2022-09-21
# 表示、解釈、指示:wikipediaにおけるエンティティを意識したコンテキスト化画像キャプション

Show, Interpret and Tell: Entity-aware Contextualised Image Captioning in Wikipedia ( http://arxiv.org/abs/2209.10474v1 )

ライセンス: Link先を確認
Khanh Nguyen, Ali Furkan Biten, Andres Mafla, Lluis Gomez, Dimosthenis Karatzas(参考訳) 人間は、画像を記述するために事前の知識を利用し、文脈情報と画像が一致しない場合に、妥当な説明を発明する範囲まで、その説明を特定の文脈情報に適用することができる。 本稿では,文脈知識の統合によるウィキペディア画像のキャプション手法を提案する。 具体的には、wikipediaの記事、ウィキメディア画像、およびそれらの関連記述を共同で推論し、文脈化されたキャプションを生成するモデルを作成する。 特に、類似のウィキメディア画像を用いて異なる記事の描写を行うことができ、生成されたキャプションは特定のコンテキストに適応する必要があるため、異なるコンテキスト情報にキャプションを調整するためのモデルの限界を探索することができる。 この領域で特に困難なタスクは、辞書外ワードと名前付きエンティティを扱うことです。 そこで本研究では,事前学習目標であるmasted named entity modeling (mnem)を提案し,このプリテキストタスクがベースラインモデルと比較して改善をもたらすことを示す。 さらに、ウィキペディアのMNEM目標で事前訓練されたモデルが、ニュースキャプションデータセットによく適応していることを検証する。 さらに,キャプションタスクの難易度に応じて2つの異なるテスト分割を定義する。 それぞれのモダリティの役割と重要性についての洞察を提供し、モデルの制限を強調します。 コード、モデル、データ分割は受理時に公開されている。

Humans exploit prior knowledge to describe images, and are able to adapt their explanation to specific contextual information, even to the extent of inventing plausible explanations when contextual information and images do not match. In this work, we propose the novel task of captioning Wikipedia images by integrating contextual knowledge. Specifically, we produce models that jointly reason over Wikipedia articles, Wikimedia images and their associated descriptions to produce contextualized captions. Particularly, a similar Wikimedia image can be used to illustrate different articles, and the produced caption needs to be adapted to a specific context, therefore allowing us to explore the limits of a model to adjust captions to different contextual information. A particular challenging task in this domain is dealing with out-of-dictionary words and Named Entities. To address this, we propose a pre-training objective, Masked Named Entity Modeling (MNEM), and show that this pretext task yields an improvement compared to baseline models. Furthermore, we verify that a model pre-trained with the MNEM objective in Wikipedia generalizes well to a News Captioning dataset. Additionally, we define two different test splits according to the difficulty of the captioning task. We offer insights on the role and the importance of each modality and highlight the limitations of our model. The code, models and data splits are publicly available at Upon acceptance.
翻訳日:2022-09-22 16:45:23 公開日:2022-09-21
# 多視点局所共起とグローバル一貫性学習によるマンモグラム分類の一般化

Multi-view Local Co-occurrence and Global Consistency Learning Improve Mammogram Classification Generalisation ( http://arxiv.org/abs/2209.10478v1 )

ライセンス: Link先を確認
Yuanhong Chen, Hu Wang, Chong Wang, Yu Tian, Fengbei Liu, Michael Elliott, Davis J. McCarthy, Helen Frazer, Gustavo Carneiro(参考訳) マンモグラフィーをスクリーニングする際、放射線技師は乳房の2つの側方視、すなわち頭蓋・頭蓋(CC)と中側斜視(MLO)の情報を自然に処理することができる。 これらの複数の関連画像は相補的な診断情報を提供し、放射線医の分類精度を向上させることができる。 残念なことに、世界中のラベル付きイメージでトレーニングされた既存のディープラーニングシステムは、これらの複数のビューからグローバルおよびローカル情報を共同分析し統合する能力が欠如している。 スクリーニングエピソードの複数の画像に存在する可能性のある貴重な情報を無視することで、これらのシステムの潜在的な精度を制限できる。 本稿では,マンモグラムにおける異側視のグローバル一貫性学習と局所共起学習に基づいて,放射線科医の読影手順を模倣した新しい多視点大局的局所解析法を提案する。 広範な実験により,我々のモデルは,大規模プライベートデータセットと2つの公開データセットにおいて,分類精度と一般化の観点から競合する手法よりも優れており,そこではモデルが排他的にトレーニングされ,グローバルラベルでテストされる。

When analysing screening mammograms, radiologists can naturally process information across two ipsilateral views of each breast, namely the cranio-caudal (CC) and mediolateral-oblique (MLO) views. These multiple related images provide complementary diagnostic information and can improve the radiologist's classification accuracy. Unfortunately, most existing deep learning systems, trained with globally-labelled images, lack the ability to jointly analyse and integrate global and local information from these multiple views. By ignoring the potentially valuable information present in multiple images of a screening episode, one limits the potential accuracy of these systems. Here, we propose a new multi-view global-local analysis method that mimics the radiologist's reading procedure, based on a global consistency learning and local co-occurrence learning of ipsilateral views in mammograms. Extensive experiments show that our model outperforms competing methods, in terms of classification accuracy and generalisation, on a large-scale private dataset and two publicly available datasets, where models are exclusively trained and tested with global labels.
翻訳日:2022-09-22 16:45:00 公開日:2022-09-21
# 静止画のアニメーション

Animating Still Images ( http://arxiv.org/abs/2209.10497v1 )

ライセンス: Link先を確認
Kushagr Batra, Mridul Kavidayal(参考訳) 静止した2次元画像に動きを与える手法を提案する。 提案手法は深層学習を用いて被写体として表現された画像のセクションを分割し,背景の仕上げにインペイントを用い,画像の残りの部分を保存しながらトライアングルメッシュに埋め込まれた画像にアニメーションを付加する。

We present a method for imparting motion to a still 2D image. Our method uses deep learning to segment a section of the image denoted as subject, then uses in-painting to complete the background, and finally adds animation to the subject by embedding the image in a triangle mesh, while preserving the rest of the image.
翻訳日:2022-09-22 16:44:39 公開日:2022-09-21
# アルゴリズムを越えた3次元人文と形状推定のベンチマークと解析

Benchmarking and Analyzing 3D Human Pose and Shape Estimation Beyond Algorithms ( http://arxiv.org/abs/2209.10529v1 )

ライセンス: Link先を確認
Hui En Pang, Zhongang Cai, Lei Yang, Tianwei Zhang and Ziwei Liu(参考訳) 3次元の人間のポーズと形状の推定(すなわち「人間のメッシュ回復」)は大きな進歩を遂げた。 研究者は主に新しいアルゴリズムの開発に焦点を当てているが、他の重要な要因には注意が払われていない。 これにより、最適化基準が低くなり、新しく設計された方法論の公正で忠実な評価が妨げられる可能性がある。 この問題に対処するため,本研究では,アルゴリズム以外の3つの未熟な視点から,初めて包括的なベンチマーク研究を行う。 1)データセット。 重要な属性(多彩なポーズ、形状、カメラの特徴、バックボーンの特徴など)を特徴とするデータセットの方が効果的である。 高品質なデータセットの戦略的選択と組み合わせは、モデルパフォーマンスを著しく向上させる可能性がある。 2)バックボーン。 CNNからトランスフォーマーまで10のバックボーンを用いた実験は、近接タスクから学んだ知識が容易に人間のメッシュリカバリに転送可能であることを示している。 3)訓練戦略 適切な拡張技術と損失設計が不可欠である。 以上の結果から,比較的簡易なモデルで3DPWテストセットで47.3mmのPA-MPJPEを得ることができた。 さらに重要なことは、アルゴリズムの公正な比較のための強力なベースラインと、将来効果的なトレーニング構成を構築するための推奨を提供します。 Codebaseはhttp://github.com/smplbody/hmr-benchmarksで入手できる。

3D human pose and shape estimation (a.k.a. "human mesh recovery") has achieved substantial progress. Researchers mainly focus on the development of novel algorithms, while less attention has been paid to other critical factors involved. This could lead to less optimal baselines, hindering the fair and faithful evaluations of newly designed methodologies. To address this problem, this work presents the first comprehensive benchmarking study from three under-explored perspectives beyond algorithms. 1) Datasets. An analysis on 31 datasets reveals the distinct impacts of data samples: datasets featuring critical attributes (i.e. diverse poses, shapes, camera characteristics, backbone features) are more effective. Strategical selection and combination of high-quality datasets can yield a significant boost to the model performance. 2) Backbones. Experiments with 10 backbones, ranging from CNNs to transformers, show the knowledge learnt from a proximity task is readily transferable to human mesh recovery. 3) Training strategies. Proper augmentation techniques and loss designs are crucial. With the above findings, we achieve a PA-MPJPE of 47.3 mm on the 3DPW test set with a relatively simple model. More importantly, we provide strong baselines for fair comparisons of algorithms, and recommendations for building effective training configurations in the future. Codebase is available at http://github.com/smplbody/hmr-benchmarks
翻訳日:2022-09-22 16:44:32 公開日:2022-09-21
# メンタルヘルス支援のためのチャットボット--中国の精神的苦痛軽減に対するemohaaの影響を探る

Chatbots for Mental Health Support: Exploring the Impact of Emohaa on Reducing Mental Distress in China ( http://arxiv.org/abs/2209.10183v1 )

ライセンス: Link先を確認
Sahand Sabour, Wen Zhang, Xiyao Xiao, Yuwei Zhang, Yinhe Zheng, Jiaxin Wen, Jialu Zhao, Minlie Huang(参考訳) メンタルヘルスサポートの需要の高まりは、世界や中国での人間のサポーターとしての会話エージェントの重要性を強調している。 これらのエージェントは、可用性を高め、メンタルヘルスサポートの相対コストを削減できる。 提供されるサポートは、認知と感情の2つのタイプに分けられる。 既存の研究は主に認知行動療法(CBT)の原則を採用するエージェントの構築に焦点を当てている。 このようなエージェントは事前に定義されたテンプレートとエクササイズに基づいて動作し、認知支援を提供する。 しかし、そのようなエージェントを用いた感情支援の研究は限られている。 また、製造されたエージェントのほとんどは英語で活動しており、中国での研究の重要性を強調している。 本研究では,心的苦痛の症状軽減におけるemohaaの有効性について検討した。 Emohaaは、CBTベースのエクササイズとガイド付き会話を通じて認知支援を提供する会話エージェントである。 また、ユーザーが望む感情的な問題を経験できるようにすることで、ユーザーを感情的に支援する。 調査には134人の参加者が参加し、Emohaa(CBT)、Emohaa(Full)、およびコントロールの3つのグループに分けられた。 実験の結果,エモハアを用いた被験者はコントロール群と比較して,精神的苦痛の症状が有意に改善した。 また,情緒的支援剤の追加は,うつ病や不眠症などの改善に相補的な影響を及ぼすことがわかった。 得られた結果と参加者のプラットフォームに対する満足度から,emohaaは精神的苦痛を軽減するための実践的で効果的なツールであると結論づけた。

The growing demand for mental health support has highlighted the importance of conversational agents as human supporters worldwide and in China. These agents could increase availability and reduce the relative costs of mental health support. The provided support can be divided into two main types: cognitive and emotional support. Existing work on this topic mainly focuses on constructing agents that adopt Cognitive Behavioral Therapy (CBT) principles. Such agents operate based on pre-defined templates and exercises to provide cognitive support. However, research on emotional support using such agents is limited. In addition, most of the constructed agents operate in English, highlighting the importance of conducting such studies in China. In this study, we analyze the effectiveness of Emohaa in reducing symptoms of mental distress. Emohaa is a conversational agent that provides cognitive support through CBT-based exercises and guided conversations. It also emotionally supports users by enabling them to vent their desired emotional problems. The study included 134 participants, split into three groups: Emohaa (CBT-based), Emohaa (Full), and control. Experimental results demonstrated that compared to the control group, participants who used Emohaa experienced considerably more significant improvements in symptoms of mental distress. We also found that adding the emotional support agent had a complementary effect on such improvements, mainly depression and insomnia. Based on the obtained results and participants' satisfaction with the platform, we concluded that Emohaa is a practical and effective tool for reducing mental distress.
翻訳日:2022-09-22 16:44:12 公開日:2022-09-21
# Bias at a Second Glance: A Deep Dive into Bias for German Educational Peer-Review Data Modeling

Bias at a Second Glance: A Deep Dive into Bias for German Educational Peer-Review Data Modeling ( http://arxiv.org/abs/2209.10335v1 )

ライセンス: Link先を確認
Thiemo Wambsganss, Vinitra Swamy, Roman Rietsche, Tanja K\"aser(参考訳) 自然言語処理(nlp)は、教育応用への適応性を高めるためにますます活用されている。 しかし、最近の研究は、事前訓練された言語モデルにおける様々なバイアスを強調している。 既存の研究では異なる領域のバイアスを調査しているが、教育用コーパスや多言語コーパスのきめ細かな分析には限界がある。 本研究では,5年以上にわたって学生から収集された9,165のドイツ語ピアレビューコーパスを用いて,テキスト間のバイアスと複数のアーキテクチャを解析した。 特に,我々のコーパスには,ピアレビュー受取者からの有益性,品質,重要側面評価などのラベルと,属性が含まれている。 我々は,(1)収集したコーパスをクラスタラベルと関連づけた上で,単語埋め込みアソシエーションテスト(WEAT)解析を行い,(2)最もよく訓練されたドイツ語モデル(T5,BERT,GPT-2)とGloVe埋め込み,(3)収集したデータセットの微調整後の言語モデルについて検討した。 初期の期待とは対照的に,収集したコーパスは共起解析やGloVe埋め込みにおいて多くのバイアスを示さないことがわかった。 しかしながら、事前訓練されたドイツの言語モデルは、概念的、人種的、性別的なバイアスを生じさせ、ピアレビューデータの微調整中に概念的、人種的軸間のバイアスに大きな変化をもたらす。 本研究では,新たなデータセットによる第4次国連持続可能性目標(品質教育)への貢献,自然言語教育データにおけるバイアスの理解,教育課題に対する言語モデルのバイアスを克服しない可能性について検討する。

Natural Language Processing (NLP) has become increasingly utilized to provide adaptivity in educational applications. However, recent research has highlighted a variety of biases in pre-trained language models. While existing studies investigate bias in different domains, they are limited in addressing fine-grained analysis on educational and multilingual corpora. In this work, we analyze bias across text and through multiple architectures on a corpus of 9,165 German peer-reviews collected from university students over five years. Notably, our corpus includes labels such as helpfulness, quality, and critical aspect ratings from the peer-review recipient as well as demographic attributes. We conduct a Word Embedding Association Test (WEAT) analysis on (1) our collected corpus in connection with the clustered labels, (2) the most common pre-trained German language models (T5, BERT, and GPT-2) and GloVe embeddings, and (3) the language models after fine-tuning on our collected data-set. In contrast to our initial expectations, we found that our collected corpus does not reveal many biases in the co-occurrence analysis or in the GloVe embeddings. However, the pre-trained German language models find substantial conceptual, racial, and gender bias and have significant changes in bias across conceptual and racial axes during fine-tuning on the peer-review data. With our research, we aim to contribute to the fourth UN sustainability goal (quality education) with a novel dataset, an understanding of biases in natural language education data, and the potential harms of not counteracting biases in language models for educational tasks.
翻訳日:2022-09-22 16:43:49 公開日:2022-09-21
# 簡単なきめ細かな分類と人物探索のためのクエリガイドネットワーク

Query-Guided Networks for Few-shot Fine-grained Classification and Person Search ( http://arxiv.org/abs/2209.10250v1 )

ライセンス: Link先を確認
Bharti Munjal and Alessandro Flaborea and Sikandar Amin and Federico Tombari and Fabio Galasso(参考訳) 微粒な分類や人物探索は、異なるタスクとして現れ、文学はそれらを別々に扱った。 どちらのタスクも、特定のオブジェクトの詳細によってのみ識別できるカテゴリをターゲットにしており、関連するモデルはトレーニング中に見えない新しいカテゴリに一般化すべきである。 両タスクに適用可能な新しい統合クエリガイドネットワーク(QGN)を提案する。 QGN は Query-guided Siamese-Squeeze-and-Excitation サブネットワークで構成されており、全てのネットワーク層にわたるクエリ機能とギャラリー機能の両方を再重み付けする。 QGNは、最近の数ショットのきめ細かいデータセットを改善し、CUB上の他のテクニックを大きなマージンで上回っている。 QGNはまた、CUHK-SYSUとPRWデータセットを検索し、詳細な分析を行う。

Few-shot fine-grained classification and person search appear as distinct tasks and literature has treated them separately. But a closer look unveils important similarities: both tasks target categories that can only be discriminated by specific object details; and the relevant models should generalize to new categories, not seen during training. We propose a novel unified Query-Guided Network (QGN) applicable to both tasks. QGN consists of a Query-guided Siamese-Squeeze-and-Excitation subnetwork which re-weights both the query and gallery features across all network layers, a Query-guided Region Proposal subnetwork for query-specific localisation, and a Query-guided Similarity subnetwork for metric learning. QGN improves on a few recent few-shot fine-grained datasets, outperforming other techniques on CUB by a large margin. QGN also performs competitively on the person search CUHK-SYSU and PRW datasets, where we perform in-depth analysis.
翻訳日:2022-09-22 16:37:24 公開日:2022-09-21
# I2DFormer: ゼロショット画像分類のための文書注意のための画像学習

I2DFormer: Learning Image to Document Attention for Zero-Shot Image Classification ( http://arxiv.org/abs/2209.10304v1 )

ライセンス: Link先を確認
Muhammad Ferjad Naeem, Yongqin Xian, Luc Van Gool, Federico Tombari(参考訳) ゼロショット学習(ZSL)の飛躍的な進歩にもかかわらず、既存の手法のほとんどは、注釈付けやスケールが難しい人為的な属性に依存している。 教師なしの代替手段は、セマンティッククラス名に関連付けられた単語埋め込みを使って各クラスを表現することである。 しかし、事前学習された言語モデルから抽出された単語埋め込みは必ずしも視覚的な類似性を捉えず、結果としてゼロショット性能が低下する。 本稿では,オンラインのテキスト文書,例えばwikipediaは,オブジェクトクラスに関するリッチな視覚的記述を含んでいるため,zslの強力な教師なしサイド情報として使用できると主張する。 そこで本稿では,画像と文書のエンコードを共同で学習するトランスフォーマーベースのZSLフレームワークであるI2DFormerを提案する。 ノイズの多い文書から識別的視覚的単語を抽出するために,画像パッチと文書語間のきめ細かい相互作用を学習する,新たなモーダルアテンションモジュールを導入する。 その結果、i2dformerは、視覚的な類似性を捉えた高度に識別可能な文書埋め込みを学習するだけでなく、画像領域に視覚的に関連のある単語をローカライズする能力も得る。 定量的に、我々のI2DFormerは、3つの公開データセットにおけるゼロショットおよび一般化ゼロショット学習設定の両方の下で、教師なしセマンティック埋め込みを著しく上回ることを示した。 定性的に,本手法は,画像領域に文書単語を接地できる高度に解釈可能な結果をもたらすことを示す。

Despite the tremendous progress in zero-shot learning(ZSL), the majority of existing methods still rely on human-annotated attributes, which are difficult to annotate and scale. An unsupervised alternative is to represent each class using the word embedding associated with its semantic class name. However, word embeddings extracted from pre-trained language models do not necessarily capture visual similarities, resulting in poor zero-shot performance. In this work, we argue that online textual documents, e.g., Wikipedia, contain rich visual descriptions about object classes, therefore can be used as powerful unsupervised side information for ZSL. To this end, we propose I2DFormer, a novel transformer-based ZSL framework that jointly learns to encode images and documents by aligning both modalities in a shared embedding space. In order to distill discriminative visual words from noisy documents, we introduce a new cross-modal attention module that learns fine-grained interactions between image patches and document words. Consequently, our I2DFormer not only learns highly discriminative document embeddings that capture visual similarities but also gains the ability to localize visually relevant words in image regions. Quantitatively, we demonstrate that our I2DFormer significantly outperforms previous unsupervised semantic embeddings under both zero-shot and generalized zero-shot learning settings on three public datasets. Qualitatively, we show that our method leads to highly interpretable results where document words can be grounded in the image regions.
翻訳日:2022-09-22 16:37:04 公開日:2022-09-21
# 医用画像セグメンテーションのための深層学習 : トリック,課題,今後の方向性

Deep Learning for Medical Image Segmentation: Tricks, Challenges and Future Directions ( http://arxiv.org/abs/2209.10307v1 )

ライセンス: Link先を確認
Dong Zhang, Yi Lin, Hao Chen, Zhuotao Tian, Xin Yang, Jinhui Tang, Kwang Ting Cheng(参考訳) 近年,コンピュータビジョンのためのディープラーニング技術の急速な発展により,医用画像セグメンテーション(MedISeg)の性能が大幅に向上している。 しかし、最近のmediseg出版物は、通常、主要な貢献(例えば、ネットワークアーキテクチャ、トレーニング戦略、損失関数)のプレゼンテーションに焦点を当てているが、不当にいくつかの限界実装の詳細(いわゆる「トリック」)を無視しているため、不公平な実験結果の比較の潜在的な問題となっている。 本稿では,様々なモデル実装フェーズ(事前学習モデル,データ前処理,データ拡張,モデル実装,モデル推論,結果後処理など)に対するmedisegトリックを収集し,一貫性のあるベースラインモデルにおけるこれらのトリックの有効性を実験的に検討する。 セグメンテーションモデルの利点と限界分析のみに焦点を当てたペーパードリブンサーベイと比較すると,本研究は多数のソリッド実験を提供し,より技術的に運用可能である。 代表的な2次元および3次元医用画像データセットの広範な実験結果から,これらのトリックの効果を明らかにした。 さらに、調査したトリックに基づいて、各コンポーネントがプラグイン・アンド・プレイの利点を享受する強力なMedISegリポジトリもオープンソース化しました。 このマイルストーンは、最先端のMedISegアプローチに関する包括的で補完的な調査を完了しただけでなく、小さなデータセット学習、クラス不均衡学習、マルチモダリティ学習、ドメイン適応など、将来の医療画像処理課題に対処するための実践的なガイドも提供しています。 コードはhttps://github.com/hust-linyi/medisegでリリースされた。

Over the past few years, the rapid development of deep learning technologies for computer vision has greatly promoted the performance of medical image segmentation (MedISeg). However, the recent MedISeg publications usually focus on presentations of the major contributions (e.g., network architectures, training strategies, and loss functions) while unwittingly ignoring some marginal implementation details (also known as "tricks"), leading to a potential problem of the unfair experimental result comparisons. In this paper, we collect a series of MedISeg tricks for different model implementation phases (i.e., pre-training model, data pre-processing, data augmentation, model implementation, model inference, and result post-processing), and experimentally explore the effectiveness of these tricks on the consistent baseline models. Compared to paper-driven surveys that only blandly focus on the advantages and limitation analyses of segmentation models, our work provides a large number of solid experiments and is more technically operable. With the extensive experimental results on both the representative 2D and 3D medical image datasets, we explicitly clarify the effect of these tricks. Moreover, based on the surveyed tricks, we also open-sourced a strong MedISeg repository, where each of its components has the advantage of plug-and-play. We believe that this milestone work not only completes a comprehensive and complementary survey of the state-of-the-art MedISeg approaches, but also offers a practical guide for addressing the future medical image processing challenges including but not limited to small dataset learning, class imbalance learning, multi-modality learning, and domain adaptation. The code has been released at: https://github.com/hust-linyi/MedISeg
翻訳日:2022-09-22 16:36:34 公開日:2022-09-21
# 災害対応システムのための連続VQA

Continual VQA for Disaster Response Systems ( http://arxiv.org/abs/2209.10320v1 )

ライセンス: Link先を確認
Aditya Kane, V Manushree, Sahil Khose(参考訳) VQA(Visual Question Answering)は、入力された画像から質問に答え、画像の内容を理解し、自然言語で答えることを含むマルチモーダルタスクである。 災害管理におけるVQAの利用は,VQAシステムによって解決される問題の範囲から重要な研究分野である。 しかし、主な課題は、影響地域の評価におけるラベルの生成による遅延である。 これに対処するために、事前訓練されたクリップモデルをデプロイし、ビジュアルとイメージのペアでトレーニングしました。 しかし、このモデルはゼロショット性能が低いことを実証的に見ます。 代わりに、教師付きトレーニングのために、このモデルからトレーニング済みのテキストと画像の埋め込みを使用し、FloodNetデータセットの過去の最先端結果を上回っます。 私たちはこれを、より現実的なシナリオである連続的な設定に拡張します。 我々は,様々な経験リプレイ手法を用いて,破滅的な忘れ方の問題に取り組む。 トレーニングの実行は以下の通りです。

Visual Question Answering (VQA) is a multi-modal task that involves answering questions from an input image, semantically understanding the contents of the image and answering it in natural language. Using VQA for disaster management is an important line of research due to the scope of problems that are answered by the VQA system. However, the main challenge is the delay caused by the generation of labels in the assessment of the affected areas. To tackle this, we deployed pre-trained CLIP model, which is trained on visual-image pairs. however, we empirically see that the model has poor zero-shot performance. Thus, we instead use pre-trained embeddings of text and image from this model for our supervised training and surpass previous state-of-the-art results on the FloodNet dataset. We expand this to a continual setting, which is a more real-life scenario. We tackle the problem of catastrophic forgetting using various experience replay methods. Our training runs are available at: https://wandb.ai/compyle/continual_vqa_final
翻訳日:2022-09-22 16:36:01 公開日:2022-09-21
# SDA-$x$Net: 適応型マルチスケール特徴表現のための選択深度注意ネットワーク

SDA-$x$Net: Selective Depth Attention Networks for Adaptive Multi-scale Feature Representation ( http://arxiv.org/abs/2209.10327v1 )

ライセンス: Link先を確認
Qingbei Guo, Xiao-Jun Wu, Zhiquan Feng, Tianyang Xu and Cong Hu(参考訳) 既存のマルチスケールソリューションは、小さな受容野を無視しながら、受容野のサイズを増加させるリスクをもたらす。 したがって、様々な空間的対象を認識するための適応型ニューラルネットワークを効果的に構築することが課題である。 この問題に取り組むため,まず,チャネル,空間,分岐といった既存の注意次元に加えて,新たな注意次元,すなわち奥行きを導入し,様々な視覚タスクにおいて多次元オブジェクトを対称に扱うための新しい選択的奥行き注意ネットワークを提案する。 具体的には、与えられたニューラルネットワークの各ステージ、すなわちresnetの各ブロックは、同じ解像度を共有するが、異なるレセプティブフィールドサイズを持つ階層的特徴マップを出力する。 この構造的特性に基づいて、我々は、トランクブランチとSEライクなアテンションブランチを含むステージワイドなビルディングモジュール、すなわちSDAを設計する。 トランクブランチのブロック出力を融合させ、その深さ注意割り当てをアテンションブランチを介してグローバルに誘導する。 提案手法により,可変サイズの入力オブジェクトに対する受容場サイズを適応的に調整するために,異なる深度特徴を動的に選択できる。 このようにして、クロスブロック情報相互作用は深度方向に沿って長距離依存性をもたらす。 他のマルチスケールアプローチと比較して、SDA法は、前のブロックからの複数の受容場をステージ出力に組み合わせ、より広い範囲の効果的な受容場を提供する。 さらに,本手法は,SDA-$x$Netと呼ばれる,他のマルチスケールネットワークやアテンションネットワークにプラグイン可能なモジュールとして提供することができる。 これらの組み合わせは、効果的な受容野の範囲を小さな受容野へと拡張し、解釈可能なニューラルネットワークを可能にする。 我々のソースコードは \url{https://github.com/qingbeiguo/sda-xnet.git}で入手できる。

Existing multi-scale solutions lead to a risk of just increasing the receptive field sizes while neglecting small receptive fields. Thus, it is a challenging problem to effectively construct adaptive neural networks for recognizing various spatial-scale objects. To tackle this issue, we first introduce a new attention dimension, i.e., depth, in addition to existing attention dimensions such as channel, spatial, and branch, and present a novel selective depth attention network to symmetrically handle multi-scale objects in various vision tasks. Specifically, the blocks within each stage of a given neural network, i.e., ResNet, output hierarchical feature maps sharing the same resolution but with different receptive field sizes. Based on this structural property, we design a stage-wise building module, namely SDA, which includes a trunk branch and a SE-like attention branch. The block outputs of the trunk branch are fused to globally guide their depth attention allocation through the attention branch. According to the proposed attention mechanism, we can dynamically select different depth features, which contributes to adaptively adjusting the receptive field sizes for the variable-sized input objects. In this way, the cross-block information interaction leads to a long-range dependency along the depth direction. Compared with other multi-scale approaches, our SDA method combines multiple receptive fields from previous blocks into the stage output, thus offering a wider and richer range of effective receptive fields. Moreover, our method can be served as a pluggable module to other multi-scale networks as well as attention networks, coined as SDA-$x$Net. Their combination further extends the range of the effective receptive fields towards small receptive fields, enabling interpretable neural networks. Our source code is available at \url{https://github.com/QingbeiGuo/SDA-xNet.git}.
翻訳日:2022-09-22 16:35:47 公開日:2022-09-21
# FNeVR: 顔アニメーションのためのニューラルボリュームレンダリング

FNeVR: Neural Volume Rendering for Face Animation ( http://arxiv.org/abs/2209.10340v1 )

ライセンス: Link先を確認
Bohan Zeng, Boyu Liu, Hong Li, Xuhui Liu, Jianzhuang Liu, Dapeng Chen, Wei Peng, Baochang Zhang(参考訳) コンピュータビジョンで最もホットなトピックの1つである顔アニメーションは、生成モデルの助けを借りて、有望なパフォーマンスを達成した。 しかし、高度な運動変形と複雑な顔のディテールモデリングのため、アイデンティティ保存とフォトリアリスティックな画像を生成することは依然として重要な課題である。 これらの問題に対処するために,FNeVR(Face Neural Volume Rendering)ネットワークを提案し,統合されたフレームワークにおける2次元モーションワープと3次元ボリュームレンダリングの可能性について検討する。 fnevrでは、3d顔ボリュームレンダリング(fvr)モジュールをデザインし、画像レンダリングのための顔の詳細を強化します。 具体的には,まず,設計の整ったアーキテクチャを用いて3d情報を抽出し,効率的なレンダリングのための直交適応レイサンプリングモジュールを導入する。 また、軽量なポーズエディタを設計し、FNeVRが簡単にかつ効果的に顔のポーズを編集できるようにする。 我々のFNeVRは、広く使われているトーキングヘッドベンチマークにおいて、最高の全体的な品質と性能を得る。

Face animation, one of the hottest topics in computer vision, has achieved a promising performance with the help of generative models. However, it remains a critical challenge to generate identity preserving and photo-realistic images due to the sophisticated motion deformation and complex facial detail modeling. To address these problems, we propose a Face Neural Volume Rendering (FNeVR) network to fully explore the potential of 2D motion warping and 3D volume rendering in a unified framework. In FNeVR, we design a 3D Face Volume Rendering (FVR) module to enhance the facial details for image rendering. Specifically, we first extract 3D information with a well-designed architecture, and then introduce an orthogonal adaptive ray-sampling module for efficient rendering. We also design a lightweight pose editor, enabling FNeVR to edit the facial pose in a simple yet effective way. Extensive experiments show that our FNeVR obtains the best overall quality and performance on widely used talking-head benchmarks.
翻訳日:2022-09-22 16:35:17 公開日:2022-09-21
# イベントストリームにおける長時間の正確なキーポイント

Long-Lived Accurate Keypoints in Event Streams ( http://arxiv.org/abs/2209.10385v1 )

ライセンス: Link先を確認
Philippe Chiberre, Etienne Perot, Amos Sironi and Vincent Lepetit(参考訳) 本稿では,イベントストリームにおけるキーポイント検出と追跡に対する新たなエンドツーエンドアプローチを提案する。 これは、協力して働く2つの貢献によって実現される。 まず,リカレントアーキテクチャのトレーニングに使用する安定なキーポイントラベルを生成するための簡単な手順を提案する。 このトレーニングデータは、時間とともに非常に一貫した検出をもたらす。 さらに,従来のキーポイント検出手法は,ある期間にわたってイベントを統合する表現(時間表面など)に作用することを示した。 この統合が必要なので、従来のアプローチのように、単一の場所よりも、キーポイントの軌道を時間的に予測した方がよいと我々は主張する。 我々はこれらの軌道を積分時間に対する一連の熱マップの形で予測する。 これによりキーポイントのローカライズが向上する。 私たちのアーキテクチャは、非常にシンプルに保たれるので、非常に高速な推論時間になります。 我々は,HVGA ATIS Cornerデータセットと"The Event-Camera Dataset and Simulator"データセットに対するアプローチを実証し,従来の最先端手法の3倍の精度でキーポイントトラックが得られたことを示す。 当社のアプローチは他のイベントベースのカメラ問題に一般化できると考えています。

We present a novel end-to-end approach to keypoint detection and tracking in an event stream that provides better precision and much longer keypoint tracks than previous methods. This is made possible by two contributions working together. First, we propose a simple procedure to generate stable keypoint labels, which we use to train a recurrent architecture. This training data results in detections that are very consistent over time. Moreover, we observe that previous methods for keypoint detection work on a representation (such as the time surface) that integrates events over a period of time. Since this integration is required, we claim it is better to predict the keypoints' trajectories for the time period rather than single locations, as done in previous approaches. We predict these trajectories in the form of a series of heatmaps for the integration time period. This improves the keypoint localization. Our architecture can also be kept very simple, which results in very fast inference times. We demonstrate our approach on the HVGA ATIS Corner dataset as well as "The Event-Camera Dataset and Simulator" dataset, and show it results in keypoint tracks that are three times longer and nearly twice as accurate as the best previous state-of-the-art methods. We believe our approach can be generalized to other event-based camera problems, and we release our source code to encourage other authors to explore it.
翻訳日:2022-09-22 16:35:00 公開日:2022-09-21
# タスク固有オブジェクト検出のためのIoU拡張アテンション

IoU-Enhanced Attention for End-to-End Task Specific Object Detection ( http://arxiv.org/abs/2209.10391v1 )

ライセンス: Link先を確認
Jing Zhao, Shengjian Wu, Li Sun, Qingli Li(参考訳) 画像に密着したアンカーボックスやグリッドポイントがなければ、スパースR-CNNは、一連のオブジェクトクエリと提案ボックスをカスケードされたトレーニング方法で更新することで、有望な結果を達成する。 しかし、クエリーと出席地域との関係があいまいな点と1対1の関係のため、初期の訓練段階では不正確である自己の注意に大きく依存する。 さらに、高密度オブジェクトのシーンでは、オブジェクトクエリは多くの無関係なものと相互作用し、そのユニークさを減らし、パフォーマンスを損なう。 本稿では,自己注意における値ルーティングの先行として,異なるボックス間でIoUを使用することを提案する。 元の注目行列は、提案ボックスのIoUから計算された同じ大きさの行列を乗算し、無関係な特徴を抑えるためにルーティング方式を決定する。 さらに,分類と回帰の両方の特徴を正確に抽出するために,オブジェクトクエリに基づく動的チャネルマスクを提供するために,2つの軽量なプロジェクションヘッドを追加し,動的convからの出力を乗算し,その結果を2つの異なるタスクに適合させる。 提案手法は,MS-COCO や CrowdHuman など様々なデータセット上で検証され,性能が大幅に向上し,モデル収束速度が向上することを示す。

Without densely tiled anchor boxes or grid points in the image, sparse R-CNN achieves promising results through a set of object queries and proposal boxes updated in the cascaded training manner. However, due to the sparse nature and the one-to-one relation between the query and its attending region, it heavily depends on the self attention, which is usually inaccurate in the early training stage. Moreover, in a scene of dense objects, the object query interacts with many irrelevant ones, reducing its uniqueness and harming the performance. This paper proposes to use IoU between different boxes as a prior for the value routing in self attention. The original attention matrix multiplies the same size matrix computed from the IoU of proposal boxes, and they determine the routing scheme so that the irrelevant features can be suppressed. Furthermore, to accurately extract features for both classification and regression, we add two lightweight projection heads to provide the dynamic channel masks based on object query, and they multiply with the output from dynamic convs, making the results suitable for the two different tasks. We validate the proposed scheme on different datasets, including MS-COCO and CrowdHuman, showing that it significantly improves the performance and increases the model convergence speed.
翻訳日:2022-09-22 16:34:38 公開日:2022-09-21
# 歴史的写本におけるN-gramスポッティングのためのショット多重表現手法

A Few Shot Multi-Representation Approach for N-gram Spotting in Historical Manuscripts ( http://arxiv.org/abs/2209.10441v1 )

ライセンス: Link先を確認
Giuseppe De Gregorio, Sanket Biswas, Mohamed Ali Souibgui, Asma Bensalah, Josep Llad\'os, Alicia Forn\'es, Angelo Marcelli(参考訳) 近年の自動テキスト認識の進歩にもかかわらず、歴史写本に関してはその性能は穏やかである。 これは主に、htr(data-hungry hand written text recognition)モデルのトレーニングに利用可能なラベル付きデータが少ないためである。 キーワードスポッティングシステム(kws)は、エラー率の低減のためにhtrの有効な代替手段を提供するが、通常は閉じた参照語彙に限定される。 本稿では,少量のラベル付き学習データを必要とする少数の文字(N-gram)のシーケンスをスポッティングするための数ショット学習パラダイムを提案する。 重要なn-gramを認識することで,システムの語彙依存度を低減できることを示す。 この場合、入力手書き行画像中のoo-of-vocabulary(OOV)ワードは、辞書に属するn-gramのシーケンスである可能性がある。 ベンサムの古写本コレクションのサブセットを用いて,提案した多表現手法の実験的評価を行い,本手法の真に有望な成果を得た。

Despite recent advances in automatic text recognition, the performance remains moderate when it comes to historical manuscripts. This is mainly because of the scarcity of available labelled data to train the data-hungry Handwritten Text Recognition (HTR) models. The Keyword Spotting System (KWS) provides a valid alternative to HTR due to the reduction in error rate, but it is usually limited to a closed reference vocabulary. In this paper, we propose a few-shot learning paradigm for spotting sequences of a few characters (N-gram) that requires a small amount of labelled training data. We exhibit that recognition of important n-grams could reduce the system's dependency on vocabulary. In this case, an out-of-vocabulary (OOV) word in an input handwritten line image could be a sequence of n-grams that belong to the lexicon. An extensive experimental evaluation of our proposed multi-representation approach was carried out on a subset of Bentham's historical manuscript collections to obtain some really promising results in this direction.
翻訳日:2022-09-22 16:34:02 公開日:2022-09-21
# 水中物体検出のための深層学習技術の展望

Review On Deep Learning Technique For Underwater Object Detection ( http://arxiv.org/abs/2209.10151v1 )

ライセンス: Link先を確認
Radhwan Adnan Dakhil and Ali Retha Hasoon Khayeat(参考訳) 水中構造物の修理とメンテナンス、および海洋科学は、画像処理ワークフローの重要な部分である水中物体検出の結果に大きく依存している。 多くのコンピュータビジョンに基づくアプローチが提示されているが、深海にある物体や動物を確実に正確に検出し分類するシステムはまだ開発されていない。 これは主に水中で光を散乱させ吸収する障害物によるものである。 深層学習の導入により、海洋生態系の保護、緊急時の生命の保全、水中災害の防止、水中目標の検出、スプーリング、特定など、幅広い問題に対処することが可能になった。 しかし、これらの深層学習システムの利点と欠点は未だ不明である。 そこで本論文では,水中物体検出に利用されたデータセットの概要と,これに用いるアルゴリズムの利点と欠点について考察する。

Repair and maintenance of underwater structures as well as marine science rely heavily on the results of underwater object detection, which is a crucial part of the image processing workflow. Although many computer vision-based approaches have been presented, no one has yet developed a system that reliably and accurately detects and categorizes objects and animals found in the deep sea. This is largely due to obstacles that scatter and absorb light in an underwater setting. With the introduction of deep learning, scientists have been able to address a wide range of issues, including safeguarding the marine ecosystem, saving lives in an emergency, preventing underwater disasters, and detecting, spooring, and identifying underwater targets. However, the benefits and drawbacks of these deep learning systems remain unknown. Therefore, the purpose of this article is to provide an overview of the dataset that has been utilized in underwater object detection and to present a discussion of the advantages and disadvantages of the algorithms employed for this purpose.
翻訳日:2022-09-22 16:28:22 公開日:2022-09-21
# FT-HID:1人3人インタラクション分析のための大規模RGB-Dデータセット

FT-HID: A Large Scale RGB-D Dataset for First and Third Person Human Interaction Analysis ( http://arxiv.org/abs/2209.10155v1 )

ライセンス: Link先を確認
Zihui Guo, Yonghong Hou, Pichao Wang, Zhimin Gao, Mingliang Xu, and Wanqing Li(参考訳) ヒューマンインタラクションの分析は、人間の動作分析の重要な研究テーマである。 first person vision (fpv) または third person vision (tpv) を用いて研究されている。 しかし、両視覚の合同学習は、今のところほとんど注目されていない。 理由のひとつは、FPVとTPVの両方をカバーする適切なデータセットがないことだ。 さらに、既存のFPVまたはTPVのベンチマークデータセットには、サンプル数、対象者、相互作用カテゴリ、モダリティなど、いくつかの制限がある。 本研究では,大規模なヒューマンインタラクションデータセットであるFT-HIDデータセットにコントリビュートする。 FT-HIDは、第一人物と第三人物の視力のペアのサンプルを含む。 データセットは109の異なる被験者から収集され、3つのモダリティに対して90K以上のサンプルを持つ。 データセットは、いくつかの既存のアクション認識手法を使用して検証されている。 さらに,スケルトン配列のための新しい多視点インタラクション機構と,第1者および第3者視覚のための共同学習型マルチストリームフレームワークを導入する。 両手法はFT-HIDデータセット上で有望な結果をもたらす。 このビジョン整合型大規模データセットの導入は、FPVとTPVの両方の開発と、人間の行動分析のための共同学習技術の発展を促進することが期待されている。 データセットとコードは \href{https://github.com/ENDLICHERE/FT-HID}{here} で公開されている。

Analysis of human interaction is one important research topic of human motion analysis. It has been studied either using first person vision (FPV) or third person vision (TPV). However, the joint learning of both types of vision has so far attracted little attention. One of the reasons is the lack of suitable datasets that cover both FPV and TPV. In addition, existing benchmark datasets of either FPV or TPV have several limitations, including the limited number of samples, participant subjects, interaction categories, and modalities. In this work, we contribute a large-scale human interaction dataset, namely, FT-HID dataset. FT-HID contains pair-aligned samples of first person and third person visions. The dataset was collected from 109 distinct subjects and has more than 90K samples for three modalities. The dataset has been validated by using several existing action recognition methods. In addition, we introduce a novel multi-view interaction mechanism for skeleton sequences, and a joint learning multi-stream framework for first person and third person visions. Both methods yield promising results on the FT-HID dataset. It is expected that the introduction of this vision-aligned large-scale dataset will promote the development of both FPV and TPV, and their joint learning techniques for human action analysis. The dataset and code are available at \href{https://github.com/ENDLICHERE/FT-HID}{here}.
翻訳日:2022-09-22 16:28:07 公開日:2022-09-21
# RGB熱塩物検出のための位置認識関係学習

Position-Aware Relation Learning for RGB-Thermal Salient Object Detection ( http://arxiv.org/abs/2209.10158v1 )

ライセンス: Link先を確認
Heng Zhou, Chunna Tian, Zhenxi Zhang, Chengyang Li, Yuxuan Ding, Yongqiang Xie, Zhongbo Li(参考訳) RGB-Thermal Salient Object Detection (SOD)は2つのスペクトルを組み合わせて画像内の視覚的に目立つ領域を分割する。 既存の手法のほとんどは境界写像を使って鋭い境界を学ぶ。 これらの手法は、分離された境界画素と他の確実な画素との相互作用を無視し、準最適性能をもたらす。 この問題に対処するために,Swin Transformer を用いた RGB-T SOD のための位置認識型関係学習ネットワーク (PRLNet) を提案する。 PRLNetは、クラス内コンパクト性とクラス間分離を強化するため、ピクセル間の距離と方向の関係を探索し、明確な境界と均一な領域を持つ有能なオブジェクトマスクを生成する。 具体的には,境界近傍の異なる画素間の距離関係を考慮したエンコーダ特徴表現を改善するために,符号付き距離マップ補助モジュール(SDMAM)を開発した。 そこで, 指向性フィールド(FRDF)を用いた特徴改善手法を設計し, 有向物体内部の特徴を利用して境界近傍の特徴を補正する。 FRDFは、対象画素間の方向情報を利用して、サルエント領域のクラス内コンパクト性を効果的に強化する。 さらに、RGB-T SODのマルチスペクトル特徴表現を強化するために、純粋なトランスフォーマーエンコーダデコーダネットワークを構成する。 最後に,3つの公開ベンチマークデータセットについて定量的,定性的な実験を行い,提案手法が最先端の手法より優れていることを示す。

RGB-Thermal salient object detection (SOD) combines two spectra to segment visually conspicuous regions in images. Most existing methods use boundary maps to learn the sharp boundary. These methods ignore the interactions between isolated boundary pixels and other confident pixels, leading to sub-optimal performance. To address this problem,we propose a position-aware relation learning network (PRLNet) for RGB-T SOD based on swin transformer. PRLNet explores the distance and direction relationships between pixels to strengthen intra-class compactness and inter-class separation, generating salient object masks with clear boundaries and homogeneous regions. Specifically, we develop a novel signed distance map auxiliary module (SDMAM) to improve encoder feature representation, which takes into account the distance relation of different pixels in boundary neighborhoods. Then, we design a feature refinement approach with directional field (FRDF), which rectifies features of boundary neighborhood by exploiting the features inside salient objects. FRDF utilizes the directional information between object pixels to effectively enhance the intra-class compactness of salient regions. In addition, we constitute a pure transformer encoder-decoder network to enhance multispectral feature representation for RGB-T SOD. Finally, we conduct quantitative and qualitative experiments on three public benchmark datasets.The results demonstrate that our proposed method outperforms the state-of-the-art methods.
翻訳日:2022-09-22 16:27:49 公開日:2022-09-21
# HAZE-Net:低解像度顔画像における高周波減衰型超解像解像推定

HAZE-Net: High-Frequency Attentive Super-Resolved Gaze Estimation in Low-Resolution Face Images ( http://arxiv.org/abs/2209.10167v1 )

ライセンス: Link先を確認
Jun-Seok Yun, Youngju Na, Hee Hyeon Kim, Hyung-Il Kim, Seok Bong Yoo(参考訳) 視線推定法は深層学習技術を用いて開発されているが,50ピクセル以下の低解像度の顔画像において,正確な性能を実現するための手法は存在しない。 難解な低分解能条件下での限界を解決するために,高周波超解像視線推定ネットワーク,すなわちhaze-netを提案する。 本ネットワークは,入力画像の解像度を改善し,高頻度アテンションブロックに基づく超解像度モジュールによる視線特徴と境界を向上させる。 さらに、視線推定モジュールは、眼の高周波成分とグローバル外観マップを利用する。 また,顔の構造的位置情報を用いて頭部ポーズを近似する。 実験結果から,28×28ピクセルの低解像度顔画像においても,頑健な視線推定性能を示した。 この作業のソースコードはhttps://github.com/dbseorms16/haze_net/で入手できる。

Although gaze estimation methods have been developed with deep learning techniques, there has been no such approach as aim to attain accurate performance in low-resolution face images with a pixel width of 50 pixels or less. To solve a limitation under the challenging low-resolution conditions, we propose a high-frequency attentive super-resolved gaze estimation network, i.e., HAZE-Net. Our network improves the resolution of the input image and enhances the eye features and those boundaries via a proposed super-resolution module based on a high-frequency attention block. In addition, our gaze estimation module utilizes high-frequency components of the eye as well as the global appearance map. We also utilize the structural location information of faces to approximate head pose. The experimental results indicate that the proposed method exhibits robust gaze estimation performance even in low-resolution face images with 28x28 pixels. The source code of this work is available at https://github.com/dbseorms16/HAZE_Net/.
翻訳日:2022-09-22 16:27:24 公開日:2022-09-21
# FV2ES: 高速かつ効果的なビデオ感情認識のためのフルエンド2エンドマルチモーダルシステム

FV2ES: A Fully End2End Multimodal System for Fast Yet Effective Video Emotion Recognition Inference ( http://arxiv.org/abs/2209.10170v1 )

ライセンス: Link先を確認
Qinglan Wei, Xuling Huang, Yuan Zhang(参考訳) 最新のソーシャルネットワークでは、テキスト、スピーチ、リッチな表情で自分の感情をビデオで表現することを好む人がますます増えている。 マルチモーダルビデオ感情分析技術は、画像の人間の表情やジェスチャー、音声のトーン、認識された自然言語に基づいて、ユーザーの内的世界を自動的に理解するのに役立つ。 しかし、既存の研究では、視覚やテキストのモダリティと比較して、音響モダリティはずっと限界的な位置にある。 すなわち、マルチモーダル感情認識タスク全体に対する音響モダリティの寄与を改善することがより困難になる傾向がある。 さらに、一般的なディープラーニング手法を導入することで、より良いパフォーマンスが得られるが、これらのトレーニングモデルの複雑な構造は常に推論効率が低く、特に高解像度で長大なビデオに曝される。 さらに、完全なエンドツーエンドのマルチモーダルビデオ感情認識システムの欠如は、その応用を妨げている。 In this paper, we designed a fully multimodal video-to-emotion system (named FV2ES) for fast yet effective recognition inference, whose benefits are threefold: (1) The adoption of the hierarchical attention method upon the sound spectra breaks through the limited contribution of the acoustic modality and outperforms the existing models' performance on both IEMOCAP and CMU-MOSEI datasets; (2) the introduction of the idea of multi-scale for visual extraction while single-branch for inference brings higher efficiency and maintains the prediction accuracy at the same time; (3) the further integration of data pre-processing into the aligned multimodal learning model allows the significant reduction of computational costs and storage space.

In the latest social networks, more and more people prefer to express their emotions in videos through text, speech, and rich facial expressions. Multimodal video emotion analysis techniques can help understand users' inner world automatically based on human expressions and gestures in images, tones in voices, and recognized natural language. However, in the existing research, the acoustic modality has long been in a marginal position as compared to visual and textual modalities. That is, it tends to be more difficult to improve the contribution of the acoustic modality for the whole multimodal emotion recognition task. Besides, although better performance can be obtained by introducing common deep learning methods, the complex structures of these training models always result in low inference efficiency, especially when exposed to high-resolution and long-length videos. Moreover, the lack of a fully end-to-end multimodal video emotion recognition system hinders its application. In this paper, we designed a fully multimodal video-to-emotion system (named FV2ES) for fast yet effective recognition inference, whose benefits are threefold: (1) The adoption of the hierarchical attention method upon the sound spectra breaks through the limited contribution of the acoustic modality and outperforms the existing models' performance on both IEMOCAP and CMU-MOSEI datasets; (2) the introduction of the idea of multi-scale for visual extraction while single-branch for inference brings higher efficiency and maintains the prediction accuracy at the same time; (3) the further integration of data pre-processing into the aligned multimodal learning model allows the significant reduction of computational costs and storage space.
翻訳日:2022-09-22 16:27:10 公開日:2022-09-21
# LatentGaze: Gaze-Aware Analytic Latent Code Manipulationによるドメイン間ギャップ推定

LatentGaze: Cross-Domain Gaze Estimation through Gaze-Aware Analytic Latent Code Manipulation ( http://arxiv.org/abs/2209.10171v1 )

ライセンス: Link先を確認
Isack Lee, Jun-Seok Yun, Hee Hyeon Kim, Youngju Na, Seok Bong Yoo(参考訳) 近年の視線推定法は,視線関連特徴を顔画像や眼画像から注意深く抽出することに重点を置いているが,視線関連成分を含む特徴をどう定義するかは曖昧である。 この難易度により、モデルは視線関連特徴だけでなく、無関係特徴も学習できる。 特に、クロスデータセットのパフォーマンスには致命的です。 本稿では,この課題を克服するために,生成型逆ネットワークインバージョンを用いたデータ駆動アプローチに基づく視線認識解析手法を提案し,潜在コードにおける視線関連特徴を選択的に活用する。 さらに、ganベースのエンコーダ生成プロセスを利用して、入力画像を対象領域から視線推定器が十分に認識しているソース領域画像にシフトする。 また,エンコーダにおける視線情報の歪みを防止するための視線歪み損失を提案する。 実験結果から,領域間視線推定タスクにおける最先端視線推定精度が得られた。 このコードはhttps://github.com/leeisack/LatentGaze/で入手できる。

Although recent gaze estimation methods lay great emphasis on attentively extracting gaze-relevant features from facial or eye images, how to define features that include gaze-relevant components has been ambiguous. This obscurity makes the model learn not only gaze-relevant features but also irrelevant ones. In particular, it is fatal for the cross-dataset performance. To overcome this challenging issue, we propose a gaze-aware analytic manipulation method, based on a data-driven approach with generative adversarial network inversion's disentanglement characteristics, to selectively utilize gaze-relevant features in a latent code. Furthermore, by utilizing GAN-based encoder-generator process, we shift the input image from the target domain to the source domain image, which a gaze estimator is sufficiently aware. In addition, we propose gaze distortion loss in the encoder that prevents the distortion of gaze information. The experimental results demonstrate that our method achieves state-of-the-art gaze estimation accuracy in a cross-domain gaze estimation tasks. This code is available at https://github.com/leeisack/LatentGaze/.
翻訳日:2022-09-22 16:26:46 公開日:2022-09-21
# D-InLoc++: 動的環境における屋内ローカライゼーション

D-InLoc++: Indoor Localization in Dynamic Environments ( http://arxiv.org/abs/2209.10185v1 )

ライセンス: Link先を確認
Martina Dubenova, Anna Zderadickova, Ondrej Kafka, Tomas Pajdla, Michal Polic(参考訳) ほとんどの最先端のローカライゼーションアルゴリズムは、複雑な屋内環境での移動物体非依存カメラのポーズを得るためにロバストな相対ポーズ推定と幾何検証に依存している。 しかし、このアプローチは、例えば机、テーブル、箱、移動中の人々のような反復的な構造を含む場合、ミスを犯しやすい。 移動物体には非無視的局所化誤差が組み込まれており,6自由度 (6DoF) がより頑健に作用することを示す。 実時間インスタンスセグメンテーションネットワークYOLACT++にローカライゼーションパイプラインInLocを組み込んだ。 動的オブジェクトのマスクは、相対的なポーズ推定ステップと、カメラポーズの提案の最終ソートで使用される。 まず、動的オブジェクトのマスクの上に横たわるマッチをフィルターアウトします。 第2に、移動物体に関連する領域におけるクエリと合成画像の比較を省略する。 この手順はより堅牢な局所化につながる。 最後に,合成画像と問合せ画像の勾配に基づく比較による誤りを記述・改善し,matterportスキャンから移動物体を用いた環境シミュレーションのための新しいパイプラインを公開する。 すべてのコードはgithub.com/dubenma/D-InLocppで利用可能である。

Most state-of-the-art localization algorithms rely on robust relative pose estimation and geometry verification to obtain moving object agnostic camera poses in complex indoor environments. However, this approach is prone to mistakes if a scene contains repetitive structures, e.g., desks, tables, boxes, or moving people. We show that the movable objects incorporate non-negligible localization error and present a new straightforward method to predict the six-degree-of-freedom (6DoF) pose more robustly. We equipped the localization pipeline InLoc with real-time instance segmentation network YOLACT++. The masks of dynamic objects are employed in the relative pose estimation step and in the final sorting of camera pose proposal. At first, we filter out the matches laying on masks of the dynamic objects. Second, we skip the comparison of query and synthetic images on the area related to the moving object. This procedure leads to a more robust localization. Lastly, we describe and improve the mistakes caused by gradient-based comparison between synthetic and query images and publish a new pipeline for simulation of environments with movable objects from the Matterport scans. All the codes are available on github.com/dubenma/D-InLocpp .
翻訳日:2022-09-22 16:26:29 公開日:2022-09-21
# カーネルに基づく合意学習のための一般化メディア計算

Kernel-Based Generalized Median Computation for Consensus Learning ( http://arxiv.org/abs/2209.10208v1 )

ライセンス: Link先を確認
Andreas Nienk\"otter, Xiaoyi Jiang(参考訳) 与えられたオブジェクトの集合からコンセンサスオブジェクトを計算することは、機械学習とパターン認識の核となる問題である。 1つの一般的なアプローチは、一般化中央値を用いて最適化問題として定式化することである。 プロトタイプや距離保存埋め込み法のような以前の手法は、対象をベクトル空間に変換し、この空間における一般化された中央値問題を解き、元の空間に逆変換する。 これらの2つの手法は、一般化された中央値問題は本質的に高い計算複雑性(典型的には$\mathcal{np}$-hard)を持ち、従って近似解が必要となる幅広い対象領域にうまく適用されている。 以前は、オブジェクト間の空間的関係を正確に反映しない明示的な埋め込み法が計算に用いられていた。 本研究では,正定値カーネルと不定値カーネルの両方に適用可能な,カーネルベースの一般化中央値フレームワークを提案する。 このフレームワークは、明示的な埋め込みを必要とせずに、オブジェクトとカーネル空間における一般化中央値の関係を計算する。 対象物間の空間的関係は、容易に計算可能なカーネルを用いて明示的なベクトル空間よりも正確に表現され、3つの異なる領域のデータセット上での一般化中央値計算の優れた性能を示す。 我々の研究から得られたソフトウェアツールボックスは、他の研究者に一般的な中央値計算とアプリケーションを探求するよう促すために公開されています。

Computing a consensus object from a set of given objects is a core problem in machine learning and pattern recognition. One popular approach is to formulate it as an optimization problem using the generalized median. Previous methods like the Prototype and Distance-Preserving Embedding methods transform objects into a vector space, solve the generalized median problem in this space, and inversely transform back into the original space. Both of these methods have been successfully applied to a wide range of object domains, where the generalized median problem has inherent high computational complexity (typically $\mathcal{NP}$-hard) and therefore approximate solutions are required. Previously, explicit embedding methods were used in the computation, which often do not reflect the spatial relationship between objects exactly. In this work we introduce a kernel-based generalized median framework that is applicable to both positive definite and indefinite kernels. This framework computes the relationship between objects and its generalized median in kernel space, without the need of an explicit embedding. We show that the spatial relationship between objects is more accurately represented in kernel space than in an explicit vector space using easy-to-compute kernels, and demonstrate superior performance of generalized median computation on datasets of three different domains. A software toolbox resulting from our work is made publicly available to encourage other researchers to explore the generalized median computation and applications.
翻訳日:2022-09-22 16:26:09 公開日:2022-09-21
# 視覚認識に基づくインテリジェント・ウェイフィンディング車両の設計

Intelligent wayfinding vehicle design based on visual recognition ( http://arxiv.org/abs/2209.10229v1 )

ライセンス: Link先を確認
Zhanyu Guo, Shenyuan Guo, Jialong Wang, Yifan Feng(参考訳) インテリジェントドラッグデリバリートロリー(Intelligent Drug Delivery Trolley)は、先進的なインテリジェントドラッグデリバリー機器である。 従来の手作業による薬の配達に比べて、薬の配達効率が高く、エラー率が低い。 本プロジェクトでは,視覚認識技術により対象病棟の道路経路と部屋番号を認識可能なインテリジェントドラッグデリバリーカーの設計と製造を行う。 トロリーは、特定された部屋番号に従って対応する経路を選択し、正確にターゲット病棟に搬送し、薬が配達された後に薬局に戻ることができる。 インテリジェントなドラッグデリバリーカーは直流電源を使用し、モータ駆動モジュールは2つの直流モータを制御し、回転角の過度のずれを克服する。 トロリーライン検査関数は閉ループ制御を用いて、ライン検査の精度とトロリー速度の制御性を向上させる。 ウォード番号の識別はマイクロコントローラ付きカメラモジュールにより完了し、環境輝度の適応調整、歪み補正、自動校正等の機能を有する。 2台の協力型ドラッグデリバリー車両間の通信はBluetoothモジュールによって実現され、効率的かつ正確な通信と対話を実現する。 実験の結果,知的薬剤配送車は部屋番号を正確に識別し,遠方,中方,近方の病棟に薬剤を届ける経路を計画でき,速さと正確な判断の特長があることがわかった。 さらに、2つの薬局が協力して同じ病棟に薬を届け、高い効率と高い協力を得られる。

Intelligent drug delivery trolley is an advanced intelligent drug delivery equipment. Compared with traditional manual drug delivery, it has higher drug delivery efficiency and lower error rate. In this project, an intelligent drug delivery car is designed and manufactured, which can recognize the road route and the room number of the target ward through visual recognition technology. The trolley selects the corresponding route according to the identified room number, accurately transports the drugs to the target ward, and can return to the pharmacy after the drugs are delivered. The intelligent drug delivery car uses DC power supply, and the motor drive module controls two DC motors, which overcomes the problem of excessive deviation of turning angle. The trolley line inspection function uses closed-loop control to improve the accuracy of line inspection and the controllability of trolley speed. The identification of ward number is completed by the camera module with microcontroller, and has the functions of adaptive adjustment of ambient brightness, distortion correction, automatic calibration and so on. The communication between two cooperative drug delivery vehicles is realized by Bluetooth module, which achieves efficient and accurate communication and interaction. Experiments show that the intelligent drug delivery car can accurately identify the room number and plan the route to deliver drugs to the far, middle and near wards, and has the characteristics of fast speed and accurate judgment. In addition, two drug delivery trolleys can cooperate to deliver drugs to the same ward, with high efficiency and high cooperation.
翻訳日:2022-09-22 16:25:44 公開日:2022-09-21
# BEVStereo:動的時間ステレオを用いた多視点3次元物体検出における深さ推定の強化

BEVStereo: Enhancing Depth Estimation in Multi-view 3D Object Detection with Dynamic Temporal Stereo ( http://arxiv.org/abs/2209.10248v1 )

ライセンス: Link先を確認
Yinhao Li, Han Bao, Zheng Ge, Jinrong Yang, Jianjian Sun, Zeming Li(参考訳) 深度知覚の本来の曖昧さによって、現代のカメラベースの3Dオブジェクト検出法は性能ボトルネックに陥る。 直感的には、時間的多視点ステレオ(MVS)技術を活用することが、この曖昧さに対処するための自然な知識である。 しかし、従来のMVSの試みは、3Dオブジェクト検出シーンに適用する場合の2つの側面に欠陥がある。 1)すべての視点における親和性の測定は,計算コストがかかる。 2) オブジェクトがしばしば移動している屋外シナリオに対処することは困難である。 そこで本稿では,マッチング候補のスケールを動的に選択し,計算オーバーヘッドを大幅に削減する有効な時間ステレオ手法を提案する。 さらに一歩進めると、我々はより価値のある候補を更新するための反復アルゴリズムを設計し、移動可能な候補に適応する。 提案手法を多視点3D検出器(BEVStereo)にインスタンス化する。 BEVStereoは、nuScenesデータセットのカメラのみのトラック上で、新しい最先端のパフォーマンス(52.5% mAPと61.0% NDS)を達成する。 一方,本手法を反映する広範な実験は,現代のmvs手法よりも複雑な屋外シナリオに対処できる。 コードはhttps://github.com/Megvii-BaseDetection/BEVStereoでリリースされた。

Bounded by the inherent ambiguity of depth perception, contemporary camera-based 3D object detection methods fall into the performance bottleneck. Intuitively, leveraging temporal multi-view stereo (MVS) technology is the natural knowledge for tackling this ambiguity. However, traditional attempts of MVS are flawed in two aspects when applying to 3D object detection scenes: 1) The affinity measurement among all views suffers expensive computation cost; 2) It is difficult to deal with outdoor scenarios where objects are often mobile. To this end, we introduce an effective temporal stereo method to dynamically select the scale of matching candidates, enable to significantly reduce computation overhead. Going one step further, we design an iterative algorithm to update more valuable candidates, making it adaptive to moving candidates. We instantiate our proposed method to multi-view 3D detector, namely BEVStereo. BEVStereo achieves the new state-of-the-art performance (i.e., 52.5% mAP and 61.0% NDS) on the camera-only track of nuScenes dataset. Meanwhile, extensive experiments reflect our method can deal with complex outdoor scenarios better than contemporary MVS approaches. Codes have been released at https://github.com/Megvii-BaseDetection/BEVStereo.
翻訳日:2022-09-22 16:25:19 公開日:2022-09-21
# 目的によるプログレッシブ:コンテキストと構造を通してプログレッシブなDNNを導く

Progressive with Purpose: Guiding Progressive Inpainting DNNs through Context and Structure ( http://arxiv.org/abs/2209.10071v1 )

ライセンス: Link先を確認
Kangdi Shi (1), Muhammad Alrabeiah (2) and Jun Chen (1) ((1) Department of Electrical and Computer Engineering, McMaster University, Hamilton, Canada, (2) Electrical Engineering Department, King Saud University, Saudi Arabia.)(参考訳) 過去10年間のディープラーニングの出現は、イメージインペインティングの発展に大きく寄与した。 有望な性能を達成する一方で、ディープラーニングベースのインペインティングアルゴリズムは、畳み込みエンコーダの深層と浅層から一般的に得られる構造的特徴と文脈的特徴の融合による歪みに依然として苦しむ。 そこで本研究では,処理画像の構造的および文脈的完全性を維持する新しいプログレッシブ・インペインティング・ネットワークを提案する。 具体的には、ガウスピラミッドとラプラシアピラミッドに触発され、提案されたネットワークのコアはGLEと呼ばれる特徴抽出モジュールである。 GLEモジュールを積み重ねることで、異なる画像周波数成分から画像特徴を抽出することができる。 この能力は、高頻度成分が構造情報に対応し、低頻度成分が文脈情報に対応している間に、構造的・文脈的整合性を維持することが重要である。 提案するネットワークは,GLE特徴を利用して,劣化した画像の欠落領域を段階的に反復的に埋める。 ベンチマーク実験により,提案手法は最先端のインペインティングアルゴリズムよりも明らかに性能が向上することを示した。

The advent of deep learning in the past decade has significantly helped advance image inpainting. Although achieving promising performance, deep learning-based inpainting algorithms still struggle from the distortion caused by the fusion of structural and contextual features, which are commonly obtained from, respectively, deep and shallow layers of a convolutional encoder. Motivated by this observation, we propose a novel progressive inpainting network that maintains the structural and contextual integrity of a processed image. More specifically, inspired by the Gaussian and Laplacian pyramids, the core of the proposed network is a feature extraction module named GLE. Stacking GLE modules enables the network to extract image features from different image frequency components. This ability is important to maintain structural and contextual integrity, for high frequency components correspond to structural information while low frequency components correspond to contextual information. The proposed network utilizes the GLE features to progressively fill in missing regions in a corrupted image in an iterative manner. Our benchmarking experiments demonstrate that the proposed method achieves clear improvement in performance over many state-of-the-art inpainting algorithms.
翻訳日:2022-09-22 16:17:32 公開日:2022-09-21
# 適応型局所成分認識グラフ畳み込みネットワークによるワンショットスケルトンに基づく行動認識

Adaptive Local-Component-aware Graph Convolutional Network for One-shot Skeleton-based Action Recognition ( http://arxiv.org/abs/2209.10073v1 )

ライセンス: Link先を確認
Anqi Zhu, Qiuhong Ke, Mingming Gong and James Bailey(参考訳) 骨格表現は、行動に関係のない視覚情報を排除することによって、トレーニングデータの量を減らすため、骨格に基づく行動認識が注目される。 サンプル効率をさらに向上するため,メタラーニングに基づくワンショット学習ソリューションを開発した。 これらのメソッドは、インスタンスレベルのグローバル平均埋め込みの類似性に従って、最も近い隣を見つける。 しかし、そのような測定は局所的な不変な特徴やノイズのある特徴に対する不適切な一般化学習によって不安定な表現性を保持し、直感的にはより細かい認識は通常、重要な局所的な身体運動を決定することに依存している。 この制限に対処するために,適応型局所成分認識グラフ畳み込みネットワークを提案する。このネットワークは,動作クリティカルな空間・時間セグメントの局所埋め込みにおける類似度測定の集中和に置き換えるものである。 NTU-RGB+D 120の公開ベンチマークにおける一対一の実験は、我々の手法がグローバルな埋め込みよりも強力な表現を提供し、我々のモデルが最先端に到達するのに役立つことを示している。

Skeleton-based action recognition receives increasing attention because the skeleton representations reduce the amount of training data by eliminating visual information irrelevant to actions. To further improve the sample efficiency, meta-learning-based one-shot learning solutions were developed for skeleton-based action recognition. These methods find the nearest neighbor according to the similarity between instance-level global average embedding. However, such measurement holds unstable representativity due to inadequate generalized learning on local invariant and noisy features, while intuitively, more fine-grained recognition usually relies on determining key local body movements. To address this limitation, we present the Adaptive Local-Component-aware Graph Convolutional Network, which replaces the comparison metric with a focused sum of similarity measurements on aligned local embedding of action-critical spatial/temporal segments. Comprehensive one-shot experiments on the public benchmark of NTU-RGB+D 120 indicate that our method provides a stronger representation than the global embedding and helps our model reach state-of-the-art.
翻訳日:2022-09-22 16:17:09 公開日:2022-09-21
# PicT: 舗装ディストレス分類のためのスリムな目視変換器

PicT: A Slim Weakly Supervised Vision Transformer for Pavement Distress Classification ( http://arxiv.org/abs/2209.10074v1 )

ライセンス: Link先を確認
Wenhao Tang and Sheng Huang and Xiaoxian Zhang and Luwen Huangfu(参考訳) 自動舗装救難分類は、舗装維持の効率を改善し、労働と資源のコストを低減させる。 このタスクの最近の影響力のあるブランチは、舗装イメージをパッチに分割し、マルチインスタンス学習の観点からこれらの問題に対処する。 しかし、これらの手法はパッチ間の相関を無視し、モデルの最適化と推論の効率が低下する。 一方、Swin Transformerはこれらの問題をそれぞれ独自の長所で解決することができる。 Swin Transformer 上に構築した視覚変換器である \textbf{P}avement \textbf{I}mage \textbf{C}lassification \textbf{T}ransformer (\textbf{PicT}) を用いて,舗装難読分類を行う。 パッチレベルでの舗装画像の識別情報をよりよく活用するために, 教師モデルを利用して各イテレーション中に画像ラベルからパッチの擬似ラベルを動的に生成し, パッチの識別的特徴を学習するよう指導する。 Swin Transformerの広い分類ヘッドは、舗装画像の縮小された面積比により、特徴集約段階における苦いパッチの識別特性を希釈することができる。 この欠点を克服するために、異なるグループにパッチをクラスタ化するための \textit{patch refiner} を提示し、最上位のディストレスリスクグループのみを選択し、最終的な画像分類にスリムなヘッドを与える。 本手法をcqu-bpddで評価する。 広範な結果から、 \textbf{pict} は、検出タスクで p@r で$+2.4\%$、認識タスクで$f1$で$3.9\%、スループットが 1.8倍という大きなマージンで、同じ計算リソースで 7倍のトレーニング速度を享受できる。 我々のコードとモデルは \href{https://github.com/DearCaat/PicT}{https://github.com/DearCaat/PicT} でリリースされた。

Automatic pavement distress classification facilitates improving the efficiency of pavement maintenance and reducing the cost of labor and resources. A recently influential branch of this task divides the pavement image into patches and addresses these issues from the perspective of multi-instance learning. However, these methods neglect the correlation between patches and suffer from a low efficiency in the model optimization and inference. Meanwhile, Swin Transformer is able to address both of these issues with its unique strengths. Built upon Swin Transformer, we present a vision Transformer named \textbf{P}avement \textbf{I}mage \textbf{C}lassification \textbf{T}ransformer (\textbf{PicT}) for pavement distress classification. In order to better exploit the discriminative information of pavement images at the patch level, the \textit{Patch Labeling Teacher} is proposed to leverage a teacher model to dynamically generate pseudo labels of patches from image labels during each iteration, and guides the model to learn the discriminative features of patches. The broad classification head of Swin Transformer may dilute the discriminative features of distressed patches in the feature aggregation step due to the small distressed area ratio of the pavement image. To overcome this drawback, we present a \textit{Patch Refiner} to cluster patches into different groups and only select the highest distress-risk group to yield a slim head for the final image classification. We evaluate our method on CQU-BPDD. Extensive results show that \textbf{PicT} outperforms the second-best performed model by a large margin of $+2.4\%$ in P@R on detection task, $+3.9\%$ in $F1$ on recognition task, and 1.8x throughput, while enjoying 7x faster training speed using the same computing resources. Our codes and models have been released on \href{https://github.com/DearCaat/PicT}{https://github.com/DearCaat/PicT}.
翻訳日:2022-09-22 16:16:50 公開日:2022-09-21
# 反復積分とニューラルネットワークを用いたカオスヘッジ

Chaotic Hedging with Iterated Integrals and Neural Networks ( http://arxiv.org/abs/2209.10166v1 )

ライセンス: Link先を確認
Ariel Neufeld, Philipp Schmocker(参考訳) 本稿では,Wiener-Itoカオス分解を,線形成長のドリフトと拡散係数を持つ拡散過程のクラスに拡張する。 カオス展開における直交性を省略することで、すべての$p$-可積分汎函数(英語版)($p \in [1,\infty)$)が基底プロセスの反復積分の和として表現できることを示すことができる。 この拡張と、機械学習環境でパラメータを学習するインテグレードのための(おそらくランダムな)ニューラルネットワークの切り詰められた和を用いて、すべての金融デリバティブが$L^p$-senseで任意に近似可能であることを示す。 また、近似金融デリバティブのヘッジ戦略を閉じた形で計算することができる。

In this paper, we extend the Wiener-Ito chaos decomposition to the class of diffusion processes, whose drift and diffusion coefficient are of linear growth. By omitting the orthogonality in the chaos expansion, we are able to show that every $p$-integrable functional, for $p \in [1,\infty)$, can be represented as sum of iterated integrals of the underlying process. Using a truncated sum of this expansion and (possibly random) neural networks for the integrands, whose parameters are learned in a machine learning setting, we show that every financial derivative can be approximated arbitrarily well in the $L^p$-sense. Moreover, the hedging strategy of the approximating financial derivative can be computed in closed form.
翻訳日:2022-09-22 16:09:50 公開日:2022-09-21
# 長文列に対する事前学習型テキスト・テキスト・モデルの適用

Adapting Pretrained Text-to-Text Models for Long Text Sequences ( http://arxiv.org/abs/2209.10052v1 )

ライセンス: Link先を確認
Wenhan Xiong, Anchit Gupta, Shubham Toshniwal, Yashar Mehdad, Wen-tau Yih(参考訳) 本稿では,既存のテキストからテキストへの事前学習モデルを適用した長文入力実験を行う。 モデルアーキテクチャ,最適化目標,事前学習コーパスという,事前学習パイプラインの3つの軸に沿った包括的な研究を通じて,既存の短文モデルから長文モデルを構築するための効果的なレシピを提案する。 具体的には、トランスフォーマーの注意をプール型ブロック回りの注意に置き換え、モデルに様々な長さのマスキングスパン予測タスクをプリトレーニングする。 事前学習コーパスの観点では、大規模なオープンドメインコーパスからランダムに結合したショートドキュメントを使用することで、ドメインカバレッジに制限のある既存の長いドキュメントコーパスよりもパフォーマンスが向上することがわかった。 これらの結果から、長文QAタスク上での競合性能を達成する長文モデルを構築し、5つの長文要約データセット上での技術の新たな状態を確立し、しばしばモデルサイズを大きくした従来の手法よりも優れる。

We present an empirical study of adapting an existing pretrained text-to-text model for long-sequence inputs. Through a comprehensive study along three axes of the pretraining pipeline -- model architecture, optimization objective, and pretraining corpus, we propose an effective recipe to build long-context models from existing short-context models. Specifically, we replace the full attention in transformers with pooling-augmented blockwise attention, and pretrain the model with a masked-span prediction task with spans of varying length. In terms of the pretraining corpus, we find that using randomly concatenated short-documents from a large open-domain corpus results in better performance than using existing long document corpora which are typically limited in their domain coverage. With these findings, we build a long-context model that achieves competitive performance on long-text QA tasks and establishes the new state of the art on five long-text summarization datasets, often outperforming previous methods with larger model sizes.
翻訳日:2022-09-22 16:08:56 公開日:2022-09-21
# データはもっと良いか? 変圧器を用いた能動学習による乱用言語検出における効率性の再考

Is More Data Better? Re-thinking the Importance of Efficiency in Abusive Language Detection with Transformers-Based Active Learning ( http://arxiv.org/abs/2209.10193v1 )

ライセンス: Link先を確認
Hannah Rose Kirk, Bertie Vidgen, Scott A. Hale(参考訳) 乱用言語の注釈は高価で、論理的に複雑であり、心理的害のリスクを生じさせる。 しかし、ほとんどの機械学習研究は、データ効率(注釈付きデータの量を最小限にする)よりも、有効性(F1または精度スコア)の最大化を優先している。 本稿では、乱用率の異なる2つのデータセットに対するシミュレーション実験を用いて、トランスフォーマーに基づくアクティブラーニングが、高効率を維持しつつも、特に乱用コンテンツがデータセットのより少ない割合で効率を上げるための有望なアプローチであることを実証する。 このアプローチでは、データセット全体のトレーニングに相当するパフォーマンスに達するために、ラベル付きデータのほんの一部を必要とする。

Annotating abusive language is expensive, logistically complex and creates a risk of psychological harm. However, most machine learning research has prioritized maximizing effectiveness (i.e., F1 or accuracy score) rather than data efficiency (i.e., minimizing the amount of data that is annotated). In this paper, we use simulated experiments over two datasets at varying percentages of abuse to demonstrate that transformers-based active learning is a promising approach to substantially raise efficiency whilst still maintaining high effectiveness, especially when abusive content is a smaller percentage of the dataset. This approach requires a fraction of labeled data to reach performance equivalent to training over the full dataset.
翻訳日:2022-09-22 16:08:38 公開日:2022-09-21
# 逆推論論理の探索:数学語問題を解くための制御方程式表現生成

Seeking Diverse Reasoning Logic: Controlled Equation Expression Generation for Solving Math Word Problems ( http://arxiv.org/abs/2209.10310v1 )

ライセンス: Link先を確認
Yibin Shen, Qianying Liu, Zhuoyuan Mao, Zhen Wan, Fei Cheng and Sadao Kurohashi(参考訳) 数学の単語問題を解決するために、人間の学生は様々な方程式解に到達する多様な推論論理を利用する。 しかし,自動解法では,人間の注記によって制御される固定解方程式を解読する手法が主流である。 本稿では,一組の制御符号を利用して,ある推論論理を考察し,人間の参照から変換された対応する方程式表現を復号する制御方程式生成解法を提案する。 実験結果から,本手法は単一未知 (math23k) および複数未知 (draw1k, hmwp) ベンチマークの性能を普遍的に向上し,複数の未知データセットに対して最大13.2%の精度向上が得られた。

To solve Math Word Problems, human students leverage diverse reasoning logic that reaches different possible equation solutions. However, the mainstream sequence-to-sequence approach of automatic solvers aims to decode a fixed solution equation supervised by human annotation. In this paper, we propose a controlled equation generation solver by leveraging a set of control codes to guide the model to consider certain reasoning logic and decode the corresponding equations expressions transformed from the human reference. The empirical results suggest that our method universally improves the performance on single-unknown (Math23K) and multiple-unknown (DRAW1K, HMWP) benchmarks, with substantial improvements up to 13.2% accuracy on the challenging multiple-unknown datasets.
翻訳日:2022-09-22 16:08:24 公開日:2022-09-21
# SMTCE: ベトナムにおけるソーシャルメディアテキスト分類評価ベンチマークとBERTology Models

SMTCE: A Social Media Text Classification Evaluation Benchmark and BERTology Models for Vietnamese ( http://arxiv.org/abs/2209.10482v1 )

ライセンス: Link先を確認
Luan Thanh Nguyen, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen(参考訳) テキスト分類は、様々な興味深い応用の典型的な自然言語処理や計算言語学タスクである。 ソーシャルメディアプラットフォーム上でのユーザ数の増加に伴い、データアクセラレーションは、ソーシャルメディアテキスト分類(SMTC)やソーシャルメディアテキストマイニングに関する新たな研究を促進する。 英語とは対照的に、低リソース言語の一つであるベトナム語は、いまだに十分に活用されていない。 その成功に触発されて,smtce(social media text classification evaluation)ベンチマークを,smtcタスクのさまざまなセットにわたるデータセットとモデルの集合として紹介する。 提案したベンチマークでは,SMTCEベンチマークにおけるタスクに対する多言語BERTモデル (mBERT, XLM-R, DistilmBERT) と単言語BERTモデル (PhoBERT, viBERT, vELECTRA, viBERT4news) の有効性を検証した。 単言語モデルは多言語モデルより優れ、すべてのテキスト分類タスクで最先端の結果が得られる。 このベンチマークは、多言語および単言語BERTベースのモデルを客観的に評価し、ベトナム語のBERTologyに関する将来の研究に役立つだろう。

Text classification is a typical natural language processing or computational linguistics task with various interesting applications. As the number of users on social media platforms increases, data acceleration promotes emerging studies on Social Media Text Classification (SMTC) or social media text mining on these valuable resources. In contrast to English, Vietnamese, one of the low-resource languages, is still not concentrated on and exploited thoroughly. Inspired by the success of the GLUE, we introduce the Social Media Text Classification Evaluation (SMTCE) benchmark, as a collection of datasets and models across a diverse set of SMTC tasks. With the proposed benchmark, we implement and analyze the effectiveness of a variety of multilingual BERT-based models (mBERT, XLM-R, and DistilmBERT) and monolingual BERT-based models (PhoBERT, viBERT, vELECTRA, and viBERT4news) for tasks in the SMTCE benchmark. Monolingual models outperform multilingual models and achieve state-of-the-art results on all text classification tasks. It provides an objective assessment of multilingual and monolingual BERT-based models on the benchmark, which will benefit future studies about BERTology in the Vietnamese language.
翻訳日:2022-09-22 16:08:08 公開日:2022-09-21
# text revealer: トランスフォーマーに対するモデル反転攻撃によるプライベートテキスト再構成

Text Revealer: Private Text Reconstruction via Model Inversion Attacks against Transformers ( http://arxiv.org/abs/2209.10505v1 )

ライセンス: Link先を確認
Ruisi Zhang, Seira Hidano, Farinaz Koushanfar(参考訳) テキスト分類は感情分析のような様々な自然言語処理アプリケーションで広く使われている。 現在のアプリケーションは入力テキストを分類するために大きなトランスフォーマーベースの言語モデルを使用することが多い。 しかし、モデルを公開する際にどれだけプライベートな情報を反転させることができるかという体系的な研究が欠けている。 本稿では,変換器を用いたテキスト分類に対するテキスト再構成のための最初のモデル逆転攻撃である \emph{Text Revealer} を定式化する。 我々の攻撃は、ターゲットモデルへのアクセスにより、トレーニングデータに含まれるプライベートテキストを忠実に再構築する。 我々は、外部データセットとGPT-2を利用して、ターゲットドメインのような流動的なテキストを生成し、その隠れた状態をターゲットモデルからのフィードバックで最適に摂動する。 広範な実験により,本攻撃はテキスト長の異なるデータセットに対して有効であり,精度良くプライベートテキストを再構築できることを示した。

Text classification has become widely used in various natural language processing applications like sentiment analysis. Current applications often use large transformer-based language models to classify input texts. However, there is a lack of systematic study on how much private information can be inverted when publishing models. In this paper, we formulate \emph{Text Revealer} -- the first model inversion attack for text reconstruction against text classification with transformers. Our attacks faithfully reconstruct private texts included in training data with access to the target model. We leverage an external dataset and GPT-2 to generate the target domain-like fluent text, and then perturb its hidden state optimally with the feedback from the target model. Our extensive experiments demonstrate that our attacks are effective for datasets with different text lengths and can reconstruct private texts with accuracy.
翻訳日:2022-09-22 16:07:45 公開日:2022-09-21
# 無意味文における主語動詞の誤りパターン:人間対BERT

Subject Verb Agreement Error Patterns in Meaningless Sentences: Humans vs. BERT ( http://arxiv.org/abs/2209.10538v1 )

ライセンス: Link先を確認
Karim Lasri and Olga Seminck and Alessandro Lenci and Thierry Poibeau(参考訳) 人間とニューラルランゲージモデルの両方が、主語数合意(SVA)を実行することができる。 原則として、意味論はこのタスクを妨害するべきではない。 本研究では, 意味が様々な複合の構文構造において, 英語におけるこのような合意に干渉するかどうかを検証した。 そのため、意味的によくできたものと意味のないものの両方を生成します。 我々は,BERTベースと人間のパフォーマンスを比較し,心理言語学的オンラインクラウドソーシング実験を行った。 BERTと人間は、意味的な操作に敏感で、意味のない項目を提示すると失敗することが多く、特に、その構文構造がアトラクタ(被写体と同一数でない動詞の間の名詞句)を特徴付けると失敗する。 また,SVA誤差に対する有意性の影響は,BERTでは人間よりも強く,前者の語彙感度が高いことがわかった。

Both humans and neural language models are able to perform subject-verb number agreement (SVA). In principle, semantics shouldn't interfere with this task, which only requires syntactic knowledge. In this work we test whether meaning interferes with this type of agreement in English in syntactic structures of various complexities. To do so, we generate both semantically well-formed and nonsensical items. We compare the performance of BERT-base to that of humans, obtained with a psycholinguistic online crowdsourcing experiment. We find that BERT and humans are both sensitive to our semantic manipulation: They fail more often when presented with nonsensical items, especially when their syntactic structure features an attractor (a noun phrase between the subject and the verb that has not the same number as the subject). We also find that the effect of meaningfulness on SVA errors is stronger for BERT than for humans, showing higher lexical sensitivity of the former on this task.
翻訳日:2022-09-22 16:07:32 公開日:2022-09-21
# 時系列ゲームのためのコントローラ合成

Controller Synthesis for Timeline-based Games ( http://arxiv.org/abs/2209.10319v1 )

ライセンス: Link先を確認
Renato Acampora (University of Udine, Italy), Luca Geatti (Free University of Bozen-Bolzano, Italy), Nicola Gigante (Free University of Bozen-Bolzano, Italy), Angelo Montanari (University of Udine, Italy), Valentino Picotti (University of Southern Denmark)(参考訳) 計画計画へのタイムラインベースのアプローチは、もともと宇宙部門で生まれたが、状態変数(タイムライン)の集合の時間的変化は、時間的制約の集合によって制御される。 従来のタイムラインベースの計画システムは、時間的不確実性を扱うことによって計画と実行の統合に優れている。 一般の非決定性を扱うために、タイムラインベースのゲームの概念が最近導入された。 このようなゲームに勝利戦略が存在するかどうかが2EXPTIME完全であることが証明されている。 しかし、そのような戦略を実装するコントローラを合成する具体的なアプローチは欠落している。 本稿では,このギャップを埋め,時系列ゲームにおけるコントローラ合成のアプローチを概説する。

In the timeline-based approach to planning, originally born in the space sector, the evolution over time of a set of state variables (the timelines) is governed by a set of temporal constraints. Traditional timeline-based planning systems excel at the integration of planning with execution by handling temporal uncertainty. In order to handle general nondeterminism as well, the concept of timeline-based games has been recently introduced. It has been proved that finding whether a winning strategy exists for such games is 2EXPTIME-complete. However, a concrete approach to synthesize controllers implementing such strategies is missing. This paper fills this gap, outlining an approach to controller synthesis for timeline-based games.
翻訳日:2022-09-22 16:07:16 公開日:2022-09-21
# クライアントデータ部分空間間の主角によるクラスタ化フェデレーション学習における効率的な分布類似性同定

Efficient Distribution Similarity Identification in Clustered Federated Learning via Principal Angles Between Client Data Subspaces ( http://arxiv.org/abs/2209.10526v1 )

ライセンス: Link先を確認
Saeed Vahidian, Mahdi Morafah, Weijia Wang, Vyacheslav Kungurtsev, Chen Chen, Mubarak Shah, and Bill Lin(参考訳) clustered federated learning (fl)は、クライアントをクラスタにグループ化することで、有望な結果を生み出すことが示されている。 これは、クライアントの別々のグループがローカルデータの分布に大きな違いがあるシナリオで特に有効である。 既存のクラスタ型flアルゴリズムは、基本的に同じディストリビューションでクライアントをグループ化することで、同じクラスタ内のクライアントが互いにデータを活用して、連合学習をよりよいものにしようとしている。 しかしながら、クラスタ化flアルゴリズムは、トレーニング中にこれらの分布の類似性を間接的に学習しようとするが、クラスタの形成が安定するまで多くのフェデレーション学習が必要となるため、かなりの時間がかかる。 本稿では,クライアントデータサブスペース間の主角を解析することにより,クライアント間の分布類似性を直接識別することを目的とした,フェデレーション学習への新しいアプローチを提案する。 各クライアントは、単一ショットでローカルデータに切り刻まれた特異値分解(SVD)ステップを適用して、プリンシパルベクトルの小さなセットを導出し、基礎となる分布の主特性を簡潔にキャプチャするシグネチャを提供する。 この小さな主ベクトルセットはサーバに提供され、サーバはクライアント間の分散類似性を直接識別してクラスタを形成することができる。 これは、これらの主ベクトルにまたがるクライアントデータ部分空間間の主角の類似性を比較することで達成される。 このアプローチは単純で効果的なクラスタ化されたFLフレームワークを提供し、ラベルスキューのような単純なIID性以外の幅広いデータ不均一性問題に対処する。 我々のクラスタ化FLアプローチは、非凸目的に対する収束保証も可能にします。 私たちのコードはhttps://github.com/mmorafah/pacflで利用可能です。

Clustered federated learning (FL) has been shown to produce promising results by grouping clients into clusters. This is especially effective in scenarios where separate groups of clients have significant differences in the distributions of their local data. Existing clustered FL algorithms are essentially trying to group together clients with similar distributions so that clients in the same cluster can leverage each other's data to better perform federated learning. However, prior clustered FL algorithms attempt to learn these distribution similarities indirectly during training, which can be quite time consuming as many rounds of federated learning may be required until the formation of clusters is stabilized. In this paper, we propose a new approach to federated learning that directly aims to efficiently identify distribution similarities among clients by analyzing the principal angles between the client data subspaces. Each client applies a truncated singular value decomposition (SVD) step on its local data in a single-shot manner to derive a small set of principal vectors, which provides a signature that succinctly captures the main characteristics of the underlying distribution. This small set of principal vectors is provided to the server so that the server can directly identify distribution similarities among the clients to form clusters. This is achieved by comparing the similarities of the principal angles between the client data subspaces spanned by those principal vectors. The approach provides a simple, yet effective clustered FL framework that addresses a broad range of data heterogeneity issues beyond simpler forms of Non-IIDness like label skews. Our clustered FL approach also enables convergence guarantees for non-convex objectives. Our code is available at https://github.com/MMorafah/PACFL.
翻訳日:2022-09-22 16:01:59 公開日:2022-09-21
# 非パラメトリックモデルによるエピソディック部分観測マルコフ決定過程のオフポリシー評価

Off-Policy Evaluation for Episodic Partially Observable Markov Decision Processes under Non-Parametric Models ( http://arxiv.org/abs/2209.10064v1 )

ライセンス: Link先を確認
Rui Miao, Zhengling Qi, Xiaoke Zhang(参考訳) 本研究では,連続状態を持つ部分観測可能マルコフ決定過程(POMDP)の非政治評価(OPE)問題について検討する。 最近提案された近位因果推論フレームワークにより、時間依存のプロキシ変数の助けを借りて、いわゆるVブリッジ関数の列を通じてポリシー値を推定する非パラメトリック識別結果を開発する。 次に、Vブリッジ関数を再帰的に推定する適合Q評価型アルゴリズムを開発し、各ステップで非パラメトリックインスツルメンタル変数(NPIV)問題を解く。 この挑戦的な逐次NPIV問題を解析することにより、V-bridge関数を推定するための有限サンプル誤差境界を確立し、その結果、各ステップにおける標本サイズ、水平の長さ、いわゆる(局所的な)不適切な測度の観点からポリシー値を評価する。 我々の知る限りでは、これは非パラメトリックモデルの下でのPOMDPにおけるOPEに対する最初の有限サンプル誤差である。

We study the problem of off-policy evaluation (OPE) for episodic Partially Observable Markov Decision Processes (POMDPs) with continuous states. Motivated by the recently proposed proximal causal inference framework, we develop a non-parametric identification result for estimating the policy value via a sequence of so-called V-bridge functions with the help of time-dependent proxy variables. We then develop a fitted-Q-evaluation-type algorithm to estimate V-bridge functions recursively, where a non-parametric instrumental variable (NPIV) problem is solved at each step. By analyzing this challenging sequential NPIV problem, we establish the finite-sample error bounds for estimating the V-bridge functions and accordingly that for evaluating the policy value, in terms of the sample size, length of horizon and so-called (local) measure of ill-posedness at each step. To the best of our knowledge, this is the first finite-sample error bound for OPE in POMDPs under non-parametric models.
翻訳日:2022-09-22 16:01:31 公開日:2022-09-21
# 複合後悔を伴う分散オンライン非凸最適化

Distributed Online Non-convex Optimization with Composite Regret ( http://arxiv.org/abs/2209.10105v1 )

ライセンス: Link先を確認
Zhanhong Jiang, Aditya Balu, Xian Yeow Lee, Young M. Lee, Chinmay Hegde, Soumik Sarkar(参考訳) 後悔は分散マルチエージェントシステムにおけるオンライン最適化アルゴリズムの性能を評価するための選択指標として広く採用されている。 しかし、エージェントに関連するデータ/モデルの変化は決定に大きな影響を与え、エージェント間のコンセンサスを必要とする。 さらに、既存の作品の多くは、(強くまたは非強固な)凸損失に対するアプローチの開発に焦点を当てており、一般的な非凸損失に対する分散オンライン最適化における後悔の限界に関する結果はほとんど得られていない。 そこで本研究では, 分散オンライン最適化アルゴリズムを評価するために, 新たなネットワークret-based metricsを用いた複合後悔モデルを提案する。 合成後悔の静的および動的形態を具体的に定義する。 複合後悔の動的な形態を活かし,疑似凸損失に対するコンセンサスに基づくオンライン正規化勾配(congd)手法を開発し,オプティマイザの経路変動に対する正規性項に関連するサブリニア挙動を示す。 一般の非凸損失に対しては,近年の進歩を踏まえて,分散オンライン非凸学習の設定に対する後悔を軽視し,決定論的アルゴリズムがサブ線形後悔を達成できないようにした。 次に,オフラインの最適化オラクルに依存することなく,複合的後悔 (DINOCO) を伴う分散オンライン非凸最適化を開発する。 私たちの知る限りでは、これは一般的な分散オンライン非凸学習における最初の後悔である。

Regret has been widely adopted as the metric of choice for evaluating the performance of online optimization algorithms for distributed, multi-agent systems. However, data/model variations associated with agents can significantly impact decisions and requires consensus among agents. Moreover, most existing works have focused on developing approaches for (either strongly or non-strongly) convex losses, and very few results have been obtained regarding regret bounds in distributed online optimization for general non-convex losses. To address these two issues, we propose a novel composite regret with a new network regret-based metric to evaluate distributed online optimization algorithms. We concretely define static and dynamic forms of the composite regret. By leveraging the dynamic form of our composite regret, we develop a consensus-based online normalized gradient (CONGD) approach for pseudo-convex losses, and it provably shows a sublinear behavior relating to a regularity term for the path variation of the optimizer. For general non-convex losses, we first shed light on the regret for the setting of distributed online non-convex learning based on recent advances such that no deterministic algorithm can achieve the sublinear regret. We then develop the distributed online non-convex optimization with composite regret (DINOCO) without access to the gradients, depending on an offline optimization oracle. DINOCO is shown to achieve sublinear regret; to our knowledge, this is the first regret bound for general distributed online non-convex learning.
翻訳日:2022-09-22 16:01:13 公開日:2022-09-21
# 衛星データを用いたインドにおける作物の燃焼検出

Detecting Crop Burning in India using Satellite Data ( http://arxiv.org/abs/2209.10148v1 )

ライセンス: Link先を確認
Kendra Walker, Ben Moscona, Kelsey Jack, Seema Jayachandran, Namrata Kala, Rohini Pande, Jiani Xue, Marshall Burke(参考訳) 作物の残留物の燃焼は世界の多くの地域、特に南アジアにおける大気汚染の主な原因である。 政策立案者、実践者、研究者は、影響の測定と燃焼を減らすための介入の両方に投資してきた。 しかし, 燃焼効果の測定や, 燃焼抑制効果の計測には, 燃焼の場所に関するデータが必要である。 これらのデータは、コストと実現可能性の両方の観点から、この分野での収集が困難である。 インドのプンジャブで発生した農作物の燃え残りを地上でモニタリングし,衛星画像を用いてより効果的に燃焼を検出できるかどうかを検証した。 具体的には、3mのプラネタスコープデータ(時間分解能は1日まで)と、週毎の時間分解能は高く、スペクトル情報の深さは大きいsentinel-2データを用いた。 異なるスペクトルバンドとバーンインデックスが個別に燃え尽きと燃え尽きていないプロットを分離する能力を分析した結果,最も分離性が高いと判断された森林モデルを構築し,地上データを用いたモデル性能の評価を行った。 全体のモデルの精度は82%で、測定結果の課題を考えると良好です。 このプロセスから得られた知見に基づいて,衛星画像から燃え尽きる作物を検知する技術的課題と,焼成と政策介入の両面で影響を測定するための課題について考察する。

Crop residue burning is a major source of air pollution in many parts of the world, notably South Asia. Policymakers, practitioners and researchers have invested in both measuring impacts and developing interventions to reduce burning. However, measuring the impacts of burning or the effectiveness of interventions to reduce burning requires data on where burning occurred. These data are challenging to collect in the field, both in terms of cost and feasibility. We take advantage of data from ground-based monitoring of crop residue burning in Punjab, India to explore whether burning can be detected more effectively using accessible satellite imagery. Specifically, we used 3m PlanetScope data with high temporal resolution (up to daily) as well as publicly-available Sentinel-2 data with weekly temporal resolution but greater depth of spectral information. Following an analysis of the ability of different spectral bands and burn indices to separate burned and unburned plots individually, we built a Random Forest model with those determined to provide the greatest separability and evaluated model performance with ground-verified data. Our overall model accuracy of 82-percent is favorable given the challenges presented by the measurement. Based on insights from this process, we discuss technical challenges of detecting crop residue burning from satellite imagery as well as challenges to measuring impacts, both of burning and of policy interventions.
翻訳日:2022-09-22 16:00:28 公開日:2022-09-21
# 混合データセットからの学習:モノトニック画像品質評価モデル

Learning from Mixed Datasets: A Monotonic Image Quality Assessment Model ( http://arxiv.org/abs/2209.10451v1 )

ライセンス: Link先を確認
Zhaopeng Feng, Keyang Zhang, Baoliang Chen, Shiqi Wang(参考訳) ディープラーニングベースの画像品質評価(iqa)モデルは通常、単一のデータセットから画像品質を予測することを学び、モデルを特定のシーンに過剰適合させる。 これを考慮するために、混合データセットトレーニングはモデルの一般化能力を高める効果的な方法である。 しかし、品質評価基準、スコア範囲、ビュー条件などの異なるiqaデータセットを組み合わせることは、通常、画像品質アノテーションでは共有されない。 本稿では、アノテーションを整列させる代わりに、異なるデータセットを組み合わせたIQAモデル学習のための単調ニューラルネットワークを提案する。 特に,本モデルは,データセット共有品質回帰器と,データセット固有の品質変換器から構成される。 品質回帰器は、各データセットの知覚品質を取得し、各品質変換器は、その知覚品質をモノトニック性を維持した対応するデータセットアノテーションにマッピングする。 提案した学習戦略の有効性を検証する実験結果がhttps://github.com/fzp0424/MonotonicIQAで公開されている。

Deep learning based image quality assessment (IQA) models usually learn to predict image quality from a single dataset, leading the model to overfit specific scenes. To account for this, mixed datasets training can be an effective way to enhance the generalization capability of the model. However, it is nontrivial to combine different IQA datasets, as their quality evaluation criteria, score ranges, view conditions, as well as subjects are usually not shared during the image quality annotation. In this paper, instead of aligning the annotations, we propose a monotonic neural network for IQA model learning with different datasets combined. In particular, our model consists of a dataset-shared quality regressor and several dataset-specific quality transformers. The quality regressor aims to obtain the perceptual qualities of each dataset while each quality transformer maps the perceptual qualities to the corresponding dataset annotations with their monotonicity maintained. The experimental results verify the effectiveness of the proposed learning strategy and our code is available at https://github.com/fzp0424/MonotonicIQA.
翻訳日:2022-09-22 16:00:05 公開日:2022-09-21
# 都市走行LiDARのための自己監督型移動体3D物体検出装置

Sample, Crop, Track: Self-Supervised Mobile 3D Object Detection for Urban Driving LiDAR ( http://arxiv.org/abs/2209.10471v1 )

ライセンス: Link先を確認
Sangyun Shin, Stuart Golodetz, Madhu Vankadari, Kaichen Zhou, Andrew Markham, Niki Trigoni(参考訳) 深層学習は近年,都市運転シーンにおける移動体(移動可能な)物体の検出に大きな進歩をもたらした。 監視されたアプローチは一般的に大規模なトレーニングセットのアノテーションを必要とするが、それを避けるために弱い、半教師あり、あるいは自己監督的な手法を活用することには大きな関心が寄せられている。 弱く半教師ありのメソッドはアノテーションを必要とするが、自己教師ありのメソッドは、アノテーションの必要性を完全に緩和するためにモーションのような手掛かりを使ってきた。 しかしながら、アノテーションの完全欠如は一般的にそれらの性能を低下させ、モーショングルーピング中に生じる曖昧さは、正確なオブジェクト境界を見つける能力を阻害する。 本稿では,SCTと呼ばれる自己制御型移動物体検出手法を提案する。 これは、モーションキューと予測対象サイズの両方を使用して検出性能を改善し、オブジェクト発見を改善するために3次元指向境界ボックスの高密度グリッドを予測する。 我々は,kitti追跡ベンチマークにおいて,最先端の自己教師付移動物体検出法tcrを有意に上回り,全監督pv-rcnn++法であるious <= 0.5の30%以内の性能を達成する。

Deep learning has led to great progress in the detection of mobile (i.e. movement-capable) objects in urban driving scenes in recent years. Supervised approaches typically require the annotation of large training sets; there has thus been great interest in leveraging weakly, semi- or self-supervised methods to avoid this, with much success. Whilst weakly and semi-supervised methods require some annotation, self-supervised methods have used cues such as motion to relieve the need for annotation altogether. However, a complete absence of annotation typically degrades their performance, and ambiguities that arise during motion grouping can inhibit their ability to find accurate object boundaries. In this paper, we propose a new self-supervised mobile object detection approach called SCT. This uses both motion cues and expected object sizes to improve detection performance, and predicts a dense grid of 3D oriented bounding boxes to improve object discovery. We significantly outperform the state-of-the-art self-supervised mobile object detection method TCR on the KITTI tracking benchmark, and achieve performance that is within 30% of the fully supervised PV-RCNN++ method for IoUs <= 0.5.
翻訳日:2022-09-22 15:59:45 公開日:2022-09-21
# 低品質熱顔データ改善のための繰り返し超解像法

Recurrent Super-Resolution Method for Enhancing Low Quality Thermal Facial Data ( http://arxiv.org/abs/2209.10489v1 )

ライセンス: Link先を確認
David O'Callaghan, Cian Ryan, Waseem Shariff, Muhammad Ali Farooq, Joseph Lemley, Peter Corcoran(参考訳) 同一シーンの単一または複数の低解像度画像から高解像度画像を得るプロセスは、実世界の画像および信号処理アプリケーションにとって非常に興味深い。 本研究は, 深層学習に基づく画像超解像アルゴリズムによる車室内車両運転監視システムにおける高画質熱画像化手法の可能性を検討するものである。 本研究では,非冷却熱カメラから取得した低分解能熱画像データの品質向上と高分解能化を目的とした,新しいマルチイメージ超解像リカレントニューラルネットワークを提案する。 エンドツーエンドの完全な畳み込みニューラルネットワークは、屋内環境下で新たに取得した30人の被験者の熱データをスクラッチからトレーニングする。 熱調整された超解像ネットワークの有効性を、6つの異なる被験者の試験データから定量的に検証する。 ネットワークは4倍超分解能の検証データセット上で平均ピーク信号対雑音比39.24を達成し、定量的および定性的にbicubic補間を上回った。

The process of obtaining high-resolution images from single or multiple low-resolution images of the same scene is of great interest for real-world image and signal processing applications. This study is about exploring the potential usage of deep learning based image super-resolution algorithms on thermal data for producing high quality thermal imaging results for in-cabin vehicular driver monitoring systems. In this work we have proposed and developed a novel multi-image super-resolution recurrent neural network to enhance the resolution and improve the quality of low-resolution thermal imaging data captured from uncooled thermal cameras. The end-to-end fully convolutional neural network is trained from scratch on newly acquired thermal data of 30 different subjects in indoor environmental conditions. The effectiveness of the thermally tuned super-resolution network is validated quantitatively as well as qualitatively on test data of 6 distinct subjects. The network was able to achieve a mean peak signal to noise ratio of 39.24 on the validation dataset for 4x super-resolution, outperforming bicubic interpolation both quantitatively and qualitatively.
翻訳日:2022-09-22 15:59:23 公開日:2022-09-21
# 仮想光ステージによるポートレート画像のリライトと合成・再適応の学習

Learning to Relight Portrait Images via a Virtual Light Stage and Synthetic-to-Real Adaptation ( http://arxiv.org/abs/2209.10510v1 )

ライセンス: Link先を確認
Yu-Ying Yeh, Koki Nagano, Sameh Khamis, Jan Kautz, Ming-Yu Liu, Ting-Chun Wang(参考訳) 人物の肖像画と対象照明の環境マップが与えられた場合、ポートレートリライティングは、対象照明のある環境に現れたように、画像中の人物を再照明することを目的としている。 高品質な結果を得るために、近年の手法はディープラーニングに依存している。 効果的なアプローチは、光ステージでキャプチャされた、望ましい入出力ペアの忠実度の高いデータセットでディープニューラルネットワークのトレーニングを監督することである。 しかし、そのようなデータを取得するには高価な特別なキャプチャリグと時間を要する作業が必要であり、少数のリソースに満ちた研究所へのアクセスは制限されている。 この制限に対処するため,光ステージを必要とせずにSOTA(State-of-the-art Relighting)手法に匹敵する新しい手法を提案する。 我々のアプローチは、肖像画のリライティングの成功は2つの条件に依存するという認識に基づいている。 まず、物理的なリライティングの振る舞いを模倣する必要がある。 第二に、出力はフォトリアリスティックでなければならない。 第1の条件を満たすために,様々な3d合成人間に対して異なる環境マップ下で物理的にレンダリングを行う仮想光ステージによって生成されたトレーニングデータを用いて,リライトネットワークを訓練することを提案する。 第2の条件を満たすために,光合成から現実への新たなアプローチを開発した。 sota結果の達成に加えて,メガネのグラアの制御性向上や映像のリライトにおける時間的一貫性の向上など,従来の手法よりもいくつかの利点がある。

Given a portrait image of a person and an environment map of the target lighting, portrait relighting aims to re-illuminate the person in the image as if the person appeared in an environment with the target lighting. To achieve high-quality results, recent methods rely on deep learning. An effective approach is to supervise the training of deep neural networks with a high-fidelity dataset of desired input-output pairs, captured with a light stage. However, acquiring such data requires an expensive special capture rig and time-consuming efforts, limiting access to only a few resourceful laboratories. To address the limitation, we propose a new approach that can perform on par with the state-of-the-art (SOTA) relighting methods without requiring a light stage. Our approach is based on the realization that a successful relighting of a portrait image depends on two conditions. First, the method needs to mimic the behaviors of physically-based relighting. Second, the output has to be photorealistic. To meet the first condition, we propose to train the relighting network with training data generated by a virtual light stage that performs physically-based rendering on various 3D synthetic humans under different environment maps. To meet the second condition, we develop a novel synthetic-to-real approach to bring photorealism to the relighting network output. In addition to achieving SOTA results, our approach offers several advantages over the prior methods, including controllable glares on glasses and more temporally-consistent results for relighting videos.
翻訳日:2022-09-22 15:59:05 公開日:2022-09-21
# ランダム化マインクラフトシステムによる3次元電子系の全場温度変化の近似

Approximating the full-field temperature evolution in 3D electronic systems from randomized "Minecraft" systems ( http://arxiv.org/abs/2209.10369v1 )

ライセンス: Link先を確認
Monika Stipsitz and Helios Sanchis-Alepuz(参考訳) 高速物理シミュレータとしてのニューラルネットワークは、多くのエンジニアリング設計タスクにおいて大きな可能性を秘めている。 広帯域アプリケーションの前提条件は、適切な時間でトレーニングデータセットを生成するための使いやすいワークフローであり、ネットワークが見えないシステムに一般化する能力である。 従来のトレーニングシステムが評価データセットと類似しているほとんどの作業とは対照的に,ネットワークアーキテクチャにトレーニングシステムの種類を適用することを提案する。 具体的には、完全畳み込みネットワークを適用し、ランダムに割り当てられた物理的性質を持つランダムに配置されたボクセルの3dシステムを設計する。 このアイデアは、電子系における過渡的な熱拡散のテストである。 ランダムな「Minecraft」システムでのみトレーニングを行い、トレーニングシステムの4倍の大きさ(1ステップ予測誤差は0.07%対0.8%)の電子システムへの優れた一般化を得る。

Neural Networks as fast physics simulators have a large potential for many engineering design tasks. Prerequisites for a wide-spread application are an easy-to-use workflow for generating training datasets in a reasonable time, and the capability of the network to generalize to unseen systems. In contrast to most previous works where training systems are similar to the evaluation dataset, we propose to adapt the type of training system to the network architecture. Specifically, we apply a fully convolutional network and, thus, design 3D systems of randomly located voxels with randomly assigned physical properties. The idea is tested for the transient heat diffusion in electronic systems. Training only on random "Minecraft" systems, we obtain good generalization to electronic systems four times as large as the training systems (one-step prediction error of 0.07% vs 0.8%).
翻訳日:2022-09-22 15:58:37 公開日:2022-09-21
# 信頼に値するレコメンデーションシステムに関する総合調査

A Comprehensive Survey on Trustworthy Recommender Systems ( http://arxiv.org/abs/2209.10117v1 )

ライセンス: Link先を確認
Wenqi Fan, Xiangyu Zhao, Xiao Chen, Jingran Su, Jingtong Gao, Lin Wang, Qidong Liu, Yiqi Wang, Han Xu, Lei Chen, Qing Li(参考訳) 最も成功したaiベースのアプリケーションのひとつとして、レコメンダシステムは、生活のさまざまな側面、特にeコマースプラットフォームやソーシャルメディアサイトといった、さまざまな人間指向のオンラインサービスにおいて、パーソナライズされた提案を提供することによって、効果的かつ効率的な方法で適切な意思決定を支援することを目的としています。 過去数十年間、コメンテーターシステムの急速な発展は、経済的価値を生み出し、時間と労力を節約し、社会的な利益を促進することで、人間に大きな利益をもたらした。 しかし、最近の研究では、データ駆動型レコメンダシステムは、ソーシャルメディアサイトで世論を操作するためにフェイクニュースを広めること、不公平さを増幅すること、ジョブマッチングサービスの少数グループや個人に対して、あるいは推奨結果からプライバシー情報を推測することなど、ユーザーや社会に深刻な脅威をもたらす可能性がある。 そのため、レコメンデーションシステム技術に対する国民の信頼を高めるため、レコメンデーションシステムによるネガティブな影響を緩和する様々な側面から、システムの信頼性が注目されている。 本調査では,信頼に値するレコメンダシステム(TRec)について,安全性とロバスト性,非差別性と公正性,説明可能性,プライバシ,環境保全性,説明可能性と監査性という,最も重要な6つの側面について概観する。 それぞれの側面について,最近の技術について概説し,将来,信頼できるレコメンデーションシステムの実現を支援する研究の方向性について論じる。

As one of the most successful AI-powered applications, recommender systems aim to help people make appropriate decisions in an effective and efficient way, by providing personalized suggestions in many aspects of our lives, especially for various human-oriented online services such as e-commerce platforms and social media sites. In the past few decades, the rapid developments of recommender systems have significantly benefited human by creating economic value, saving time and effort, and promoting social good. However, recent studies have found that data-driven recommender systems can pose serious threats to users and society, such as spreading fake news to manipulate public opinion in social media sites, amplifying unfairness toward under-represented groups or individuals in job matching services, or inferring privacy information from recommendation results. Therefore, systems' trustworthiness has been attracting increasing attention from various aspects for mitigating negative impacts caused by recommender systems, so as to enhance the public's trust towards recommender systems techniques. In this survey, we provide a comprehensive overview of Trustworthy Recommender systems (TRec) with a specific focus on six of the most important aspects; namely, Safety & Robustness, Nondiscrimination & Fairness, Explainability, Privacy, Environmental Well-being, and Accountability & Auditability. For each aspect, we summarize the recent related technologies and discuss potential research directions to help achieve trustworthy recommender systems in the future.
翻訳日:2022-09-22 15:52:02 公開日:2022-09-21
# VoxCeleb Speaker Recognition Challenge 2022におけるReturnZeroシステム

The ReturnZero System for VoxCeleb Speaker Recognition Challenge 2022 ( http://arxiv.org/abs/2209.10147v1 )

ライセンス: Link先を確認
Sangwon Suh, Sunjong Park(参考訳) 本稿では, RTZR VoxCeleb Speaker Recognition Challenge 2022 (VoxSRC-22) において, 話者検証トラック1におけるトップスコア入力について述べる。 最上位のシステムは7つのモデルの融合であり、3種類のモデルアーキテクチャを含んでいる。 時間外情報を学ぶためのトレーニングモデルに注力します。 したがって、全てのモデルは発話毎に4-6秒フレームで訓練された。 また,従来の核融合モデルの課題に対して優れた性能を示す大規模マージン微調整戦略を適用した。 評価過程において,適応対称正規化(AS-Norm)と行列スコア平均(MSA)を用いたスコアリング手法を適用した。 最後に、モデルとロジスティック回帰を混ぜ合わせて、すべてのトレーニングされたモデルを融合させます。 最後の提出はVoxSRC22テストセットで0.165 DCFと2.912% EERを達成した。

In this paper, we describe the top-scoring submissions for team RTZR VoxCeleb Speaker Recognition Challenge 2022 (VoxSRC-22) in the closed dataset, speaker verification Track 1. The top performed system is a fusion of 7 models, which contains 3 different types of model architectures. We focus on training models to learn extra-temporal information. Therefore, all models were trained with 4-6 second frames for each utterance. Also, we apply the Large Margin Fine-tuning strategy which has shown good performance on the previous challenges for some of our fusion models. While the evaluation process, we apply the scoring methods with adaptive symmetric normalization (AS-Norm) and matrix score average (MSA). Finally, we mix up models with logistic regression to fuse all the trained models. The final submission achieves 0.165 DCF and 2.912% EER on the VoxSRC22 test set.
翻訳日:2022-09-22 15:51:33 公開日:2022-09-21
# 公正なプログラミング

Fairness Reprogramming ( http://arxiv.org/abs/2209.10222v1 )

ライセンス: Link先を確認
Guanhua Zhang, Yihua Zhang, Yang Zhang, Wenqi Fan, Qing Li, Sijia Liu, Shiyu Chang(参考訳) 機械学習(ML)の公正性を促進する最近の進歩にもかかわらず、既存の主流のアプローチは、公正性基準を満たすために、ニューラルネットワークの全重量をトレーニングまたは微調整する必要がある。 しかし、大規模なトレーニングモデルでは、計算コストやストレージコスト、データ効率の低さ、モデルプライバシの問題などにより、これは実現不可能であることが多い。 本稿では,モデル再プログラミング手法を組み込んだ新しい汎用的フェアネス学習パラダイム,fairreprogramを提案する。 具体的には、fairreprogramはニューラルモデルを固定し、代わりにmin-maxの定式化の下でフェアネス基準に向けて調整されるfairness triggerと呼ばれる一連の摂動を入力に追加する。 さらに,公平性トリガーを用いて公平性目標を達成できる理由と条件を説明する情報理論の枠組みについても紹介する。 本研究では,固定MLモデルの出力予測において,フェアネストリガが,正しい人口統計情報を利用して予測を行うのを妨げる偽の人口統計情報を提供することによって,効果的に人口統計バイアスを隠蔽できることを示す。 nlp と cv のデータセットを広範囲に実験した結果,2つのフェアネス基準の下では,トレーニングコストとデータ依存性をはるかに少なくした再トレーニングベースの手法よりも,公平性の向上が期待できることがわかった。

Despite a surge of recent advances in promoting machine Learning (ML) fairness, the existing mainstream approaches mostly require training or finetuning the entire weights of the neural network to meet the fairness criteria. However, this is often infeasible in practice for those large-scale trained models due to large computational and storage costs, low data efficiency, and model privacy issues. In this paper, we propose a new generic fairness learning paradigm, called FairReprogram, which incorporates the model reprogramming technique. Specifically, FairReprogram considers the neural model fixed, and instead appends to the input a set of perturbations, called the fairness trigger, which is tuned towards the fairness criteria under a min-max formulation. We further introduce an information-theoretic framework that explains why and under what conditions fairness goals can be achieved using the fairness trigger. We show both theoretically and empirically that the fairness trigger can effectively obscure demographic biases in the output prediction of fixed ML models by providing false demographic information that hinders the model from utilizing the correct demographic information to make the prediction. Extensive experiments on both NLP and CV datasets demonstrate that our method can achieve better fairness improvements than retraining-based methods with far less training cost and data dependency under two widely-used fairness criteria.
翻訳日:2022-09-22 15:51:20 公開日:2022-09-21
# LCRL:論理制約強化学習による認証政策合成

LCRL: Certified Policy Synthesis via Logically-Constrained Reinforcement Learning ( http://arxiv.org/abs/2209.10341v1 )

ライセンス: Link先を確認
Hosein Hasanbeig and Daniel Kroening and Alessandro Abate(参考訳) LCRLは、未知のマルコフ決定プロセス(MDP)上でモデルフリー強化学習(RL)アルゴリズムを実装し、与えられた線形時間仕様を最大確率で満足するポリシーを合成するソフトウェアツールである。 LCRLは、リミット決定性Buchi Automata (LDBA) として知られる部分決定論的有限状態マシンを利用して、与えられた線形時間仕様を表現している。 RLアルゴリズムの報酬関数はLDBAの構造に基づいてオンザフライで形成される。 適切な仮定の下での理論的保証は、RLアルゴリズムの満足度確率を最大化する最適なポリシーへの収束を保証する。 本稿では,LCRLの適用性,使いやすさ,拡張性,性能を示すケーススタディを提案する。 LDBA誘導探索とLCRLモデルフリーアーキテクチャにより、標準的なRLアプローチ(LTL仕様に適用可能な場合)と比較して、ロバスト性能も良好に向上する。 本稿では,lcrl ディストリビューション www.github.com/grockious/lcrl に対応するgithub ページ上で,ケーススタディの実施方法の全説明を行う。

LCRL is a software tool that implements model-free Reinforcement Learning (RL) algorithms over unknown Markov Decision Processes (MDPs), synthesising policies that satisfy a given linear temporal specification with maximal probability. LCRL leverages partially deterministic finite-state machines known as Limit Deterministic Buchi Automata (LDBA) to express a given linear temporal specification. A reward function for the RL algorithm is shaped on-the-fly, based on the structure of the LDBA. Theoretical guarantees under proper assumptions ensure the convergence of the RL algorithm to an optimal policy that maximises the satisfaction probability. We present case studies to demonstrate the applicability, ease of use, scalability, and performance of LCRL. Owing to the LDBA-guided exploration and LCRL model-free architecture, we observe robust performance, which also scales well when compared to standard RL approaches (whenever applicable to LTL specifications). Full instructions on how to execute all the case studies in this paper are provided on a GitHub page that accompanies the LCRL distribution www.github.com/grockious/lcrl.
翻訳日:2022-09-22 15:50:58 公開日:2022-09-21
# MulBot:多変量時系列に基づく教師なしボット検出

MulBot: Unsupervised Bot Detection Based on Multivariate Time Series ( http://arxiv.org/abs/2209.10361v1 )

ライセンス: Link先を確認
Lorenzo Mannocci, Stefano Cresci, Anna Monreale, Athina Vakali, Maurizio Tesconi(参考訳) オンラインソーシャルネットワークは、品質の低い情報の拡散における悪質なソーシャルボットの排除に積極的に関与している。 しかし、既存のボット検出器のほとんどは、高度なボットの進化する振る舞いを捉えることができない教師付き分類器である。 本稿では,マルチ変数時系列(MTS)に基づく教師なしボット検出器であるMulBotを提案する。 ユーザタイムラインから抽出した多次元時間的特徴を初めて活用する。 我々はLSTMオートエンコーダを用いて多次元性を管理し, MTSを適切な潜在空間に投影する。 次に、このエンコードされた表現でクラスタリングのステップを実行し、非常に類似したユーザの密集したグループを識別します。 最後に、f1-score $= 0.99$を達成するバイナリ分類タスクを実行する(f1-score $\le 0.97$)。 MulBotはバイナリ分類タスクにおいて優れた結果を得るだけでなく、その強みを、新しく実用的なタスクであるボットネットの検出と分離において示す。 この多クラス分類タスクでは f1-スコア$= 0.96$ を達成する。 我々は,本モデルで使用する異なる特徴の重要性を推定し,新しい未知のボットに一般化するMulBotの機能を評価することにより,教師付きボット検出器の一般化欠陥に対する解決策を提案する。

Online social networks are actively involved in the removal of malicious social bots due to their role in the spread of low quality information. However, most of the existing bot detectors are supervised classifiers incapable of capturing the evolving behavior of sophisticated bots. Here we propose MulBot, an unsupervised bot detector based on multivariate time series (MTS). For the first time, we exploit multidimensional temporal features extracted from user timelines. We manage the multidimensionality with an LSTM autoencoder, which projects the MTS in a suitable latent space. Then, we perform a clustering step on this encoded representation to identify dense groups of very similar users -- a known sign of automation. Finally, we perform a binary classification task achieving f1-score $= 0.99$, outperforming state-of-the-art methods (f1-score $\le 0.97$). Not only does MulBot achieve excellent results in the binary classification task, but we also demonstrate its strengths in a novel and practically-relevant task: detecting and separating different botnets. In this multi-class classification task we achieve f1-score $= 0.96$. We conclude by estimating the importance of the different features used in our model and by evaluating MulBot's capability to generalize to new unseen bots, thus proposing a solution to the generalization deficiencies of supervised bot detectors.
翻訳日:2022-09-22 15:50:36 公開日:2022-09-21
# 協調marlの標準化性能評価プロトコルに向けて

Towards a Standardised Performance Evaluation Protocol for Cooperative MARL ( http://arxiv.org/abs/2209.10485v1 )

ライセンス: Link先を確認
Rihab Gorsane, Omayma Mahjoub, Ruan de Kock, Roland Dubb, Siddarth Singh, Arnu Pretorius(参考訳) マルチエージェント強化学習(MARL)は,分散型意思決定問題を大規模に解く上で有用な手法である。 この分野の研究は着実に成長しており、近年多くのブレークスルーアルゴリズムが提案されている。 本研究は,この急速な発展に焦点をあて,共同marlにおける大規模研究で採用される評価手法に着目した。 2016年から2022年にかけて受理された75の論文を対象とし, 先行研究の詳細なメタ分析を行うことで, 進展率に疑問を呈する軽度懸念傾向を呈する。 我々はさらに,これらの傾向をより広い文脈で検討し,marlに適用可能なレコメンデーションと類似した問題について,シングルエージェントのrl文学から着想を得た。 これらの勧告と新たな知見を組み合わせることで,協調marlの標準化性能評価プロトコルを提案する。 このような標準プロトコルが広く採用されれば、将来の研究の妥当性と信頼性が大幅に向上し、レプリケーションと再現性が容易になるとともに、異なる作業間で音速比較を行うことで、経時的な進捗率を正確に測定できる能力も向上するだろう。 最後に、評価に関する将来の研究のために、メタ分析データをプロジェクトwebサイトで公開しています。

Multi-agent reinforcement learning (MARL) has emerged as a useful approach to solving decentralised decision-making problems at scale. Research in the field has been growing steadily with many breakthrough algorithms proposed in recent years. In this work, we take a closer look at this rapid development with a focus on evaluation methodologies employed across a large body of research in cooperative MARL. By conducting a detailed meta-analysis of prior work, spanning 75 papers accepted for publication from 2016 to 2022, we bring to light worrying trends that put into question the true rate of progress. We further consider these trends in a wider context and take inspiration from single-agent RL literature on similar issues with recommendations that remain applicable to MARL. Combining these recommendations, with novel insights from our analysis, we propose a standardised performance evaluation protocol for cooperative MARL. We argue that such a standard protocol, if widely adopted, would greatly improve the validity and credibility of future research, make replication and reproducibility easier, as well as improve the ability of the field to accurately gauge the rate of progress over time by being able to make sound comparisons across different works. Finally, we release our meta-analysis data publicly on our project website for future research on evaluation: https://sites.google.com/view/marl-standard-protocol
翻訳日:2022-09-22 15:49:35 公開日:2022-09-21
# 未分離調理映像からのレシピ生成

Recipe Generation from Unsegmented Cooking Videos ( http://arxiv.org/abs/2209.10134v1 )

ライセンス: Link先を確認
Taichi Nishimura and Atsushi Hashimoto and Yoshitaka Ushiku and Hirotaka Kameko and Shinsuke Mori(参考訳) 本稿では,(1)調理完了時に重要なイベントを抽出し,(2)抽出したイベントの文を生成することをエージェントに要求する,無節の調理ビデオからのレシピ生成に取り組む。 我々の課題は、出来事を徹底的に検出し、それらに対する文を生成することを目的とした高密度ビデオキャプション(DVC)と似ている。 しかし、dvcとは異なり、レシピ生成ではレシピストーリーの認識が不可欠であり、モデルでは適切な数のキーイベントを正しい順序で出力する必要がある。 dvcモデルの出力を分析し、(1)いくつかのイベントをレシピストーリーとして採用できるが、(2)生成された文が視覚的な内容に基づかないことを観察する。 そこで本研究では,DVCモデルの出力イベントからオラクルイベントを選択し,それらの文を再生成することで,正しいレシピを得ることができると仮定する。 そこで本研究では,DVCモデルの出力からオラクルイベントを選択し,各イベントの接地文を生成するための,トレーニングイベントセレクタと文生成器の新たな変換器を用いた共同手法を提案する。 さらに、より正確なレシピを生成するために材料を含めることでモデルを拡張する。 実験の結果,提案手法は最先端DVCモデルよりも優れていた。 また,レシピをストーリーアウェアな方法でモデル化することにより,適切な回数のイベントを正しい順序で出力することを確認した。

This paper tackles recipe generation from unsegmented cooking videos, a task that requires agents to (1) extract key events in completing the dish and (2) generate sentences for the extracted events. Our task is similar to dense video captioning (DVC), which aims at detecting events thoroughly and generating sentences for them. However, unlike DVC, in recipe generation, recipe story awareness is crucial, and a model should output an appropriate number of key events in the correct order. We analyze the output of the DVC model and observe that although (1) several events are adoptable as a recipe story, (2) the generated sentences for such events are not grounded in the visual content. Based on this, we hypothesize that we can obtain correct recipes by selecting oracle events from the output events of the DVC model and re-generating sentences for them. To achieve this, we propose a novel transformer-based joint approach of training event selector and sentence generator for selecting oracle events from the outputs of the DVC model and generating grounded sentences for the events, respectively. In addition, we extend the model by including ingredients to generate more accurate recipes. The experimental results show that the proposed method outperforms state-of-the-art DVC models. We also confirm that, by modeling the recipe in a story-aware manner, the proposed model output the appropriate number of events in the correct order.
翻訳日:2022-09-22 15:43:37 公開日:2022-09-21
# シャドーは生体情報を明らかにするか?

Can Shadows Reveal Biometric Information? ( http://arxiv.org/abs/2209.10077v1 )

ライセンス: Link先を確認
Safa C. Medin, Amir Weiss, Fr\'edo Durand, William T. Freeman, Gregory W. Wornell(参考訳) 拡散面に投げられた物体の影を見て個体の生体情報を抽出する問題を検討する。 陰影からの生体情報漏洩は,最大可能性分析により,代表シナリオ下での信頼性の高い同一性推論に十分であることを示す。 次に,この現象を実環境で実演する学習ベース手法を開発し,ラベル付き実データを必要としない漏洩源である影の微妙な手がかりを利用する。 特に,各アイデンティティの1枚の写真から得られた3次元顔モデルを用いた合成シーンの構築が本手法の特徴である。 合成データから学んだものを、完全に教師なしの方法でドメイン適応を用いて実データに転送する。 我々のモデルは実領域によく一般化することができ、シーンのいくつかのバリエーションに対して堅牢である。 我々は,未知の幾何学的特徴を持つシーンで発生する識別分類タスクにおいて,高い分類精度を報告している。

We study the problem of extracting biometric information of individuals by looking at shadows of objects cast on diffuse surfaces. We show that the biometric information leakage from shadows can be sufficient for reliable identity inference under representative scenarios via a maximum likelihood analysis. We then develop a learning-based method that demonstrates this phenomenon in real settings, exploiting the subtle cues in the shadows that are the source of the leakage without requiring any labeled real data. In particular, our approach relies on building synthetic scenes composed of 3D face models obtained from a single photograph of each identity. We transfer what we learn from the synthetic data to the real data using domain adaptation in a completely unsupervised way. Our model is able to generalize well to the real domain and is robust to several variations in the scenes. We report high classification accuracies in an identity classification task that takes place in a scene with unknown geometry and occluding objects.
翻訳日:2022-09-22 15:43:13 公開日:2022-09-21
# ビデオにおける行動認識ツールとしての変調検出変換器の探索

Exploring Modulated Detection Transformer as a Tool for Action Recognition in Videos ( http://arxiv.org/abs/2209.10126v1 )

ライセンス: Link先を確認
Tom\'as Crisol, Joel Ermantraut, Adri\'an Rostagno, Santiago L. Aggio, Javier Iparraguirre(参考訳) 近年、トランスフォーマーアーキテクチャは人気が高まっている。 MDETR(Modulated Detection Transformer)は、位相グラウンド、参照表現理解、参照表現セグメンテーション、視覚質問応答などのタスクを実行する、エンドツーエンドのマルチモーダル理解モデルである。 このモデルの顕著な側面の1つは、以前にトレーニングされなかったクラスを推論する能力である。 本研究では,新しいタスクであるアクション検出におけるmdetrの使用を,事前のトレーニングなしで検討する。 我々はAtomic Visual Actionsデータセットを用いて定量的な結果を得る。 このモデルはタスクで最高のパフォーマンスを報告していませんが、興味深い発見だと思います。 設計されていない課題に対処するために,マルチモーダルモデルを使用することが可能であることを示す。 最後に、この研究の行方が、下流タスクにおけるMDETRの一般化につながると信じている。

During recent years transformers architectures have been growing in popularity. Modulated Detection Transformer (MDETR) is an end-to-end multi-modal understanding model that performs tasks such as phase grounding, referring expression comprehension, referring expression segmentation, and visual question answering. One remarkable aspect of the model is the capacity to infer over classes that it was not previously trained for. In this work we explore the use of MDETR in a new task, action detection, without any previous training. We obtain quantitative results using the Atomic Visual Actions dataset. Although the model does not report the best performance in the task, we believe that it is an interesting finding. We show that it is possible to use a multi-modal model to tackle a task that it was not designed for. Finally, we believe that this line of research may lead into the generalization of MDETR in additional downstream tasks.
翻訳日:2022-09-22 15:42:58 公開日:2022-09-21
# SoLar:不均衡部分ラベル学習のためのシンクホーンラベル精製

SoLar: Sinkhorn Label Refinery for Imbalanced Partial-Label Learning ( http://arxiv.org/abs/2209.10365v1 )

ライセンス: Link先を確認
Haobo Wang, Mingxuan Xia, Yixuan Li, Yuren Mao, Lei Feng, Gang Chen, Junbo Zhao(参考訳) 部分ラベル学習(Partial-label Learning, PLL)は、トレーニングサンプルが一般に、単一の真実ではなく、一連の候補ラベルに関連付けられている特殊な弱教師付き学習課題である。 このドメインでは様々なラベルの曖昧さ回避手法が提案されているが、それらは通常、多くの実世界のアプリケーションでは持たないクラスバランスのシナリオを想定している。 実験により,長い尾の分布と部分的なラベル付けによる組み合わせ課題に直面する場合,先行手法の劣化性能を実証した。 本研究では、まず、先行作業が失敗した主な理由を特定する。 次に,不曖昧なラベルを改良し,限界クラスの事前分布に適合させるための,新しい最適トランスポートベースフレームワークであるsolarを提案する。 SoLarはまた、PLLセットアップの下で長い尾のクラス事前分布を推定するための新しい、体系的なメカニズムも組み込んでいる。 大規模な実験を通じて、SoLarは従来の最先端のPLL法と比較して、標準化されたベンチマークにおいてかなり優れた結果を示す。 コードとデータは以下の通りである。

Partial-label learning (PLL) is a peculiar weakly-supervised learning task where the training samples are generally associated with a set of candidate labels instead of single ground truth. While a variety of label disambiguation methods have been proposed in this domain, they normally assume a class-balanced scenario that may not hold in many real-world applications. Empirically, we observe degenerated performance of the prior methods when facing the combinatorial challenge from the long-tailed distribution and partial-labeling. In this work, we first identify the major reasons that the prior work failed. We subsequently propose SoLar, a novel Optimal Transport-based framework that allows to refine the disambiguated labels towards matching the marginal class prior distribution. SoLar additionally incorporates a new and systematic mechanism for estimating the long-tailed class prior distribution under the PLL setup. Through extensive experiments, SoLar exhibits substantially superior results on standardized benchmarks compared to the previous state-of-the-art PLL methods. Code and data are available at: https://github.com/hbzju/SoLar .
翻訳日:2022-09-22 15:42:42 公開日:2022-09-21
# DARTSRepair: ネットワークロバストネスのためのコアフェイルセットガイドDARTS

DARTSRepair: Core-failure-set Guided DARTS for Network Robustness to Common Corruptions ( http://arxiv.org/abs/2209.10381v1 )

ライセンス: Link先を確認
Xuhong Ren, Jianlang Chen, Felix Juefei-Xu, Wanli Xue, Qing Guo, Lei Ma, Jianjun Zhao, Shengyong Chen(参考訳) ネットワークアーキテクチャサーチ(NAS)、特に差別化可能なアーキテクチャサーチ(DARTS)は、特定の関心のデータセットに基づいて優れたモデルアーキテクチャを学ぶ大きな力を示している。 この作業では、固定データセットを使用するのとは対照的に、nasの異なる重要なシナリオに焦点を当てている。 特定のパターン(例えばノイズ、ぼかしなど)を持つ現実世界の未知の腐敗によって劣化する少数の収集および誤分類例のガイダンスにより、デプロイされたネットワークのモデルアーキテクチャを洗練し、その堅牢性を高める方法。 この目的のために,我々はまず,モデルアーキテクチャが汚職パターンと確実に関連していることを示す実証的研究を行った。 驚いたことに、クリーントレーニングデータセットにいくつかの腐敗した、誤った分類された例(例えば10^3$例)を追加するだけで(例えば、5.0 \times 10^4$例)、モデルアーキテクチャを洗練し、ロバスト性を大幅に向上できます。 より実践的になるためには、効果的なnas指導のための適切な失敗例を選択する方法について慎重に検討する必要がある。 そこで本研究では, DARTS に K-center-greedy アルゴリズムを組み込んで, モデルアーキテクチャを洗練させるために, 故障例の選択を行う新しいコア欠陥セット DARTS を提案する。 クリーンなDARTS精製DNNと、現実世界の4つの汚職のガイダンスを用いて、15の汚職について検討した。 現状のNASやデータ拡張に基づく拡張手法と比較して、最終的な手法は、破損したデータセットと元のクリーンデータセットの両方で高い精度を達成できる。 いくつかの汚職パターンでは、45%以上の絶対精度の改善が達成できます。

Network architecture search (NAS), in particular the differentiable architecture search (DARTS) method, has shown a great power to learn excellent model architectures on the specific dataset of interest. In contrast to using a fixed dataset, in this work, we focus on a different but important scenario for NAS: how to refine a deployed network's model architecture to enhance its robustness with the guidance of a few collected and misclassified examples that are degraded by some real-world unknown corruptions having a specific pattern (e.g., noise, blur, etc.). To this end, we first conduct an empirical study to validate that the model architectures can be definitely related to the corruption patterns. Surprisingly, by just adding a few corrupted and misclassified examples (e.g., $10^3$ examples) to the clean training dataset (e.g., $5.0 \times 10^4$ examples), we can refine the model architecture and enhance the robustness significantly. To make it more practical, the key problem, i.e., how to select the proper failure examples for the effective NAS guidance, should be carefully investigated. Then, we propose a novel core-failure-set guided DARTS that embeds a K-center-greedy algorithm for DARTS to select suitable corrupted failure examples to refine the model architecture. We use our method for DARTS-refined DNNs on the clean as well as 15 corruptions with the guidance of four specific real-world corruptions. Compared with the state-of-the-art NAS as well as data-augmentation-based enhancement methods, our final method can achieve higher accuracy on both corrupted datasets and the original clean dataset. On some of the corruption patterns, we can achieve as high as over 45% absolute accuracy improvements.
翻訳日:2022-09-22 15:42:24 公開日:2022-09-21
# 批判駆動シナリオ生成のための記述言語を用いた強化学習フレームワーク

A Reinforcement Learning Framework with Description Language for Critical Driving Scenario Generation ( http://arxiv.org/abs/2209.10078v1 )

ライセンス: Link先を確認
Shuting Kang, Heng Guo and Yunzhi Xue(参考訳) クリティカルシナリオ生成には、論理シナリオの無限パラメータ空間からクリティカルパラメータの組み合わせを見つける能力が必要である。 既存のソリューションは、アクションシーケンスのパラメータ間の接続を考慮せずに、最初のシナリオにおけるパラメータの相関を調べることを目的としている。 アクションシーケンスをモデル化し、シナリオにおける異なるアクションパラメータの効果を検討する方法は、この問題を解決する上で重要な課題である。 本稿では,特定のタスクの評価を高速化するための重要なシナリオを生成するフレームワークを提案する。 具体的には、まず、マップ、アクター、アクター間の相互作用、およびオラクルを含むシナリオをモデル化するための記述言語btscenarioを提案します。 次に強化学習を用いて臨界パラメータの組み合わせを探索する。 アクションマスクを採用することにより、パラメータ空間における非固定長とシーケンスの影響を防止できる。 提案手法は,様々なシナリオにおけるランダムテストや組み合わせテストよりも効率的であることを示す。

Critical scenario generation requires the ability of finding critical parameter combinations from the infinite parameter space in the logic scenario. Existing solutions aims to explore the correlation of parameters in the initial scenario without considering the connection between the parameters in the action sequence. How to model action sequences and consider the effects of different action parameter in the scenario remains a key challenge to solve the problem. In this paper, we propose a framework to generate critical scenarios for speeding up evaluating specific tasks. Specifically, we first propose a description language, BTScenario, to model the scenario, which contains the map, actors, interactions between actors, and oracles. We then use reinforcement learning to search for combinations of critical parameters. By adopting the action mask, the effects of non-fixed length and sequences in parameter space can be prevented. We demonstrate that the proposed framework is more efficient than random test and combination test methods in various scenarios.
翻訳日:2022-09-22 15:41:31 公開日:2022-09-21
# 神経添加モデルの一般化手袋 : 金融における透明で正確な機械学習モデルの追求

Generalized Gloves of Neural Additive Models: Pursuing transparent and accurate machine learning models in finance ( http://arxiv.org/abs/2209.10082v1 )

ライセンス: Link先を確認
Dangxing Chen and Weicheng Ye(参考訳) 長年にわたり、コンピュータビジョンや自然言語処理など、さまざまな分野で機械学習手法が使用されてきた。 機械学習の手法は従来の手法に比べてモデルの性能を大幅に向上させたが、ブラックボックス構造は研究者が結果を解釈することが困難である。 高度に規制された金融業界では、透明性、説明可能性、公正性は正確さよりも重要である。 規制された要件を満たさなければ、高度に正確な機械学習手法が受け入れられる可能性は低い。 本稿では,神経添加モデルの一般化グローブと呼ばれる,透明で解釈可能な機械学習アルゴリズムの新たなクラスを導入することで,この問題に対処した。 ニューラル加法モデルの一般化グローブは、線形特徴、個々の非線形特徴、相互作用された非線形特徴の3つのカテゴリに分けられる。 さらに、最後のカテゴリの相互作用は局所的である。 線形および非線形成分はステップワイズ選択アルゴリズムによって区別され、相互作用群は加法分離基準を適用して慎重に検証される。 実験の結果、ニューラルネットワーク添加モデルの一般化された手袋は、最も単純なアーキテクチャで最適な精度を提供し、機械学習に対して高精度で透明で説明可能なアプローチを可能にする。

For many years, machine learning methods have been used in a wide range of fields, including computer vision and natural language processing. While machine learning methods have significantly improved model performance over traditional methods, their black-box structure makes it difficult for researchers to interpret results. For highly regulated financial industries, transparency, explainability, and fairness are equally, if not more, important than accuracy. Without meeting regulated requirements, even highly accurate machine learning methods are unlikely to be accepted. We address this issue by introducing a novel class of transparent and interpretable machine learning algorithms known as generalized gloves of neural additive models. The generalized gloves of neural additive models separate features into three categories: linear features, individual nonlinear features, and interacted nonlinear features. Additionally, interactions in the last category are only local. The linear and nonlinear components are distinguished by a stepwise selection algorithm, and interacted groups are carefully verified by applying additive separation criteria. Empirical results demonstrate that generalized gloves of neural additive models provide optimal accuracy with the simplest architecture, allowing for a highly accurate, transparent, and explainable approach to machine learning.
翻訳日:2022-09-22 15:41:18 公開日:2022-09-21
# 事前学習モデルからの連合学習:コントラスト学習アプローチ

Federated Learning from Pre-Trained Models: A Contrastive Learning Approach ( http://arxiv.org/abs/2209.10083v1 )

ライセンス: Link先を確認
Yue Tan, Guodong Long, Jie Ma, Lu Liu, Tianyi Zhou, Jing Jiang(参考訳) Federated Learning(FL)は、分散型クライアントがプライベートデータを共有せずに協調的に学習できる機械学習パラダイムである。 しかしながら、過剰な計算と通信の要求は、現在のflフレームワーク、特に大規模モデルのトレーニングにおいて問題となる。 FLシステムの展開を妨げるために,大規模モデルをスクラッチからトレーニングするのではなく,複数の固定された事前学習モデルによって生成された表現を融合させることをクライアントが共同で学習する軽量フレームワークを提案する。 これにより、事前訓練されたモデルからクライアント固有の情報やクラスに関連する情報をより多く取得し、各クライアントがセット外のモデルを利用する能力を改善する方法を考えることで、より実用的なfl問題に繋がる。 本研究では,クライアント間で知識を共有するfedpcl(federated prototype-wise contrastive learning)アプローチを設計し,クライアント固有の表現をプロトタイプ的に構築する。 学習可能なモデルパラメータではなくプロトタイプを共有することで、各クライアントは、共有知識をコンパクトな形式で保持しながら、パーソナライズされた方法で表現を融合することができる。 提案するFedPCLを軽量なフレームワークで徹底的に評価し,FLデータセット上の各種事前学習モデルを融合する能力の測定と可視化を行う。

Federated Learning (FL) is a machine learning paradigm that allows decentralized clients to learn collaboratively without sharing their private data. However, excessive computation and communication demands pose challenges to current FL frameworks, especially when training large-scale models. To prevent these issues from hindering the deployment of FL systems, we propose a lightweight framework where clients jointly learn to fuse the representations generated by multiple fixed pre-trained models rather than training a large-scale model from scratch. This leads us to a more practical FL problem by considering how to capture more client-specific and class-relevant information from the pre-trained models and jointly improve each client's ability to exploit those off-the-shelf models. In this work, we design a Federated Prototype-wise Contrastive Learning (FedPCL) approach which shares knowledge across clients through their class prototypes and builds client-specific representations in a prototype-wise contrastive manner. Sharing prototypes rather than learnable model parameters allows each client to fuse the representations in a personalized way while keeping the shared knowledge in a compact form for efficient communication. We perform a thorough evaluation of the proposed FedPCL in the lightweight framework, measuring and visualizing its ability to fuse various pre-trained models on popular FL datasets.
翻訳日:2022-09-22 15:41:01 公開日:2022-09-21
# コントラスト判別器を用いた音声変換のためのスターガンのブースティング

Boosting Star-GANs for Voice Conversion with Contrastive Discriminator ( http://arxiv.org/abs/2209.10088v1 )

ライセンス: Link先を確認
Shijing Si, Jianzong Wang, Xulong Zhang, Xiaoyang Qu, Ning Cheng and Jing Xiao(参考訳) StarGAN-VCのような並列でないマルチドメイン音声変換法は多くのシナリオで広く応用されている。 しかしながら、これらのモデルのトレーニングは通常、複雑な敵ネットワークアーキテクチャのため、課題となる。 そこで本研究では,最先端のコントラスト学習手法を活用し,効率的なシャムネットワーク構造をスターガン判別器に組み込む。 我々の手法はSimSiam-StarGAN-VCと呼ばれ、トレーニング安定性を高め、トレーニングプロセスにおける差別者の過剰適合を効果的に防止する。 我々は、Voice Conversion Challenge (VCC 2018)データセットと、我々のフレームワークの性能を検証するためのユーザスタディの実験を行っている。 実験の結果,SimSiam-StarGAN-VCは既存のStarGAN-VC法よりも客観的,主観的両指標で優れていた。

Nonparallel multi-domain voice conversion methods such as the StarGAN-VCs have been widely applied in many scenarios. However, the training of these models usually poses a challenge due to their complicated adversarial network architectures. To address this, in this work we leverage the state-of-the-art contrastive learning techniques and incorporate an efficient Siamese network structure into the StarGAN discriminator. Our method is called SimSiam-StarGAN-VC and it boosts the training stability and effectively prevents the discriminator overfitting issue in the training process. We conduct experiments on the Voice Conversion Challenge (VCC 2018) dataset, plus a user study to validate the performance of our framework. Our experimental results show that SimSiam-StarGAN-VC significantly outperforms existing StarGAN-VC methods in terms of both the objective and subjective metrics.
翻訳日:2022-09-22 15:40:36 公開日:2022-09-21
# 離散的アクター批判の再考

Revisiting Discrete Soft Actor-Critic ( http://arxiv.org/abs/2209.10081v1 )

ライセンス: Link先を確認
Haibin Zhou, Zichuan Lin, Junyou Li, Deheng Ye, Qiang Fu, Wei Yang(参考訳) 本研究では,ソフトアクター・クリティック(SAC)の連続的な行動空間から離散的な行動空間への適応について検討する。 我々はバニラSACを再検討し、個別設定に適用した場合のQ値の過小評価と性能不安定問題を詳細に理解する。 そこで本研究では,エントロピーペナルティとq-clipを用いた二重平均q-learningを提案する。 アタリゲームや大規模なMOBAゲームなど、離散的なアクション空間を持つ典型的なベンチマーク実験により、提案手法の有効性が示された。 私たちのコードは:https://github.com/coldsummerday/Revisiting-Discrete-SACです。

We study the adaption of soft actor-critic (SAC)from continuous action space to discrete action space. We revisit vanilla SAC and provide an in-depth understanding of its Q value underestimation and performance instability issues when applied to discrete settings. We thereby propose entropy-penalty and double average Q-learning with Q-clip to address these issues. Extensive experiments on typical benchmarks with discrete action space, including Atari games and a large-scale MOBA game, show the efficacy of our proposed method. Our code is at:https://github.com/coldsummerday/Revisiting-Discrete-SAC.
翻訳日:2022-09-22 15:34:07 公開日:2022-09-21
# データ拡張によるグラフ異常検出モデルの一般化性の向上

Improving Generalizability of Graph Anomaly Detection Models via Data Augmentation ( http://arxiv.org/abs/2209.10168v1 )

ライセンス: Link先を確認
Shuang Zhou, Xiao Huang, Ninghao Liu, Fu-Lai Chung, Long-Kai Huang(参考訳) グラフ異常検出(GAD)は、少数の異常でさえ、良心的なユーザーに大きな脅威をもたらす可能性があるため、重要なタスクである。 従来の知識として利用可能なラベルを効果的に活用できる最近の半教師付きGAD法は、教師なし手法よりも優れた性能を実現している。 実際には、人々はビジネスを確保するために新しい(サブ)グラフ上の異常を識別する必要があるが、効果的な検出モデルをトレーニングするラベルが欠落している可能性がある。 自然なアイデアのひとつは、トレーニング済みのgadモデルをテスト用の新しい(サブ)グラフに直接導入することだ。 しかし、既存の半教師付きGAD法は一般化の問題に悩まされており、例えば、よく訓練されたモデルは、同じグラフの見えない領域(つまり、トレーニングではアクセスできない)ではうまく機能しない。 それは大きなトラブルを引き起こすかもしれない。 本稿では,この現象を基礎として,学習領域グラフと未発見テストグラフの両方の異常を効果的に識別し,潜在的な危険を解消することを目的とした,一般化グラフ異常検出の一般的かつ新しい研究問題を提案する。 それでも、限られたラベルしか利用できないため、通常のバックグラウンドはトレーニングとテストデータの違いがあるため、難しい作業です。 そこで本研究では,学習データを充実させ,GADモデルの一般化性を高めるために,textit{AugAN} (\uline{Aug}mentation for \uline{A}nomaly and \uline{N}ormal distributions) というデータ拡張手法を提案する。 モデル一般化性向上における本手法の有効性を検証する。

Graph anomaly detection (GAD) is a vital task since even a few anomalies can pose huge threats to benign users. Recent semi-supervised GAD methods, which can effectively leverage the available labels as prior knowledge, have achieved superior performances than unsupervised methods. In practice, people usually need to identify anomalies on new (sub)graphs to secure their business, but they may lack labels to train an effective detection model. One natural idea is to directly adopt a trained GAD model to the new (sub)graph for testing. However, we find that existing semi-supervised GAD methods suffer from poor generalization issue, i.e., well-trained models could not perform well on an unseen area (i.e., not accessible in training) of the same graph. It may cause great troubles. In this paper, we base on the phenomenon and propose a general and novel research problem of generalized graph anomaly detection that aims to effectively identify anomalies on both the training-domain graph and unseen testing graph to eliminate potential dangers. Nevertheless, it is a challenging task since only limited labels are available, and the normal background may differ between training and testing data. Accordingly, we propose a data augmentation method named \textit{AugAN} (\uline{Aug}mentation for \uline{A}nomaly and \uline{N}ormal distributions) to enrich training data and boost the generalizability of GAD models. Experiments verify the effectiveness of our method in improving model generalizability.
翻訳日:2022-09-22 15:33:59 公開日:2022-09-21
# ニューラルネットワークにおける周期的外挿一般化

Periodic Extrapolative Generalisation in Neural Networks ( http://arxiv.org/abs/2209.10280v1 )

ライセンス: Link先を確認
Peter Belc\'ak, Roger Wattenhofer(参考訳) 最も単純な計算パターン -- 周期性 - の学習は、ニューラルネットワークにおける強力な一般化の研究において、オープンな問題である。 本稿では,周期的信号の補間的一般化の問題を定式化し,古典的,集団的,そして最近提案された一連のベンチマークタスクにおける周期的アーキテクチャの一般化能力を体系的に検討する。 周期性パラメータの訓練性にかかわらず、周期性および「スネーク」活性化関数は周期性外挿で一貫して失敗する。 さらに, 従来の逐次モデルでは外挿に特化して設計された新しいアーキテクチャよりも優れた性能を示し, 人口ベーストレーニングによってその性能が損なわれていることを示した。 ベンチマークと評価のツールキットであるPerKitを利用可能にしています。

The learning of the simplest possible computational pattern -- periodicity -- is an open problem in the research of strong generalisation in neural networks. We formalise the problem of extrapolative generalisation for periodic signals and systematically investigate the generalisation abilities of classical, population-based, and recently proposed periodic architectures on a set of benchmarking tasks. We find that periodic and "snake" activation functions consistently fail at periodic extrapolation, regardless of the trainability of their periodicity parameters. Further, our results show that traditional sequential models still outperform the novel architectures designed specifically for extrapolation, and that these are in turn trumped by population-based training. We make our benchmarking and evaluation toolkit, PerKit, available and easily accessible to facilitate future work in the area.
翻訳日:2022-09-22 15:33:32 公開日:2022-09-21
# 並列階層分類のための木手法

Tree Methods for Hierarchical Classification in Parallel ( http://arxiv.org/abs/2209.10288v1 )

ライセンス: Link先を確認
Franz A. Heinsen(参考訳) 本稿では,効率的な階層分類を実現する手法を提案する。 本手法は,セマンティクスツリー内の与えられたノードに対応する分類スコアとラベルのバッチを,ハードウェアアクセラレータ上で効率的に実行されるテンソル操作のみに依存して,ツリーを下る祖先パスのすべてのノードに対応するスコアとラベルに変換する。 我々は,WordNet 3.0にすべての英語構文を組み込んだ現行のハードウェアアクセラレータ上で,17,659のクラスを20レベルの深さでテストする。 スコアとラベルのバッチをそれぞれの祖先パスに変換し、無視可能な計算を行い、データのフットプリントに対して0.04gbの固定メモリしか消費しない。

We propose methods that enable efficient hierarchical classification in parallel. Our methods transform a batch of classification scores and labels, corresponding to given nodes in a semantic tree, to scores and labels corresponding to all nodes in the ancestral paths going down the tree to every given node, relying only on tensor operations that execute efficiently on hardware accelerators. We implement our methods and test them on current hardware accelerators with a tree incorporating all English-language synsets in WordNet 3.0, spanning 117,659 classes in 20 levels of depth. We transform batches of scores and labels to their respective ancestral paths, incurring negligible computation and consuming only a fixed 0.04GB of memory over the footprint of data.
翻訳日:2022-09-22 15:33:19 公開日:2022-09-21
# 階層型決定変換器

Hierarchical Decision Transformer ( http://arxiv.org/abs/2209.10447v1 )

ライセンス: Link先を確認
Andr\'e Correia and Lu\'is A. Alexandre(参考訳) 強化学習におけるシーケンスモデルは、タスクポリシーを見積もるためにタスク知識を必要とする。 本稿では,実演からシーケンスモデルを学習するための階層的アルゴリズムを提案する。 高レベル機構は、低レベルコントローラをタスクを通じてガイドし、後者が到達するサブゴールを選択する。 このシーケンスは、以前のメソッドのリターン・トゥ・ゴー(return-to-go)を置き換え、パフォーマンスを全体として改善する。 提案手法をOpenAIGym, D4RL, RoboMimicベンチマークの複数のタスクで検証する。 提案手法は,従来の課題知識を伴わない10タスクのうち8タスクのうち8タスクにおいてベースラインを上回り,シーケンスモデルを用いて実演から学習する階層モデルアプローチの利点を示す。

Sequence models in reinforcement learning require task knowledge to estimate the task policy. This paper presents a hierarchical algorithm for learning a sequence model from demonstrations. The high-level mechanism guides the low-level controller through the task by selecting sub-goals for the latter to reach. This sequence replaces the returns-to-go of previous methods, improving its performance overall, especially in tasks with longer episodes and scarcer rewards. We validate our method in multiple tasks of OpenAIGym, D4RL and RoboMimic benchmarks. Our method outperforms the baselines in eight out of ten tasks of varied horizons and reward frequencies without prior task knowledge, showing the advantages of the hierarchical model approach for learning from demonstrations using a sequence model.
翻訳日:2022-09-22 15:33:06 公開日:2022-09-21
# 平滑補間による深部二重蛍光

Deep Double Descent via Smooth Interpolation ( http://arxiv.org/abs/2209.10080v1 )

ライセンス: Link先を確認
Matteo Gamba and Erik Englesson and M{\aa}rten Bj\"orkman and Hossein Azizpour(参考訳) 過パラメータのディープネットワークは、トレーニングデータに完全に適合すると同時に、優れた一般化性能を示すことが知られている。 線形回帰に関する直観から引き出された共通のパラダイムは、大きなネットワークが、地上の信号からかなり逸脱することなく、ノイズの多いデータでさえ補間できることを示している。 現在、この現象の正確な特徴が欠落している。 本研究では,深層ネットワークにおける損失景観のシャープさに関する実証的研究を行い,モデルパラメータの数を体系的に制御し,エポックを訓練する。 研究は、トレーニングデータの近隣や、クリーンでノイズの多いサンプルにまで拡張しています。 以上の結果から, 入力空間における損失シャープネスは, モデルとエポシカルな2重降下の双方に続くことが示唆された。 小さな補間モデルはクリーンデータとノイズデータの両方に鋭く適合するが、大きなモデルは既存の直観とは対照的に、滑らかで平坦な損失の風景を表現している。

Overparameterized deep networks are known to be able to perfectly fit the training data while at the same time showing good generalization performance. A common paradigm drawn from intuition on linear regression suggests that large networks are able to interpolate even noisy data, without considerably deviating from the ground-truth signal. At present, a precise characterization of this phenomenon is missing. In this work, we present an empirical study of sharpness of the loss landscape of deep networks as we systematically control the number of model parameters and training epochs. We extend our study to neighbourhoods of the training data, as well as around cleanly- and noisily-labelled samples. Our findings show that the loss sharpness in the input space follows both model- and epoch-wise double descent, with worse peaks observed around noisy labels. While small interpolating models sharply fit both clean and noisy data, large models express a smooth and flat loss landscape, in contrast with existing intuition.
翻訳日:2022-09-22 15:32:41 公開日:2022-09-21
# 無限深層ニューラルネットワークの変分推論

Variational Inference for Infinitely Deep Neural Networks ( http://arxiv.org/abs/2209.10091v1 )

ライセンス: Link先を確認
Achille Nazaret, David Blei(参考訳) 我々は,その複雑性をトレーニングデータに適用する無限に深い確率モデルであるunbounded depth neural network (udn)を導入する。 UDNは無限に隠された層の列を含み、そのデータを生成する層であるトランケーションLに非有界を配置する。 観測のデータセットが与えられた後部UDNは、無限ニューラルネットワークのパラメータとその切り離しの条件分布を提供する。 本稿では,ニューラルネットワークの重みと切断深さlの分布を最適化し,lの上限を満たさない新しい変動推論アルゴリズムを開発した。この目的のために,変動関数は,任意の深さのニューラルネットワーク重みをモデル化し,切断の分布を最適化した自由変動パラメータを動的に生成・除去する,という特殊な構造を持つ。 (モデル探索に対するヒューリスティックなアプローチとは異なり、このアルゴリズムが切断の空間を探索するのは勾配に基づく最適化のみである。) 我々はUDNを実データと合成データに基づいて研究する。 UDNはその奥深くをデータセットの複雑さに適応し、類似の計算複雑性を持つ標準的なニューラルネットワークよりも優れ、無限深度ニューラルネットワークに対する他のアプローチよりも優れています。

We introduce the unbounded depth neural network (UDN), an infinitely deep probabilistic model that adapts its complexity to the training data. The UDN contains an infinite sequence of hidden layers and places an unbounded prior on a truncation L, the layer from which it produces its data. Given a dataset of observations, the posterior UDN provides a conditional distribution of both the parameters of the infinite neural network and its truncation. We develop a novel variational inference algorithm to approximate this posterior, optimizing a distribution of the neural network weights and of the truncation depth L, and without any upper limit on L. To this end, the variational family has a special structure: it models neural network weights of arbitrary depth, and it dynamically creates or removes free variational parameters as its distribution of the truncation is optimized. (Unlike heuristic approaches to model search, it is solely through gradient-based optimization that this algorithm explores the space of truncations.) We study the UDN on real and synthetic data. We find that the UDN adapts its posterior depth to the dataset complexity; it outperforms standard neural networks of similar computational complexity; and it outperforms other approaches to infinite-depth neural networks.
翻訳日:2022-09-22 15:32:23 公開日:2022-09-21
# 生成前もって非線形逆問題を解くための投影勾配降下アルゴリズム

Projected Gradient Descent Algorithms for Solving Nonlinear Inverse Problems with Generative Priors ( http://arxiv.org/abs/2209.10093v1 )

ライセンス: Link先を確認
Zhaoqiang Liu, Jun Han(参考訳) 本稿では,雑音非線形測定から信号推定を行うためのPGDアルゴリズムを提案する。 未知の$p$次元信号は、有界な$k$次元入力を持つ$L$-Lipschitz連続生成モデルの範囲近くにあると仮定する。 特に、非線形リンク関数が未知あるいは既知の2つの場合を考える。 未知の非線形性、例えば \cite{liu2020 generalized} に対して、準ガウス観測を仮定し、線形最小二乗推定器を提案する。 表現誤差がなく、検出ベクトルがガウスであるとき、およそ$O(k \log L)$サンプルはPGDアルゴリズムが任意の初期化を用いて最適な統計率を達成する点に線形に収束することを保証するのに十分であることを示す。 既知の非線形性について、単調性は \cite{yang2016sparse} と仮定し、センシングベクトルに対してより弱い仮定を行い、表現誤差を許容する。 本稿では, 最適統計率を期待できる非線形最小二乗推定器を提案する。 対応するpgdアルゴリズムを提供し、任意の初期化を用いて推定器に線形に収束することを示す。 さらに, PGDアルゴリズムの性能を示すために, 画像データセットに関する実験結果を示す。

In this paper, we propose projected gradient descent (PGD) algorithms for signal estimation from noisy nonlinear measurements. We assume that the unknown $p$-dimensional signal lies near the range of an $L$-Lipschitz continuous generative model with bounded $k$-dimensional inputs. In particular, we consider two cases when the nonlinear link function is either unknown or known. For unknown nonlinearity, similarly to \cite{liu2020generalized}, we make the assumption of sub-Gaussian observations and propose a linear least-squares estimator. We show that when there is no representation error and the sensing vectors are Gaussian, roughly $O(k \log L)$ samples suffice to ensure that a PGD algorithm converges linearly to a point achieving the optimal statistical rate using arbitrary initialization. For known nonlinearity, we assume monotonicity as in \cite{yang2016sparse}, and make much weaker assumptions on the sensing vectors and allow for representation error. We propose a nonlinear least-squares estimator that is guaranteed to enjoy an optimal statistical rate. A corresponding PGD algorithm is provided and is shown to also converge linearly to the estimator using arbitrary initialization. In addition, we present experimental results on image datasets to demonstrate the performance of our PGD algorithms.
翻訳日:2022-09-22 15:32:02 公開日:2022-09-21
# Tab2vox: Tabular-to-Voxel画像変換によるCNNに基づく多変量多値需要予測フレームワーク

Tab2vox: CNN-Based Multivariate Multilevel Demand Forecasting Framework by Tabular-To-Voxel Image Conversion ( http://arxiv.org/abs/2209.10516v1 )

ライセンス: Link先を確認
Euna Lee, Myungwoo Nam and Hongchul Lee(参考訳) 需要は様々な原因に影響されているため、説明-論理変数を異なるレベルに分解し、それらの関係を効果的に抽出し、予測に反映する必要がある。 特に、この文脈情報は需要変動性や断続的な需要パターンが大きい需要予測において非常に有用である。 畳み込みニューラルネットワーク(CNN)は、データ内の重要な情報が画像によって表現される多くの分野で成功している。 CNNは、サンプルを画像として受け入れ、隣接するボクセルセットを使用して多次元の重要な情報を統合し、重要な特徴を学習するため、強力である。 一方、需要予測モデルは改善されているものの、入力データは依然として表形式で制限されており、cnnモデリングには適していない。 本研究では,高次元表型sam-pleを3次元ボクセル画像に変換し,それを3次元cnnネットワークで使用する手法として,tab2vox neural architecture search(nas)モデルを提案する。 各画像再送に対して,Tab2voxフレームワークから提案した3D CNN予測モデルでは,既存の時系列や,表形式データを用いた機械学習技術と比較して,サペリア性能が示された。

Since demand is influenced by a wide variety of causes, it is necessary to decompose the explana-tory variables into different levels, extract their relationships effectively, and reflect them in the forecast. In particular, this contextual information can be very useful in demand forecasting with large demand volatility or intermittent demand patterns. Convolutional neural networks (CNNs) have been successfully used in many fields where important information in data is represented by images. CNNs are powerful because they accept samples as images and use adjacent voxel sets to integrate multi-dimensional important information and learn important features. On the other hand, although the demand-forecasting model has been improved, the input data is still limited in its tabular form and is not suitable for CNN modeling. In this study, we propose a Tab2vox neural architecture search (NAS) model as a method to convert a high-dimensional tabular sam-ple into a well-formed 3D voxel image and use it in a 3D CNN network. For each image repre-sentation, the 3D CNN forecasting model proposed from the Tab2vox framework showed supe-rior performance, compared to the existing time series and machine learning techniques using tabular data, and the latest image transformation studies.
翻訳日:2022-09-22 15:31:41 公開日:2022-09-21
# 検索ではなく生成: 大規模言語モデルは強いコンテキストジェネレータである

Generate rather than Retrieve: Large Language Models are Strong Context Generators ( http://arxiv.org/abs/2209.10063v1 )

ライセンス: Link先を確認
Wenhao Yu, Dan Iter, Shuohang Wang, Yichong Xu, Mingxuan Ju, Soumya Sanyal, Chenguang Zhu, Michael Zeng, Meng Jiang(参考訳) オープンドメイン質問応答(QA)のような知識集約的なタスクは、大量の世界やドメイン知識へのアクセスを必要とする。 知識集約型タスクの一般的なアプローチは、最初にWikipediaのような外部コーパスから関連した文書を検索し、検索した文書に条件付きで回答を予測する、検索テーマのパイプラインを使用することである。 本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。 我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。 さらに,個別のプロンプトを選択するクラスタリングに基づく新しいプロンプト手法を提案する。 オープンドメインqa,事実チェック,対話システムなど,3つの知識集約型タスクに関する広範な実験を行う。 特に、GenRead は TriviaQA と WebQ で 71.6 と 54.4 の正確なマッチスコアを達成し、外部の知識ソースから文書を取り出すことなく、最先端の検索処理パイプライン DPR-FiD を +4.0 と +3.9 で大幅に上回っている。 最後に,検索と生成を組み合わせることで,モデルの性能をさらに向上できることを示す。

Knowledge-intensive tasks, such as open-domain question answering (QA), require access to a large amount of world or domain knowledge. A common approach for knowledge-intensive tasks is to employ a retrieve-then-read pipeline that first retrieves a handful of relevant contextual documents from an external corpus such as Wikipedia and then predicts an answer conditioned on the retrieved documents. In this paper, we present a novel perspective for solving knowledge-intensive tasks by replacing document retrievers with large language model generators. We call our method generate-then-read (GenRead), which first prompts a large language model to generate contextutal documents based on a given question, and then reads the generated documents to produce the final answer. Furthermore, we propose a novel clustering-based prompting method that selects distinct prompts, resulting in the generated documents that cover different perspectives, leading to better recall over acceptable answers. We conduct extensive experiments on three different knowledge-intensive tasks, including open-domain QA, fact checking, and dialogue system. Notably, GenRead achieves 71.6 and 54.4 exact match scores on TriviaQA and WebQ, significantly outperforming the state-of-the-art retrieve-then-read pipeline DPR-FiD by +4.0 and +3.9, without retrieving any documents from any external knowledge source. Lastly, we demonstrate the model performance can be further improved by combining retrieval and generation.
翻訳日:2022-09-22 15:26:20 公開日:2022-09-21
# PePe: ユーザ生成後編集モデル

PePe: Personalized Post-editing Model utilizing User-generated Post-edits ( http://arxiv.org/abs/2209.10139v1 )

ライセンス: Link先を確認
Jihyeon Lee, Taehee Kim, Yunwon Tae, Cheonbok Park, Jaegul Choo(参考訳) 高度な機械翻訳タスクには、個人の好みを取り入れることが不可欠である。 近年の機械翻訳の進歩にもかかわらず、個人的スタイルを適切に反映する必要がある。 本稿では、この課題に対処するパーソナライズされた自動後編集フレームワークを導入し、個別の個人行動を考慮した文を効果的に生成する。 このフレームワークを構築するために、まず、ライブ機械翻訳システムからユーザの好みを示す後編集データを収集する。 具体的には、実世界のユーザが翻訳のための原文を入力し、ユーザの好みのスタイルに従って機械翻訳出力を編集する。 次に, apeフレームワーク上で識別モジュールとユーザ固有のパラメータを組み合わせたモデルを提案する。 実験の結果,提案手法は4つの指標 (bleu, ter, yisi-1, human evaluation) において,他のベースラインモデルよりも優れていた。

Incorporating personal preference is crucial in advanced machine translation tasks. Despite the recent advancement of machine translation, it remains a demanding task to properly reflect personal style. In this paper, we introduce a personalized automatic post-editing framework to address this challenge, which effectively generates sentences considering distinct personal behaviors. To build this framework, we first collect post-editing data that connotes the user preference from a live machine translation system. Specifically, real-world users enter source sentences for translation and edit the machine-translated outputs according to the user's preferred style. We then propose a model that combines a discriminator module and user-specific parameters on the APE framework. Experimental results show that the proposed method outperforms other baseline models on four different metrics (i.e., BLEU, TER, YiSi-1, and human evaluation).
翻訳日:2022-09-22 15:25:42 公開日:2022-09-21
# WeLM: 中国語の読みやすい事前学習型言語モデル

WeLM: A Well-Read Pre-trained Language Model for Chinese ( http://arxiv.org/abs/2209.10372v1 )

ライセンス: Link先を確認
Hui Su, Xiao Zhou, Houjing Yu, Yuwen Chen, Zilin Zhu, Yang Yu, Jie Zhou(参考訳) 自己教師付き学習で事前学習された大規模言語モデルは、幅広いタスクで印象的なゼロショット一般化能力を示している。 本稿では,ゼロショットや少数ショットのデモンストレーションによって,さまざまなタスクをシームレスに実行できる中国語用事前学習型言語モデルwelmを提案する。 WeLMは、幅広いトピックをカバーする高品質なコーパスを「読む」ことで、10Bパラメータで訓練されている。 WeLMには様々なドメインや言語に関する幅広い知識が備わっている。 18の単言語(中国語)タスクでは、WeLMは既存のトレーニング済みモデルと同じようなサイズで大幅に性能を上回り、最大25倍の性能を持つ。 WeLMはまた、30言語で事前訓練された既存の多言語言語モデルよりも優れた、多言語およびコードスイッチング理解において強力な能力を示している。 さらに,マルチプロンプトトレーニングによる中国語と微調整 welm の教師付きデータセット群に対して,人間によるプロンプトを収集した。 得られたモデルは、目に見えないタスクの種類を強く一般化し、ゼロショット学習において教師なしの WeLM よりも優れる。 最後に, WeLMは意思決定を自己から説明し, 調整する基本的なスキルを持っていることを実証し, 今後の研究に期待できる方向を示す。 私たちのモデルはhttps://welm.weixin.qq.com/docs/api/から適用できます。

Large Language Models pre-trained with self-supervised learning have demonstrated impressive zero-shot generalization capabilities on a wide spectrum of tasks. In this work, we present WeLM: a well-read pre-trained language model for Chinese that is able to seamlessly perform different types of tasks with zero or few-shot demonstrations. WeLM is trained with 10B parameters by "reading" a curated high-quality corpus covering a wide range of topics. We show that WeLM is equipped with broad knowledge on various domains and languages. On 18 monolingual (Chinese) tasks, WeLM can significantly outperform existing pre-trained models with similar sizes and match the performance of models up to 25 times larger. WeLM also exhibits strong capabilities in multi-lingual and code-switching understanding, outperforming existing multilingual language models pre-trained on 30 languages. Furthermore, We collected human-written prompts for a large set of supervised datasets in Chinese and fine-tuned WeLM with multi-prompted training. The resulting model can attain strong generalization on unseen types of tasks and outperform the unsupervised WeLM in zero-shot learning. Finally, we demonstrate that WeLM has basic skills at explaining and calibrating the decisions from itself, which can be promising directions for future research. Our models can be applied from https://welm.weixin.qq.com/docs/api/.
翻訳日:2022-09-22 15:25:27 公開日:2022-09-21
# テキストからテキストへの統一トランスフォーマーを用いた極限マルチドメインマルチタスク学習

Extreme Multi-Domain, Multi-Task Learning With Unified Text-to-Text Transfer Transformers ( http://arxiv.org/abs/2209.10106v1 )

ライセンス: Link先を確認
Adebayo Oshingbesan, Courage Ekoh, Germann Atakpa, Yonah Byaruagaba(参考訳) テキストからテキストへのトランスフォーマーは、マルチタスク転送学習、特に自然言語処理(nlp)のタスクにおいて顕著な成功を収めている。 しかし、異なるドメインでトランスフォーマーをトレーニングしようという試みはいくつかあったが、通常、これらのドメイン、例えば、自然言語要約がコードを記述するコード要約のような、明確な関係がある。 マルチタスクトランスファー学習が、異なる領域のタスクでどのように機能するかを研究する試みはほとんどない。 本稿では,Python Code と Chess という2つのドメインにまたがる4つのタスクに対して,MD-T5 を用いたマルチドメインマルチタスク学習の動作について検討した。 バート型ジョイントプリトレーニング+逐次微調整、gpt型ジョイントプリトレーニング+逐次微調整、gpt型ジョイントプリトレーニング+合同微調整の3つの一般的なトレーニング戦略を用いて広範な実験を行った。 また,このモデルを,Play Score,Eval Score,BLEU Score,Multi-Domain Learning Score (MDLS)の4つの指標で評価した。 これらのメトリクスは、さまざまなタスクとマルチドメイン学習のパフォーマンスを測定する。 負の知識伝達と破滅的な忘れ込みは,すべてのモデルにおいて依然として大きな課題であるが,GPTスタイルのジョイントプレトレーニング+ジョイントファインタニング戦略は,マルチドメインのマルチタスク学習において,マルチドメインの知識を維持しつつ,4つのタスクすべてにおいて良好に機能することを示す。

Text-to-text transformers have shown remarkable success in the task of multi-task transfer learning, especially in natural language processing (NLP). However, while there have been several attempts to train transformers on different domains, there is usually a clear relationship between these domains, e.g.,, code summarization, where the natural language summary describes the code. There have been very few attempts to study how multi-task transfer learning works on tasks in significantly different domains. In this project, we investigated the behavior of multi-domain, multi-task learning using multi-domain text-to-text transfer transformers (MD-T5) on four tasks across two domains - Python Code and Chess. We carried out extensive experiments using three popular training strategies: Bert-style joint pretraining + successive finetuning, GPT-style joint pretraining + successive finetuning, and GPT-style joint pretraining + joint finetuning. Also, we evaluate the model on four metrics - Play Score, Eval Score, BLEU Score, and Multi-Domain Learning Score (MDLS). These metrics measure performance across the various tasks and multi-domain learning. We show that while negative knowledge transfer and catastrophic forgetting are still considerable challenges for all the models, the GPT-style joint pretraining + joint finetuning strategy showed the most promise in multi-domain, multi-task learning as it performs well across all four tasks while still keeping its multi-domain knowledge.
翻訳日:2022-09-22 15:25:06 公開日:2022-09-21
# データフリーな知識蒸留における大規模分散シフトの処理

Momentum Adversarial Distillation: Handling Large Distribution Shifts in Data-Free Knowledge Distillation ( http://arxiv.org/abs/2209.10359v1 )

ライセンス: Link先を確認
Kien Do, Hung Le, Dung Nguyen, Dang Nguyen, Haripriya Harikumar, Truyen Tran, Santu Rana, Svetha Venkatesh(参考訳) データフリーな知識蒸留(DFKD)は,教師ネットワークから学生ネットワークに学習データを用いずに知識を伝達する機能によって近年注目を集めている。 主なアイデアは、ジェネレータを使って生徒を訓練するためのデータを合成することだ。 発電機が更新されると、合成データの分布が変化する。 このような分布シフトは、ジェネレータと生徒が敵対的に訓練されると大きくなり、学生はそれまでのステップで得た知識を忘れてしまう。 この問題を軽減するために, 指数移動平均(EMA)コピーを維持し, 発電機とEMAジェネレータの合成サンプルを用いて生徒を訓練する, 簡易かつ効果的なMAD (Momentum Adversarial Distillation) を提案する。 emaジェネレータは、ジェネレータの古いバージョンのアンサンブルと見なすことができ、ジェネレータに比べて更新の小さな変更を行うことが多いため、その合成サンプルのトレーニングは、学生が過去の知識を思い出すのに役立ち、ジェネレータの新しい更新に学生が早すぎることを防げる。 ImageNetやPlaces365のような大規模データセットを含む6つのベンチマークデータセットに対する実験では、大規模な分散シフト問題を扱う競合手法よりもMADの方が優れた性能を示した。 また,本手法は既存のDFKD法と良好に比較でき,場合によっては最先端の結果も得られる。

Data-free Knowledge Distillation (DFKD) has attracted attention recently thanks to its appealing capability of transferring knowledge from a teacher network to a student network without using training data. The main idea is to use a generator to synthesize data for training the student. As the generator gets updated, the distribution of synthetic data will change. Such distribution shift could be large if the generator and the student are trained adversarially, causing the student to forget the knowledge it acquired at previous steps. To alleviate this problem, we propose a simple yet effective method called Momentum Adversarial Distillation (MAD) which maintains an exponential moving average (EMA) copy of the generator and uses synthetic samples from both the generator and the EMA generator to train the student. Since the EMA generator can be considered as an ensemble of the generator's old versions and often undergoes a smaller change in updates compared to the generator, training on its synthetic samples can help the student recall the past knowledge and prevent the student from adapting too quickly to new updates of the generator. Our experiments on six benchmark datasets including big datasets like ImageNet and Places365 demonstrate the superior performance of MAD over competing methods for handling the large distribution shift problem. Our method also compares favorably to existing DFKD methods and even achieves state-of-the-art results in some cases.
翻訳日:2022-09-22 15:24:37 公開日:2022-09-21
# スイニング変圧器によるサル船の検知と特徴強調型ピラミッド網

Sar Ship Detection based on Swin Transformer and Feature Enhancement Feature Pyramid Network ( http://arxiv.org/abs/2209.10421v1 )

ライセンス: Link先を確認
Xiao Ke, Xiaoling Zhang, Tianwen Zhang, Jun Shi, Shunjun Wei(参考訳) 畳み込みニューラルネットワーク(CNN)のブームにより、VGG-16やResNet-50といったCNNは、SAR船の検出においてバックボーンとして広く機能する。 しかし、cnnベースのバックボーンは長距離依存関係のモデル化が困難であり、浅い層の特徴マップに十分な品質のセマンティクス情報が欠落し、複雑な背景や小型の船では検出性能が低下する。 これらの問題に対処するために,Swin TransformerとFeature Enhancement Feature Pyramid Network (FEFPN)に基づくSAR船の検出手法を提案する。 Swin Transformerは、長期依存をモデル化し階層的な特徴マップを生成するバックボーンとして機能する。 FEFPNは,すべての階層,特に浅い層における特徴マップのセマンティック情報を徐々に強化することにより,特徴マップの品質をさらに向上する。 SAR船体検出データセット(SSDD)を用いた実験により,提案手法の利点が明らかになった。

With the booming of Convolutional Neural Networks (CNNs), CNNs such as VGG-16 and ResNet-50 widely serve as backbone in SAR ship detection. However, CNN based backbone is hard to model long-range dependencies, and causes the lack of enough high-quality semantic information in feature maps of shallow layers, which leads to poor detection performance in complicated background and small-sized ships cases. To address these problems, we propose a SAR ship detection method based on Swin Transformer and Feature Enhancement Feature Pyramid Network (FEFPN). Swin Transformer serves as backbone to model long-range dependencies and generates hierarchical features maps. FEFPN is proposed to further improve the quality of feature maps by gradually enhancing the semantic information of feature maps at all levels, especially feature maps in shallow layers. Experiments conducted on SAR ship detection dataset (SSDD) reveal the advantage of our proposed methods.
翻訳日:2022-09-22 15:24:13 公開日:2022-09-21
# 知的障害・発達障害のある若者の成人化 : 感情検出とトピックモデリング

Transition to Adulthood for Young People with Intellectual or Developmental Disabilities: Emotion Detection and Topic Modeling ( http://arxiv.org/abs/2209.10477v1 )

ライセンス: Link先を確認
Yan Liu, Maria Laricheva, Chiyu Zhang, Patrick Boutet, Guanyu Chen, Terence Tracey, Giuseppe Carenini, Richard Young(参考訳) 成人への移行は多くの家族にとって不可欠な生活段階である。 以前の研究では、知的発達障害(idd)を持つ若者は仲間よりも課題が多いことが示されている。 本研究は,自然言語処理(nlp)手法,特に教師なし機械学習(unsupervised machine learning)を用いて,心理学者が感情や感情を分析し,トピックモデリングを用いて,iddとその家族を持つ若者が抱える共通問題や課題を特定する方法を検討することである。 また, 成人期から成人期にかけてのIDDを欠いた若年者と比較した。 その結果,nlp法は感情分析やクロスケース分析,会話データから重要な話題を要約する上で,心理学者にとって非常に有用であることがわかった。 私たちのpythonコードはhttps://github.com/mlaricheva/emotion_topic_modelingで利用可能です。

Transition to Adulthood is an essential life stage for many families. The prior research has shown that young people with intellectual or development disabil-ities (IDD) have more challenges than their peers. This study is to explore how to use natural language processing (NLP) methods, especially unsupervised machine learning, to assist psychologists to analyze emotions and sentiments and to use topic modeling to identify common issues and challenges that young people with IDD and their families have. Additionally, the results were compared to those obtained from young people without IDD who were in tran-sition to adulthood. The findings showed that NLP methods can be very useful for psychologists to analyze emotions, conduct cross-case analysis, and sum-marize key topics from conversational data. Our Python code is available at https://github.com/mlaricheva/emotion_topic_modeling.
翻訳日:2022-09-22 15:23:57 公開日:2022-09-21
# パーソナライズポリシーを用いたメタ強化学習の収束理論について

On the Convergence Theory of Meta Reinforcement Learning with Personalized Policies ( http://arxiv.org/abs/2209.10072v1 )

ライセンス: Link先を確認
Haozhi Wang, Qing Wang, Yunfeng Shao, Dong Li, Jianye Hao, Yinchuan Li(参考訳) メタ強化学習法 (Meta-RL) は主にモデルに依存しないメタラーニングに基づいて開発され、政策性能を最大化するためにタスク間でポリシー勾配のステップを実行する。 しかし,Meta-RLでは勾配競合問題はまだよく理解されていないため,異なるタスクに遭遇しても性能が低下する可能性がある。 そこで本研究では,タスク固有のパーソナライズされたポリシを集約して,すべてのタスクに使用されるメタポリシーを更新すると同時に,各タスクの平均リターンを最大化するためのパーソナライズされたポリシをメンテナンスする,新しいメタRL(pMeta-RL)アルゴリズムを提案する。 また, pMeta-RLアルゴリズムの収束性を示す表計算条件下での理論解析を行った。 さらに,提案したpMeta-RLアルゴリズムをソフトアクター批判に基づくディープネットワークバージョンに拡張し,連続的な制御タスクに適応する。 実験の結果,提案アルゴリズムは,GymおよびMuJoCoスイートにおいて,他のMeta-RLアルゴリズムよりも優れていた。

Modern meta-reinforcement learning (Meta-RL) methods are mainly developed based on model-agnostic meta-learning, which performs policy gradient steps across tasks to maximize policy performance. However, the gradient conflict problem is still poorly understood in Meta-RL, which may lead to performance degradation when encountering distinct tasks. To tackle this challenge, this paper proposes a novel personalized Meta-RL (pMeta-RL) algorithm, which aggregates task-specific personalized policies to update a meta-policy used for all tasks, while maintaining personalized policies to maximize the average return of each task under the constraint of the meta-policy. We also provide the theoretical analysis under the tabular setting, which demonstrates the convergence of our pMeta-RL algorithm. Moreover, we extend the proposed pMeta-RL algorithm to a deep network version based on soft actor-critic, making it suitable for continuous control tasks. Experiment results show that the proposed algorithms outperform other previous Meta-RL algorithms on Gym and MuJoCo suites.
翻訳日:2022-09-22 15:22:59 公開日:2022-09-21
# lamarckian platform: 進化的強化学習の境界を非同期商用ゲームへと押し上げる

Lamarckian Platform: Pushing the Boundaries of Evolutionary Reinforcement Learning towards Asynchronous Commercial Games ( http://arxiv.org/abs/2209.10055v1 )

ライセンス: Link先を確認
Hui Bai, Ruimin Shen, Yue Lin, Botian Xu, Ran Cheng(参考訳) 進化的計算を強化学習に統合することの進歩にもかかわらず、コンポーザビリティと大規模並列性を備えた高性能なプラットフォームが欠如していることは、非同期商用ゲームに関する研究や応用において、非自明な困難をもたらす。 ここでは、分散コンピューティングリソースにスケーラブルな進化的強化学習をサポートするオープンソースプラットフォームであるlamarckianを紹介する。 トレーニング速度とデータ効率を改善するため、lamarckianは最適化されたコミュニケーション手法と非同期進化強化学習ワークフローを採用している。 商用ゲームや様々な方法による非同期インターフェースの需要に応えるため、Lamarckianは非同期マルコフ決定プロセスインタフェースをカスタマイズし、分離モジュールを持つオブジェクト指向ソフトウェアアーキテクチャを設計する。 最先端のRLlibと比較して、最大6000CPUコアのベンチマークテストにおいて、Lamarckianのユニークな利点を実証的に示す。 i) GoogleのフットボールゲームにおけるPPOの実行時にサンプリング効率とトレーニング速度が2倍になること。 ii)Pongゲーム上でPBT+PPOを実行する場合,トレーニング速度は13倍速くなる。 さらに,2つのユースケースも紹介する。 i) lamarckian が行動多様性ゲーム ai の生成にどのように適用されるか。 ii)lamarckianを非同期商用ゲームのゲームバランステストに適用する方法。

Despite the emerging progress of integrating evolutionary computation into reinforcement learning, the absence of a high-performance platform endowing composability and massive parallelism causes non-trivial difficulties for research and applications related to asynchronous commercial games. Here we introduce Lamarckian - an open-source platform featuring support for evolutionary reinforcement learning scalable to distributed computing resources. To improve the training speed and data efficiency, Lamarckian adopts optimized communication methods and an asynchronous evolutionary reinforcement learning workflow. To meet the demand for an asynchronous interface by commercial games and various methods, Lamarckian tailors an asynchronous Markov Decision Process interface and designs an object-oriented software architecture with decoupled modules. In comparison with the state-of-the-art RLlib, we empirically demonstrate the unique advantages of Lamarckian on benchmark tests with up to 6000 CPU cores: i) both the sampling efficiency and training speed are doubled when running PPO on Google football game; ii) the training speed is 13 times faster when running PBT+PPO on Pong game. Moreover, we also present two use cases: i) how Lamarckian is applied to generating behavior-diverse game AI; ii) how Lamarckian is applied to game balancing tests for an asynchronous commercial game.
翻訳日:2022-09-22 15:16:52 公開日:2022-09-21
# 自撮り半監督政治傾斜予測の高速化

Fast Few shot Self-attentive Semi-supervised Political Inclination Prediction ( http://arxiv.org/abs/2209.10292v1 )

ライセンス: Link先を確認
Souvic Chakraborty, Pawan Goyal, Animesh Mukherjee(参考訳) ソーシャルメディアにおける大衆の参加が高まるにつれ、政策立案者やジャーナリストが特定の場所にいる人々の政治的傾向を理解するためにソーシャルメディア上でオンライン世論調査を作成することがますます一般的になっている。 ここでの注意事項は、影響力のある人だけがそのようなオンライン投票を行い、大規模にリーチできることだ。 さらに、そのような場合、有権者の分布は制御不能であり、実際には偏りがある可能性がある。 一方で、ソーシャルメディア上で公開されているデータを解釈して、ユーザーの政治的傾向を調査できれば、調査人口に関するコントロール可能な洞察を得ることができ、調査のコストを低く抑えることができ、また、関係者を巻き込むことなく、公開可能なデータを収集することができる。 そこで本稿では,政治傾斜検出のための自己注意型半教師付きフレームワークを提案する。 私たちのモデルの利点は、膨大なトレーニングデータも、ソーシャルネットワークパラメータを格納する必要もないことです。 それでも、アノテートデータなしで93.7\%の精度を達成し、また、クラスごとにいくつかのアノテートされた例しか持たず、競合性能を達成している。 資源制約のある環境においてもモデルは非常に効率的であり,その予測から得られた知見は,多様な実生活シナリオに適用した場合の手動調査結果と一致することがわかった。

With the rising participation of the common mass in social media, it is increasingly common now for policymakers/journalists to create online polls on social media to understand the political leanings of people in specific locations. The caveat here is that only influential people can make such an online polling and reach out at a mass scale. Further, in such cases, the distribution of voters is not controllable and may be, in fact, biased. On the other hand,if we can interpret the publicly available data over social media to probe the political inclination of users, we will be able to have controllable insights about the survey population, keep the cost of survey low and also collect publicly available data without involving the concerned persons. Hence we introduce a self-attentive semi-supervised framework for political inclination detection to further that objective. The advantage of our model is that it neither needs huge training data nor does it need to store social network parameters. Nevertheless, it achieves an accuracy of 93.7\% with no annotated data; further, with only a few annotated examples per class it achieves competitive performance. We found that the model is highly efficient even in resource-constrained settings, and insights drawn from its predictions match the manual survey outcomes when applied to diverse real-life scenarios.
翻訳日:2022-09-22 15:16:32 公開日:2022-09-21
# 要約プログラム:ニューラルモジュラー木を用いた解釈可能な抽象要約

Summarization Programs: Interpretable Abstractive Summarization with Neural Modular Trees ( http://arxiv.org/abs/2209.10492v1 )

ライセンス: Link先を確認
Swarnadeep Saha, Shiyue Zhang, Peter Hase, Mohit Bansal(参考訳) 現在の抽象的な要約モデルは、明確な解釈可能性の欠如に悩まされるか、あるいはソース文書の一部をハイライトするだけで不完全理性を提供する。 この目的のために,二分木の(順序付けされた)リストからなる解釈可能なモジュラーフレームワークであるsummarization program (sp)を提案する。 要約プログラムは、要約文毎に1つのルートノードを含み、分離木は、各要約文(ルートノード)と、その派生した文書文(リーフノード)とを、中間生成文を含む連結ノードとを接続する。 エッジは、文の融合、圧縮、パラフレーズ化などの要約に関わる異なるモジュラー操作を表す。 そこで我々はまず, ROUGEのスコアを直接最適化することで, 人間の要約のSPを識別するSP-Searchを提案する。 次に,これらのプログラムを自動監視として,要約プログラムを生成するSeq2seqモデルを提案する。 本研究では,SP-Searchが意図した行動に忠実なモジュールを用いて,人間の要約の背後にある生成過程を効果的に表現していることを示す。 また,要約プログラムがモデル推論をより良くシミュレートすることで,要約モデルの解釈可能性を向上させることを示すシミュレーション研究を行った。 要約プログラムは、ブラックボックスのエンド・ツー・エンド・ニューラル・システムによって主に対処された複雑なタスクである、解釈可能でモジュラーな抽象的な要約に向けた有望なステップである。 私たちのコードはhttps://github.com/swarnaHub/SummarizationProgramsで利用可能です。

Current abstractive summarization models either suffer from a lack of clear interpretability or provide incomplete rationales by only highlighting parts of the source document. To this end, we propose the Summarization Program (SP), an interpretable modular framework consisting of an (ordered) list of binary trees, each encoding the step-by-step generative process of an abstractive summary sentence from the source document. A Summarization Program contains one root node per summary sentence, and a distinct tree connects each summary sentence (root node) to the document sentences (leaf nodes) from which it is derived, with the connecting nodes containing intermediate generated sentences. Edges represent different modular operations involved in summarization such as sentence fusion, compression, and paraphrasing. We first propose an efficient best-first search method over neural modules, SP-Search that identifies SPs for human summaries by directly optimizing for ROUGE scores. Next, using these programs as automatic supervision, we propose seq2seq models that generate Summarization Programs, which are then executed to obtain final summaries. We demonstrate that SP-Search effectively represents the generative process behind human summaries using modules that are typically faithful to their intended behavior. We also conduct a simulation study to show that Summarization Programs improve the interpretability of summarization models by allowing humans to better simulate model reasoning. Summarization Programs constitute a promising step toward interpretable and modular abstractive summarization, a complex task previously addressed primarily through blackbox end-to-end neural systems. Our code is available at https://github.com/swarnaHub/SummarizationPrograms
翻訳日:2022-09-22 15:16:08 公開日:2022-09-21
# マルコフ決定過程におけるオフポリシーリスク評価

Off-Policy Risk Assessment in Markov Decision Processes ( http://arxiv.org/abs/2209.10444v1 )

ライセンス: Link先を確認
Audrey Huang, Liu Leqi, Zachary Chase Lipton, Kamyar Azizzadenesheli(参考訳) 人間の嗜好に合わせた安全性の整合性や学習効率といった多様な目的に対処するため、強化学習研究のラインは、リターンの分布全体に依存するリスク機能に焦点を当てている。 文脈的盗賊に対する 'emph{off-policy risk Assessment} (OPRA) に関する最近の研究は、全てのリスクに拡張(および同時に保持)する有限サンプル保証とともに、ターゲットポリシーのリターンのCDFに対する一貫した推定器を導入した。 本稿では, OPRAをマルコフ決定過程(MDP)に引き上げ, 重要サンプリング(IS) CDF推定器は, 有効サンプルサイズが小さいため, 長い軌道上で高いばらつきを被る。 これらの問題を緩和するために、モデルに基づく推定を取り入れ、MDPにおけるリターンのCDFのための最初の2倍頑健(DR)推定器を開発する。 この推定器は、ばらつきがかなり少なく、モデルが適切に指定されると、クラー・ラオ分散を下界で達成する。 さらに、多くのリスク関数に対して、下流の推定値は低いバイアスと低い分散の両方を享受する。 さらに、オフポリチックCDFとリスク推定のための最初のミニマックス下限を導出し、この誤差は定数係数に一致する。 最後に,複数の異なる環境でDR CDF推定値の精度を実験的に実証した。

Addressing such diverse ends as safety alignment with human preferences, and the efficiency of learning, a growing line of reinforcement learning research focuses on risk functionals that depend on the entire distribution of returns. Recent work on \emph{off-policy risk assessment} (OPRA) for contextual bandits introduced consistent estimators for the target policy's CDF of returns along with finite sample guarantees that extend to (and hold simultaneously over) all risk. In this paper, we lift OPRA to Markov decision processes (MDPs), where importance sampling (IS) CDF estimators suffer high variance on longer trajectories due to small effective sample size. To mitigate these problems, we incorporate model-based estimation to develop the first doubly robust (DR) estimator for the CDF of returns in MDPs. This estimator enjoys significantly less variance and, when the model is well specified, achieves the Cramer-Rao variance lower bound. Moreover, for many risk functionals, the downstream estimates enjoy both lower bias and lower variance. Additionally, we derive the first minimax lower bounds for off-policy CDF and risk estimation, which match our error bounds up to a constant factor. Finally, we demonstrate the precision of our DR CDF estimates experimentally on several different environments.
翻訳日:2022-09-22 15:15:41 公開日:2022-09-21
# 暗黙的分化による辺縁偏差スコア展開(muse)の改善

Improved Marginal Unbiased Score Expansion (MUSE) via Implicit Differentiation ( http://arxiv.org/abs/2209.10512v1 )

ライセンス: Link先を確認
Marius Millea(参考訳) 階層ベイズ推定のために,暗黙的微分の手法を性能の向上,数値誤差の低減,限界不偏スコア展開(muse)アルゴリズムのユーザチューニングの不要化に応用した。 これらの改善を3つの代表的な推論問題で実証する。 1) Neal (複数形 Neals) 2)ベイズニューラルネットワーク,および 3)確率的主成分分析 特定のテストケースでは,MUSEはハミルトニアン・モンテカルロよりも,それぞれ155,397,5の因子,65,278,1の因子により,暗黙的分化が速く,良質な辺縁後縁部が得られる。 JuliaとPython MUSEパッケージは暗黙の差別化を使用するように更新され、手動または多くの人気のある確率的プログラミング言語と自動微分バックエンドのいずれかで定義される問題を解決することができる。

We apply the technique of implicit differentiation to boost performance, reduce numerical error, and remove required user-tuning in the Marginal Unbiased Score Expansion (MUSE) algorithm for hierarchical Bayesian inference. We demonstrate these improvements on three representative inference problems: 1) an extended Neal's funnel 2) Bayesian neural networks, and 3) probabilistic principal component analysis. On our particular test cases, MUSE with implicit differentiation is faster than Hamiltonian Monte Carlo by factors of 155, 397, and 5, respectively, or factors of 65, 278, and 1 without implicit differentiation, and yields good approximate marginal posteriors. The Julia and Python MUSE packages have been updated to use implicit differentiation, and can solve problems defined by hand or with any of a number of popular probabilistic programming languages and automatic differentiation backends.
翻訳日:2022-09-22 15:15:16 公開日:2022-09-21
# 自律運転における物体検出の安全基準と損失

Safety Metrics and Losses for Object Detection in Autonomous Driving ( http://arxiv.org/abs/2209.10368v1 )

ライセンス: Link先を確認
Hsuan-Cheng Liao, Chih-Hong Cheng, Hasan Esen, Alois Knoll(参考訳) 最先端の物体検出器は多くの用途で有効であることが示されている。 通常、その性能は平均精度などの精度の指標に基づいて評価される。 本稿では,自律運転(AD)の文脈における3次元物体検出器の安全性について考察する。 特に,ADにおけるオブジェクト検出に必須の安全性要件を提案し,それを仕様に定式化する。 3dオブジェクトを画像上に投影する2dバウンディングボックスとバードズ・アイ・ビュー平面で抽象化することで,提案する安全性要件に対して必要かつ十分な条件が得られている。 次に, 予測と地上真理間の距離比に基づいて, 分析と質的・定量的安全性指標の導出を行う。 最後に, 安全性向上のために, 物体検出器の安全性向上に向けての最適化に使用できる安全損失を定式化する。 MMDetection3DライブラリとnuScenesデータセットの公開モデルによる実験により,検討と提案の有効性が示された。

State-of-the-art object detectors have been shown effective in many applications. Usually, their performance is evaluated based on accuracy metrics such as mean Average Precision. In this paper, we consider a safety property of 3D object detectors in the context of Autonomous Driving (AD). In particular, we propose an essential safety requirement for object detectors in AD and formulate it into a specification. During the formulation, we find that abstracting 3D objects with projected 2D bounding boxes on the image and bird's-eye-view planes allows for a necessary and sufficient condition to the proposed safety requirement. We then leverage the analysis and derive qualitative and quantitative safety metrics based on the Intersection-over-Ground-Truth measure and a distance ratio between predictions and ground truths. Finally, for continual improvement, we formulate safety losses that can be used to optimize object detectors towards higher safety scores. Our experiments with public models on the MMDetection3D library and the nuScenes datasets demonstrate the validity of our consideration and proposals.
翻訳日:2022-09-22 15:14:56 公開日:2022-09-21
# fedfor: 一階正則化によるステートレス不均質フェデレーション学習

FedFOR: Stateless Heterogeneous Federated Learning with First-Order Regularization ( http://arxiv.org/abs/2209.10537v1 )

ライセンス: Link先を確認
Junjiao Tian, James Seale Smith, Zsolt Kira(参考訳) フェデレートラーニング(FL)は、集中型データセンタにデータを集めることなく、ローカルクライアントにモデルトレーニングを配布することを目指している。 flの大きな課題は、(各クライアントのデータ分散が異なる)データの不均一性である。 データ不均一性のために設計された現在のSOTA FL法は、通常、非IIDデータの影響を制限するために正規化を課し、ステートフルなアルゴリズムである。 効果的ではあるが、これらのアプローチは少数の信頼できるクライアントのみを含むflの特別なケースでのみ使用できる。 クライアント数が大きい(エッジデバイスやモバイルアプリケーションなど)flのより典型的なアプリケーションでは、これらの手法は適用できないため、任意の数のクライアントで使用可能なヘテロジニアスflへのステートレスなアプローチが必要となる。 局所データの不均一性による局所更新の不整合をペナルティ化する一階勾配正規化を導出する。 具体的には,グローバルデータ分布の局所的目標への一階近似を導入し,グローバル更新の反対方向に直感的に更新を罰する。 最終的な結果はステートレスFLアルゴリズムで達成される 1) はるかに高速な収束(通信ラウンドを少なくする)と 2) 非IIDデータ分布下でのSOTA法よりも総合的な収束性能が高い。 重要なことは、我々のアプローチはクライアントサイズに非現実的な制限を課しておらず、ほとんどのFLアプリケーションで典型的な多くのクライアントから学習することが可能です。

Federated Learning (FL) seeks to distribute model training across local clients without collecting data in a centralized data-center, hence removing data-privacy concerns. A major challenge for FL is data heterogeneity (where each client's data distribution can differ) as it can lead to weight divergence among local clients and slow global convergence. The current SOTA FL methods designed for data heterogeneity typically impose regularization to limit the impact of non-IID data and are stateful algorithms, i.e., they maintain local statistics over time. While effective, these approaches can only be used for a special case of FL involving only a small number of reliable clients. For the more typical applications of FL where the number of clients is large (e.g., edge-device and mobile applications), these methods cannot be applied, motivating the need for a stateless approach to heterogeneous FL which can be used for any number of clients. We derive a first-order gradient regularization to penalize inconsistent local updates due to local data heterogeneity. Specifically, to mitigate weight divergence, we introduce a first-order approximation of the global data distribution into local objectives, which intuitively penalizes updates in the opposite direction of the global update. The end result is a stateless FL algorithm that achieves 1) significantly faster convergence (i.e., fewer communication rounds) and 2) higher overall converged performance than SOTA methods under non-IID data distribution. Importantly, our approach does not impose unrealistic limits on the client size, enabling learning from a large number of clients as is typical in most FL applications.
翻訳日:2022-09-22 15:14:41 公開日:2022-09-21
# 部分情報分解によるニューラル表現の構造解明

Partial Information Decomposition Reveals the Structure of Neural Representations ( http://arxiv.org/abs/2209.10438v1 )

ライセンス: Link先を確認
David A. Ehrlich, Andreas C. Schneider, Michael Wibral, Viola Priesemann, Abdullah Makkeh(参考訳) ニューラルネットワークでは、タスク関連情報はニューロンのグループによって共同で表現される。 しかし、個々のニューロン間で情報を分配する特定の方法はよく理解されていない:その部分は特定の単一ニューロンからのみ取得できるが、他の部分は複数のニューロンによって冗長にまたは相乗的に運ばれる。 情報理論の最近の拡張である部分的情報分解(PID)が,これらの貢献をいかに解消するかを示す。 本稿では,複数のニューロンにまたがる情報へのアクセスの難しさを定量化する「表現複雑度」の尺度を提案する。 より小さなレイヤに対して、この複雑さが直接計算可能であることを示す。 より大きな層に対して,サブサンプリング法と粗粒化法を提案し,後者に対応する境界を証明した。 経験的に、MNISTタスクを解く量子化ディープニューラルネットワークでは、連続した隠蔽層とオーバートレーニングの両方を通して表現の複雑さが減少する。 概して、神経表現の構造を分析するための原理的かつ解釈可能な要約統計として、表現複雑性を提案する。

In neural networks, task-relevant information is represented jointly by groups of neurons. However, the specific way in which the information is distributed among the individual neurons is not well understood: While parts of it may only be obtainable from specific single neurons, other parts are carried redundantly or synergistically by multiple neurons. We show how Partial Information Decomposition (PID), a recent extension of information theory, can disentangle these contributions. From this, we introduce the measure of "Representational Complexity", which quantifies the difficulty of accessing information spread across multiple neurons. We show how this complexity is directly computable for smaller layers. For larger layers, we propose subsampling and coarse-graining procedures and prove corresponding bounds on the latter. Empirically, for quantized deep neural networks solving the MNIST task, we observe that representational complexity decreases both through successive hidden layers and over training. Overall, we propose representational complexity as a principled and interpretable summary statistic for analyzing the structure of neural representations.
翻訳日:2022-09-22 15:14:14 公開日:2022-09-21
# 相互学習型分類器:深層学習分類システムの学習における情報理論的視点

Mutual Information Learned Classifiers: an Information-theoretic Viewpoint of Training Deep Learning Classification Systems ( http://arxiv.org/abs/2209.10058v1 )

ライセンス: Link先を確認
Jirong Yi, Qiaosheng Zhang, Zhen Chen, Qiao Liu, Wei Shao(参考訳) ディープラーニングシステムは、多くのアプリケーションで最先端のパフォーマンスを達成することが報告されており、その鍵は、ベンチマークデータセットによく訓練された分類器が存在することである。 主ストリーム損失関数として、クロスエントロピーは、厳しい過剰フィット行動を示すモデルを簡単に見つけ出すことができる。 本稿では,既存のクロスエントロピー損失最小化問題は,データセットの基盤となるデータ分布のラベル条件エントロピー(CE)を本質的に学習することを示す。 しかし、この方法で学んだceは、ラベルと入力によって共有される情報をうまく特徴付けしていない。 本稿では,ラベルと入力の相互情報を学習することで,ディープニューラルネットワーク分類器を訓練する相互情報学習フレームワークを提案する。 理論的には、相互情報の観点から、人口分類誤差を低くする。 さらに, 具体的なバイナリ分類データモデルに対して, $\mathbb{R}^n$ の相互情報下限と上限を導出し, また, このシナリオでは誤差確率下限も導出する。 経験的に、我々は理論をサポートするためにいくつかのベンチマークデータセットで広範囲な実験を行う。 相互情報学習型分類器(milcs)は、条件エントロピー学習型分類器(celcs)よりもはるかに優れた一般化性能を達成し、テスト精度が10\%以上向上する。

Deep learning systems have been reported to achieve state-of-the-art performances in many applications, and a key is the existence of well trained classifiers on benchmark datasets. As a main-stream loss function, the cross entropy can easily lead us to find models which demonstrate severe overfitting behavior. In this paper, we show that the existing cross entropy loss minimization problem essentially learns the label conditional entropy (CE) of the underlying data distribution of the dataset. However, the CE learned in this way does not characterize well the information shared by the label and the input. In this paper, we propose a mutual information learning framework where we train deep neural network classifiers via learning the mutual information between the label and the input. Theoretically, we give the population classification error lower bound in terms of the mutual information. In addition, we derive the mutual information lower and upper bounds for a concrete binary classification data model in $\mathbb{R}^n$, and also the error probability lower bound in this scenario. Empirically, we conduct extensive experiments on several benchmark datasets to support our theory. The mutual information learned classifiers (MILCs) achieve far better generalization performances than the conditional entropy learned classifiers (CELCs) with an improvement which can exceed more than 10\% in testing accuracy.
翻訳日:2022-09-22 15:13:44 公開日:2022-09-21
# 進行中

In progress ( http://arxiv.org/abs/2209.08860v2 )

ライセンス: Link先を確認
Zongyu Li, Zhenfeng Zhu and Zhenyu Guo(参考訳) 因果性の概念は人間の認知において重要な役割を果たす。 過去数十年間、因果推論はコンピュータ科学、医学、経済学、教育など多くの分野でよく開発されてきた。 深層学習技術の進歩に伴い、反事実データに対する因果推論に利用されるようになった。 通常、深い因果モデルでは、共変量の特徴を表現空間にマッピングし、様々な目的最適化関数を設計し、異なる最適化手法に基づいて非バイアスに反事実データを推定する。 本稿では, 深部因果モデルの調査に焦点をあて, その中核となる貢献は次のとおりである。 1)複数治療および連続投与時の関連指標を提供する。 2) 時間的発達と方法分類の観点から, 深い因果モデルの包括的概要を取り入れた。 3)関連するデータセットとソースコードの詳細な分類と解析を支援する。

The concept of causality plays an important role in human cognition . In the past few decades, causal inference has been well developed in many fields, such as computer science, medicine, economics, and education. With the advancement of deep learning techniques, it has been increasingly used in causal inference against counterfactual data. Typically, deep causal models map the characteristics of covariates to a representation space and then design various objective optimization functions to estimate counterfactual data unbiasedly based on the different optimization methods. This paper focuses on the survey of the deep causal models, and its core contributions are as follows: 1) we provide relevant metrics under multiple treatments and continuous-dose treatment; 2) we incorporate a comprehensive overview of deep causal models from both temporal development and method classification perspectives; 3) we assist a detailed and comprehensive classification and analysis of relevant datasets and source code.
翻訳日:2022-09-22 12:35:07 公開日:2022-09-21
# Vega-MT:JD Explore Academy Translation System for WMT22

Vega-MT: The JD Explore Academy Translation System for WMT22 ( http://arxiv.org/abs/2209.09444v2 )

ライセンス: Link先を確認
Changtong Zan, Keqin Peng, Liang Ding, Baopu Qiu, Boan Liu, Shwai He, Qingyu Lu, Zheng Zhang, Chuang Liu, Weifeng Liu, Yibing Zhan, Dacheng Tao(参考訳) 本稿では,JD Explore AcademyによるWMT 2022の共通翻訳タスクについて述べる。 我々は、中国英語、ドイツ英語、チェコ英語、ロシア英語、日英語を含む、すべての高資源トラックと1つの中資源トラックに参加した。 我々は、言語ペアとモデルサイズ、すなわち \textbf{Vega-MT} システムという2つの主要な要素をスケールアップすることで、翻訳のための双方向トレーニングの限界を推し進める。 言語ペアに関しては、"双方向"を"双方向"設定にスケールアップし、すべての言語をカバーし、言語間の共通知識を活用し、下流のバイリンガルタスクに転送します。 モデルサイズについては、Transformer-Bigを約470億のパラメータを持つ非常に大きなモデルに拡張し、Vega-MTのモデル容量を完全に強化します。 また,単言語データのサイクル変換や双方向・単言語データの双方向自己学習といったデータ拡張戦略を採用し,両言語・単言語データを総合的に活用する。 一般領域テストセットにVega-MTを適用するために、一般化チューニングを設計する。 Based on the official automatic scores of constrained systems, in terms of the sacreBLEU shown in Figure-1, we got the 1st place on {Zh-En (33.5), En-Zh (49.7), De-En (33.7), En-De (37.8), Cs-En (54.9), En-Cs (41.4) and En-Ru (32.7)}, 2nd place on {Ru-En (45.1) and Ja-En (25.6)}, and 3rd place on {En-Ja(41.5)}, respectively; W.R.T the COMET, we got the 1st place on {Zh-En (45.1), En-Zh (61.7), De-En (58.0), En-De (63.2), Cs-En (74.7), Ru-En (64.9), En-Ru (69.6) and En-Ja (65.1)}, 2nd place on {En-Cs (95.3) and Ja-En (40.6)}, respectively. MTコミュニティを促進するために、GitHubとOmniForce Platformを通じてモデルがリリースされる。

We describe the JD Explore Academy's submission of the WMT 2022 shared general translation task. We participated in all high-resource tracks and one medium-resource track, including Chinese-English, German-English, Czech-English, Russian-English, and Japanese-English. We push the limit of our previous work -- bidirectional training for translation by scaling up two main factors, i.e. language pairs and model sizes, namely the \textbf{Vega-MT} system. As for language pairs, we scale the "bidirectional" up to the "multidirectional" settings, covering all participating languages, to exploit the common knowledge across languages, and transfer them to the downstream bilingual tasks. As for model sizes, we scale the Transformer-Big up to the extremely large model that owns nearly 4.7 Billion parameters, to fully enhance the model capacity for our Vega-MT. Also, we adopt the data augmentation strategies, e.g. cycle translation for monolingual data, and bidirectional self-training for bilingual and monolingual data, to comprehensively exploit the bilingual and monolingual data. To adapt our Vega-MT to the general domain test set, generalization tuning is designed. Based on the official automatic scores of constrained systems, in terms of the sacreBLEU shown in Figure-1, we got the 1st place on {Zh-En (33.5), En-Zh (49.7), De-En (33.7), En-De (37.8), Cs-En (54.9), En-Cs (41.4) and En-Ru (32.7)}, 2nd place on {Ru-En (45.1) and Ja-En (25.6)}, and 3rd place on {En-Ja(41.5)}, respectively; W.R.T the COMET, we got the 1st place on {Zh-En (45.1), En-Zh (61.7), De-En (58.0), En-De (63.2), Cs-En (74.7), Ru-En (64.9), En-Ru (69.6) and En-Ja (65.1)}, 2nd place on {En-Cs (95.3) and Ja-En (40.6)}, respectively. Models will be released to facilitate the MT community through GitHub and OmniForce Platform.
翻訳日:2022-09-22 12:34:54 公開日:2022-09-21
# AIサッカーのためのディープQネットワーク

Deep Q-Network for AI Soccer ( http://arxiv.org/abs/2209.09491v2 )

ライセンス: Link先を確認
Curie Kim, Yewon Hwang, and Jong-Hwan Kim(参考訳) 強化学習は、ゲーム、特にatariゲームやgoの応用において、優れたパフォーマンスを示している。 これらの成功例に基づき、AIサッカーゲームによく知られた強化学習アルゴリズムであるディープQネットワークを適用しようとする。 ai soccerは5:5のロボットサッカーゲームで、各参加者は対戦相手を倒すためにチーム内の5つのロボットを制御するアルゴリズムを開発した。 Deep Q-Networkは、元の報酬、状態空間、アクションスペースを実装して、各エージェントをトレーニングすることで、ゲーム中に異なる状況で適切なアクションをすることができるように設計されています。 我々のアルゴリズムはエージェントの訓練に成功し、AIサッカー国際大会に参加を希望する10チームに対するミニコンペティションを通じて、そのパフォーマンスが実証された。 この大会は、WCG 2019 Xi'an AI Mastersと共に、AIワールドカップ委員会によって組織された。 私たちのアルゴリズムでは、39カ国の130チームと、この国際コンペティションで16のラウンドに進むという成果を得ました。

Reinforcement learning has shown an outstanding performance in the applications of games, particularly in Atari games as well as Go. Based on these successful examples, we attempt to apply one of the well-known reinforcement learning algorithms, Deep Q-Network, to the AI Soccer game. AI Soccer is a 5:5 robot soccer game where each participant develops an algorithm that controls five robots in a team to defeat the opponent participant. Deep Q-Network is designed to implement our original rewards, the state space, and the action space to train each agent so that it can take proper actions in different situations during the game. Our algorithm was able to successfully train the agents, and its performance was preliminarily proven through the mini-competition against 10 teams wishing to take part in the AI Soccer international competition. The competition was organized by the AI World Cup committee, in conjunction with the WCG 2019 Xi'an AI Masters. With our algorithm, we got the achievement of advancing to the round of 16 in this international competition with 130 teams from 39 countries.
翻訳日:2022-09-22 12:34:16 公開日:2022-09-21
# 影の点をもつ形状の完成

Shape Completion with Points in the Shadow ( http://arxiv.org/abs/2209.08345v2 )

ライセンス: Link先を確認
Bowen Zhang, Xi Zhao, He Wang, Ruizhen Hu(参考訳) 単一視点のクラウド補完は、限られた観測のみに基づいてオブジェクトの完全な幾何学を復元することを目的としている。 主な課題は、未制約で巨大な解空間に苦しむ部分スキャンに基づいて、オブジェクトの観測できない部分を埋めるために、妥当なジオメトリを生成することである。 コンピュータグラフィックスにおける古典的なシャドウボリューム技術に着想を得て,解空間を効果的に削減する新しい手法を提案する。 本手法では,カメラを物体に光を照射する光源とみなす。 このような光線は、ある程度制約があるが十分に表現力のある基礎を完成させる。 そして、完了過程を点変位最適化問題として定式化する。 点は部分走査で初期化され、各点に対して2種類の運動を行い、光線に沿った方向の動きと、形状改善のための制限された局所運動である。 我々はニューラルネットワークを設計し、完了結果を得るために理想的な点運動を予測する。 本手法は, 徹底的な評価と比較により, 精度, 頑健, 一般化できることを実証する。 さらに、MVPデータセット上で、最先端のメソッドを質的に、定量的に上回る。

Single-view point cloud completion aims to recover the full geometry of an object based on only limited observation, which is extremely hard due to the data sparsity and occlusion. The core challenge is to generate plausible geometries to fill the unobserved part of the object based on a partial scan, which is under-constrained and suffers from a huge solution space. Inspired by the classic shadow volume technique in computer graphics, we propose a new method to reduce the solution space effectively. Our method considers the camera a light source that casts rays toward the object. Such light rays build a reasonably constrained but sufficiently expressive basis for completion. The completion process is then formulated as a point displacement optimization problem. Points are initialized at the partial scan and then moved to their goal locations with two types of movements for each point: directional movements along the light rays and constrained local movement for shape refinement. We design neural networks to predict the ideal point movements to get the completion results. We demonstrate that our method is accurate, robust, and generalizable through exhaustive evaluation and comparison. Moreover, it outperforms state-of-the-art methods qualitatively and quantitatively on MVP datasets.
翻訳日:2022-09-22 12:33:59 公開日:2022-09-21
# NeRF-SOS: 複雑な実世界シーンからの任意の視点で自己組織化されたオブジェクトセグメンテーション

NeRF-SOS: Any-View Self-supervised Object Segmentation from Complex Real-World Scenes ( http://arxiv.org/abs/2209.08776v2 )

ライセンス: Link先を確認
Zhiwen Fan, Peihao Wang, Xinyu Gong, Yifan Jiang, Dejia Xu, Zhangyang Wang(参考訳) ニューラルボリューム表現は、MLPネットワークを複数のビューのキャリブレーションされた画像でトレーニングし、シーンの幾何学や外観を表現する可能性を示している。 オブジェクトのセグメンテーションは、学習したradianceフィールドに基づいて多くの下流アプリケーションを強化することができる。 しかし、複雑な現実世界のシーンにおける関心領域を定義するために手作りのセグメンテーションを導入することは、ビューアノテーション毎に取得するので、非自明でコストがかかる。 本稿では,複雑な現実世界のシーンに対するNeRFを用いた自己教師型学習の探索を行う。 我々のフレームワークであるNeRF-SOSは、オブジェクトのセグメンテーションとニューラルラディアンスフィールドを結合して、シーン内の任意のビューでオブジェクトをセグメンテーションする。 nerf-sosは、外観と幾何学の両方のレベルで新しい協調的なコントラスト損失を提案することで、コンパクトな幾何認識セグメンテーションクラスタを密度場と自己教師付き2次元視覚特徴から蒸留することを推奨する。 自己教師対象セグメンテーションフレームワークは、写真リアルなレンダリング結果と、屋内および屋外の両方のシナリオに対する説得力のあるセグメンテーションをもたらす様々なNeRFモデルに適用することができる。 LLFF、タンク、テンプルのデータセットの大規模な結果は、NeRF-SOSの有効性を検証する。 他の画像ベースの自監督ベースラインを一貫して上回り、Semantic-NeRFよりも細部まで捉えている。

Neural volumetric representations have shown the potential that MLP networks can be trained with multi-view calibrated images to represent scene geometry and appearance, without explicit 3D supervision. Object segmentation can enrich many downstream applications based on the learned radiance field. However, introducing hand-crafted segmentation to define regions of interest in a complex real-world scene are non-trivial and expensive as it acquires per view annotation. This paper carries out the exploration of self-supervised learning for object segmentation using NeRF for complex real-world scenes. Our framework, NeRF-SOS, couples object segmentation and neural radiance field to segment objects in any view within a scene. By proposing a novel collaborative contrastive loss in both appearance and geometry levels, NeRF-SOS encourages NeRF models to distill compact geometry-aware segmentation clusters from their density fields and the self-supervised pre-trained 2D visual features. The self-supervised object segmentation framework can be applied to various NeRF models that both lead to photo-realistic rendering results and convincing segmentations for both indoor and outdoor scenarios. Extensive results on the LLFF, Tank and Temple datasets validate the effectiveness of NeRF-SOS. It consistently surpasses other image-based self-supervised baselines and even captures finer details than supervised Semantic-NeRF.
翻訳日:2022-09-22 12:33:40 公開日:2022-09-21
# グラフニューラルネットワークのための埋め込みの再検討

Revisiting Embeddings for Graph Neural Networks ( http://arxiv.org/abs/2209.09338v2 )

ライセンス: Link先を確認
S. Purchase, A. Zhao, R. D. Mullins(参考訳) 現在のグラフ表現学習技術では、グラフニューラルネットワーク(gnns)を使用して、データセット埋め込みから特徴を抽出する。 本研究では,これらの埋め込みの質を検証し,その変化がGNNの精度に与える影響を評価する。 画像とテキストの両方に対して異なる埋め込み抽出手法を探索する。 組込みの選択は異なるGNNアーキテクチャの性能に偏りがあることがわかり、組込みの選択は基盤となるデータセットに関係なくGNNの選択に影響を及ぼす。 さらに,scratchからトレーニングしたモデルの精度や,グラフ接続を使わずに基礎となるデータで微調整されたモデルと比較して,一部のgnnモデルから精度が向上する傾向がみられた。 本稿では,グラフ接続ネットワーク(granet)層を提案する。これは大規模モデル内のgnnメッセージパッシングを用いて,近傍のアグリゲーションを可能にする。 Flickr_v2 では、GraNet が GAT2 と GraphSAGE をそれぞれ 7.7% と 1.7% で上回っている。

Current graph representation learning techniques use Graph Neural Networks (GNNs) to extract features from dataset embeddings. In this work, we examine the quality of these embeddings and assess how changing them can affect the accuracy of GNNs. We explore different embedding extraction techniques for both images and texts. We find that the choice of embedding biases the performance of different GNN architectures and thus the choice of embedding influences the selection of GNNs regardless of the underlying dataset. In addition, we only see an improvement in accuracy from some GNN models compared to the accuracy of models trained from scratch or fine-tuned on the underlying data without utilizing the graph connections. As an alternative, we propose Graph-connected Network (GraNet) layers which use GNN message passing within large models to allow neighborhood aggregation. This gives a chance for the model to inherit weights from large pre-trained models if possible and we demonstrate that this approach improves the accuracy compared to the previous methods: on Flickr_v2, GraNet beats GAT2 and GraphSAGE by 7.7% and 1.7% respectively.
翻訳日:2022-09-22 12:33:16 公開日:2022-09-21
# 3次元mriによる脳梗塞病変の自動分割

Automated ischemic stroke lesion segmentation from 3D MRI ( http://arxiv.org/abs/2209.09546v2 )

ライセンス: Link先を確認
Md Mahfuzur Rahman Siddique, Dong Yang, Yufan He, Daguang Xu, Andriy Myronenko(参考訳) Ischemic Stroke Lesion Segmentation Challenge (ISLES 2022)は、研究者がソリューションを3D MRIから虚血脳梗塞領域の3Dセグメンテーションと比較するためのプラットフォームを提供する。 本稿では,ISLES 2022セグメンテーションタスクに対するソリューションについて述べる。 我々は、すべての画像を共通の解像度に再サンプリングし、2つのMRIモード(DWIとADC)を使用し、MONAIからSegResNetセマンティックセグメンテーションネットワークを訓練する。 最終的な提出は15モデルのアンサンブル(5倍のクロスバリデーションの3つの実行から)である。 私たちのソリューション(チーム名nvauto)は、diceメトリック(0.824)と総合ランク2(合計メトリックランキングに基づく)の点で最上位に到達します。

Ischemic Stroke Lesion Segmentation challenge (ISLES 2022) offers a platform for researchers to compare their solutions to 3D segmentation of ischemic stroke regions from 3D MRIs. In this work, we describe our solution to ISLES 2022 segmentation task. We re-sample all images to a common resolution, use two input MRI modalities (DWI and ADC) and train SegResNet semantic segmentation network from MONAI. The final submission is an ensemble of 15 models (from 3 runs of 5-fold cross validation). Our solution (team name NVAUTO) achieves the top place in terms of Dice metric (0.824), and overall rank 2 (based on the combined metric ranking).
翻訳日:2022-09-22 12:32:55 公開日:2022-09-21
# 感染拡大軌道アーチタイプを露呈する原因ネットワーク埋め込みモデル

Attributed Network Embedding Model for Exposing COVID-19 Spread Trajectory Archetypes ( http://arxiv.org/abs/2209.09448v2 )

ライセンス: Link先を確認
Junwei Ma, Bo Li, Qingchun Li, Chao Fan and Ali Mostafavi(参考訳) 新型コロナウイルスの感染拡大は、伝染リスクパターンが異なる都市やコミュニティに均質ではないことを明らかにし、様々な異質な特徴が拡散経路に影響を与える可能性がある。 したがって、予測的パンデミックのモニタリングには、特定のパンデミックの伝播経路を区別する都市やコミュニティにおける潜伏した異質な特徴を探求することが不可欠である。 この目的のために,本研究では,パンデミック拡散伝達軌跡に基づいて,地域間訪問ネットワークをキャプチャするネットワーク埋め込みモデルと,米国内の郡群を探索する異種特徴を作成した。 2020年3月3日から6月29日までの2,787郡(初期波)で位置情報情報を収集・計算した。 第2に,ノード属性として郡の特徴を取り入れ,ネットワークエッジとして郡間を訪問する人的訪問ネットワークを構築した。 属性付きネットワーク埋め込み手法は,クロスカントリー訪問ネットワークの類型的特徴と異種特徴を統合した。 本報告では, 属性ネットワーク埋め込みのクラスタリング解析を行い, 4郡に対応して, 拡散リスクトラジェクトリの4つのアーキタイプを明らかにした。 その後,アーチタイプ間で異なる伝達リスクパターンの基盤となる4つの重要な特徴を同定した。 推定されたネットワーク埋め込みアプローチと調査結果は、予測的パンデミックのモニタリングのために郡全体で発生しないパンデミックリスクの軌跡を特定し、説明する。 この研究は、パンデミックにおける政策分析の標準的な疫学モデルを補完する、パンデミック分析のためのデータ駆動型およびディープラーニングベースのアプローチにも貢献する。

The spread of COVID-19 revealed that transmission risk patterns are not homogenous across different cities and communities, and various heterogeneous features can influence the spread trajectories. Hence, for predictive pandemic monitoring, it is essential to explore latent heterogeneous features in cities and communities that distinguish their specific pandemic spread trajectories. To this end, this study creates a network embedding model capturing cross-county visitation networks, as well as heterogeneous features to uncover clusters of counties in the United States based on their pandemic spread transmission trajectories. We collected and computed location intelligence features from 2,787 counties from March 3 to June 29, 2020 (initial wave). Second, we constructed a human visitation network, which incorporated county features as node attributes, and visits between counties as network edges. Our attributed network embeddings approach integrates both typological characteristics of the cross-county visitation network, as well as heterogeneous features. We conducted clustering analysis on the attributed network embeddings to reveal four archetypes of spread risk trajectories corresponding to four clusters of counties. Subsequently, we identified four features as important features underlying the distinctive transmission risk patterns among the archetypes. The attributed network embedding approach and the findings identify and explain the non-homogenous pandemic risk trajectories across counties for predictive pandemic monitoring. The study also contributes to data-driven and deep learning-based approaches for pandemic analytics to complement the standard epidemiological models for policy analysis in pandemics.
翻訳日:2022-09-22 12:32:41 公開日:2022-09-21
# スケーラブル超次元計算のためのストリーミング符号化アルゴリズム

Streaming Encoding Algorithms for Scalable Hyperdimensional Computing ( http://arxiv.org/abs/2209.09868v2 )

ライセンス: Link先を確認
Anthony Thomas, Behnam Khaleghi, Gopi Krishna Jha, Sanjoy Dasgupta, Nageen Himayat, Ravi Iyer, Nilesh Jain, and Tajana Rosing(参考訳) hyperdimensional computing (hdc) は、計算神経科学を起源とするデータ表現と学習のためのパラダイムである。 HDCはデータを高次元の低精度ベクトルとして表現し、学習やリコールといった様々な情報処理タスクに使用できる。 高次元空間へのマッピングはHDCの基本的な問題であり、入力データ自体が高次元である場合、既存の手法はスケーラビリティの問題に直面する。 本稿では,ハッシュ化に基づくストリーミングエンコーディング手法のファミリーについて検討する。 我々は,これらの手法が既存の代替手段よりもはるかに効率的でありながら,学習アプリケーションの性能に匹敵する保証を享受できることを正式に示す。 これらの結果を,一般的な高次元分類問題を用いて実験的に検証し,そのアプローチが大規模データセットに容易に拡張できることを示す。

Hyperdimensional computing (HDC) is a paradigm for data representation and learning originating in computational neuroscience. HDC represents data as high-dimensional, low-precision vectors which can be used for a variety of information processing tasks like learning or recall. The mapping to high-dimensional space is a fundamental problem in HDC, and existing methods encounter scalability issues when the input data itself is high-dimensional. In this work, we explore a family of streaming encoding techniques based on hashing. We show formally that these methods enjoy comparable guarantees on performance for learning applications while being substantially more efficient than existing alternatives. We validate these results experimentally on a popular high-dimensional classification problem and show that our approach easily scales to very large data sets.
翻訳日:2022-09-22 12:25:02 公開日:2022-09-21
# ラベル付き集合から新しいクラス発見を詳しく見る

A Closer Look at Novel Class Discovery from the Labeled Set ( http://arxiv.org/abs/2209.09120v2 )

ライセンス: Link先を確認
Ziyun Li, Jona Otholt, Ben Dai, Di hu, Christoph Meinel, Haojin Yang(参考訳) 新たなクラス発見(NCD)は、非結合クラスを含むラベル付き集合の事前知識を活用するラベル付きデータセットにおいて、新しいカテゴリを推論することを目的としている。 既存の研究はラベル付き集合を方法論レベルで活用することに集中しており、ラベル付き集合自体の分析にはあまり重点を置いていない。 そこで本稿では,ラベル付き集合から新しいクラス発見を考え直し,2つの核となる疑問に着目する。 (i)特定のラベル付き集合が与えられた場合、どのラベル付き集合が新しいクラス発見を最善にサポートできるか? (ii) ncd の基本的な前提は、ラベル付き集合はラベルなし集合と関係しなければならないが、どうやってこの関係を計測できるのかである。 のために (i) ncd はラベルなし集合と多くの意味的類似性を持つラベル付き集合の恩恵を受けるのではないかという仮説を提案し,その仮説を裏付ける。 具体的には,imagenet上のラベル付き/ラベルなしデータセット間の意味的類似度が異なる大規模かつ大規模なベンチマークを,その階層的クラス構造を利用して確立する。 対照的に、既存のNCDベンチマークはカテゴリや画像の数が異なるラベル付きセットに基づいて開発されており、意味的関係を完全に無視している。 のために (ii) ラベル付き集合とラベルなし集合のセマンティック類似性を定量化する数学的定義を導入する。 さらに,本測定値を用いて提案したベンチマークの有効性を確認し,NCD性能と高い相関性を示す。 さらに、定量的な分析がなければ、以前の著作はラベル情報が常に有益であると信じている。 しかし, 実験結果から, 低相似性設定におけるラベルの使用が準最適結果をもたらす可能性が示唆された。

Novel class discovery (NCD) aims to infer novel categories in an unlabeled dataset leveraging prior knowledge of a labeled set comprising disjoint but related classes. Existing research focuses primarily on utilizing the labeled set at the methodological level, with less emphasis on the analysis of the labeled set itself. Thus, in this paper, we rethink novel class discovery from the labeled set and focus on two core questions: (i) Given a specific unlabeled set, what kind of labeled set can best support novel class discovery? (ii) A fundamental premise of NCD is that the labeled set must be related to the unlabeled set, but how can we measure this relation? For (i), we propose and substantiate the hypothesis that NCD could benefit more from a labeled set with a large degree of semantic similarity to the unlabeled set. Specifically, we establish an extensive and large-scale benchmark with varying degrees of semantic similarity between labeled/unlabeled datasets on ImageNet by leveraging its hierarchical class structure. As a sharp contrast, the existing NCD benchmarks are developed based on labeled sets with different number of categories and images, and completely ignore the semantic relation. For (ii), we introduce a mathematical definition for quantifying the semantic similarity between labeled and unlabeled sets. In addition, we use this metric to confirm the validity of our proposed benchmark and demonstrate that it highly correlates with NCD performance. Furthermore, without quantitative analysis, previous works commonly believe that label information is always beneficial. However, counterintuitively, our experimental results show that using labels may lead to sub-optimal outcomes in low-similarity settings.
翻訳日:2022-09-22 12:24:50 公開日:2022-09-21