このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220818となっている論文です。

PDF登録状況(公開日: 20220818)

TitleAuthorsAbstract論文公表日・翻訳日
# 中性子を用いたstern-gerlach実験の古典的・量子的・事象的シミュレーション

Classical, quantum and event-by-event simulation of a Stern-Gerlach experiment with neutrons ( http://arxiv.org/abs/2208.08699v1 )

ライセンス: Link先を確認
Hans De Raedt and Fengping Jin and Kristel Michielsen(参考訳) 本研究では, 冷中性子を用いたStern-Gerlach実験のニュートンおよび量子モデルの総合シミュレーションを行い, ニュートンの運動方程式と時間依存パウリ方程式を解くことにより, 中性子の磁気モーメントが量子化されるという結論を導く上で, 後者の役割を精査する。 次に、古典モデルの欠点を排除し、実験や量子理論と定性的に一致した結果をもたらす事象ベースのサブ量子モデルである量子論を起こさずに、ニュートン模型の限界的な修正が構築するのに十分であることを示す。 このイベント・バイ・イベント・モデルでは、固有角運動量は球面上の任意の値を取ることができるが、十分に強い均一磁場の場合、粒子ビームは実験と量子理論の一致で2つに分裂する。

We present a comprehensive simulation study of the Newtonian and quantum model of a Stern-Gerlach experiment with cold neutrons.By solving Newton's equation of motion and the time-dependent Pauli equation, for a wide range of uniform magnetic field strengths, we scrutinize the role of the latter for drawing the conclusion that the magnetic moment of the neutron is quantized. We then demonstrate that a marginal modification of the Newtonian model suffices to construct, without invoking any concept of quantum theory, an event-based subquantum model that eliminates the shortcomings of the classical model and yields results that are in qualitative agreement with experiment and quantum theory. In this event-by-event model, the intrinsic angular momentum can take any value on the sphere, yet, for a sufficiently strong uniform magnetic field, the particle beam splits in two, exactly as in experiment and in concert with quantum theory.
翻訳日:2023-01-30 17:59:01 公開日:2022-08-18
# 量子トポロジカルアンダーソン-チューレスポンプ

Quantized Topological Anderson-Thouless Pump ( http://arxiv.org/abs/2208.08625v1 )

ライセンス: Link先を確認
Yi-Piao Wu, Ling-Zhi Tang, Guo-Qing Zhang, Dan-Wei Zhang(参考訳) 量子化された輸送を持つThouless pumpは、十分に強い障害の下で分解する一方で、小さな摂動や障害に対してトポロジカルに堅牢である。 本稿では,非相互作用系および相互作用系における障害による反直感的トポロジカルポンプを提案する。 まず,2ループ列のオンサイト準周期ポテンシャルによって駆動される外因性トポロジカルポンプについて,その障害が2ループループのトポロジを非等価に抑制することを示す。 さらに, トポロジカルアンダーソン絶縁体の動的類似体としてトポロジカルアンダーソン-Thouless pump (TATP) と呼ばれる, 自明な単一ループポンプからのホッピング準周期障害によって引き起こされる固有のトポロジカルポンプを明らかにした。 我々は, TATPのメカニズムが, ギャップレス臨界点の障害によって引き起こされる変化であり, TATPは動的障害や相互作用する症例にも現れることを実証した。 最後に,ttpを不規則に量子化されたコーナートランスポートを持つ高次トポロジカルシステムへ拡張する。 提案するTATPはトポロジカルポンプファミリーの新規なメンバーであり, 超低温原子や光導波路で実現できた。

Thouless pump with quantized transports is topologically robust against small perturbations and disorders, while breaks down under sufficiently strong disorders. Here we propose counter-intuitive topological pumps induced by disorders in noninteracting and interacting systems. We first show an extrinsic topological pump driven by the on-site quasiperiodic potential for a two-loop sequence, where the disorder inequivalently suppresses the topology of two pump loops. Moreover, we reveal an intrinsic topological pump induced by the hopping quasiperiodic disorder from a trivial single-loop pump in the clean limit, dubbed the topological Anderson-Thouless pump (TATP) as a dynamical analogue of topological Anderson insulators. We demonstrate that the mechanism of the TATP is the disorder-induced shift of gapless critical points and the TATP can even exhibit in the dynamic disorder and interacting cases. Finally, we extend the TATP to higher-order topological systems with disorder-induced quantized corner transports. Our proposed TATPs present new members of the topological pump family and could be realized with ultracold atoms or photonic waveguides.
翻訳日:2023-01-30 17:58:41 公開日:2022-08-18
# ユニタリ・ダウンフォールド・ハミルトニアンを用いた小型量子コンピュータの活用

Leveraging small scale quantum computers with unitarily downfolded Hamiltonians ( http://arxiv.org/abs/2208.08591v1 )

ライセンス: Link先を確認
Renke Huang, Chenyang Li, Francesco A. Evangelista(参考訳) 本研究では,雑音およびフォールトトレラントハードウェアの量子アルゴリズムと組み合わせた,駆動的類似性再正規化群 (driveing similarity renormalization group, qdsrg) に基づく量子ユニタリ化形式を提案する。 QDSRGは、古典的多重参照多体理論の精度を維持しつつ、コストのかかる3次元および高次元縮小密度行列の評価を回避する古典的な多項式スケーリングダウンフォールディング法である。 そこで我々は,QDSRG をいくつかの難しい化学問題に対して校正し,検証し,QDSRG スキームにおける古典的な指数スケーリングステップを回避するための戦略を提案する。 IBM量子デバイス上の変分量子固有解器を用いた2種類の化学系のQDSRG計算について報告する。 一 五重項を用いたH$_2$の解離曲線−\zeta$base及び ii) ビシクロブタン異性化反応が$trans$-butadiene に反応し、1キュービットに数百キュービットを必要とする問題の低減を示す。 我々の研究は、QDSRGが分子特性の正確な推定に近距離量子デバイスを利用するための実行可能なアプローチであることを示している。

In this work, we propose a quantum unitary downfolding formalism based on the driven similarity renormalization group (QDSRG) that may be combined with quantum algorithms for both noisy and fault-tolerant hardware. The QDSRG is a classical polynomially-scaling downfolding method that avoids the evaluation of costly three- and higher-body reduced density matrices while retaining the accuracy of classical multireference many-body theories. We calibrate and test the QDSRG on several challenging chemical problems and propose a strategy for avoiding classical exponential-scaling steps in the QDSRG scheme. We report QDSRG computations of two chemical systems using the variational quantum eigensolver on IBM quantum devices: i) the dissociation curve of H$_2$ using a quintuple-$\zeta$ basis and ii) the bicyclobutane isomerization reaction to $trans$-butadiene, demonstrating the reduction of problems that require several hundred qubits to a single qubit. Our work shows that the QDSRG is a viable approach to leverage near-term quantum devices for the accurate estimation of molecular properties.
翻訳日:2023-01-30 17:58:18 公開日:2022-08-18
# シュワルツシルト時空におけるフェルミオンステアリングとそのモノガミーの関係

Fermionic steering and its monogamy relations in Schwarzschild spacetime ( http://arxiv.org/abs/2208.08587v1 )

ライセンス: Link先を確認
Shu-Min Wu, Hao-Sheng Zeng(参考訳) 量子ステアリングのための2種類の量子化法を用いて、シュワルツシルト時空におけるフェルミオン場に対する量子ステアリングに対するホーキング放射の影響を研究する。 物理的にアクセス可能な観測者間のステアリングの劣化と、ホーキング放射によって誘導される物理的にアクセスできない観測者間のステアリングの発生について検討した。 また, ステアリングにおける2種類の定量化の違いを明らかにし, ステアリングと絡み合いの関係を明らかにした。 さらに,シュワルツシルト時空におけるフェルミオンステアリングとボソニックステアリングの異なる特性を示す。

Using two different types of quantification for quantum steering, we study the influence of Hawking radiation on quantum steering for fermionic fields in Schwarzschild spacetime. The degradation for the steering between physically accessible observers and the generation for the steering between physically accessible and inaccessible observers induced by Hawking radiation are studied. We also reveal the difference between the two types of quantification for steering, and find some monogamy relations between steering and entanglement. Furthermore, we show the different properties between fermionic steering and bosonic steering in Schwarzschild spacetime.
翻訳日:2023-01-30 17:57:59 公開日:2022-08-18
# 有限温度における位相相転移

Topological phase transitions at finite temperature ( http://arxiv.org/abs/2208.08994v1 )

ライセンス: Link先を確認
Paolo Molignini and Nigel Cooper(参考訳) キラル対称性を持つ一次元の非相互作用フェルミオンの基底状態は、ザック位相に関連付けられる位相不変量によって記述される位相的バンド絶縁体のクラスを形成する。 近年、この量の混合状態への一般化 - アンサンブル幾何位相 (EGP) として知られる- は、非ゼロ温度で位相を記述する堅牢な方法として現れた。 この量を用いることで、リンドブラッド記述を超えた散逸が可能となるトポロジーの性質を探索し、有限温度で外部浴槽とのカップリングを可能にする。 混合状態トポロジーの理論に2つの主要な側面を導入する。 まず、温度Tの関数として位相相転移を発見し、パラメータ空間の閉ループ上に蓄積されたEGPの巻数の変化を示す。 これらの遷移の性質を特徴付け、遷移における対応する非平衡定常状態が非自明な構造を示すことを明らかにした。 第二に、鍵対称性が存在するとegp自体が量子化され、非零温度で平衡位相遷移を行う位相マーカーと見なすことができることを示す。

The ground states of noninteracting fermions in one-dimension with chiral symmetry form a class of topological band insulators, described by a topological invariant that can be related to the Zak phase. Recently, a generalization of this quantity to mixed states - known as the ensemble geometric phase (EGP) - has emerged as a robust way to describe topology at non-zero temperature. By using this quantity, we explore the nature of topology allowed for dissipation beyond a Lindblad description, to allow for coupling to external baths at finite temperatures. We introduce two main aspects to the theory of mixed state topology. First, we discover topological phase transitions as a function of the temperature T, manifesting as changes in winding number of the EGP accumulated over a closed loop in parameter space. We characterize the nature of these transitions and reveal that the corresponding non-equilibrium steady state at the transition can exhibit a nontrivial structure - contrary to previous studies where it was found to be in a fully mixed state. Second, we demonstrate that the EGP itself becomes quantized when key symmetries are present, allowing it to be viewed as a topological marker which can undergo equilibrium topological transitions at non-zero temperatures.
翻訳日:2023-01-30 17:55:26 公開日:2022-08-18
# 不合理量子ウォーク

Irrational quantum walks ( http://arxiv.org/abs/2208.08971v1 )

ライセンス: Link先を確認
Gabriel Coutinho, Pedro Ferreira Baptista, Chris Godsil, Thom\'as Jung Spier, Reinhard Werner(参考訳) グラフ G の隣接行列は、G の頂点上の連続時間量子ウォークのハミルトン行列である。 その結果、通常、ウォークのパラメータに対する数値近似を計算することができる。 本稿では,積分ハミルトニアンによって生成された任意の量子ウォークを厳密に研究する理論を考案する。 その結果、混合行列の平均を計算するための正確な方法を提供し、与えられたグラフでかなり良い(あるいはほぼ)状態転移が起こるかどうかを決定する。 また,量子ウォーク行列の項目から生じる美しい曲線の幾何学的性質を考察し,これらの結果の応用可能性について考察する。

The adjacency matrix of a graph G is the Hamiltonian for a continuous-time quantum walk on the vertices of G. Although the entries of the adjacency matrix are integers, its eigenvalues are generally irrational and, because of this, the behaviour of the walk is typically not periodic. In consequence we can usually only compute numerical approximations to parameters of the walk. In this paper, we develop theory to exactly study any quantum walk generated by an integral Hamiltonian. As a result, we provide exact methods to compute the average of the mixing matrices, and to decide whether pretty good (or almost) perfect state transfer occurs in a given graph. We also use our methods to study geometric properties of beautiful curves arising from entries of the quantum walk matrix, and discuss possible applications of these results.
翻訳日:2023-01-30 17:55:06 公開日:2022-08-18
# 粒子数対称性を持つフェルミオンの古典的影

Classical shadows of fermions with particle number symmetry ( http://arxiv.org/abs/2208.08964v1 )

ライセンス: Link先を確認
Guang Hao Low(参考訳) フェルミオン波動関数の古典的な影を考えると、$\eta$粒子は$n$モードを占める。 すべての$k$-reduced density matricesは、最大で$\binom{\eta}{k}\big(1-\frac{\eta-k}{n}\big)^{k}\frac{1+n}{1+n-k}/\epsilon^{2}$の測定値を用いて、粒子数を保存するランダム単一粒子基底における平均分散を$\epsilon^{2}$と同時に推定し、計算的に効率的である推定器を提供する。 これは、以前のアプローチの$\binom{n}{k}\sqrt{\pi k}/\epsilon^{2}$のスケーリングに対する超指数的な改善であり、自然問題において$n$は$\eta$よりも任意に大きい。 我々の手法は、ハーフフィリングの最悪の場合においても、サンプルの複雑さにおいて4^{k}$の利点をもたらし、さらに全ての$\eta$-reduced density matricesを推定し、最大$$\frac{4}{3}/\epsilon^{2}$サンプルを含む全ての単一のスレーター行列との重なりを推定する。

We consider classical shadows of fermion wavefunctions with $\eta$ particles occupying $n$ modes. We prove that of all $k$-reduced density matrices may be simultaneously estimated to an average variance of $\epsilon^{2}$ using at most $\binom{\eta}{k}\big(1-\frac{\eta-k}{n}\big)^{k}\frac{1+n}{1+n-k}/\epsilon^{2}$ measurements in random single-particle bases that conserve particle number, and provide an estimator that is computationally efficient. This is a super-exponential improvement over the $\binom{n}{k}\sqrt{\pi k}/\epsilon^{2}$ scaling of prior approaches as $n$ can be arbitrarily larger than $\eta$ in natural problems. Our method, in the worst-case of half-filling, still provides a factor of $4^{k}$ advantage in sample complexity, and also estimates all $\eta$-reduced density matrices, applicable to estimating overlaps with all single Slater determinants, with at most $\frac{4}{3}/\epsilon^{2}$ samples, which is additionally independent of $\eta$.
翻訳日:2023-01-30 17:54:52 公開日:2022-08-18
# 古典的パイロット波システムにおけるベル試験

Bell test in a classical pilot-wave system ( http://arxiv.org/abs/2208.08940v1 )

ライセンス: Link先を確認
Konstantinos Papatryfonos, Louis Vervoort, Andr\'e Nachbin, Matthieu Labousse, John W M Bush(参考訳) 2005年の発見以来、流体力学のパイロット波システムは、多くの量子効果の波動-粒子双対性と共役古典アナログの具体的なマクロ的実現を提供してきた。 この流体力学的パイロット波システムはベルの不等式を破るプラットフォームを提供するのかという疑問が自然に生じ、量子の絡み合いの古典的な類似物となる。 本稿では,流体力学パイロット波系の数値モデル,特に結合二成分トンネルシステムを用いた静的ベル試験の結果について述べる。 ある条件下では、ベルの不等式は2つのサブシステム間の波動媒介結合によって破られる。 我々のシステムは、ベルの定理(一般にすべての局所的な隠れ変数理論のノーゴー定理)が非マルコフ的パイロット波動力学に基づく隠れ変数理論のクラスによって尊重されるかどうかを探求するための新しいプラットフォームである。

Since its discovery in 2005, the hydrodynamic pilot-wave system has provided a concrete macroscopic realization of wave-particle duality and concomitant classical analogs of many quantum effects. The question naturally arises as to whether this hydrodynamic pilot-wave system might provide a platform for violating Bell's inequality, and so yield a classical analog of quantum entanglement. We here present the results of a static Bell test performed with a numerical model of the hydrodynamic pilot-wave system, specifically a coupled bipartite tunneling system. We demonstrate that, under certain conditions, the Bell inequality is violated owing to the wave-mediated coupling between the two subsystems. Our system represents a new platform for exploring whether Bell's Theorem, typically taken to be a no-go theorem for all local hidden variable theories, need be respected by the class of hidden variable theories based on non-Markovian pilot-wave dynamics.
翻訳日:2023-01-30 17:53:11 公開日:2022-08-18
# 多ビット系からの位相の教師なし解釈型学習

Unsupervised Interpretable Learning of Phases From Many-Qubit Systems ( http://arxiv.org/abs/2208.08850v1 )

ライセンス: Link先を確認
Nicolas Sadoune, Giuliano Giudici, Ke Liu, Lode Pollet(参考訳) 量子ビット製造の実験的進歩は、量子データを分析する新しい理論ツールの開発を要求する。 局所的な測定データを用いて、近距離多ビットシステムを理解するために教師なしの機械学習技術を用いる方法を示す。 本手法は,クラスタ状態モデルの位相図の構築に成功し,文字列順序パラメータを含む各位相の順序パラメータを検出する。 外部磁場を受けるトーリック符号に対して、マシンは2つの安定化器の明示的な形を特定する。 基礎となるハミルトン状態や量子状態の以前の情報は必要ない。 我々の研究は、監督なしで強力な解釈可能性を目指すハイブリッドアルゴリズムの第一原理応用の扉を開く。

Experimental progress in qubit manufacturing calls for the development of new theoretical tools to analyze quantum data. We show how an unsupervised machine-learning technique can be used to understand short-range entangled many-qubit systems using data of local measurements. The method successfully constructs the phase diagram of a cluster-state model and detects the respective order parameters of its phases, including string order parameters. For the toric code subject to external magnetic fields, the machine identifies the explicit forms of its two stabilizers. Prior information of the underlying Hamiltonian or the quantum states is not needed; instead, the machine outputs their characteristic observables. Our work opens the door for a first-principles application of hybrid algorithms that aim at strong interpretability without supervision.
翻訳日:2023-01-30 17:52:55 公開日:2022-08-18
# ステップ結合酸化4H-SiC表面からのサブギャップエレクトロルミネッセンスのナノスケールマッピング

Nanoscale mapping of sub-gap electroluminescence from step-bunched, oxidized 4H-SiC surfaces ( http://arxiv.org/abs/2208.08775v1 )

ライセンス: Link先を確認
Natalia Alyabyeva, Jacques Ding, Myl\`ene Sauty, Judith Woerle, Yann Jousseaume, Gabriel Ferro, Jeffrey C. McCallum, Jacques Peretti, Brett C. Johnson, Alistair C. H. Rowe(参考訳) 走査トンネル分光法(STS)を併用した走査トンネル顕微鏡(STLM)を, シリコン溶融プロセスを用いて, 市販のn型SiCウェハのシリコン面上に作製したステップ結合酸化4H-SiC表面に適用した。 ステップバンドルされた表面は、[0001]結晶面に平行な原子状平滑なテラスと、これらの平面の終端によって形成されたナノスケールのステップからなる粗いライザーからなる。 この表面のかなり顕著な地形は、-8Vのオーダーの大きな先端バイアスと1nA未満の電流でよく解決されている。 STSスペクトルのヒステリシスは、ヒステリシスが頻繁に欠落しているテラスよりも表面電荷トラップの密度が高いことを示唆するライザーで優先的に観察される。 同様に、2.4eVを中心とする50Kの強いサブギャップ発光は、主に上昇器で観測されるが、これは10nA以上の大きさのトンネル電流のみである。 これらの結果から,STLMはサブギャップ発光の原因となる不純物や欠陥の観測において,空間分解能が欠陥自体の長さスケールに近づくことが示唆された。

Scanning tunneling luminescence microscopy (STLM) along with scanning tunneling spectroscopy (STS) is applied to a step-bunched, oxidized 4H-SiC surface prepared on the silicon face of a commercial, n-type SiC wafer using a silicon melt process. The step-bunched surface consists of atomically smooth terraces parallel to the [0001] crystal planes, and rougher risers consisting of nanoscale steps formed by the termination of these planes. The rather striking topography of this surface is well resolved with large tip biases of the order of -8 V and set currents of magnitude less than 1 nA. Hysteresis in the STS spectra is preferentially observed on the risers suggesting that they contain a higher density of surface charge traps than the terraces where hysteresis is more frequently absent. Similarly, at 50 K intense sub-gap light emission centered around 2.4 eV is observed mainly on the risers albeit only with larger tunneling currents of magnitude equal to or greater than 10 nA. These results demonstrate that STLM holds great promise for the observation of impurities and defects responsible for sub-gap light emission with spatial resolutions approaching the length scale of the defects themselves.
翻訳日:2023-01-30 17:52:45 公開日:2022-08-18
# スペクトル次数単位空間とJB-代数

Spectral order unit spaces and JB-algebras ( http://arxiv.org/abs/2208.08740v1 )

ライセンス: Link先を確認
Anna Jen\v{c}ov\'a, Sylvia Pulmannov\'a(参考訳) フーラスが導入した可視性とスペクトル性特性を持つ次数単位空間について検討した。 可視性を持つ次数単位空間に対する連続汎関数計算とスペクトル次数単位空間に対するボレル汎関数計算を定義する。 Alfsen と Schultz の条件を適用して、JB-代数である可視性を持つ順序単位空間を特徴づける。 また、Lickart JB-algebras を、すべての最大連想部分代数がモノトン $\sigma$-complete であるような JB-algebras として評価し、C*-algebras に対して Sait\^o と Wright の類似結果を拡張する。

Order unit spaces with comparability and spectrality properties as introduced by Foulis are studied. We define continuous functional calculus for order unit spaces with the comparability property and Borel functional calculus for spectral order unit spaces. Applying the conditions of Alfsen and Schultz, we characterize order unit spaces with comparability property that are JB-algebras. We also prove a characterization of Rickart JB-algebras as those JB-algebras for which every maximal associative subalgebra is monotone $\sigma$-complete, extending an analogous result of Sait\^o and Wright for C*-algebras.
翻訳日:2023-01-30 17:52:11 公開日:2022-08-18
# 単一量子アニーリングにおけるオープンおよびノイズ量子系の信号

Signatures of Open and Noisy Quantum Systems in Single-Qubit Quantum Annealing ( http://arxiv.org/abs/2208.09068v1 )

ライセンス: Link先を確認
Zachary Morrell, Marc Vuffray, Andrey Lokhov, Andreas B\"artschi, Tameem Albash, Carleton Coffrin(参考訳) 本研究では,d-waveの量子アニーリングハードウェア上で単一量子ビットのダイナミクスをより効果的に探究する量子アニーリングプロトコルを提案する。 このプロトコルは、D-Waveのh-ゲインスケジュール機能を使用し、アニール中の任意の点における長手磁場の急激なクエンチを可能にする。 この特徴により, オープンとクローズドシステムのダイナミクスと, 縦方向の磁場ノイズの有無を区別できる。 熱および磁場のゆらぎは、ハードウェアの出力統計を再現するために、オープン量子システムモデルに含まれる必要があるノイズの重要な源であることを示す。

We propose a quantum annealing protocol that more effectively probes the dynamics of a single qubit on D-Wave's quantum annealing hardware. This protocol uses D-Wave's h-gain schedule functionality, which allows the rapid quenching of the longitudinal magnetic field at arbitrary points during the anneal. This features enables us to distinguish between open and closed system dynamics as well as the presence or absence of longitudinal magnetic field noise. We show that both thermal and magnetic field fluctuations are key sources of noise that need to be included in an open quantum system model to reproduce the output statistics of the hardware.
翻訳日:2023-01-30 17:44:29 公開日:2022-08-18
# 浮遊光力学における方向力センシングに向けて

Towards directional force sensing in levitated optomechanics ( http://arxiv.org/abs/2208.09065v1 )

ライセンス: Link先を確認
A. Pontin and T.S. Monteiro(参考訳) 浮遊ナノ粒子は、マクロな量子コヒーレンスの実現の可能性と、超感度の力センサーとしてゼプトニュートンレベルまで、ダークマターの探索を含む様々な応用を含む、2つの異なる視点から集中的に研究されている。 将来の目標は、これらの2本鎖をマージし、量子制限センサーの開発を可能にすることである。 ここでは、機械的相互相関スペクトル $S_{xy}(\omega)$ が新しい可能性を提供する: 検知ミスアライメント誤差が最小化されると、$S_{xy}(\omega)$ のスペクトル形状は、外部確率力の向きを直接指摘し、$x-y$平面のコンパスに似たものを提供する。 これを微視的ガス電流の検出のために分析するが、広いスペクトルの指向力は十分であり、キャビティの有無に関わらず、実験室の試験力で簡単に調査できる。 キャビティセットアップでは、例えば、方向の力のサインを隠蔽する光学的バックアクションにより、検出器と運動モード間の不整合を解析し、それらを抑制する方法を示す。 量子レジームの近くでは、量子ショットノイズのインプレッションのx-y$相関効果により、インプレッションを定量化する。

Levitated nanoparticles are being intensively investigated from two different perspectives: as a potential realisation of macroscopic quantum coherence; and as ultra-sensitive sensors of force, down to the zeptoNewton level, with a range of various applications, including the search for Dark Matter. A future aim is to merge these two strands, enabling the development of quantum-limited sensors. Here we propose that mechanical cross-correlation spectra $S_{xy}(\omega)$ offer new possibilities: once detector misalignment errors are minimised, the spectral shape of $S_{xy}(\omega)$ directly points out the orientation of an external stochastic force, offering something akin to a compass in the $x-y$ plane. We analyse this for detection of microscopic gas currents, but any broad spectrum directed force will suffice, enabling straightforward investigation with laboratory test forces with or without cavities. For a cavity set-up, we analyse misalignment imprecisions between detectors and motional modes due to for example optical back-actions that mask the signature of the directed forces, and show how to suppress them. Near quantum regimes, we quantify the imprecision due to the $x-y$ correlating effect of quantum shot noise imprecision.
翻訳日:2023-01-30 17:44:17 公開日:2022-08-18
# プリシンケージ化合物fega3における抗サイト障害の役割の検討

Investigation of role of antisite disorder in pristine cage compound FeGa3 ( http://arxiv.org/abs/2208.09064v1 )

ライセンス: Link先を確認
C. Kaufmann Ribeiro, L. Mello, V. Martelli, D. Cornejo, M. Fantini, M. B. Silva Neto, E. Fogh, H. M. R{\o}nnow and J. Larrea Jim\'enez(参考訳) 強相関狭ギャップ半導体候補FeGa$_3$における制御障害の役割について検討した。 多結晶試料をアーク溶融炉と連続焼鈍プロセスを組み合わせて合成した。 プリスチン化合物からのFeおよびGaの占有数の変化をX線分析により定量した。 さらに、電気輸送および磁化測定により、FeおよびGaサイト障害の階層構造が、常磁性半導体から磁性金属へのFeGa$_3$の基底状態を調整することが明らかとなった。 これらの結果はアンダーソン金属-絶縁体転移とスピン揺らぎの枠組みの中で議論されている。

The role of controlled disorder in the strong correlated narrow gap semiconductor candidate FeGa$_3$ has been investigated. Polycrystalline samples were synthesized by the combination of arc-melting furnace and successive annealing processes. Deviations of the occupation number of Fe and Ga sites from those expected in the pristine compound were quantified with X-ray analysis. Besides that, electrical transport and magnetization measurements reveal that hierarchy in Fe and Ga site disorder tunes the ground state of FeGa$_3$ from paramagnetic semiconducting to a magnetic metal. These findings are discussed within the framework of Anderson metal-insulator transitions and spin fluctuations.
翻訳日:2023-01-30 17:43:53 公開日:2022-08-18
# スケーラブル量子デバイスにおける原子スピン欠陥の非線形マグノン制御

Nonlinear magnon control of atomic spin defects in scalable quantum devices ( http://arxiv.org/abs/2208.09036v1 )

ライセンス: Link先を確認
Mauricio Bejarano (1 and 2), Francisco J. T. Goncalves (1), Toni Hache (3), Michael Hollenbach (1 and 4), Christopher Heins (1), Tobias Hula (1 and 5), Lukas K\"orber (1 and 4), Jakob Heinze (1), Yonder Berenc\'en (1), Manfred Helm (1 and 4), J\"urgen Fassbender (1 and 4), Georgy V. Astakhov (1), Helmut Schultheiss (1) ((1) Helmholtz-Zentrum Dresden-Rossendorf, Dresden, Germany, (2) Faculty of Electrical and Computer Engineering, Technical University of Dresden, Dresden, Germany, (3) Max Planck Institute for Solid State Research, Stuttgart, Germany, (4) Faculty of Physics, Technical University of Dresden, Dresden, Germany, (5) Institute of Physics, Technical University of Chemnitz, Chemnitz, Germany)(参考訳) 量子工学における現在進行中の取り組みは、新しい機能性のためのハイブリッド量子アーキテクチャへのマグノニクスの統合に焦点を当てている。 ハイブリッドマグノン-量子スピン系は、ダイヤモンド中の窒素空孔(NV)中心で実証されているが、主にマグノン系とスピン中心間の共鳴の重なりを見つけるのが困難であるため、技術的に有望な炭化ケイ素(SiC)プラットフォーム上では解明されていない。 ここでは、磁気渦中の非線形マグノン散乱過程を利用して、sicのスピン遷移と周波数の重なるマグノンモード("\textrm{v}_{\mathrm{si}}$")にアクセスすることで、この課題を回避する。 本研究は, SiC の量子技術に有利な特性を持つマグノンのリッチ非線形ダイナミクスを組み合わさったハイブリッドシステム開発手法を提案する。

Ongoing efforts in quantum engineering have recently focused on integrating magnonics into hybrid quantum architectures for novel functionalities. While hybrid magnon-quantum spin systems have been demonstrated with nitrogen-vacancy (NV) centers in diamond, they have remained elusive on the technologically promising silicon carbide (SiC) platform mainly due to difficulties in finding a resonance overlap between the magnonic system and the spin centers. Here we circumvent this challenge by harnessing nonlinear magnon scattering processes in a magnetic vortex to access magnon modes that overlap in frequency with silicon-vacancy ($\textrm{V}_{\mathrm{Si}}$) spin transitions in SiC. Our results offer a route to develop hybrid systems that benefit from marrying the rich nonlinear dynamics of magnons with the advantageous properties of SiC for scalable quantum technologies.
翻訳日:2023-01-30 17:43:46 公開日:2022-08-18
# 古典の量子理論--選択、分散、量子ダーウィン主義、エクタントン

Quantum Theory of the Classical: Einselection, Envariance, Quantum Darwinism and Extantons ( http://arxiv.org/abs/2208.09019v1 )

ライセンス: Link先を確認
Wojciech Hubert Zurek(参考訳) 重ね合わせ原理や進化のユニタリ性を含むコア量子の仮定は自然で驚くほど単純である。 予測可能性の限定版(反復可能性仮定による教科書アカウントに記録されている)を補足すると、これらの中核的な仮定は古典性の全ての症状を説明できる。 特に、客観的な古典的現実と現実に関する情報の両方が量子ダーウィン主義を通じて量子基板から生まれる。

Core quantum postulates including the superposition principle and the unitarity of evolutions are natural and strikingly simple. I show that -- when supplemented with a limited version of predictability (captured in the textbook accounts by the repeatability postulate) -- these core postulates can account for all the symptoms of classicality. In particular, both objective classical reality and elusive information about reality arise, via quantum Darwinism, from the quantum substrate.
翻訳日:2023-01-30 17:43:21 公開日:2022-08-18
# 保守的非シンプレクティック周期駆動スピン系における「予熱」

'Prethermalization' in Conservative Nonsymplectic Periodically Driven Spin Systems ( http://arxiv.org/abs/2208.09005v1 )

ライセンス: Link先を確認
Adam J. McRoberts, Hongzheng Zhao, Roderich Moessner, and Marin Bukov(参考訳) 運動方程式は保存的(相空間容積保存)だがシンプレクティック構造を持たないカオス古典スピン系における新しい時間-周期ダイナミクスの解析を行った。 結果として、系の力学は時間依存ハミルトニアンから導出することはできない。 高周波限界では、磁化ダイナミクスは長寿命の準安定台地を特徴とし、駆動周波数の4番目のパワーで持続時間を制御する。 しかしながら、効果的なハミルトニアンが存在しないため、この系は厳密に前熱状態に進化しない。 そこで本研究では, スピンが開放的かつ非散逸なサブシステムを構成する補助自由度を用いたハミルトニアン拡張を提案する。 これにより、逆周波数において主次に破れるシンプレクティック性を示す効果的な運動方程式を摂動的に導出することができる。 したがって、周期駆動系の高周波限界で観測される予熱力学の概念を非シンプレクティックな設定に拡張する。

We analyze a new class of time-periodic dynamics in interacting chaotic classical spin systems, whose equations of motion are conservative (phase-space volume preserving) yet possess no symplectic structure. As a result, the dynamics of the system cannot be derived from any time-dependent Hamiltonian. In the high-frequency limit, we find that the magnetization dynamics features a long-lived metastable plateau, whose duration is controlled by the fourth power of the drive frequency. However, due to the lack of an effective Hamiltonian, the system does not evolve into a strictly prethermal state. We propose a Hamiltonian extension of the system using auxiliary degrees of freedom, in which the original spins constitute an open yet nondissipative subsystem. This allows us to perturbatively derive effective equations of motion that manifestly display symplecticity breaking at leading order in the inverse frequency. We thus extend the notion of prethermal dynamics, observed in the high-frequency limit of periodically-driven systems, to a nonsymplectic setting.
翻訳日:2023-01-30 17:43:07 公開日:2022-08-18
# バイビューデータにおける相互関連特徴群の探索

Finding groups of cross-correlated features in bi-view data ( http://arxiv.org/abs/2009.05079v3 )

ライセンス: Link先を確認
Miheer Dewaskar, John Palowitch, Mark He, Michael I. Love, Andrew B. Nobel(参考訳) 2つの(またはそれ以上の)タイプの測定が共通のサンプルセットから得られるデータセットは、多くの科学的応用に現れる。 このようなデータの探索分析における一般的な問題は、強い関連を持つ異なるデータ型の特徴のグループを特定することである。 双加群 (bimodule) は、2つのデータ型から得られる特徴集合の対 (A, B) であり、A と B の特徴の間の集合の相互相関は大きい。 双加群 (A, B) が安定であれば、A が B の特徴と有意な集合相関を持つ特徴の集合と一致する。 本稿では,バイビューデータの安定なバイモジュールを特定するための反復的テストベースプロシージャ(BSP)を提案する。 我々は,BSPの性能を評価するための徹底的なシミュレーション研究を行い,GTExプロジェクトの最新データを用いて,表現量量的特性ローチ(eQTL)解析問題への拡張的応用を提案する。 さらに,年間気温変動が降水に影響を与える北米の地域を特定するために,気候データにBSPを適用した。

Data sets in which measurements of two (or more) types are obtained from a common set of samples arise in many scientific applications. A common problem in the exploratory analysis of such data is to identify groups of features of different data types that are strongly associated. A bimodule is a pair (A, B) of feature sets from two data types such that the aggregate cross-correlation between the features in A and those in B is large. A bimodule (A, B) is stable if A coincides with the set of features that have significant aggregate correlation with the features in B, and vice-versa. In this paper we propose and investigate an iterative testing-based procedure (BSP) to identify stable bimodules in bi-view data. We carry out a thorough simulation study to assess the performance of BSP, and present an extended application to the problem of expression quantitative trait loci (eQTL) analysis using recent data from the GTEx project. In addition, we apply BSP to climatology data to identify regions in North America where annual temperature variation affects precipitation.
翻訳日:2022-10-20 03:10:21 公開日:2022-08-18
# リッジレス回帰における二重降下ピークの普遍性について

On the Universality of the Double Descent Peak in Ridgeless Regression ( http://arxiv.org/abs/2010.01851v7 )

ライセンス: Link先を確認
David Holzm\"uller(参考訳) リッジレス線形回帰におけるラベルノイズに起因する平均二乗汎化誤差に対する非漸近分布非依存下界を証明した。 我々の下界は、過パラメータ化(補間)体制と同じような既知の結果を一般化する。 これまでのほとんどの研究とは対照的に、我々の分析は、ほぼ確実にフルランクの特徴行列を持つ幅広い入力分布に適用され、様々なタイプの決定論的あるいはランダムな特徴写像をカバーできる。 我々の下界は漸近的に鋭く、ラベルノイズの存在下では、リッジレス線形回帰はこれらの特徴写像の補間しきい値付近でうまく機能しない。 入力された仮定を詳細に分析し,解析的(ランダム)特徴写像の理論を提供する。 この理論を用いて,Sigmoid, tanh, softplus, GELUなどの分析活性化関数を持つランダムディープニューラルネットワークによって与えられる,(リーベグ)密度の入力分布と特徴写像について,我々の仮定が満足していることを示す。 さらなる例として、ランダムなフーリエ特徴量と多項式カーネルからの特徴写像も仮定を満たすことを示す。 我々は我々の理論をさらなる実験的および分析的な結果で補完する。

We prove a non-asymptotic distribution-independent lower bound for the expected mean squared generalization error caused by label noise in ridgeless linear regression. Our lower bound generalizes a similar known result to the overparameterized (interpolating) regime. In contrast to most previous works, our analysis applies to a broad class of input distributions with almost surely full-rank feature matrices, which allows us to cover various types of deterministic or random feature maps. Our lower bound is asymptotically sharp and implies that in the presence of label noise, ridgeless linear regression does not perform well around the interpolation threshold for any of these feature maps. We analyze the imposed assumptions in detail and provide a theory for analytic (random) feature maps. Using this theory, we can show that our assumptions are satisfied for input distributions with a (Lebesgue) density and feature maps given by random deep neural networks with analytic activation functions like sigmoid, tanh, softplus or GELU. As further examples, we show that feature maps from random Fourier features and polynomial kernels also satisfy our assumptions. We complement our theory with further experimental and analytic results.
翻訳日:2022-10-10 19:35:30 公開日:2022-08-18
# 深層学習による大気中ホルムアルデヒドの信頼性モデリング

Trustworthy modelling of atmospheric formaldehyde powered by deep learning ( http://arxiv.org/abs/2209.07414v1 )

ライセンス: Link先を確認
Mriganka Sekhar Biswas, Manmeet Singh(参考訳) ホルムアルデヒド(英語版)(hcho)は空気中の最も重要な微量ガスの一つであり、呼吸器やその他の疾患を引き起こす汚染物質である。 また、農作物を損傷し、人間の健康を悪化させる対流圏オゾンの前駆体でもある。 HCHO化学と衛星データを用いた長期モニタリングの研究は、ヒトの健康、食品の安全性、大気汚染の観点から重要である。 動的大気化学モデルは、大気のホルムアルデヒドをシミュレートするのに苦労し、しばしば衛星の観測と再分析に対して最大2倍の過大評価をする。 モデル化hchoの空間分布も衛星観測と一致しない。 本稿では,超解像型畳み込みニューラルネットワークを用いて,高速で信頼性の高い大気HCHOのシミュレーションを行う。 本手法は化学式を必要とせずにHCHO推定を間接的に行う手法である。 深層学習は複雑な大気化学表現を伴う力学モデルシミュレーションより優れることがわかった。 本手法では,OMI AURA衛星を用いたHCHO予測のために,気象学および化学分析の様々な前駆体を用いて,異なる変数とホルムアルデヒドの非線形関係を確立する。 我々は,ホルムアルデヒドのin situ測定を行わず,地域の品質データを改善する必要があるため,実装をテストするために南アジアを選択した。 さらに、大気中のホルムアルデヒドの信頼できるモデリングにより、衛星生成物の空間的および時間的データギャップを除去することができる。 リモートセンシングによるホルムアルデヒドの信頼性モデリングにコンピュータビジョンを用いた新しい試みは、カスケード社会的利益をもたらす可能性がある。

Formaldehyde (HCHO) is one one of the most important trace gas in the atmosphere, as it is a pollutant causing respiratory and other diseases. It is also a precursor of tropospheric ozone which damages crops and deteriorates human health. Study of HCHO chemistry and long-term monitoring using satellite data is important from the perspective of human health, food security and air pollution. Dynamic atmospheric chemistry models struggle to simulate atmospheric formaldehyde and often overestimate by up to two times relative to satellite observations and reanalysis. Spatial distribution of modelled HCHO also fail to match satellite observations. Here, we present deep learning approach using a simple super-resolution based convolutional neural network towards simulating fast and reliable atmospheric HCHO. Our approach is an indirect method of HCHO estimation without the need to chemical equations. We find that deep learning outperforms dynamical model simulations which involves complicated atmospheric chemistry representation. Causality establishing the nonlinear relationships of different variables to target formaldehyde is established in our approach by using a variety of precursors from meteorology and chemical reanalysis to target OMI AURA satellite based HCHO predictions. We choose South Asia for testing our implementation as it doesnt have in situ measurements of formaldehyde and there is a need for improved quality data over the region. Moreover, there are spatial and temporal data gaps in the satellite product which can be removed by trustworthy modelling of atmospheric formaldehyde. This study is a novel attempt using computer vision for trustworthy modelling of formaldehyde from remote sensing can lead to cascading societal benefits.
翻訳日:2022-09-18 17:00:18 公開日:2022-08-18
# marti-4: 新皮質と基底ガングリアを考慮したヒト脳の新しいモデル -- 1つのcpuで強化学習することでatariゲームを学ぶ

MARTI-4: new model of human brain, considering neocortex and basal ganglia -- learns to play Atari game by reinforcement learning on a single CPU ( http://arxiv.org/abs/2209.02387v1 )

ライセンス: Link先を確認
Igor Pivovarov and Sergey Shumsky(参考訳) Deep Control - 声帯ニューロンの代わりに、全皮質列を構造要素として使用する、皮質-線条体脳回路の新しいMLアーキテクチャを提案する。 このアーキテクチャに基づいて,新皮質と基底神経節を考慮した新しいヒト脳モデルMARTIを提案する。 このモデルは、巧妙な振る舞いを実装するために設計され、未知の環境で学習し、目標を達成することができる。 内的報酬による強化学習プロセスを大幅に改善する,新たなサプライズ感覚機構を導入する。 我々はOpenAI Gym環境を使用して,単一のCPU上でのMARTI学習を数時間で実演する。

We present Deep Control - new ML architecture of cortico-striatal brain circuits, which use whole cortical column as a structural element, instead of a singe neuron. Based on this architecture, we present MARTI - new model of human brain, considering neocortex and basal ganglia. This model is de-signed to implement expedient behavior and is capable to learn and achieve goals in unknown environments. We introduce a novel surprise feeling mechanism, that significantly improves reinforcement learning process through inner rewards. We use OpenAI Gym environment to demonstrate MARTI learning on a single CPU just in several hours.
翻訳日:2022-09-11 13:19:44 公開日:2022-08-18
# 共生創造への道

Pathway to Future Symbiotic Creativity ( http://arxiv.org/abs/2209.02388v1 )

ライセンス: Link先を確認
Yike Guo, Qifeng Liu, Jie Chen, Wei Xue, Henrik Jensen, Fernando Rosas, Jeffrey Shaw, Xing Wu, Jiji Zhang, Jianliang Xu(参考訳) 本報告は,人間-機械共生的アート創造の展開経路に関する我々のビジョンを包括的にとらえたものである。 5階級の階層を持つ創造的システムの分類を提案し,模倣的人間的アーティスト(チューリングアーティスト)から機械的アーティストへの創造的進化の経路を示す。 まず、チューリングアーティストの限界の概要から始め、トップ2レベルのシステム、マシンアーティストに焦点を当て、アート創造における機械と人間のコミュニケーションを強調します。 芸術創造においては、機械は欲求、感謝、感情を含む人間の精神状態を理解する必要があるが、機械の創造的能力と限界も理解する必要がある。 没入的環境の急速な発展とメタバースの新しい概念へのさらなる進化は、芸術家と芸術表現環境の間の双方向コミュニケーションの先例のない柔軟性を通じて共生的な芸術創造を可能にする。 最新のセンサとXR技術を調べることで、アートデータ収集が人間と機械の双方向通信と芸術創造の理解の新しい形態の基礎を構成する新しい方法を説明する。 このようなコミュニケーションと理解のメカニズムに基づき,従来の「エンド・ツー・エンド」のドグマではなく,人間互換のAIシステムが「ヒューマン・イン・ザ・ループ」の原則に基づいているべきだという考え方を取り入れた,未来のマシーンアーティストを構築するための新しいフレームワークを提案する。 逆強化学習モデルの新たな形式を提案することで,機械アーチストのプラットフォーム設計を概説し,その機能を示すとともに,私たちが開発してきた技術の例を示す。 また、NFT技術に基づく経済モデルを用いて、AIベースの共生アートフォームとコミュニティのためのエコシステムを体系的に展示する。 機械アーチストの発展に関する倫理的問題についても論じる。

This report presents a comprehensive view of our vision on the development path of the human-machine symbiotic art creation. We propose a classification of the creative system with a hierarchy of 5 classes, showing the pathway of creativity evolving from a mimic-human artist (Turing Artists) to a Machine artist in its own right. We begin with an overview of the limitations of the Turing Artists then focus on the top two-level systems, Machine Artists, emphasizing machine-human communication in art creation. In art creation, it is necessary for machines to understand humans' mental states, including desires, appreciation, and emotions, humans also need to understand machines' creative capabilities and limitations. The rapid development of immersive environment and further evolution into the new concept of metaverse enable symbiotic art creation through unprecedented flexibility of bi-directional communication between artists and art manifestation environments. By examining the latest sensor and XR technologies, we illustrate the novel way for art data collection to constitute the base of a new form of human-machine bidirectional communication and understanding in art creation. Based on such communication and understanding mechanisms, we propose a novel framework for building future Machine artists, which comes with the philosophy that a human-compatible AI system should be based on the "human-in-the-loop" principle rather than the traditional "end-to-end" dogma. By proposing a new form of inverse reinforcement learning model, we outline the platform design of machine artists, demonstrate its functions and showcase some examples of technologies we have developed. We also provide a systematic exposition of the ecosystem for AI-based symbiotic art form and community with an economic model built on NFT technology. Ethical issues for the development of machine artists are also discussed.
翻訳日:2022-09-11 13:18:47 公開日:2022-08-18
# t-person-gan:アイデンティティと多様体混合を用いたテキスト対人画像生成

T-Person-GAN: Text-to-Person Image Generation with Identity-Consistency and Manifold Mix-Up ( http://arxiv.org/abs/2208.12752v1 )

ライセンス: Link先を確認
Lin Wu, Yang Wang, Feng Zheng, Qi Tian, Meng Wang(参考訳) 本稿では,テキストのみに条件付き高解像度人物画像を生成するためのエンドツーエンドアプローチを提案する。 State-of-the-the-art text-to-image generation modelは主に花や鳥などの中心オブジェクトの生成のために設計されている。 類似した形状と向きを持つ中心配置オブジェクトとは異なり、人物画像生成はより困難な作業であり、以下に示すように観察する。 1)同一人物の生成した画像は、識別に一貫性のある視覚的詳細を示す。 2)これらの画像は,視覚的あいまいさによって引き起こされる対人的変動に対して頑健でなければならない。 上記の課題に対処するため,我々は2つの新しいメカニズムを持つ人物画像を生成する効果的な生成モデルを開発した。 特に、我々の最初のメカニズム(T-Person-GAN-ID)は、一ストリームジェネレータとID保存ネットワークを統合することで、生成したデータの表現が特徴空間で正規化され、ID一貫性が保証される。 第2のメカニズム(t-person-gan-id-mmと呼ばれる)は、多様体のミックスアップに基づき、異なる多様体の同一性から生成された画像の線形補間を介して混合画像を生成する。 これは、2つのアイデンティティから画像を完全に分離できる線形分類境界を学習するためである。 提案手法は,テキスト対人画像生成における顕著な改善を実現するために実証的に検証される。 我々のアーキテクチャはStackGAN++と直交しており、画像生成タスクのためにGANのスペクトルを豊かにするために、人画像生成に重点を置いている。 コードは \url{https://github.com/linwu-github/person-image-generation.git} で入手できる。

In this paper, we present an end-to-end approach to generate high-resolution person images conditioned on texts only. State-of-the-art text-to-image generation models are mainly designed for center-object generation, e.g., flowers and birds. Unlike center-placed objects with similar shapes and orientation, person image generation is a more challenging task, for which we observe the followings: 1) the generated images for the same person exhibit visual details with identity-consistency, e.g., identity-related textures/clothes/shoes across the images, and 2) those images should be discriminant for being robust against the inter-person variations caused by visual ambiguities. To address the above challenges, we develop an effective generative model to produce person images with two novel mechanisms. In particular, our first mechanism (called T-Person-GAN-ID) is to integrate the one-stream generator with an identity-preserving network such that the representations of generated data are regularized in their feature space to ensure the identity-consistency. The second mechanism (called T-Person-GAN-ID-MM) is based on the manifold mix-up to produce mixed images via the linear interpolation across generated images from different manifold identities, and we further enforce such interpolated images to be linearly classified in the feature space. This amounts to learning a linear classification boundary that can perfectly separate images from two identities. Our proposed method is empirically validated to achieve a remarkable improvement in text-to-person image generation. Our architecture is orthogonal to StackGAN++ , and focuses on person image generation, with all of them together to enrich the spectrum of GANs for the image generation task. Codes are available on \url{https://github.com/linwu-github/Person-Image-Generation.git}.
翻訳日:2022-09-04 02:09:34 公開日:2022-08-18
# ダイヤルポートツール

The DialPort tools ( http://arxiv.org/abs/2208.10918v1 )

ライセンス: Link先を確認
Jessica Huynh, Shikib Mehri, Cathy Jiao and Maxine Eskenazi(参考訳) DialPortプロジェクト http://dialport.org/は、National Science Foundation(NSF)が出資し、ダイアログ研究コミュニティのニーズを満たすためのツールとサービス群をカバーしている。 6年間にわたって、DialPort PortalやDialCrowdなど、いくつかのオファリングが作成されている。 本稿では、SIGDIALにおけるこれらの貢献について紹介し、実装、先行研究、それに対応する発見、そして今後このツールが自由に利用できる場所について述べる。

The DialPort project http://dialport.org/, funded by the National Science Foundation (NSF), covers a group of tools and services that aim at fulfilling the needs of the dialog research community. Over the course of six years, several offerings have been created, including the DialPort Portal and DialCrowd. This paper describes these contributions, which will be demoed at SIGDIAL, including implementation, prior studies, corresponding discoveries, and the locations at which the tools will remain freely available to the community going forward.
翻訳日:2022-08-28 22:11:49 公開日:2022-08-18
# テンソル製品とほぼ正規コードによるグラフ埋め込み

Graph Embeddings via Tensor Products and Approximately Orthonormal Codes ( http://arxiv.org/abs/2208.10917v1 )

ライセンス: Link先を確認
Frank Qiu(参考訳) 本稿では,グラフをベクトルとして構造保存的に埋め込む手法を提案する。 本稿では,その表現能力について紹介し,提案手法の理論的特性について述べる。 特に、我々の手続きはバインド・アンド・サムのアプローチに該当し、テンソル積である我々の結合操作が重ね合わせの原理を尊重する最も一般的な結合操作であることを示す。 同様に、球面符号が最適圧縮を達成することを示す。 そして,本手法の性能を特徴付ける精度の高い結果と,エッジ数が非常に大きい場合でも,グラフ操作をいかに正確に行うかを示す実験結果を確立した。 最後に,本手法は,ある意味では,大きなスパースグラフへの応用を伴う隣接行列の一般化であることを示す,隣接行列へのリンクを確立することで結論づける。

We introduce a method for embedding graphs as vectors in a structure-preserving manner. In this paper, we showcase its rich representational capacity and give some theoretical properties of our method. In particular, our procedure falls under the bind-and-sum approach, and we show that our binding operation -- the tensor product -- is the most general binding operation that respects the principle of superposition. Similarly, we show that the spherical code achieves optimal compression. We then establish some precise results characterizing the performance our method as well as some experimental results showcasing how it can accurately perform various graph operations even when the number of edges is quite large. Finally, we conclude with establishing a link to adjacency matrices, showing that our method is, in some sense, a generalization of adjacency matrices with applications towards large sparse graphs.
翻訳日:2022-08-28 22:11:40 公開日:2022-08-18
# 線形力学系のメタラーニングオンライン制御

Meta-Learning Online Control for Linear Dynamical Systems ( http://arxiv.org/abs/2208.10259v1 )

ライセンス: Link先を確認
Deepan Muthirayan, Dileep Kalathil, and Pramod P. Khargonekar(参考訳) 本稿では,n$ (類似) 制御タスクのシーケンスに直面すると,タスクを横断的に学習できるメタラーニングオンライン制御アルゴリズムを探索する問題を考える。 各タスクは、時間ステップの有限地平線に対して線形力学系を制御することを含む。 各タイムステップにおけるコスト関数とシステムノイズは、制御動作を行う前にコントローラに逆らって未知である。 メタラーニング(meta-learning)は、他のタスクからの情報を活用し、タスク間の類似性を生かした、新しい未知のタスクに対してオンラインポリシーを規定する、幅広いアプローチである。 本稿では,タスク間の平均的累積後悔であるtextit{meta-regret} による制御設定と特徴付けを行うメタラーニングオンライン制御アルゴリズムを提案する。 提案手法では,タスク数が十分に大きい場合には,タスク間の類似度の増加に伴って,D$が問題定数であり,D$が課題間の類似度の増加に伴って減少するスカラーである独立学習オンライン制御アルゴリズムと比較して,メタレグレットを$D/D^{*}$でより小さくする。 したがって、タスクのシーケンスが類似する場合、提案するメタラーニングオンライン制御の後悔は、メタラーニングを伴わないナイーブなアプローチよりも著しく低い。 また,メタラーニングアルゴリズムが達成した優れた性能を示す実験結果を示す。

In this paper, we consider the problem of finding a meta-learning online control algorithm that can learn across the tasks when faced with a sequence of $N$ (similar) control tasks. Each task involves controlling a linear dynamical system for a finite horizon of $T$ time steps. The cost function and system noise at each time step are adversarial and unknown to the controller before taking the control action. Meta-learning is a broad approach where the goal is to prescribe an online policy for any new unseen task exploiting the information from other tasks and the similarity between the tasks. We propose a meta-learning online control algorithm for the control setting and characterize its performance by \textit{meta-regret}, the average cumulative regret across the tasks. We show that when the number of tasks are sufficiently large, our proposed approach achieves a meta-regret that is smaller by a factor $D/D^{*}$ compared to an independent-learning online control algorithm which does not perform learning across the tasks, where $D$ is a problem constant and $D^{*}$ is a scalar that decreases with increase in the similarity between tasks. Thus, when the sequence of tasks are similar the regret of the proposed meta-learning online control is significantly lower than that of the naive approaches without meta-learning. We also present experiment results to demonstrate the superior performance achieved by our meta-learning algorithm.
翻訳日:2022-08-23 14:46:28 公開日:2022-08-18
# 分子特性モデリングによる化合物の血液脳バリア透過性のシリコ予測

In Silico Prediction of Blood-Brain Barrier Permeability of Chemical Compounds through Molecular Feature Modeling ( http://arxiv.org/abs/2208.09484v1 )

ライセンス: Link先を確認
Tanish Jain, Praveen Kumar Pandian Shanmuganathan(参考訳) 化学データを分析するための計算技術の導入により、「バイオインフォマティクス」として知られる生物学的システムの分析研究が始まった。 バイオインフォマティクスの1つの側面は、機械学習(ML)技術を使用して、さまざまなケースにおける多変量トレンドを検出することである。 最も重要な症例は、血液脳関門(BBB)透過性の予測である。 中枢神経系障害を治療する新薬の開発は、血液脳関門をまたぐ浸透効果の低下により、ユニークな課題を呈している。 本研究では,化学特性を解析するMLモデルを用いてこの問題を軽減することを目的とする。 そうするために (i)利用事例と同様に、関連する生物学的システムやプロセスについて概説する。 第二に、BBB透過性を検出するための既存の計算手法の詳細な文献レビューを行う。 そこから、現在の技術で探索されていない側面を特定し、解決策を提案する。 (iii) 最後に, 受動拡散によりbbb全体で定義された特徴を有する薬物の透過性を定量化するシリコモデルの2部構成法を開発し, 試験し, 反映した。 データセットによるテストと検証により、予測的logBBモデルの平均2乗誤差は0.112単位、神経炎症モデルの平均2乗誤差は0.3単位と判定され、関連するすべての研究を上回った。

The introduction of computational techniques to analyze chemical data has given rise to the analytical study of biological systems, known as "bioinformatics". One facet of bioinformatics is using machine learning (ML) technology to detect multivariable trends in various cases. Amongst the most pressing cases is predicting blood-brain barrier (BBB) permeability. The development of new drugs to treat central nervous system disorders presents unique challenges due to poor penetration efficacy across the blood-brain barrier. In this research, we aim to mitigate this problem through an ML model that analyzes chemical features. To do so: (i) An overview into the relevant biological systems and processes as well as the use case is given. (ii) Second, an in-depth literature review of existing computational techniques for detecting BBB permeability is undertaken. From there, an aspect unexplored across current techniques is identified and a solution is proposed. (iii) Lastly, a two-part in silico model to quantify likelihood of permeability of drugs with defined features across the BBB through passive diffusion is developed, tested, and reflected on. Testing and validation with the dataset determined the predictive logBB model's mean squared error to be around 0.112 units and the neuroinflammation model's mean squared error to be approximately 0.3 units, outperforming all relevant studies found.
翻訳日:2022-08-23 14:15:13 公開日:2022-08-18
# 未知のカーネルサイズと実体雑音によるブラインド画像の劣化

Blind Image Deblurring with Unknown Kernel Size and Substantial Noise ( http://arxiv.org/abs/2208.09483v1 )

ライセンス: Link先を確認
Zhong Zhuang, Taihui Li, Hengkang Wang, Ju Sun(参考訳) blind image deblurling (bid) はコンピュータビジョンや隣接分野で広く研究されている。 最新の入札方法は、統計的推論と数値最適化を使って個々のインスタンスを扱うシングルインスタンスメソッドと、ディープラーニングモデルをトレーニングして将来のインスタンスを直接デブラリングするデータ駆動メソッドの2つのカテゴリに分類できる。 データ駆動の手法は、正確な曖昧なモデルを導き出すことの難しさから解放されるが、トレーニングデータの多様性と品質によって根本的に制限されている。 本稿では,競争的かつ不可欠であり続けるシングルインスタンス手法に着目する。 しかし、そのような手法の多くは、未知のカーネルサイズと実質的なノイズに対処する方法を規定していない。 実際、カーネルサイズが過度に指定された場合、および/またはノイズレベルが高い場合、いくつかの現状(SOTA)シングルインスタンス法が不安定であることを示す。 肯定的な側面から, 両者に対して安定な実用的BID法を提案する。 本手法は, 物理モデルと構造化深層ニューラルネットワークを, トレーニングデータなしで統合することで, 逆問題を解くという最近の考え方に基づいている。 所望の安定性を達成するためにいくつかの重要な修正を導入する。 標準合成データセットおよび実世界のNTIRE2020およびRealBlurデータセットに対する広範な実証実験は、SOTA単一インスタンスやデータ駆動手法と比較して、我々のBID手法の有効性と実用性を示している。 このメソッドのコードは、 \url{https://github.com/sun-umn/blind-image-deblurring} で入手できる。

Blind image deblurring (BID) has been extensively studied in computer vision and adjacent fields. Modern methods for BID can be grouped into two categories: single-instance methods that deal with individual instances using statistical inference and numerical optimization, and data-driven methods that train deep-learning models to deblur future instances directly. Data-driven methods can be free from the difficulty in deriving accurate blur models, but are fundamentally limited by the diversity and quality of the training data -- collecting sufficiently expressive and realistic training data is a standing challenge. In this paper, we focus on single-instance methods that remain competitive and indispensable. However, most such methods do not prescribe how to deal with unknown kernel size and substantial noise, precluding practical deployment. Indeed, we show that several state-of-the-art (SOTA) single-instance methods are unstable when the kernel size is overspecified, and/or the noise level is high. On the positive side, we propose a practical BID method that is stable against both, the first of its kind. Our method builds on the recent ideas of solving inverse problems by integrating the physical models and structured deep neural networks, without extra training data. We introduce several crucial modifications to achieve the desired stability. Extensive empirical tests on standard synthetic datasets, as well as real-world NTIRE2020 and RealBlur datasets, show the superior effectiveness and practicality of our BID method compared to SOTA single-instance as well as data-driven methods. The code of our method is available at: \url{https://github.com/sun-umn/Blind-Image-Deblurring}.
翻訳日:2022-08-23 12:54:03 公開日:2022-08-18
# 分散型家庭エネルギーデータのためのセマンティックwebアプローチ

A semantic web approach to uplift decentralized household energy data ( http://arxiv.org/abs/2208.10265v1 )

ライセンス: Link先を確認
Jiantao Wu, Fabrizio Orlandi, Tarek AlSkaif, Declan O'Sullivan, and Soumyabrata Dev(参考訳) 家電製品、電気自動車、ソーラーパネルなどの各種機器からなる分散型家庭用エネルギーシステムにおいて、エンドユーザーはシステムの詳細を深く掘り下げ、デバイスの粒度における電力消費と生産に関するデータを提示した場合に、さらにエネルギー持続可能性を達成することができる。 しかし、この分野の多くのデータベースは、エネルギーに関する情報を含む他の領域からサイロ化されている。 これにより、各デバイスのエネルギー使用に関する情報(例えば天気)が失われる可能性がある。 一方、これらのデータセットの多くは、機械学習モデルのような計算モデリング技術で広く使われている。 このような計算手法は,データセットの局所的なビューのみに集中することにより,精度と性能が向上するが,情報の欠落を考慮した場合,データ入力変動に非常に脆弱であるため,モデルの信頼性は保証できない。 本稿では,家庭エネルギーシステム上のセマンティックweb手法を検討することで,スマートエネルギーシステムの分野におけるデータ分離問題に取り組む。 システム内のデバイスレベルの解像度で分散データを管理するためのオントロジーベースのアプローチを提供する。 その結果、各デバイスに関連付けられたデータのスコープをWeb全体で相互運用可能な方法で容易に拡張することができ、W3C標準に従ってデータを整理された場合、Webから天気などの追加情報を得ることができる。

In a decentralized household energy system comprised of various devices such as home appliances, electric vehicles, and solar panels, end-users are able to dig deeper into the system's details and further achieve energy sustainability if they are presented with data on the electric energy consumption and production at the granularity of the device. However, many databases in this field are siloed from other domains, including solely information pertaining to energy. This may result in the loss of information (\textit{e.g.} weather) on each device's energy use. Meanwhile, a large number of these datasets have been extensively used in computational modeling techniques such as machine learning models. While such computational approaches achieve great accuracy and performance by concentrating only on a local view of datasets, model reliability cannot be guaranteed since such models are very vulnerable to data input fluctuations when information omission is taken into account. This article tackles the data isolation issue in the field of smart energy systems by examining Semantic Web methods on top of a household energy system. We offer an ontology-based approach for managing decentralized data at the device-level resolution in a system. As a consequence, the scope of the data associated with each device may easily be expanded in an interoperable manner throughout the Web, and additional information, such as weather, can be obtained from the Web, provided that the data is organized according to W3C standards.
翻訳日:2022-08-23 12:47:44 公開日:2022-08-18
# 複数の人間をシミュレートする大規模言語モデル

Using Large Language Models to Simulate Multiple Humans ( http://arxiv.org/abs/2208.10264v1 )

ライセンス: Link先を確認
Gati Aher, Rosa I. Arriaga, Adam Tauman Kalai(参考訳) 本稿では,GPT-3のような大規模言語モデルを用いて,異なる人間の応答を所定の文脈でシミュレートする手法を提案する。 我々は、確立した経済、精神言語、社会実験を再現し、その方法を試す。 このメソッドは実験ごとにプロンプトテンプレートを必要とする。 シミュレーションは、言語モデルによって生成されたテキストの名前や分析などの(仮説的な)主題の詳細を変化させることで実行される。 我々は、GPT-3を用いて、異なる人の反応をシミュレートし、その応答が文献からの先行する人間の研究と一致していることを示す。 より大きな言語モデルによって生成された分布は、以前の実験結果とよりよく一致し、将来の言語モデルがより忠実な人間の反応のシミュレーションに使用される傾向が示唆された。 シミュレーションにおける言語モデルの利用は、言語モデルが独自の振る舞いを持つという人為的視点とは対照的である。

We propose a method for using a large language model, such as GPT-3, to simulate responses of different humans in a given context. We test our method by attempting to reproduce well-established economic, psycholinguistic, and social experiments. The method requires prompt templates for each experiment. Simulations are run by varying the (hypothetical) subject details such as name and analyzing the text generated by the language model. We validate our methodology by using GPT-3, to show that it is possible to simulate responses of different people and that their responses are consistent with prior human studies from the literature. We find that the distributions generated by larger language models better align with prior experimental results, suggesting a trend that future language models may be used for even more faithful simulations of human responses. Our use of a language model for simulation is contrasted with anthropomorphic views of a language model as having its own behavior.
翻訳日:2022-08-23 12:12:48 公開日:2022-08-18
# 音響効果ライブラリの自動インデックス化のための表現学習

Representation Learning for the Automatic Indexing of Sound Effects Libraries ( http://arxiv.org/abs/2208.09096v1 )

ライセンス: Link先を確認
Alison B. Ma, Alexander Lerch(参考訳) 商業的なサウンドエフェクトライブラリのラベル付けと維持は、データベースが継続的に規模を拡大し、分類の更新を行うことで悪化する時間を要するタスクである。 さらに、新しい業界標準であるユニバーサルカテゴリーシステムを導入しても、一様でないメタデータによって音の探索や分類が複雑になる。 これらの問題に対処し、深層学習モデルの学習を阻害するデータセット依存の制限を克服するために、様々な音響効果ライブラリーに使用でき、音の分類に依存しない表現である一般化埋め込みを訓練するための表現学習を追求する。 タスク固有のがデータセットに依存しない表現は、クラス不均衡、一貫性のないクラスラベル、不十分なデータセットサイズなどのデータ問題に対処し、OpenL3のような確立された表現よりも優れていることを示す。 詳細な実験結果は、メトリック学習アプローチと異なるデータセット間トレーニング方法が表現の有効性に与える影響を示している。

Labeling and maintaining a commercial sound effects library is a time-consuming task exacerbated by databases that continually grow in size and undergo taxonomy updates. Moreover, sound search and taxonomy creation are complicated by non-uniform metadata, an unrelenting problem even with the introduction of a new industry standard, the Universal Category System. To address these problems and overcome dataset-dependent limitations that inhibit the successful training of deep learning models, we pursue representation learning to train generalized embeddings that can be used for a wide variety of sound effects libraries and are a taxonomy-agnostic representation of sound. We show that a task-specific but dataset-independent representation can successfully address data issues such as class imbalance, inconsistent class labels, and insufficient dataset size, outperforming established representations such as OpenL3. Detailed experimental results show the impact of metric learning approaches and different cross-dataset training methods on representational effectiveness.
翻訳日:2022-08-22 17:47:53 公開日:2022-08-18
# モンテカルロは高次元で滑らかな関数を学ぶのに悪いサンプリング戦略か?

Is Monte Carlo a bad sampling strategy for learning smooth functions in high dimensions? ( http://arxiv.org/abs/2208.09045v1 )

ライセンス: Link先を確認
Ben Adcock and Simone Brugiapaglia(参考訳) 本稿では,多項式を用いた限定標本からの滑らかな高次元関数の近似について述べる。 このタスクは計算科学と工学における多くの応用の中心であり、特にパラメトリックモデリングと不確実な定量化から生じる。 このような用途ではモンテカルロ(MC)サンプリングを用いるのが一般的であり、次元の呪いに屈しない。 しかし、この戦略が理論的に最適でないことはよく知られている。 次元 $n$ の多項式空間は多数あり、サンプル複雑性は $n$ で対数的にスケールする。 このよく文書化された現象は、実のところ、サンプルの複雑さが対数的にスケールするか、あるいは$n$で線形にスケールする準最適戦略を設計するための共同努力につながった。 反対に、この研究において、MCは実際には高次元において完璧な戦略であることを示す。 最初にこの現象をいくつかの数値例を通して記述する。 次に、無限多変数の正則函数に対するこのパラドックスを解く理論解析を提案する。 m/\log(m)$ で代数的に崩壊する $m$ mc サンプルに基づく最小二乗スキームがあり、最良の $n$ 項多項式近似と同じ率である。 この結果は、近似を実行するのに適切な多項式空間の知識を仮定するため、構成的ではない。 次に、より大きい多対数因子を除いて、同じ速度を達成する圧縮センシングに基づくスキームを提案する。 このスキームは実用的であり、数値的にはよく知られた適応最小二乗スキームよりも優れている。 総じて, MCサンプリングは, 寸法が十分に高い場合にスムーズな関数近似に極めて適していることが示された。 したがって、改良されたサンプリング戦略の利点は、一般に低次元の設定に限られる。

This paper concerns the approximation of smooth, high-dimensional functions from limited samples using polynomials. This task lies at the heart of many applications in computational science and engineering -- notably, those arising from parametric modelling and uncertainty quantification. It is common to use Monte Carlo (MC) sampling in such applications, so as not to succumb to the curse of dimensionality. However, it is well known this strategy is theoretically suboptimal. There are many polynomial spaces of dimension $n$ for which the sample complexity scales log-quadratically in $n$. This well-documented phenomenon has led to a concerted effort to design improved, in fact, near-optimal strategies, whose sample complexities scale log-linearly, or even linearly in $n$. Paradoxically, in this work we show that MC is actually a perfectly good strategy in high dimensions. We first document this phenomenon via several numerical examples. Next, we present a theoretical analysis that resolves this paradox for holomorphic functions of infinitely-many variables. We show that there is a least-squares scheme based on $m$ MC samples whose error decays algebraically fast in $m/\log(m)$, with a rate that is the same as that of the best $n$-term polynomial approximation. This result is non-constructive, since it assumes knowledge of a suitable polynomial space in which to perform the approximation. We next present a compressed sensing-based scheme that achieves the same rate, except for a larger polylogarithmic factor. This scheme is practical, and numerically it performs as well as or better than well-known adaptive least-squares schemes. Overall, our findings demonstrate that MC sampling is eminently suitable for smooth function approximation when the dimension is sufficiently high. Hence the benefits of improved sampling strategies are generically limited to lower-dimensional settings.
翻訳日:2022-08-22 17:41:35 公開日:2022-08-18
# レベルセット法による3次元平均曲率計算のための機械学習アルゴリズム

Machine learning algorithms for three-dimensional mean-curvature computation in the level-set method ( http://arxiv.org/abs/2208.09047v1 )

ライセンス: Link先を確認
Luis \'Angel Larios-C\'ardenas and Fr\'ed\'eric Gibou(参考訳) 本稿では,データ駆動平均曲率解法を提案する。 この研究は、[arxiv:2201.12342][1]における2次元戦略の$\mathbb{r}^3$と[doi: 10.1016/j.jcp.2022.111291][2]のハイブリッド推論システムの自然な拡張である。 しかし、[1,2]は解像度依存のニューラルネットワーク辞書を構築しているのとは対照的に、メッシュサイズに関係なく、$\mathbb{r}^3$の2つのモデルを開発した。 feedforwardネットワークは変換されたレベルセット、勾配、曲率データを取り込み、インターフェイスノードに対して数値平均曲率近似を選択的に固定する。 問題の複雑さを減らすために、我々はガウス曲率を用いてステンシルを分類し、モデルを非サドルパターンとサドルパターンに別々に適合させた。 非サドルステンシルは、単調性と対称性を特徴とする曲率誤差分布を示すため、扱いやすい。 後者は平均曲率スペクトルの半分しかトレーニングできないが、前者はデータ駆動とベースライン推定をフラットな領域の近くでシームレスにブレンドするのに役立った。 一方、サドル・パターンのエラー構造は明らかになっていないため、既知の情報以外の潜伏情報を悪用していない。 そこで本研究では,球状パッチだけでなく,正弦波や双曲型パラボロイドパッチのトレーニングを行った。 データセット構築への我々のアプローチは体系的だが、適切なバランスを保ちながらランダムにサンプルを抽出する。 私たちはまた、前処理のステップとして標準化と次元の削減、外れ値を最小限に抑えるための統合正規化も行っています。 さらに, 曲率回転/反射不変性を利用して, 推定時の精度を向上させる。 いくつかの実験により, 提案システムにより, 未解決領域周辺の粒子界面再構成やレベルセット方式よりも高精度な平均曲率推定が可能であることが確認された。

We propose a data-driven mean-curvature solver for the level-set method. This work is the natural extension to $\mathbb{R}^3$ of our two-dimensional strategy in [arXiv:2201.12342][1] and the hybrid inference system of [DOI: 10.1016/j.jcp.2022.111291][2]. However, in contrast to [1,2], which built resolution-dependent neural-network dictionaries, here we develop a pair of models in $\mathbb{R}^3$, regardless of the mesh size. Our feedforward networks ingest transformed level-set, gradient, and curvature data to fix numerical mean-curvature approximations selectively for interface nodes. To reduce the problem's complexity, we have used the Gaussian curvature to classify stencils and fit our models separately to non-saddle and saddle patterns. Non-saddle stencils are easier to handle because they exhibit a curvature error distribution characterized by monotonicity and symmetry. While the latter has allowed us to train only on half the mean-curvature spectrum, the former has helped us blend the data-driven and the baseline estimations seamlessly near flat regions. On the other hand, the saddle-pattern error structure is less clear; thus, we have exploited no latent information beyond what is known. In this regard, we have trained our models on not only spherical but also sinusoidal and hyperbolic paraboloidal patches. Our approach to building their data sets is systematic but gleans samples randomly while ensuring well-balancedness. We have also resorted to standardization and dimensionality reduction as a preprocessing step and integrated regularization to minimize outliers. In addition, we leverage curvature rotation/reflection invariance to improve precision at inference time. Several experiments confirm that our proposed system can yield more accurate mean-curvature estimations than modern particle-based interface reconstruction and level-set schemes around under-resolved regions.
翻訳日:2022-08-22 17:41:06 公開日:2022-08-18
# 次号勧告に対するインプシットセッションコンテキスト

Implicit Session Contexts for Next-Item Recommendations ( http://arxiv.org/abs/2208.09076v1 )

ライセンス: Link先を確認
Sejoon Oh, Ankur Bhardwaj, Jongseok Han, Sungchul Kim, Ryan A. Rossi, and Srijan Kumar(参考訳) セッションベースのレコメンダシステムは、セッション内のユーザの短期的関心をキャプチャする。 セッションコンテキスト(例えば、セッション内のユーザの高レベルな関心や意図)は、ほとんどのデータセットでは明示的に与えられず、アイテムレベルの属性の集約としてセッションコンテキストを暗黙的に推論することは粗雑である。 本稿では,セッションを暗黙的に文脈化するISCONを提案する。 ISCONはセッションの暗黙のコンテキストを最初に生成し、セッションイムグラフを作成し、グラフの埋め込みを学習し、セッションをコンテキストに割り当てるクラスタリングを行う。 isconはセッションコンテキスト予測をトレーニングし、予測されたコンテキストの埋め込みを使用して次の項目の予測精度を高める。 4つのデータセットの実験により、ISCONは最先端のモデルよりも優れた次点予測精度を有することが示された。 Redditデータセット上のISCONのケーススタディでは、割り当てられたセッションコンテキストがユニークで意味のあるものであることが確認されている。

Session-based recommender systems capture the short-term interest of a user within a session. Session contexts (i.e., a user's high-level interests or intents within a session) are not explicitly given in most datasets, and implicitly inferring session context as an aggregation of item-level attributes is crude. In this paper, we propose ISCON, which implicitly contextualizes sessions. ISCON first generates implicit contexts for sessions by creating a session-item graph, learning graph embeddings, and clustering to assign sessions to contexts. ISCON then trains a session context predictor and uses the predicted contexts' embeddings to enhance the next-item prediction accuracy. Experiments on four datasets show that ISCON has superior next-item prediction accuracy than state-of-the-art models. A case study of ISCON on the Reddit dataset confirms that assigned session contexts are unique and meaningful.
翻訳日:2022-08-22 17:40:29 公開日:2022-08-18
# 制約付き最適化のための自己教師付きPrimal-Dual Learning

Self-Supervised Primal-Dual Learning for Constrained Optimization ( http://arxiv.org/abs/2208.09046v1 )

ライセンス: Link先を確認
Seonho Park, Pascal Van Hentenryck(参考訳) 本稿では,制約付き最適化問題の最適解を直接近似する機械学習モデルの訓練方法を検討する。 これは制約の下での実証的なリスク最小化であり、トレーニングは最適性と実現可能性条件のバランスをとる必要があるため、難しい。 教師付き学習手法は、事前に解決された多数のインスタンスでモデルをトレーニングすることで、この課題にアプローチすることが多い。 本稿では,事前解決したインスタンスのセットや,学習と推論のための最適化解法を必要としない自己指導型学習手法であるPDL(Primal-Dual Learning)を提案する。 代わりに、PDLは拡張ラグランジアン法(ALM)の軌道を模倣し、原始ニューラルネットワークと双対ニューラルネットワークを共同で訓練する。 原始双対法であるPDLは、原始ネットワークのトレーニングに使用される損失関数における制約項のインスタンス固有のペナルティを使用する。 実験により、一連の非線形最適化ベンチマークにおいて、PDLは通常無視可能な制約違反と小さな最適性ギャップを示し、ALM最適化に非常に近いことが示されている。 PDLはまた、既存のアプローチと比較して、最適性ギャップ、制約違反、トレーニング時間の観点から改善または類似した性能を示した。

This paper studies how to train machine-learning models that directly approximate the optimal solutions of constrained optimization problems. This is an empirical risk minimization under constraints, which is challenging as training must balance optimality and feasibility conditions. Supervised learning methods often approach this challenge by training the model on a large collection of pre-solved instances. This paper takes a different route and proposes the idea of Primal-Dual Learning (PDL), a self-supervised training method that does not require a set of pre-solved instances or an optimization solver for training and inference. Instead, PDL mimics the trajectory of an Augmented Lagrangian Method (ALM) and jointly trains primal and dual neural networks. Being a primal-dual method, PDL uses instance-specific penalties of the constraint terms in the loss function used to train the primal network. Experiments show that, on a set of nonlinear optimization benchmarks, PDL typically exhibits negligible constraint violations and minor optimality gaps, and is remarkably close to the ALM optimization. PDL also demonstrated improved or similar performance in terms of the optimality gaps, constraint violations, and training times compared to existing approaches.
翻訳日:2022-08-22 17:34:44 公開日:2022-08-18
# ハッサーレン現象論を活性推論にマッピングする

Mapping Husserlian phenomenology onto active inference ( http://arxiv.org/abs/2208.09058v1 )

ライセンス: Link先を確認
Mahault Albarracin, Riddhi J. Pitliya, Maxwell J. D. Ramstead, and Jeffrey Yoshimi(参考訳) 現象学は意識経験の厳密な記述研究である。 フッサーレン現象学を形式化する最近の試みは、先行知識と期待の関数としての知覚の数学的モデルを提供する。 本稿では,ハセリアン現象学の活性推論レンズによる再検討を行った。 そこで我々は, 能動推論の支持者が最近概説したように, 計算現象論のプロジェクトを進めることを目指している。 我々は,husserlの意識記述の重要な側面を,能動推論アプローチに関連する生成モデルの側面にマッピングできることを示す。 まず最初に、アクティブ推論について概観する。 次に時間意識に着目してフッサールの現象学について論じる。 最後に,ハッサーレン現象学から活性推論へのマッピングについて述べる。

Phenomenology is the rigorous descriptive study of conscious experience. Recent attempts to formalize Husserlian phenomenology provide us with a mathematical model of perception as a function of prior knowledge and expectation. In this paper, we re-examine elements of Husserlian phenomenology through the lens of active inference. In doing so, we aim to advance the project of computational phenomenology, as recently outlined by proponents of active inference. We propose that key aspects of Husserl's descriptions of consciousness can be mapped onto aspects of the generative models associated with the active inference approach. We first briefly review active inference. We then discuss Husserl's phenomenology, with a focus on time consciousness. Finally, we present our mapping from Husserlian phenomenology to active inference.
翻訳日:2022-08-22 17:30:59 公開日:2022-08-18
# Augmented RealityとCarcassonneを用いたマルチプレイヤー環境における状況認識と注意誘導

Towards Situation Awareness and Attention Guidance in a Multiplayer Environment using Augmented Reality and Carcassonne ( http://arxiv.org/abs/2208.09094v1 )

ライセンス: Link先を確認
David Kadish, Arezoo Sarkheyli-H\"agele, Jose Font, Diederick C. Niehorster, Thomas Pederson(参考訳) Augmented Reality(AR)ゲームは、微妙なユーザーガイダンスとトレーニングを提供する計算システムの研究とテストのための豊富な環境である。 特に、ユーザの状況認識を強化することを目的としたコンピュータシステムは、arヘッドセットで利用可能なセンサーとコンピューティングパワーの範囲の恩恵を受ける。 本稿では,ゲーム『Carcassonne』の拡張現実版である,状況認識・注意誘導(SAAG)研究のための新しい環境について述べる。 また、ゲーム状態エンコーディングの作成、ゲームプレイaiの開発とトレーニング、状況モデリングと視線追跡システムの設計を含む、saagパイプラインの作成における初期の取り組みについても紹介する。

Augmented reality (AR) games are a rich environment for researching and testing computational systems that provide subtle user guidance and training. In particular computer systems that aim to augment a user's situation awareness benefit from the range of sensors and computing power available in AR headsets. In this work-in-progress paper, we present a new environment for research into situation awareness and attention guidance (SAAG): an augmented reality version of the board game Carcassonne. We also present our initial work in producing a SAAG pipeline, including the creation of game state encodings, the development and training of a gameplay AI, and the design of situation modelling and gaze tracking systems.
翻訳日:2022-08-22 17:30:50 公開日:2022-08-18
# DCNNV-19: Uma rede neural convolucional profunda para detec\c{c}\~ao de COVID-19 em tomografias computadorizadas tor\'acicas

DCNNV-19: Uma rede neural convolucional profunda para detec\c{c}\~ao de COVID-19 em tomografias computadorizadas tor\'acicas ( http://arxiv.org/abs/2208.09349v1 )

ライセンス: Link先を確認
Victor Felipe Reis-Silva(参考訳) 本報告では,重症急性呼吸器症候群 (sars) および感染症の疑いのある患者からの胸部ct画像の解析において,特にrt-pcrの遅延と緊急ケアの欠如が重篤な一時的,長期的,または永久的な健康被害をもたらす可能性がある場合に,深層畳み込みニューラルネットワークを予備的診断法として用いることを提案する。 このモデルは83,391枚で訓練され、15,297枚で検証され、22,185枚でテストされ、F1スコアは98%、コーエンのカッパは97.59%、精度は98.4%、ロスは5.09%に達した。 高精度な自動分類を検証し、現在のゴールド標準試験であるrt-pcr(real-time reversetranscriptase polymerase chain reaction)よりも少ない時間で結果を提供する。 -O presente relat\'orio t\'ecnico prop\~oe a utiliza\c{c}\~ao de uma rede neural convolucional profunda como m\'etodo diagn\'ostico preliminar na an\'alise de imagens de tomografia computadorizada tor\'acica em pacientes com sintomas de S\'indrome Respirat\'oria Aguda Grave (SRAG) e suspeita de COVID-19, principalmente em ocasi\~oes em que a demora do resultado do RT-PCR e a aus\^encia de cuidados urgentes poderia acarretar graves danos tempor\'arios, \`a longo prazo, ou permanentes \`a sa\'ude. O modelo foi treinado em 83.391 imagens, validado em 15.297, e testado em 22.185 figuras, atingindo pontua\c{c}\~ao no F1-Score de 98%, 97,59% em Cohen's Kappa, 98,4% de Acur\'acia e 5,09% de Loss。 Atestando uma classifica\c{c}\~ao automatedizada r\'apida e de alta precis\~ao, e fornecendo resultado em tempo menor ao do exame padr\~ao-ouro atual, o Real-Time reverse-transcriptase Polymerase Chain Reaction (RT-PCR)。

This technical report proposes the use of a deep convolutional neural network as a preliminary diagnostic method in the analysis of chest computed tomography images from patients with symptoms of Severe Acute Respiratory Syndrome (SARS) and suspected COVID-19 disease, especially on occasions when the delay of the RT-PCR result and the absence of urgent care could result in serious temporary, long-term, or permanent health damage. The model was trained on 83,391 images, validated on 15,297, and tested on 22,185 figures, achieving an F1-Score of 98%, 97.59% in Cohen's Kappa, 98.4% in Accuracy, and 5.09% in Loss. Attesting a highly accurate automated classification and providing results in less time than the current gold-standard exam, Real-Time reverse-transcriptase Polymerase Chain Reaction (RT-PCR). -- O presente relat\'orio t\'ecnico prop\~oe a utiliza\c{c}\~ao de uma rede neural convolucional profunda como m\'etodo diagn\'ostico preliminar na an\'alise de imagens de tomografia computadorizada tor\'acica em pacientes com sintomas de S\'indrome Respirat\'oria Aguda Grave (SRAG) e suspeita de COVID-19, principalmente em ocasi\~oes em que a demora do resultado do RT-PCR e a aus\^encia de cuidados urgentes poderia acarretar graves danos tempor\'arios, \`a longo prazo, ou permanentes \`a sa\'ude. O modelo foi treinado em 83.391 imagens, validado em 15.297, e testado em 22.185 figuras, atingindo pontua\c{c}\~ao no F1-Score de 98%, 97,59% em Cohen's Kappa, 98,4% de Acur\'acia e 5,09% de Loss. Atestando uma classifica\c{c}\~ao automatizada r\'apida e de alta precis\~ao, e fornecendo resultado em tempo menor ao do exame padr\~ao-ouro atual, o Real-Time reverse-transcriptase Polymerase Chain Reaction (RT-PCR).
翻訳日:2022-08-22 17:29:38 公開日:2022-08-18
# コミュニケーション効率の良い協調型腕識別

Communication-Efficient Collaborative Best Arm Identification ( http://arxiv.org/abs/2208.09029v1 )

ライセンス: Link先を確認
Nikolai Karpov and Qin Zhang(参考訳) エージェントが協調して目的関数を学習するマルチエージェント学習モデルにおいて,バンドイット理論の基本的な問題であるトップ・m$腕識別について検討する。 我々は,コミュニケーションがマルチエージェント学習のボトルネックとなることが多いため,最小の通信コストを用いて,最大高速化(シングルエージェント学習アルゴリズムと比較)を実現する協調学習アルゴリズムの設計に興味を持っている。 アルゴリズムと不可能性の両方の結果を与え,アルゴリズムの有効性を実証する一連の実験を行う。

We investigate top-$m$ arm identification, a basic problem in bandit theory, in a multi-agent learning model in which agents collaborate to learn an objective function. We are interested in designing collaborative learning algorithms that achieve maximum speedup (compared to single-agent learning algorithms) using minimum communication cost, as communication is frequently the bottleneck in multi-agent learning. We give both algorithmic and impossibility results, and conduct a set of experiments to demonstrate the effectiveness of our algorithms.
翻訳日:2022-08-22 17:25:46 公開日:2022-08-18
# 深層強化学習における不確実性の検討

A Review of Uncertainty for Deep Reinforcement Learning ( http://arxiv.org/abs/2208.09052v1 )

ライセンス: Link先を確認
Owen Lockwood, Mei Si(参考訳) 不確実性はゲームにおいて、エージェントがゲームをプレイしたり、ゲーム自体で頻繁に発生する。 したがって、不確実性を扱うことは、深層強化学習エージェントの成功の重要な要素である。 教師付き学習のための不確実性の理解と作業には、かなりの努力と進歩があったが、深層強化学習を意識した不確実性に関する文学の体系は、開発が進んでいない。 教師付き学習のためのニューラルネットワークの不確実性に関する同じ問題の多くは強化学習に残されているが、相互作用可能な環境の性質による不確実性の原因は他にもある。 本研究では,不確実性を意識した深層強化学習における既存の手法の概要と提案を行う。 これらの作品は、様々な強化学習タスクに経験的な利点を示す。 この研究は、異なる結果の集中化と、この分野における今後の研究の促進に役立つ。

Uncertainty is ubiquitous in games, both in the agents playing games and often in the games themselves. Working with uncertainty is therefore an important component of successful deep reinforcement learning agents. While there has been substantial effort and progress in understanding and working with uncertainty for supervised learning, the body of literature for uncertainty aware deep reinforcement learning is less developed. While many of the same problems regarding uncertainty in neural networks for supervised learning remain for reinforcement learning, there are additional sources of uncertainty due to the nature of an interactable environment. In this work, we provide an overview motivating and presenting existing techniques in uncertainty aware deep reinforcement learning. These works show empirical benefits on a variety of reinforcement learning tasks. This work serves to help to centralize the disparate results and promote future research in this area.
翻訳日:2022-08-22 17:25:38 公開日:2022-08-18
# 電力系統のハリケーン性能の社会的要因はどの程度重要か? 機械学習による異質性の分析

How important are socioeconomic factors for hurricane performance of power systems? An analysis of disparities through machine learning ( http://arxiv.org/abs/2208.09063v1 )

ライセンス: Link先を確認
Alexys Herleym Rodr\'iguez Avellaneda, Abdollah Shafieezadeh, Alper Yilmaz(参考訳) 本稿では,フロリダの電力系統のハリケーン性能に社会経済的要因が重要であるかを検討する。 本研究は, 危険度, 最大影響から回復までの時間, 社会経済的特性等を含む要因の重要度を測定するために, 平均精度低下量を用いたランダム森林分類器(mda)を用いて行った。 この研究のためのデータセット(郡の規模)には、5年間のアメリカ社会調査(acs)による社会経済変数、風速、2018年のアルベルトとマイケルを含む5つのハリケーン、2019年のドリアン、2020年のetaとisaiasの停電データが含まれている。 本研究は,システム性能モデルにおいて社会経済変数が極めて重要であることを示す。 これは、停電の発生に社会的格差が存在し、コミュニティのレジリエンスに直接影響し、即時的な注意が必要であることを示している。

This paper investigates whether socioeconomic factors are important for the hurricane performance of the electric power system in Florida. The investigation is performed using the Random Forest classifier with Mean Decrease of Accuracy (MDA) for measuring the importance of a set of factors that include hazard intensity, time to recovery from maximum impact, and socioeconomic characteristics of the affected population. The data set (at county scale) for this study includes socioeconomic variables from the 5-year American Community Survey (ACS), as well as wind velocities, and outage data of five hurricanes including Alberto and Michael in 2018, Dorian in 2019, and Eta and Isaias in 2020. The study shows that socioeconomic variables are considerably important for the system performance model. This indicates that social disparities may exist in the occurrence of power outages, which directly impact the resilience of communities and thus require immediate attention.
翻訳日:2022-08-22 17:25:25 公開日:2022-08-18
# GraTO: ニューラルネットワーク検索によるオーバースムーシングに対処するグラフニューラルネットワークフレームワーク

GraTO: Graph Neural Network Framework Tackling Over-smoothing with Neural Architecture Search ( http://arxiv.org/abs/2208.09027v1 )

ライセンス: Link先を確認
Xinshun Feng, Herun Wan, Shangbin Feng, Hongrui Wang, Jun Zhou, Qinghua Zheng, Minnan Luo(参考訳) 現在のグラフニューラルネットワーク(gnns)は、ノード表現の区別がつかない問題や、より多くのgnn層によるモデルパフォーマンスの低下に苦しむ。 近年,この問題に対処するための多くの手法が提案されている。 しかし、既存手法はモデル性能を重視し、ノード表現の過度な滑らかさを無視する。 さらに、異なるアプローチが一度に1つずつ適用されますが、過剰な問題に対して複数のソリューションを共同活用するための全体的なフレームワークが欠如しています。 これらの問題を解決するために,GNNアーキテクチャを自動的に検索するニューラルネットワーク検索に基づくフレームワークGraTOを提案する。 GraTOは、モデルパフォーマンスと表現の滑らかさのバランスを打つために、新しい損失関数を採用している。 既存の方法に加えて、当社の検索スペースには、多種多様なソリューションを十分に活用するための、過剰な問題を軽減するための新しいスキームであるdropattributeも含まれています。 GraToを評価するために、6つの実世界のデータセットに関する広範な実験を行い、GraToがオーバースムースなメトリクスのベースラインを上回り、精度で競争性能を達成することを示した。 GraTOは特に有効で堅牢で、GNNレイヤーの数が増える。 さらなる実験では、GraTOで学んだノード表現の品質とモデルアーキテクチャの有効性を取り上げている。 GraToのcideはGithub(\url{https://github.com/fxsxjtu/GraTO})で公開しています。

Current Graph Neural Networks (GNNs) suffer from the over-smoothing problem, which results in indistinguishable node representations and low model performance with more GNN layers. Many methods have been put forward to tackle this problem in recent years. However, existing tackling over-smoothing methods emphasize model performance and neglect the over-smoothness of node representations. Additional, different approaches are applied one at a time, while there lacks an overall framework to jointly leverage multiple solutions to the over-smoothing challenge. To solve these problems, we propose GraTO, a framework based on neural architecture search to automatically search for GNNs architecture. GraTO adopts a novel loss function to facilitate striking a balance between model performance and representation smoothness. In addition to existing methods, our search space also includes DropAttribute, a novel scheme for alleviating the over-smoothing challenge, to fully leverage diverse solutions. We conduct extensive experiments on six real-world datasets to evaluate GraTo, which demonstrates that GraTo outperforms baselines in the over-smoothing metrics and achieves competitive performance in accuracy. GraTO is especially effective and robust with increasing numbers of GNN layers. Further experiments bear out the quality of node representations learned with GraTO and the effectiveness of model architecture. We make cide of GraTo available at Github (\url{https://github.com/fxsxjtu/GraTO}).
翻訳日:2022-08-22 17:16:56 公開日:2022-08-18
# シャドウは決して危険ではない。シャドウベースの敵攻撃に対する高速でロバストな防御

Shadows Aren't So Dangerous After All: A Fast and Robust Defense Against Shadow-Based Adversarial Attacks ( http://arxiv.org/abs/2208.09285v1 )

ライセンス: Link先を確認
Andrew Wang, Wyatt Mayor, Ryan Smith, Gopal Nookula, Gregory Ditzler(参考訳) ロバストな分類は、自動運転車の標識認識のようなタスクにおいて必須であり、誤分類の欠点を埋めることができる。 敵対的攻撃はニューラルネットワーク分類器の堅牢性を脅かし、一貫して確実に道路標識を誤認させる。 そのような攻撃の1つ、シャドウベースの攻撃は、入力画像に自然に見えるシャドウを適用して誤認を引き起こし、その結果、人間の観察者に自然に見える道路標識が、これらの分類器を混乱させる。 このような攻撃に対する現在の防御策は、単純な敵の訓練手順を使用して、それぞれ GTSRB と LISA のテストセットに対して、比較的低い 25\% と 40\% の堅牢性を達成している。 本稿では,道路標識認識におけるシャドーアタック対策として,バイナリ適応しきい値とエッジマップを用いたソースイメージの強化を目的としたロバストで高速で一般化可能な手法を提案する。 我々は経験的にシャドーアタックに対するロバスト性を示し、その類似性を示すために問題を再構成する。 GTSRBテストセットの良性試験精度は98 %を維持しながら, エッジディフェンスは78 %の堅牢性を示し, しきい値ディフェンスからも同様の結果が得られた。 コードへのリンクは紙に載っています。

Robust classification is essential in tasks like autonomous vehicle sign recognition, where the downsides of misclassification can be grave. Adversarial attacks threaten the robustness of neural network classifiers, causing them to consistently and confidently misidentify road signs. One such class of attack, shadow-based attacks, causes misidentifications by applying a natural-looking shadow to input images, resulting in road signs that appear natural to a human observer but confusing for these classifiers. Current defenses against such attacks use a simple adversarial training procedure to achieve a rather low 25\% and 40\% robustness on the GTSRB and LISA test sets, respectively. In this paper, we propose a robust, fast, and generalizable method, designed to defend against shadow attacks in the context of road sign recognition, that augments source images with binary adaptive threshold and edge maps. We empirically show its robustness against shadow attacks, and reformulate the problem to show its similarity $\varepsilon$ perturbation-based attacks. Experimental results show that our edge defense results in 78\% robustness while maintaining 98\% benign test accuracy on the GTSRB test set, with similar results from our threshold defense. Link to our code is in the paper.
翻訳日:2022-08-22 17:11:53 公開日:2022-08-18
# クロスタスク一貫性規則化によるシングルステージオープンワールドインスタンスセグメンテーション

Single-Stage Open-world Instance Segmentation with Cross-task Consistency Regularization ( http://arxiv.org/abs/2208.09023v1 )

ライセンス: Link先を確認
Xizhe Xue and Dongdong Yu and Lingqiao Liu and Yu Liu and Ying Li and Zehuan Yuan and Ping Song and Mike Zheng Shou(参考訳) open-world instance segmentation(owis)は、クラスに依存しないインスタンスをイメージからセグメンテーションすることを目的としている。 既存のアプローチのほとんどは、2段階のパイプラインに従っている:まずクラスに依存しない検出を行い、次にクラス固有のマスクセグメンテーションを実行する。 一方,本論文では,各インスタンスのマスクを直接生成する単一ステージフレームワークを提案する。 また、既存のデータセットではインスタンスマスクアノテーションがうるさくなり、この問題を克服するために、新たな正規化損失を導入します。 具体的には、まず、前景領域(例えば、任意のオブジェクトインスタンスに属する領域)を予測する補助タスクを実行するために余分なブランチを訓練し、次に、補助ブランチからの予測をインスタンスマスクの予測と整合するように促す。 重要な洞察は、このようなタスク間の一貫性の損失は、アノテーションのエラーに対処するエラー修正メカニズムとして機能する可能性があるということです。 さらに,提案するクロスタスク一貫性の損失は,半教師付き学習手法に自らを貸与することで,画像に適用できることがわかった。 広範にわたる実験により,提案手法は完全教師付き設定と半教師付き設定の両方において印象的な結果が得られることを示した。 提案手法は, sota法と比較して, uvo$\rightarrow$uvo設定で$ap_{100}$スコアを4.75\%, coco$\rightarrow$uvo設定で4.05\%向上させた。 半教師付き学習の場合、モデルはラベル付きデータはわずか30\%で学習し、50\%のラベル付きデータで完全に教師付き学習モデルよりも優れています。 コードはまもなくリリースされる。

Open-world instance segmentation (OWIS) aims to segment class-agnostic instances from images, which has a wide range of real-world applications such as autonomous driving. Most existing approaches follow a two-stage pipeline: performing class-agnostic detection first and then class-specific mask segmentation. In contrast, this paper proposes a single-stage framework to produce a mask for each instance directly. Also, instance mask annotations could be noisy in the existing datasets; to overcome this issue, we introduce a new regularization loss. Specifically, we first train an extra branch to perform an auxiliary task of predicting foreground regions (i.e. regions belonging to any object instance), and then encourage the prediction from the auxiliary branch to be consistent with the predictions of the instance masks. The key insight is that such a cross-task consistency loss could act as an error-correcting mechanism to combat the errors in annotations. Further, we discover that the proposed cross-task consistency loss can be applied to images without any annotation, lending itself to a semi-supervised learning method. Through extensive experiments, we demonstrate that the proposed method can achieve impressive results in both fully-supervised and semi-supervised settings. Compared to SOTA methods, the proposed method significantly improves the $AP_{100}$ score by 4.75\% in UVO$\rightarrow$UVO setting and 4.05\% in COCO$\rightarrow$UVO setting. In the case of semi-supervised learning, our model learned with only 30\% labeled data, even outperforms its fully-supervised counterpart with 50\% labeled data. The code will be released soon.
翻訳日:2022-08-22 17:07:19 公開日:2022-08-18
# 語彙的・文法的アスペクトの類型的導入 : 計算的アプローチに関する調査

A Kind Introduction to Lexical and Grammatical Aspect, with a Survey of Computational Approaches ( http://arxiv.org/abs/2208.09012v1 )

ライセンス: Link先を確認
Annemarie Friedrich, Nianwen Xue, Alexis Palmer(参考訳) アスペクトの意味は、状況の内部時間構造がどのように表現されるかを意味する。 これには、状況が状態として記述されるか、またはイベントとして記述されるか、状況が完了したか継続したか、そしてそれが全体、あるいは特定のフェーズに焦点をあてられているかが含まれる。 本調査は,必要な言語概念と用語の直感的な説明とともに,語彙的および文法的側面をモデル化するための計算的アプローチの概要を提供する。 特に,統計性,テロシティ,習慣性,完全かつ不完全性の概念や,結果と状況タイプに影響を及ぼす在庫について述べる。 側面は意味論の重要な要素であり、特に状況の時間的構造を正確に報告する場合は、将来のNLPアプローチは人間の言語理解を達成するために、それを体系的に処理し、評価しなければなりません。

Aspectual meaning refers to how the internal temporal structure of situations is presented. This includes whether a situation is described as a state or as an event, whether the situation is finished or ongoing, and whether it is viewed as a whole or with a focus on a particular phase. This survey gives an overview of computational approaches to modeling lexical and grammatical aspect along with intuitive explanations of the necessary linguistic concepts and terminology. In particular, we describe the concepts of stativity, telicity, habituality, perfective and imperfective, as well as influential inventories of eventuality and situation types. We argue that because aspect is a crucial component of semantics, especially when it comes to reporting the temporal structure of situations in a precise way, future NLP approaches need to be able to handle and evaluate it systematically in order to achieve human-level language understanding.
翻訳日:2022-08-22 17:00:46 公開日:2022-08-18
# 相互情報マシンによる微小分子生成の改善

Improving Small Molecule Generation using Mutual Information Machine ( http://arxiv.org/abs/2208.09016v1 )

ライセンス: Link先を確認
Danny Reidenbach and Micha Livne and Rajesh K. Ilango and Michelle Gill and Johnny Israeli(参考訳) 我々は、特定の制約下で望ましい性質を持つ新規な分子(例えば、参照分子との類似性)を見つけることを伴う、小さな分子の制御的生成のタスクに対処する。 ここでは,情報的かつクラスタ化された潜伏空間を学習する小型分子ドラッグ発見のための確率論的オートエンコーダであるMolMIMを紹介する。 MolMIMはMultual Information Machine (MIM)学習で訓練され、可変長SMILES文字列の固定長表現を提供する。 エンコーダ・デコーダモデルは不正なサンプルの ‘holes'' で表現を学習できるため, 密集した潜在空間を促進する訓練手順を新たに拡張し, 潜在コードのランダムな摂動から有効な分子をサンプリングする手法を提案する。 そこで本研究では,M MolMIM といくつかの可変サイズおよび固定サイズエンコーダデコーダモデルとの徹底的な比較を行い,妥当性,特異性,新規性の観点から,M MolMIM の優れた世代を実証する。 次に,CMA-ES, ナイーブなブラックボックスと勾配自由探索アルゴリズムを, プロパティ誘導分子最適化のタスクとして, MolMIM の潜在空間上で利用する。 本研究では,複数の制約付き単一特性最適化タスクと多目的最適化の課題により,これまでの成功率sotaを52%以上向上させた。 CMA-ES はベースライン最適化法としてよく用いられるが,本手法は遅延空間で類似分子をクラスター化する MolMIM の潜在表現に強く寄与する。 また,計算リミット方式では,M MolMIM が好適であることが示され,そのような場合の魅力的なモデルとなっている。

We address the task of controlled generation of small molecules, which entails finding novel molecules with desired properties under certain constraints (e.g., similarity to a reference molecule). Here we introduce MolMIM, a probabilistic auto-encoder for small molecule drug discovery that learns an informative and clustered latent space. MolMIM is trained with Mutual Information Machine (MIM) learning, and provides a fixed length representation of variable length SMILES strings. Since encoder-decoder models can learn representations with ``holes'' of invalid samples, here we propose a novel extension to the training procedure which promotes a dense latent space, and allows the model to sample valid molecules from random perturbations of latent codes. We provide a thorough comparison of MolMIM to several variable-size and fixed-size encoder-decoder models, demonstrating MolMIM's superior generation as measured in terms of validity, uniqueness, and novelty. We then utilize CMA-ES, a naive black-box and gradient free search algorithm, over MolMIM's latent space for the task of property guided molecule optimization. We achieve state-of-the-art results in several constrained single property optimization tasks as well as in the challenging task of multi-objective optimization, improving over previous success rate SOTA by more than 5\% . We attribute the strong results to MolMIM's latent representation which clusters similar molecules in the latent space, whereas CMA-ES is often used as a baseline optimization method. We also demonstrate MolMIM to be favourable in a compute limited regime, making it an attractive model for such cases.
翻訳日:2022-08-22 16:55:18 公開日:2022-08-18
# 深層信念ネットワークに対する定量的普遍近似境界

Quantitative Universal Approximation Bounds for Deep Belief Networks ( http://arxiv.org/abs/2208.09033v1 )

ライセンス: Link先を確認
Julian Sieber and Johann Gehringer(参考訳) 二元隠れ単位を持つ深層信念ネットワークは、可視ノードの親密度に対する非常に穏やかな可積分性要件の下で、任意の多変量確率密度を近似できることを示した。 この近似は、$l^q$-norm for $q\in[1,\infty]$ (q=\infty$ corresponding to the supremum norm) と kullback-leibler divergence で測定される。 さらに,隠れ単位数の観点から近似誤差の急激な定量的境界を確立する。

We show that deep belief networks with binary hidden units can approximate any multivariate probability density under very mild integrability requirements on the parental density of the visible nodes. The approximation is measured in the $L^q$-norm for $q\in[1,\infty]$ ($q=\infty$ corresponding to the supremum norm) and in Kullback-Leibler divergence. Furthermore, we establish sharp quantitative bounds on the approximation error in terms of the number of hidden units.
翻訳日:2022-08-22 16:48:56 公開日:2022-08-18
# 周波数規則化生成モデルによる分布外検出

Out-of-distribution Detection via Frequency-regularized Generative Models ( http://arxiv.org/abs/2208.09083v1 )

ライセンス: Link先を確認
Mu Cai, Yixuan Li(参考訳) 現代の深層生成モデルは、トレーニングディストリビューションの外から引き出された入力に高い確率を割り当て、オープンワールドデプロイメントにおけるモデルに脅威を与えることができる。 oodの不確かさの新しいテストタイム尺度を定義することには多くの研究が注目されているが、これらの手法は根底から見て、深層生成モデルの正規化と訓練における最適化の方法を変えるものではない。 特に、生成モデルは、確率を推定するために背景情報に過度に依存する。 そこで本研究では,OOD検出のための新しい周波数規則型学習FRLフレームワークを提案する。 FRLは、可変オートエンコーダ、GLOW、PixelCNN++など、幅広い生成アーキテクチャのパフォーマンスを効果的に改善する。 新しい大規模評価タスクでは、FRLは最先端のパフォーマンスを達成し、強力なベースラインであるLikelihood Regretを10.7%(AUROC)で上回り、147$\times$高速推論速度を達成した。 FRLは画像生成品質を維持しながらOOD検出性能を向上させる。 コードはhttps://github.com/mu-cai/frlで入手できる。

Modern deep generative models can assign high likelihood to inputs drawn from outside the training distribution, posing threats to models in open-world deployments. While much research attention has been placed on defining new test-time measures of OOD uncertainty, these methods do not fundamentally change how deep generative models are regularized and optimized in training. In particular, generative models are shown to overly rely on the background information to estimate the likelihood. To address the issue, we propose a novel frequency-regularized learning FRL framework for OOD detection, which incorporates high-frequency information into training and guides the model to focus on semantically relevant features. FRL effectively improves performance on a wide range of generative architectures, including variational auto-encoder, GLOW, and PixelCNN++. On a new large-scale evaluation task, FRL achieves the state-of-the-art performance, outperforming a strong baseline Likelihood Regret by 10.7% (AUROC) while achieving 147$\times$ faster inference speed. Extensive ablations show that FRL improves the OOD detection performance while preserving the image generation quality. Code is available at https://github.com/mu-cai/FRL.
翻訳日:2022-08-22 16:47:49 公開日:2022-08-18
# 再現性レポート:社会的に認識された運動表現の対比学習

Reproducibility Report: Contrastive Learning of Socially-aware Motion Representations ( http://arxiv.org/abs/2208.09284v1 )

ライセンス: Link先を確認
Roopsa Sen, Sidharth Sinha, Parv Maheshwari, Animesh Jha, Debashish Chakravarty(参考訳) 下記の論文は、ml再現性チャレンジ2021の一部としてiccv 2021で発表された「ソーシャル・nce: contrastive learning of socially-aware motion representations」の再現性レポートである。 オリジナルのコードは、著者の \footnote{\href{https://github.com/vita-epfl/social-nce}{https://github.com/vita-epfl/social-nce}}によって利用可能になった。 PyTorch Lightningで、著者が主張する結果を確認し、コードを再実装しようとしました。

The following paper is a reproducibility report for "Social NCE: Contrastive Learning of Socially-aware Motion Representations" {\cite{liu2020snce}} published in ICCV 2021 as part of the ML Reproducibility Challenge 2021. The original code was made available by the author \footnote{\href{https://github.com/vita-epfl/social-nce}{https://github.com/vita-epfl/social-nce}}. We attempted to verify the results claimed by the authors and reimplemented their code in PyTorch Lightning.
翻訳日:2022-08-22 16:47:26 公開日:2022-08-18
# Treeformer: 効率的な注意計算のための高密度勾配木

Treeformer: Dense Gradient Trees for Efficient Attention Computation ( http://arxiv.org/abs/2208.09015v1 )

ライセンス: Link先を確認
Lovish Madaan, Srinadh Bhojanapalli, Himanshu Jain, Prateek Jain(参考訳) トランスベースアーキテクチャによる標準推論とトレーニングは、入力シーケンス長と2倍スケールする。 これは、特にWebページの翻訳、クエリー回答などにおいて、様々なアプリケーションにとって違法に大きい。 その結果、近年、カーネルを用いて注目度、低ランク、近似などの異なる注意構造を強制することにより、注意計算を高速化するアプローチが開発されている。 本研究では,アテンション計算を近接探索の手法とみなし,決定木に基づく階層ナビゲーションを用いて,クエリトークン毎の検索コストを線形列長からほぼ対数長に削減する。 このような階層的なナビゲーションに基づいて、TF-AttentionとTC-Attentionという2つの効率的な注意層のうちの1つを使用できるTreeformerを設計する。 TF-Attentionは細かなスタイルで注意を計算し、TC-Attentionは粗い注意層であり、勾配が「密度」であることを保証する。 このような難易度の高い離散層を最適化するために,2段階のブートストラップドトレーニング手法を提案する。 標準NLPベンチマークの広範な実験、特に長周期では、注意層に30倍少ないFLOPを使用しながら、ベースライントランスフォーマーとほぼ同等の精度でツリーフォーマーアーキテクチャが実現可能であることを示す。 Linformerと比較すると、注意層で同様のFLOPを使用する場合、精度は最大12%向上する。

Standard inference and training with transformer based architectures scale quadratically with input sequence length. This is prohibitively large for a variety of applications especially in web-page translation, query-answering etc. Consequently, several approaches have been developed recently to speedup attention computation by enforcing different attention structures such as sparsity, low-rank, approximating attention using kernels. In this work, we view attention computation as that of nearest neighbor retrieval, and use decision tree based hierarchical navigation to reduce the retrieval cost per query token from linear in sequence length to nearly logarithmic. Based on such hierarchical navigation, we design Treeformer which can use one of two efficient attention layers -- TF-Attention and TC-Attention. TF-Attention computes the attention in a fine-grained style, while TC-Attention is a coarse attention layer which also ensures that the gradients are "dense". To optimize such challenging discrete layers, we propose a two-level bootstrapped training method. Using extensive experiments on standard NLP benchmarks, especially for long-sequences, we demonstrate that our Treeformer architecture can be almost as accurate as baseline Transformer while using 30x lesser FLOPs in the attention layer. Compared to Linformer, the accuracy can be as much as 12% higher while using similar FLOPs in the attention layer.
翻訳日:2022-08-22 16:43:15 公開日:2022-08-18
# VAuLT: 深層言語表現の普及による視覚・言語変換器の拡張

VAuLT: Augmenting the Vision-and-Language Transformer with the Propagation of Deep Language Representations ( http://arxiv.org/abs/2208.09021v1 )

ライセンス: Link先を確認
Georgios Chochlakis, Tejas Srinivasan, Jesse Thomason, Shrikanth Narayanan (University of Southern California)(参考訳) 視覚・言語変換器(VAuLT)を提案する。 VAuLTはViLT(Vision-and-Language Transformer)の拡張であり、画像キャプションよりも複雑なテキスト入力を含む視覚・言語タスクのパフォーマンスを改善し、トレーニングや推論効率に最小限の影響を与える。 ViLTは、浅い画像エンコーダを用いて、視覚・言語タスクの効率的なトレーニングと推論を可能にする。 しかし、言語入力が単純でリテラルで記述的であるため言語多様性が欠如している、キャプションや類似のデータセットで事前学習されている。 ですから,マルチモーダルなソーシャルメディアデータ(私たちの仕事,Twitter)など,マルチメディアデータを扱う場合,言語データのキャプションからタスクの多様性への顕著なシフトがあり,その代わりにViLTの言語能力が欠如していることが実感できるのです。 VAuLTの重要な洞察は、BERTのような大きな言語モデルの出力表現を ViLT の言語入力に伝播させることである。 TWITTER-2015, TWITTER-2017, MVSA-Single, MVSA-Multipleなど, よりリッチな言語入力や情緒的な構成を含む視覚・言語タスクでは, ViLTよりも大幅に改善されるが, Bloomberg Twitter Text- Image Relationship データセットのような純粋な推論タスクには遅れがある。 私たちはすべての実験のコードをhttps://github.com/gchochla/vault.comで公開しました。

We propose the Vision-and-Augmented-Language Transformer (VAuLT). VAuLT is an extension of the popular Vision-and-Language Transformer (ViLT), and improves performance on vision-and-language tasks that involve more complex text inputs than image captions while having minimal impact on training and inference efficiency. ViLT, importantly, enables efficient training and inference in vision-and-language tasks, achieved by using a shallow image encoder. However, it is pretrained on captioning and similar datasets, where the language input is simple, literal, and descriptive, therefore lacking linguistic diversity. So, when working with multimedia data in the wild, such as multimodal social media data (in our work, Twitter), there is a notable shift from captioning language data, as well as diversity of tasks, and we indeed find evidence that the language capacity of ViLT is lacking instead. The key insight of VAuLT is to propagate the output representations of a large language model like BERT to the language input of ViLT. We show that such a strategy significantly improves over ViLT on vision-and-language tasks involving richer language inputs and affective constructs, such as TWITTER-2015, TWITTER-2017, MVSA-Single and MVSA-Multiple, but lags behind pure reasoning tasks such as the Bloomberg Twitter Text-Image Relationship dataset. We have released the code for all our experiments at https://github.com/gchochla/VAuLT.
翻訳日:2022-08-22 16:38:22 公開日:2022-08-18
# 新たな機械学習フレームワークに基づくマルチモーダル・ワイルドファイア予測とパーソナライズ・アーリーウォーニングシステム

A Multi-Modal Wildfire Prediction and Personalized Early-Warning System Based on a Novel Machine Learning Framework ( http://arxiv.org/abs/2208.09079v1 )

ライセンス: Link先を確認
Rohan Tan Bhowmik(参考訳) 森林火災は環境、人間の健康、安全にますます影響を与えている。 2020-2021年のカリフォルニアの山火事では、前世紀よりも多くの土地が燃やされた。 カリフォルニア州の2018年の山火事は148.5億ドルの損害をもたらした。 何百万人もの影響を受けた人々のうち、障害者(世界の人口の約15%)は、不適切な警報によって不釣り合いに影響を受ける。 本プロジェクトでは,高度な機械学習アーキテクチャに基づいて,マルチモーダルワイルドファイア予測とパーソナライズした早期警戒システムを開発した。 環境保護庁のセンサデータと2012年から2018年にかけての歴史的山火事データをまとめて総合的な山火事データベースを構築した。 次に,新しいU-Convolutional-LSTM(Long Short-Term Memory)ニューラルネットワークの設計を行った。 環境要因と気象要因をデータベースに組み込んで,それぞれ,山火事の発症リスクと伝播リスクに相関して,先行指標と追従指標に分類した。 さらに,森林火災のリスクアセスメントに地質データを用いた。 この新しい時空間ニューラルネットワークは、従来の畳み込みニューラルネットワークを使用して、97%の精度で76%の精度を達成した。 最後に, 感覚障害や呼吸障害に適応したパーソナライズされた早期警報システムを提案する。 この手法は、消防署が攻撃前に野火を予想・防ぐことを可能にし、リスクの高い個人に早期の警告を提供し、より良い準備のために命を救って経済被害を軽減させる。

Wildfires are increasingly impacting the environment, human health and safety. Among the top 20 California wildfires, those in 2020-2021 burned more acres than the last century combined. California's 2018 wildfire season caused damages of $148.5 billion. Among millions of impacted people, those living with disabilities (around 15% of the world population) are disproportionately impacted due to inadequate means of alerts. In this project, a multi-modal wildfire prediction and personalized early warning system has been developed based on an advanced machine learning architecture. Sensor data from the Environmental Protection Agency and historical wildfire data from 2012 to 2018 have been compiled to establish a comprehensive wildfire database, the largest of its kind. Next, a novel U-Convolutional-LSTM (Long Short-Term Memory) neural network was designed with a special architecture for extracting key spatial and temporal features from contiguous environmental parameters indicative of impending wildfires. Environmental and meteorological factors were incorporated into the database and classified as leading indicators and trailing indicators, correlated to risks of wildfire conception and propagation respectively. Additionally, geological data was used to provide better wildfire risk assessment. This novel spatio-temporal neural network achieved >97% accuracy vs. around 76% using traditional convolutional neural networks, successfully predicting 2018's five most devastating wildfires 5-14 days in advance. Finally, a personalized early warning system, tailored to individuals with sensory disabilities or respiratory exacerbation conditions, was proposed. This technique would enable fire departments to anticipate and prevent wildfires before they strike and provide early warnings for at-risk individuals for better preparation, thereby saving lives and reducing economic damages.
翻訳日:2022-08-22 16:36:46 公開日:2022-08-18
# 対向的相互情報学習を用いたワンショット音声変換のための音声表現のアンタングル化

Speech Representation Disentanglement with Adversarial Mutual Information Learning for One-shot Voice Conversion ( http://arxiv.org/abs/2208.08757v1 )

ライセンス: Link先を確認
SiCheng Yang, Methawee Tantrawenith, Haolin Zhuang, Zhiyong Wu, Aolan Sun, Jianzong Wang, ning cheng, Huaizhen Tang, Xintao Zhao, Jie Wang and Helen Meng(参考訳) 単一話者の音声のみを基準としたワンショット音声変換(vc)がホットな研究テーマとなっている。 既存の作品では音色が異なっており、ピッチ、リズム、内容などに関する情報が混ざり合っている。 本稿では,これらの音声成分をさらに切り離してワンショットVCを効果的に行うために,ピッチとコンテントエンコーダをランダムにサンプリングし,相互情報の相互情報と勾配反転層に基づく対向的相互情報学習を用いて,学習中に所望の非絡み合い表現のみを含む潜時空間の異なる部分を保証する。 VCTKデータセットの実験では、自然性とインテリジェンスの観点から、ワンショットVCの最先端のパフォーマンスを実現している。 さらに, 音色, ピッチ, リズムの1ショットVCの特性を, 音声表現のゆがみによって別々に伝達することができる。 私たちのコード、事前トレーニングされたモデル、デモはhttps://im1eon.github.io/is2022-srdvc/で利用可能です。

One-shot voice conversion (VC) with only a single target speaker's speech for reference has become a hot research topic. Existing works generally disentangle timbre, while information about pitch, rhythm and content is still mixed together. To perform one-shot VC effectively with further disentangling these speech components, we employ random resampling for pitch and content encoder and use the variational contrastive log-ratio upper bound of mutual information and gradient reversal layer based adversarial mutual information learning to ensure the different parts of the latent space containing only the desired disentangled representation during training. Experiments on the VCTK dataset show the model achieves state-of-the-art performance for one-shot VC in terms of naturalness and intellgibility. In addition, we can transfer characteristics of one-shot VC on timbre, pitch and rhythm separately by speech representation disentanglement. Our code, pre-trained models and demo are available at https://im1eon.github.io/IS2022-SRDVC/.
翻訳日:2022-08-19 14:19:00 公開日:2022-08-18
# 学習に基づく水中音響からのその場風速推定

Learning-based estimation of in-situ wind speed from underwater acoustics ( http://arxiv.org/abs/2208.08912v1 )

ライセンス: Link先を確認
Matteo Zambra, Dorian Cazau, Nicolas Farrugia, Alexandre Gensse, Sara Pensieri, Roberto Bozzano, Ronan Fablet(参考訳) 海面での風速の探索は、科学的および運用上の用途において最も重要なものである。 気象モデルに加えて、その場測定やリモートセンシング技術、特に衛星センサーは、風速を監視する補完手段を提供する。 海面の風が水中を伝播する音を発生させるため、水中の音響記録は微粒な風に関する情報も提供できる。 モデル駆動型スキーム、特にデータ同化アプローチは、地球科学における逆問題に対処する最先端のスキームであるのに対し、機械学習技術は観測データセットの可能性を完全に活用するためにますます魅力的になっている。 本稿では,気象モデルの再解析など他のデータソースが補完する可能性のある水中音響から,風速時系列を検索するための深層学習手法を提案する。 我々のアプローチは、事前の物理知識と計算効率の両面から恩恵を受けるために、データ同化と学習ベースのフレームワークをブリッジする。 実データに対する数値実験により、rmseの相対的な増加率は16%と最先端のデータ駆動手法を上回った。 興味深いことに、これらの結果は水中の音響データの時間ダイナミクスの関連性をサポートし、風速の時間変化をよりよく知らせる。 また,水中音響データとecmwf再解析データを組み合わせたマルチモーダルデータにより,水中音響データの欠落に対するロバスト性など,復元性能がさらに向上する可能性が示唆された。

Wind speed retrieval at sea surface is of primary importance for scientific and operational applications. Besides weather models, in-situ measurements and remote sensing technologies, especially satellite sensors, provide complementary means to monitor wind speed. As sea surface winds produce sounds that propagate underwater, underwater acoustics recordings can also deliver fine-grained wind-related information. Whereas model-driven schemes, especially data assimilation approaches, are the state-of-the-art schemes to address inverse problems in geoscience, machine learning techniques become more and more appealing to fully exploit the potential of observation datasets. Here, we introduce a deep learning approach for the retrieval of wind speed time series from underwater acoustics possibly complemented by other data sources such as weather model reanalyses. Our approach bridges data assimilation and learning-based frameworks to benefit both from prior physical knowledge and computational efficiency. Numerical experiments on real data demonstrate that we outperform the state-of-the-art data-driven methods with a relative gain up to 16% in terms of RMSE. Interestingly, these results support the relevance of the time dynamics of underwater acoustic data to better inform the time evolution of wind speed. They also show that multimodal data, here underwater acoustics data combined with ECMWF reanalysis data, may further improve the reconstruction performance, including the robustness with respect to missing underwater acoustics data.
翻訳日:2022-08-19 14:18:43 公開日:2022-08-18
# タンパク質の学習インデクシング:埋め込みとクラスタリングによる複素距離計算の構成

Learned Indexing in Proteins: Substituting Complex Distance Calculations with Embedding and Clustering Techniques ( http://arxiv.org/abs/2208.08910v1 )

ライセンス: Link先を確認
Jaroslav O\v{l}ha, Ter\'ezia Slanin\'akov\'a, Martin Gendiar, Matej Antol, Vlastislav Dohnal(参考訳) 類似性探索研究の絶え間ない進化にもかかわらず、次元性の呪いや計算コストのかかる距離関数など、データの複雑さに起因する同じ課題に直面し続けている。 様々な機械学習技術は、複雑な数学的モデルを単純な線形関数の組み合わせに置き換えることが証明されており、クエリの正確さと正確さの保証を犠牲にして、しばしばスピードと単純さを得る。 著者らは3次元タンパク質構造探索の複雑な問題に対する軽量な解を提示することにより,この研究動向の可能性を探る。 解法は3つのステップからなる。 i) 3次元タンパク質構造情報の非常にコンパクトなベクトルへの変換 (ii)これらのベクトルをグループ化し、所定の数の類似オブジェクトを返してクエリに応答するための確率モデルの使用、及び (iii) 基礎ベクトル距離関数を適用して結果を洗練する最終フィルタリングステップ。

Despite the constant evolution of similarity searching research, it continues to face the same challenges stemming from the complexity of the data, such as the curse of dimensionality and computationally expensive distance functions. Various machine learning techniques have proven capable of replacing elaborate mathematical models with combinations of simple linear functions, often gaining speed and simplicity at the cost of formal guarantees of accuracy and correctness of querying. The authors explore the potential of this research trend by presenting a lightweight solution for the complex problem of 3D protein structure search. The solution consists of three steps -- (i) transformation of 3D protein structural information into very compact vectors, (ii) use of a probabilistic model to group these vectors and respond to queries by returning a given number of similar objects, and (iii) a final filtering step which applies basic vector distance functions to refine the result.
翻訳日:2022-08-19 14:16:05 公開日:2022-08-18
# 機械学習ソフトウェアシステムにおける品質問題

Quality issues in Machine Learning Software Systems ( http://arxiv.org/abs/2208.08982v1 )

ライセンス: Link先を確認
Pierre-Olivier C\^ot\'e, Amin Nikanjam, Rached Bouchoucha, Foutse Khomh(参考訳) コンテキスト: 複雑な問題を解決するために機械学習(ML)を採用するために、さまざまな領域で需要が高まっている。 MLモデルはソフトウェアコンポーネントとして実装され、機械学習ソフトウェアシステム(MLSS)にデプロイされる。 問題:MLSSのサービス品質を保証するためには,強いニーズがある。 このようなシステムの不正または劣悪な決定は、他のシステムの誤動作、重大な財政的損失、さらには人間の生命への脅威につながる可能性がある。 MLSSの品質保証は難しい課題と考えられており、現在ホットな研究トピックとなっている。 さらに,MLSSにおける品質の諸側面を網羅することが重要である。 目的:本稿は実践者の視点から,MLSSにおける実際の品質問題の特徴を考察することを目的とする。 この実証研究は、MLSSの質の低下に関連する悪い実践のカタログを特定することを目的としている。 方法: 実践者や専門家との一連のインタビューを実施し,品質問題に対処する上で,彼らの経験やプラクティスを取得するのにインタビューが最善の方法であると信じます。 このステップで開発された問題のカタログは、MLSSの品質問題に対する重大度、根本原因、および可能な対策の特定にも役立ち、MLモデルやMLSSの効率的な品質保証ツールの開発を可能にします。

Context: An increasing demand is observed in various domains to employ Machine Learning (ML) for solving complex problems. ML models are implemented as software components and deployed in Machine Learning Software Systems (MLSSs). Problem: There is a strong need for ensuring the serving quality of MLSSs. False or poor decisions of such systems can lead to malfunction of other systems, significant financial losses, or even threat to human life. The quality assurance of MLSSs is considered as a challenging task and currently is a hot research topic. Moreover, it is important to cover all various aspects of the quality in MLSSs. Objective: This paper aims to investigate the characteristics of real quality issues in MLSSs from the viewpoint of practitioners. This empirical study aims to identify a catalog of bad-practices related to poor quality in MLSSs. Method: We plan to conduct a set of interviews with practitioners/experts, believing that interviews are the best method to retrieve their experience and practices when dealing with quality issues. We expect that the catalog of issues developed at this step will also help us later to identify the severity, root causes, and possible remedy for quality issues of MLSSs, allowing us to develop efficient quality assurance tools for ML models and MLSSs.
翻訳日:2022-08-19 14:15:49 公開日:2022-08-18
# DeepClouds.ai: 計算的に安価な直接数値シミュレーションを可能にするディープラーニング

DeepClouds.ai: Deep learning enabled computationally cheap direct numerical simulations ( http://arxiv.org/abs/2208.08956v1 )

ライセンス: Link先を確認
Moumita Bhowmik, Manmeet Singh, Suryachandra Rao, Souvik Paul(参考訳) 特に大気中の雲の端で発生する乱流のシミュレーションは、本質的に難しい課題である。 このような実験を行うのに最適な計算方法は、直接数値シミュレーション(DNS)である。 dnsは3次元空間内の離散格子箱上の流体流の非線形偏微分方程式(navier-stokes equation)を解くことを含む。 降雨量を計算するために数値気象予測モデルを導いた貴重なパラダイムである。 しかし、天気予報コミュニティにとって実用性の高い大規模ドメインではDNSは実行できない。 本稿では,クラウドDNS実験の出力をシミュレーションする3D-UNETであるDeepClouds.aiを紹介する。 DNSの領域サイズを増大させる問題は、DNS離散グリッドシミュレーションの出力から内部の3D立方体を完全な3D立方体にマッピングすることで解決される。 本手法は,複雑な力学コアを解決することなく,乱流のダイナミクスを効果的に捉える。 ベースラインは、深層学習に基づくシミュレーションが、様々なスコア指標によって測定された部分微分方程式に基づくモデルに匹敵することを示している。 このフレームワークは、大気中の大きな物理領域のシミュレーションを可能にして、乱流と雲の流れの科学をさらに深めるのに使うことができる。 これは、高度なパラメータ化スキームによる天気予報の改善による社会的利益のカスケードにつながる。

Simulation of turbulent flows, especially at the edges of clouds in the atmosphere, is an inherently challenging task. Hitherto, the best possible computational method to perform such experiments is the Direct Numerical Simulation (DNS). DNS involves solving non-linear partial differential equations for fluid flows, also known as Navier-Stokes equations, on discretized grid boxes in a three-dimensional space. It is a valuable paradigm that has guided the numerical weather prediction models to compute rainfall formation. However, DNS cannot be performed for large domains of practical utility to the weather forecast community. Here, we introduce DeepClouds.ai, a 3D-UNET that simulates the outputs of a rising cloud DNS experiment. The problem of increasing the domain size in DNS is addressed by mapping an inner 3D cube to the complete 3D cube from the output of the DNS discretized grid simulation. Our approach effectively captures turbulent flow dynamics without having to solve the complex dynamical core. The baseline shows that the deep learning-based simulation is comparable to the partial-differential equation-based model as measured by various score metrics. This framework can be used to further the science of turbulence and cloud flows by enabling simulations over large physical domains in the atmosphere. It would lead to cascading societal benefits by improved weather predictions via advanced parameterization schemes.
翻訳日:2022-08-19 14:15:05 公開日:2022-08-18
# 強摂動初期条件を持つパラボリック微分方程式に対する物理インフォームニューラルネットワーク法

Physics-Informed Neural Network Method for Parabolic Differential Equations with Sharply Perturbed Initial Conditions ( http://arxiv.org/abs/2208.08635v1 )

ライセンス: Link先を確認
Yifei Zong and QiZhi He and Alexandre M. Tartakovsky(参考訳) 本稿では,鋭く摂動した初期条件を持つ放物型問題に対する物理インフォームドニューラルネットワーク(pinn)モデルを開発した。 放物論的問題の一例として、点(ガウス的)ソース初期条件を持つadvection-dispersion equation (ade)を考える。 d$-次元 ade では、初期条件における摂動は $t$ as $t^{-d/2}$ で崩壊し、ピン解に大きな近似誤差を引き起こす。 ADE解の局所的な大きな勾配は(PINNでよく見られる)ラテンハイパーキューブで方程式の残余の高効率なサンプリングを行う。 最後に、放物型方程式のピン解は損失関数の重みの選択に敏感である。 本稿では,解の初期摂動が振幅を減少させず,この正規化がピン近似誤差を著しく減少させるような正規化 ade を提案する。 本稿では,他の手法で選択した重みよりも正確なピン溶液を生成する損失関数の重みの基準を提案する。 最後に,サンプリング点数(残留点数)のPINN解誤差を大幅に低減する適応型サンプリング手法を提案する。 本稿では,提案したPINNモデルの前方,逆,後方のADEに対する精度を示す。

In this paper, we develop a physics-informed neural network (PINN) model for parabolic problems with a sharply perturbed initial condition. As an example of a parabolic problem, we consider the advection-dispersion equation (ADE) with a point (Gaussian) source initial condition. In the $d$-dimensional ADE, perturbations in the initial condition decay with time $t$ as $t^{-d/2}$, which can cause a large approximation error in the PINN solution. Localized large gradients in the ADE solution make the (common in PINN) Latin hypercube sampling of the equation's residual highly inefficient. Finally, the PINN solution of parabolic equations is sensitive to the choice of weights in the loss function. We propose a normalized form of ADE where the initial perturbation of the solution does not decrease in amplitude and demonstrate that this normalization significantly reduces the PINN approximation error. We propose criteria for weights in the loss function that produce a more accurate PINN solution than those obtained with the weights selected via other methods. Finally, we proposed an adaptive sampling scheme that significantly reduces the PINN solution error for the same number of the sampling (residual) points. We demonstrate the accuracy of the proposed PINN model for forward, inverse, and backward ADEs.
翻訳日:2022-08-19 14:14:15 公開日:2022-08-18
# Musika! 高速無限波形音楽生成

Musika! Fast Infinite Waveform Music Generation ( http://arxiv.org/abs/2208.08706v1 )

ライセンス: Link先を確認
Marco Pasini, Jan Schl\"uter(参考訳) 高速でユーザ制御可能な音楽生成は、作曲や演奏の新しい方法を可能にする。 しかし、最先端の音楽生成システムは、トレーニングのために大量のデータと計算資源を必要とし、推論が遅い。 これにより、リアルタイムのインタラクティブな使用には実用的でない。 本研究では,単一のコンシューマGPUを用いて,数百時間に及ぶ音楽のトレーニングが可能な音楽生成システムであるMusikaを紹介し,コンシューマCPU上で任意の長さの音楽をリアルタイムに生成するよりもはるかに高速であることを示す。 まず, 逆オートエンコーダを用いて, スペクトログラム等級と位相のコンパクトな可逆表現を学習し, その表現を特定の音楽領域に対して生成的逆ネットワーク (gan) で訓練する。 潜在座標系は任意の長さの抜粋列を並列に生成できる一方、グローバルな文脈ベクトルは、時間を通してスタイリスティックに整合性を保つことができる。 生成したサンプルの品質を定量的に評価し,ピアノおよびテクノ音楽生成におけるユーザ制御の選択肢を示す。 我々は、github.com/marcoppasini/musikaでソースコードと事前訓練されたオートエンコーダウェイトを公開し、GANを1つのGPUで数時間で新しい音楽ドメインでトレーニングできるようにした。

Fast and user-controllable music generation could enable novel ways of composing or performing music. However, state-of-the-art music generation systems require large amounts of data and computational resources for training, and are slow at inference. This makes them impractical for real-time interactive use. In this work, we introduce Musika, a music generation system that can be trained on hundreds of hours of music using a single consumer GPU, and that allows for much faster than real-time generation of music of arbitrary length on a consumer CPU. We achieve this by first learning a compact invertible representation of spectrogram magnitudes and phases with adversarial autoencoders, then training a Generative Adversarial Network (GAN) on this representation for a particular music domain. A latent coordinate system enables generating arbitrarily long sequences of excerpts in parallel, while a global context vector allows the music to remain stylistically coherent through time. We perform quantitative evaluations to assess the quality of the generated samples and showcase options for user control in piano and techno music generation. We release the source code and pretrained autoencoder weights at github.com/marcoppasini/musika, such that a GAN can be trained on a new music domain with a single GPU in a matter of hours.
翻訳日:2022-08-19 14:13:54 公開日:2022-08-18
# 力学系による不変関数のディープニューラルネットワーク近似

Deep Neural Network Approximation of Invariant Functions through Dynamical Systems ( http://arxiv.org/abs/2208.08707v1 )

ライセンス: Link先を確認
Qianxiao Li, Ting Lin, Zuowei Shen(参考訳) 動的システムのフローマップを用いて,入力インデックスのある種の置換に関して不変な関数の近似について検討する。 このような不変関数は、画像タスクを含む多くの研究された翻訳不変関数を含むが、科学や工学における新たな応用を見出す多くの置換不変関数も含む。 制御された同変力学系によりこれらの関数を普遍的に近似するための十分条件を証明し、対称性の制約のある深い残留ネットワークの一般的な抽象化と見なすことができる。 これらの結果は、対称関数近似のためによく使われるニューラルネットワークアーキテクチャの普遍的な近似だけでなく、新しい対称性要求を含むアプリケーションに対する近似保証を伴うアーキテクチャの設計も導く。

We study the approximation of functions which are invariant with respect to certain permutations of the input indices using flow maps of dynamical systems. Such invariant functions includes the much studied translation-invariant ones involving image tasks, but also encompasses many permutation-invariant functions that finds emerging applications in science and engineering. We prove sufficient conditions for universal approximation of these functions by a controlled equivariant dynamical system, which can be viewed as a general abstraction of deep residual networks with symmetry constraints. These results not only imply the universal approximation for a variety of commonly employed neural network architectures for symmetric function approximation, but also guide the design of architectures with approximation guarantees for applications involving new symmetry requirements.
翻訳日:2022-08-19 14:13:30 公開日:2022-08-18
# 単語埋め込み重み付きtf-idfと動的クエリ拡張を用いた小売イベントの商品推薦

Merchandise Recommendation for Retail Events with Word Embedding Weighted Tf-idf and Dynamic Query Expansion ( http://arxiv.org/abs/2208.08581v1 )

ライセンス: Link先を確認
Ted Tao Yuan and Zezhong Zhang(参考訳) 季節的な小売イベントに関連商品を推薦するためには、市場在庫からのアイテム検索に頼る。 クエリ範囲を拡大するフィードバックにより,単語埋め込み類似度を用いたキーワード拡張候補選択と,検索ランキングにおける拡張単語に対する拡張tf-idf式について議論する。

To recommend relevant merchandises for seasonal retail events, we rely on item retrieval from marketplace inventory. With feedback to expand query scope, we discuss keyword expansion candidate selection using word embedding similarity, and an enhanced tf-idf formula for expanded words in search ranking.
翻訳日:2022-08-19 14:11:01 公開日:2022-08-18
# 共起効果に対するロバスト因果グラフ表現学習

Robust Causal Graph Representation Learning against Confounding Effects ( http://arxiv.org/abs/2208.08584v1 )

ライセンス: Link先を確認
Hang Gao, Jiangmeng Li, Wenwen Qiang, Lingyu Si, Bing Xu, Changwen Zheng, Fuchun Sun(参考訳) 一般的なグラフニューラルネットワークモデルは、グラフ表現学習において大きな進歩を遂げている。 しかし,本論文では,未熟なグラフ表現学習モデルについて,未熟なグラフでテストしたモデルよりも,フルグラフでテストされたグラフ表現学習モデルについて明らかにする。 この結果から,グラフにはモデル学習のセマンティック情報に干渉しうる共同創設者が存在することが明らかとなり,現在のグラフ表現学習手法ではその影響を排除していない。 そこで本研究では,ロバストなグラフ表現を学習するために,ロバスト因果グラフ表現学習(rcgrl)を提案する。 RCGRLは、非条件のモーメント制約の下でインストゥルメンタル変数を生成するアクティブアプローチを導入し、グラフ表現学習モデルにより、共同創設者を排除し、下流の予測に因果関係のある識別情報をキャプチャする。 提案手法の理論的有効性を保証するための定理と証明を提供する。 実験では,合成データセットと複数のベンチマークデータセットについて広範な実験を行う。 その結果, RCGRLは最先端手法と比較して, 予測性能と一般化能力の向上を図っている。

The prevailing graph neural network models have achieved significant progress in graph representation learning. However, in this paper, we uncover an ever-overlooked phenomenon: the pre-trained graph representation learning model tested with full graphs underperforms the model tested with well-pruned graphs. This observation reveals that there exist confounders in graphs, which may interfere with the model learning semantic information, and current graph representation learning methods have not eliminated their influence. To tackle this issue, we propose Robust Causal Graph Representation Learning (RCGRL) to learn robust graph representations against confounding effects. RCGRL introduces an active approach to generate instrumental variables under unconditional moment restrictions, which empowers the graph representation learning model to eliminate confounders, thereby capturing discriminative information that is causally related to downstream predictions. We offer theorems and proofs to guarantee the theoretical effectiveness of the proposed approach. Empirically, we conduct extensive experiments on a synthetic dataset and multiple benchmark datasets. The results demonstrate that compared with state-of-the-art methods, RCGRL achieves better prediction performance and generalization ability.
翻訳日:2022-08-19 14:10:53 公開日:2022-08-18
# プログラム表現学習のための木構造トランス

A Tree-structured Transformer for Program Representation Learning ( http://arxiv.org/abs/2208.08643v1 )

ライセンス: Link先を確認
Wenhan Wang, Kechi Zhang, Ge Li, Shangqing Liu, Zhi Jin, Yang Liu(参考訳) ディープラーニング技術を用いてプログラム言語をモデル化する場合、プログラム抽象構文木(AST)内の豊富な構造情報をキャプチャするために、木やグラフ構造を持つニューラルネットワークが広く採用されている。 しかしながら、長期的な/グローバルな依存関係はプログラムに広く存在し、これらのニューラルアーキテクチャのほとんどは、これらの依存関係を捉えることができない。 本稿では,上記の制約を克服しようとする新しい再帰的木構造ニューラルネットワークであるtree-transformerを提案する。 Tree-Transformerは2つのマルチヘッドアテンションユニットを利用して、兄弟姉妹と親子ノードペア間の依存性をモデル化する。 さらに,木に沿ったボトムアップとトップダウンの2方向にノード情報を伝達する双方向伝搬戦略を提案する。 ボトムアップとトップダウンの伝搬を組み合わせることで、Tree-Transformerはグローバルコンテキストと有意義なノード機能の両方を学ぶことができる。 広範な実験結果から,木レベルおよびノードレベルの予測タスクでは,既存の木ベースあるいはグラフベースのニューラルネットワークよりも優れており,木レベルの表現とノードレベルの表現の両方を学習する上で,木変換が有効であることが示された。

When using deep learning techniques to model program languages, neural networks with tree or graph structures are widely adopted to capture the rich structural information within program abstract syntax trees (AST). However, long-term/global dependencies widely exist in programs, and most of these neural architectures fail to capture these dependencies. In this paper, we propose Tree-Transformer, a novel recursive tree-structured neural network which aims to overcome the above limitations. Tree-Transformer leverages two multi-head attention units to model the dependency between siblings and parent-children node pairs. Moreover, we propose a bi-directional propagation strategy to allow node information passing in two directions: bottom-up and top-down along trees. By combining bottom-up and top-down propagation, Tree-Transformer can learn both global contexts and meaningful node features. The extensive experimental results show that our Tree-Transformer outperforms existing tree-based or graph-based neural networks in program-related tasks with tree-level and node-level prediction tasks, indicating that Tree-Transformer performs well on learning both tree-level and node-level representations.
翻訳日:2022-08-19 14:10:32 公開日:2022-08-18
# パンデミックコントロール、ゲーム理論、機械学習

Pandemic Control, Game Theory and Machine Learning ( http://arxiv.org/abs/2208.08646v1 )

ライセンス: Link先を確認
Yao Xuan, Robert Balkin, Jiequn Han, Ruimeng Hu, Hector D. Ceniceros(参考訳) ゲーム理論は、病気の拡散を制御し、個人レベルと地域レベルの両方で最適なポリシーを提案するのに有効なツールである。 本論文では、新型コロナウイルス(covid-19)の介入に対する意思決定の展開、数学的モデルと効率的な機械学習手法の提供、過去に実施された関連する政策の正当化、ゲーム理論の観点から当局の決定が近隣地域に与える影響を説明することに焦点を当てる。

Game theory has been an effective tool in the control of disease spread and in suggesting optimal policies at both individual and area levels. In this AMS Notices article, we focus on the decision-making development for the intervention of COVID-19, aiming to provide mathematical models and efficient machine learning methods, and justifications for related policies that have been implemented in the past and explain how the authorities' decisions affect their neighboring regions from a game theory viewpoint.
翻訳日:2022-08-19 14:10:12 公開日:2022-08-18
# プライベートで効率的、正確:ディファレンシャルプライバシを備えたマルチパーティ学習によるモデル保護

Private, Efficient, and Accurate: Protecting Models Trained by Multi-party Learning with Differential Privacy ( http://arxiv.org/abs/2208.08662v1 )

ライセンス: Link先を確認
Wenqiang Ruan and Mingxin Xu and Wenjing Fang and Li Wang and Lei Wang and Weili Han(参考訳) MPLと呼ばれるセキュアなマルチパーティ計算ベースの機械学習は、プライバシ保護を伴う複数のパーティのデータを活用する上で重要な技術となっている。 MPLは計算プロセスに対して厳格なセキュリティ保証を提供するが、MPLによって訓練されたモデルは、モデルへのアクセスのみに依存する攻撃に対して依然として脆弱である。 差別的なプライバシーは、このような攻撃から守るのに役立つ。 しかし、異なるプライバシによる精度の低下とセキュアなマルチパーティ計算プロトコルの通信オーバーヘッドにより、プライバシ、効率、正確性の3方向トレードオフのバランスをとることは極めて困難である。 本稿では、セキュアDPSGDプロトコルと2つの最適化方法からなるPEA(Private, Efficient, Accurate)と呼ばれるソリューションを提案することにより、上記の問題を解決する動機付けを行う。 まず、秘密共有ベースのMPLフレームワークでDPSGDを強制するセキュアなDPSGDプロトコルを提案する。 第2に、差分プライバシーノイズとMPLの通信オーバーヘッドによる精度損失を低減するため、MPLのトレーニングプロセスにおいて、(1)訓練されたモデル構造を簡素化することを目的としたデータ独立性特徴抽出法、(2)モデルトレーニングの収束を高速化することを目的としたローカルデータベースグローバルモデル初期化法という2つの最適化手法を提案する。 TF-Encrypted と Queqiao の2つのオープンソース MPL フレームワークで PEA を実装しています。 各種データセットにおける実験結果は,peaの効率と有効性を示す。 例えば${\epsilon}$ = 2 の場合、LAN設定下 7 分以内に CIFAR-10 の精度が 88% の差分プライベート分類モデルを訓練することができる。 この結果は1つのsata mplフレームワークであるcryptgpuのそれを大きく上回っている。 同じ精度でcifar-10上の非プライベートなディープニューラルネットワークモデルをトレーニングするのに16時間以上かかります。

Secure multi-party computation-based machine learning, referred to as MPL, has become an important technology to utilize data from multiple parties with privacy preservation. While MPL provides rigorous security guarantees for the computation process, the models trained by MPL are still vulnerable to attacks that solely depend on access to the models. Differential privacy could help to defend against such attacks. However, the accuracy loss brought by differential privacy and the huge communication overhead of secure multi-party computation protocols make it highly challenging to balance the 3-way trade-off between privacy, efficiency, and accuracy. In this paper, we are motivated to resolve the above issue by proposing a solution, referred to as PEA (Private, Efficient, Accurate), which consists of a secure DPSGD protocol and two optimization methods. First, we propose a secure DPSGD protocol to enforce DPSGD in secret sharing-based MPL frameworks. Second, to reduce the accuracy loss led by differential privacy noise and the huge communication overhead of MPL, we propose two optimization methods for the training process of MPL: (1) the data-independent feature extraction method, which aims to simplify the trained model structure; (2) the local data-based global model initialization method, which aims to speed up the convergence of the model training. We implement PEA in two open-source MPL frameworks: TF-Encrypted and Queqiao. The experimental results on various datasets demonstrate the efficiency and effectiveness of PEA. E.g. when ${\epsilon}$ = 2, we can train a differentially private classification model with an accuracy of 88% for CIFAR-10 within 7 minutes under the LAN setting. This result significantly outperforms the one from CryptGPU, one SOTA MPL framework: it costs more than 16 hours to train a non-private deep neural network model on CIFAR-10 with the same accuracy.
翻訳日:2022-08-19 14:10:02 公開日:2022-08-18
# 通信効率の高い分散型オンライン連続drmサブモジュラー最大化

Communication-Efficient Decentralized Online Continuous DR-Submodular Maximization ( http://arxiv.org/abs/2208.08681v1 )

ライセンス: Link先を確認
Qixin Zhang, Zengde Deng, Xiangru Jian, Zaiyi Chen, Haoyuan Hu, Yu Yang(参考訳) 単調部分モジュラ函数の最大化は、機械学習、経済学、統計学における基本的な課題である。 本稿では,単調連続DR-サブモジュラー最大化問題に対する2つの通信効率の高い分散オンラインアルゴリズムを提案する。 1つはOne-shot Decentralized Meta-Frank-Wolfe (Mono-DMFW)で、$(1-1/e)$-regret bound of $O(T^{4/5})$である。 われわれが知る限り、これは単調連続DR-サブモジュラー最大化のための最初の単発およびプロジェクションフリーの分散オンラインアルゴリズムである。 次に,非難解なブースティング関数 \citep{zhang2022boosting} に着想を得て,分散オンラインブースティング勾配上昇(dobga)アルゴリズムを提案し,$(1-1/e)$-regret を$o(\sqrt{t})$とする。 我々の知る限り、これは、各ステップ毎の局所目的関数に対して1つの勾配探索しか持たない$(1-1/e)$-approximationに対して最適な$O(\sqrt{T})$を得る最初の結果である。 最後に,提案手法の有効性を実験的に検証した。

Maximizing a monotone submodular function is a fundamental task in machine learning, economics, and statistics. In this paper, we present two communication-efficient decentralized online algorithms for the monotone continuous DR-submodular maximization problem, both of which reduce the number of per-function gradient evaluations and per-round communication complexity from $T^{3/2}$ to $1$. The first one, One-shot Decentralized Meta-Frank-Wolfe (Mono-DMFW), achieves a $(1-1/e)$-regret bound of $O(T^{4/5})$. As far as we know, this is the first one-shot and projection-free decentralized online algorithm for monotone continuous DR-submodular maximization. Next, inspired by the non-oblivious boosting function \citep{zhang2022boosting}, we propose the Decentralized Online Boosting Gradient Ascent (DOBGA) algorithm, which attains a $(1-1/e)$-regret of $O(\sqrt{T})$. To the best of our knowledge, this is the first result to obtain the optimal $O(\sqrt{T})$ against a $(1-1/e)$-approximation with only one gradient inquiry for each local objective function per step. Finally, various experimental results confirm the effectiveness of the proposed methods.
翻訳日:2022-08-19 14:09:29 公開日:2022-08-18
# balance & gershgorin disc perfect alignmentによる効率的な符号付きグラフサンプリング

Efficient Signed Graph Sampling via Balancing & Gershgorin Disc Perfect Alignment ( http://arxiv.org/abs/2208.08726v1 )

ライセンス: Link先を確認
Chinthaka Dinesh, Gene Cheung, Saghar Bagheri, Ivan V. Bajic(参考訳) グラフ信号処理(GSP)の基本前提は、エッジ重みとしてターゲット信号のペアワイズ(アンチ)相関を符号化したグラフをグラフフィルタリングに利用することである。 しかし、既存の高速グラフサンプリングスキームは正の相関を記述した正のグラフに対してのみ設計・試験されている。 本稿では,強い反相関を持つデータセットに対して,正と負の両方のエッジ重みを含むグラフを示す。 そこで本研究では,平衡符号グラフの概念に着目した線形時間符号グラフサンプリング手法を提案する。 具体的には、経験的共分散データ行列 $\bar{\bf{C}}$ が与えられたとき、まず、符号付きグラフ $\mathcal{G}$ に対応するスパース逆行列 (グラフ Laplacian) $\mathcal{L}$ を学ぶ。 ラプラシアン $\mathcal{L}_B$ の固有ベクトルを、バランスの取れた符号グラフ $\mathcal{G}_B$ -- エッジウェイト拡張による $\mathcal{G}$ をグラフ周波数成分として定義する。 次に、低パスフィルタ再構成誤差を2ステップで最小化するサンプルを選択する。 まず、ラプラシアン $\mathcal{l}_b$ のすべてのゲルシュゴリン円板左端を最小の固有値 $\lambda_{\min}(\mathcal{l}_b)$ で整列し、類似性変換 $\mathcal{l}_p = \s \mathcal{l}_b \s^{-1}$ を用いて、ゲルシュゴリン円板完全整列 (gdpa) と呼ばれる最近の線形代数定理を利用する。 次に、以前のfast gershgorin disc alignment sampling (gdas) スキームを用いて$\mathcal{l}_p$のサンプリングを行う。 実験の結果, 有署名グラフサンプリング手法は, 既存の高速サンプリング方式を, 様々なデータセット上で明らかに上回っていた。

A basic premise in graph signal processing (GSP) is that a graph encoding pairwise (anti-)correlations of the targeted signal as edge weights is exploited for graph filtering. However, existing fast graph sampling schemes are designed and tested only for positive graphs describing positive correlations. In this paper, we show that for datasets with strong inherent anti-correlations, a suitable graph contains both positive and negative edge weights. In response, we propose a linear-time signed graph sampling method centered on the concept of balanced signed graphs. Specifically, given an empirical covariance data matrix $\bar{\bf{C}}$, we first learn a sparse inverse matrix (graph Laplacian) $\mathcal{L}$ corresponding to a signed graph $\mathcal{G}$. We define the eigenvectors of Laplacian $\mathcal{L}_B$ for a balanced signed graph $\mathcal{G}_B$ -- approximating $\mathcal{G}$ via edge weight augmentation -- as graph frequency components. Next, we choose samples to minimize the low-pass filter reconstruction error in two steps. We first align all Gershgorin disc left-ends of Laplacian $\mathcal{L}_B$ at smallest eigenvalue $\lambda_{\min}(\mathcal{L}_B)$ via similarity transform $\mathcal{L}_p = \S \mathcal{L}_B \S^{-1}$, leveraging a recent linear algebra theorem called Gershgorin disc perfect alignment (GDPA). We then perform sampling on $\mathcal{L}_p$ using a previous fast Gershgorin disc alignment sampling (GDAS) scheme. Experimental results show that our signed graph sampling method outperformed existing fast sampling schemes noticeably on various datasets.
翻訳日:2022-08-19 14:09:08 公開日:2022-08-18
# Profiler: フィッシングメールを検出するプロファイルベースモデル

Profiler: Profile-Based Model to Detect Phishing Emails ( http://arxiv.org/abs/2208.08745v1 )

ライセンス: Link先を確認
Mariya Shmalko, Alsharif Abuadbba, Raj Gaire, Tingmin Wu, Hye-Young Paik, Surya Nepal(参考訳) メールフィッシングが普及し、時間とともに洗練されつつある。 この上昇に対処するため、フィッシングメールを検出する機械学習(ML)アルゴリズムが数多く開発されている。 しかし、これらのアルゴリズムが訓練するメールデータセットが限られているため、さまざまな攻撃を認識することができず、概念の漂流に苦しむ。 時間とともに、文献から報告された正確さと実際の実世界でのアルゴリズムの実効性との間にギャップが生じる。 このことは、しばしば偽陽性と偽陰性な分類に自覚する。 そこで本稿では,攻撃者がメールに適応して検出を回避できる可能性を低減するために,メールの多次元リスク評価を提案する。 メールフィッシング検出のための水平方向のアプローチは、メインの機能で受信メールをプロファイルする。 我々は,(1)脅威レベル,(2)認知操作,(3)eメールの3つのモデルを含むリスクアセスメントフレームワークを開発し,それらを組み合わせて最終リスクアセスメントスコアを返却する。 プロファイラは、トレーニングを行うために大きなデータセットを必要とせず、さまざまなメール機能を分析することで、概念ドリフトの影響を低減できる。 プロファイラは、MLアプローチと併用して、誤分類を減らしたり、トレーニング段階で大規模な電子メールデータセットのラベル付けとして使用することができる。 オーストラリアの大手研究機関による9000の正当性と900のフィッシングメールのデータセットを用いて,最先端のMLアルゴリズムを用いた機械学習アンサンブルに対するプロファイラの有効性を評価する。 以上の結果から,プロファイラはコンセプトドリフトの影響を緩和し,30%の偽陽性率,25%の偽陰性メール分類をMLアンサンブルのアプローチよりも低減させることがわかった。

Email phishing has become more prevalent and grows more sophisticated over time. To combat this rise, many machine learning (ML) algorithms for detecting phishing emails have been developed. However, due to the limited email data sets on which these algorithms train, they are not adept at recognising varied attacks and, thus, suffer from concept drift; attackers can introduce small changes in the statistical characteristics of their emails or websites to successfully bypass detection. Over time, a gap develops between the reported accuracy from literature and the algorithm's actual effectiveness in the real world. This realises itself in frequent false positive and false negative classifications. To this end, we propose a multidimensional risk assessment of emails to reduce the feasibility of an attacker adapting their email and avoiding detection. This horizontal approach to email phishing detection profiles an incoming email on its main features. We develop a risk assessment framework that includes three models which analyse an email's (1) threat level, (2) cognitive manipulation, and (3) email type, which we combine to return the final risk assessment score. The Profiler does not require large data sets to train on to be effective and its analysis of varied email features reduces the impact of concept drift. Our Profiler can be used in conjunction with ML approaches, to reduce their misclassifications or as a labeller for large email data sets in the training stage. We evaluate the efficacy of the Profiler against a machine learning ensemble using state-of-the-art ML algorithms on a data set of 9000 legitimate and 900 phishing emails from a large Australian research organisation. Our results indicate that the Profiler's mitigates the impact of concept drift, and delivers 30% less false positive and 25% less false negative email classifications over the ML ensemble's approach.
翻訳日:2022-08-19 14:08:27 公開日:2022-08-18
# ニューラルネットワークのリフトブレグマントレーニング

Lifted Bregman Training of Neural Networks ( http://arxiv.org/abs/2208.08772v1 )

ライセンス: Link先を確認
Xiaoyu Wang, Martin Benning(参考訳) 本稿では,(潜在的に非スムースな)近位写像を活性化関数とするフィードフォワードニューラルネットワークのトレーニングのための新しい数学的定式化を提案する。 この定式化はブレグマン距離に基づいており、ネットワークのパラメータに関する偏微分がネットワークのアクティベーション関数の微分の計算を必要としないという利点がある。 一階最適化法とバックプロパゲーション(最先端であるように)の組み合わせでパラメータを推定する代わりに、新しい定式化の特定の構造を利用する非スムース一階最適化法を提案する。 本稿では,これらの学習手法がニューラルネットワークに基づく分類器の訓練や,従来の学習フレームワークに比べてスパース符号化による自動エンコーダの訓練に等しく,あるいはさらに適していることを示す数値的結果を示す。

We introduce a novel mathematical formulation for the training of feed-forward neural networks with (potentially non-smooth) proximal maps as activation functions. This formulation is based on Bregman distances and a key advantage is that its partial derivatives with respect to the network's parameters do not require the computation of derivatives of the network's activation functions. Instead of estimating the parameters with a combination of first-order optimisation method and back-propagation (as is the state-of-the-art), we propose the use of non-smooth first-order optimisation methods that exploit the specific structure of the novel formulation. We present several numerical results that demonstrate that these training approaches can be equally well or even better suited for the training of neural network-based classifiers and (denoising) autoencoders with sparse coding compared to more conventional training frameworks.
翻訳日:2022-08-19 14:08:00 公開日:2022-08-18
# 自己組織地図を用いた血液細胞自動解析のための異常検出

Outlier Detection using Self-Organizing Maps for Automated Blood Cell Analysis ( http://arxiv.org/abs/2208.08834v1 )

ライセンス: Link先を確認
Stefan R\"ohrl, Alice Hein, Lucie Huang, Dominik Heim, Christian Klenk, Manuel Lengl, Martin Knopp, Nawal Hafez, Oliver Hayden, Klaus Diepold(参考訳) データセットの品質は、ディープラーニングモデルのトレーニングとデプロイの成功に重要な役割を果たします。 特に患者の健康に影響を及ぼす可能性のある医療分野では、クリーンデータセットは信頼性の高い予測のための安全要件である。 したがって、自動臨床意思決定システムを構築する際には、異常検出が不可欠である。 本研究では, 白血球の定量的位相画像を含む医用データセットにおいて, 異常検出のための自己組織化マップの適合性を評価する。 量子化誤差と距離マップに基づいて異常値の検出と評価を行う。 本研究は,手元データセットにおける非教師あり分布検出のための自己組織化マップの適合性を確認した。 自己組織化マップは、専門家のドメイン知識に基づいて手動で指定されたフィルタと同等に機能する。 さらに、医療データセットの探索とクリーニングのツールとしてのpromiseも示す。 今後の研究の方向性として,ディープラーニングに基づく自己組織化マップと特徴抽出の組み合わせを提案する。

The quality of datasets plays a crucial role in the successful training and deployment of deep learning models. Especially in the medical field, where system performance may impact the health of patients, clean datasets are a safety requirement for reliable predictions. Therefore, outlier detection is an essential process when building autonomous clinical decision systems. In this work, we assess the suitability of Self-Organizing Maps for outlier detection specifically on a medical dataset containing quantitative phase images of white blood cells. We detect and evaluate outliers based on quantization errors and distance maps. Our findings confirm the suitability of Self-Organizing Maps for unsupervised Out-Of-Distribution detection on the dataset at hand. Self-Organizing Maps perform on par with a manually specified filter based on expert domain knowledge. Additionally, they show promise as a tool in the exploration and cleaning of medical datasets. As a direction for future research, we suggest a combination of Self-Organizing Maps and feature extraction based on deep learning.
翻訳日:2022-08-19 14:07:44 公開日:2022-08-18
# ソーシャルメディア上で共有されたユーザビデオの復元

Restoration of User Videos Shared on Social Media ( http://arxiv.org/abs/2208.08597v1 )

ライセンス: Link先を確認
Hongming Luo, Fei Zhou, Kin-man Lam, and Guoping Qiu(参考訳) ソーシャルメディアプラットフォームで共有されているユーザービデオは、通常、未知のプロプライエタリな処理手順によって引き起こされる劣化に苦しんでいる。 本稿では,ソーシャルメディアプラットフォーム上で共有されるユーザビデオの復元のための汎用的ビデオ復元フレームワークを提案する。 特徴抽出をブラックボックスとして扱う深層学習に基づくビデオ復元手法では,機能の役割が不明な場合が多いが,本手法では,adapTive dEgradation Sensing (VOTES) によるビデオ復元 (Video restOration) という手法を用いて,映像復元過程を明示的に導くための劣化特徴マップ (DFM) の概念を導入している。 具体的には、各ビデオフレームに対して、まずDFMを適応的に推定し、各領域の復元が困難であることを示す特徴を抽出する。 次に,dfmを畳み込みニューラルネットワーク(cnn)に供給し,階層的劣化特性を計算し,エンド・ツー・エンドのビデオ復元バックボーンネットワークを変調する。 本稿では,VOTESフレームワークの設計原理を説明し,新しいVOTES法が様々な最先端技術よりも定量的かつ定性的に優れていることを示す。 さらに,さまざまなソーシャルメディアプラットフォーム上で共有されるユーザビデオの大規模実世界データベースにコントリビュートする。 コードとデータセットはhttps://github.com/luohongming/votes.gitで入手できる。

User videos shared on social media platforms usually suffer from degradations caused by unknown proprietary processing procedures, which means that their visual quality is poorer than that of the originals. This paper presents a new general video restoration framework for the restoration of user videos shared on social media platforms. In contrast to most deep learning-based video restoration methods that perform end-to-end mapping, where feature extraction is mostly treated as a black box, in the sense that what role a feature plays is often unknown, our new method, termed Video restOration through adapTive dEgradation Sensing (VOTES), introduces the concept of a degradation feature map (DFM) to explicitly guide the video restoration process. Specifically, for each video frame, we first adaptively estimate its DFM to extract features representing the difficulty of restoring its different regions. We then feed the DFM to a convolutional neural network (CNN) to compute hierarchical degradation features to modulate an end-to-end video restoration backbone network, such that more attention is paid explicitly to potentially more difficult to restore areas, which in turn leads to enhanced restoration performance. We will explain the design rationale of the VOTES framework and present extensive experimental results to show that the new VOTES method outperforms various state-of-the-art techniques both quantitatively and qualitatively. In addition, we contribute a large scale real-world database of user videos shared on different social media platforms. Codes and datasets are available at https://github.com/luohongming/VOTES.git
翻訳日:2022-08-19 14:05:23 公開日:2022-08-18
# 略分類点クラウドデータの調整可能な極点サンプリング法

An Adjustable Farthest Point Sampling Method for Approximately-sorted Point Cloud Data ( http://arxiv.org/abs/2208.08795v1 )

ライセンス: Link先を確認
Jingtao Li, Jian Zhou, Yan Xiong, Xing Chen and Chaitali Chakrabarti(参考訳) サンプリングは、人気のあるPointNet++スキームのような生のポイントクラウドデータ処理の重要な部分である。 最遠点サンプリング(farthest point sampling, fps)は、最遠点を反復的にサンプリングし、距離更新を行う、最も人気のあるサンプリングスキームの1つである。 残念ながら効率が悪く、ポイントクラウドアプリケーションのボトルネックになる可能性がある。 サンプリング性能を損なうことなく、FPSの複雑さを積極的に軽減するために、Mによりパラメータ化された調整可能なFPS(AFPS)を提案する。 具体的には、元の点雲をM小点雲に分割し、同時にM点をサンプリングする。 ほぼソートされた点クラウドデータの次元的局所性を利用して、その性能劣化を最小限に抑える。 AFPS法はオリジナルのFPSの22倍から30倍の高速化を実現する。 さらに,距離更新回数を一定数に制限するNPDU法を提案する。 AFPS法で組み合わせたNPDUは、元のFPSに匹敵するアルゴリズム性能を持つ2K-32K点の点雲上で34-280倍の高速化を達成することができる。 例えば、ShapeNetのセグメンテーションタスクでは、0.8490インスタンス平均mIoUを達成しており、元のFPSと比較してわずか0.0035ドロップである。

Sampling is an essential part of raw point cloud data processing such as in the popular PointNet++ scheme. Farthest Point Sampling (FPS), which iteratively samples the farthest point and performs distance updating, is one of the most popular sampling schemes. Unfortunately it suffers from low efficiency and can become the bottleneck of point cloud applications. We propose adjustable FPS (AFPS), parameterized by M, to aggressively reduce the complexity of FPS without compromising on the sampling performance. Specifically, it divides the original point cloud into M small point clouds and samples M points simultaneously. It exploits the dimensional locality of an approximately sorted point cloud data to minimize its performance degradation. AFPS method can achieve 22 to 30x speedup over original FPS. Furthermore, we propose the nearest-point-distance-updating (NPDU) method to limit the number of distance updates to a constant number. The combined NPDU on AFPS method can achieve a 34-280x speedup on a point cloud with 2K-32K points with algorithmic performance that is comparable to the original FPS. For instance, for the ShapeNet part segmentation task, it achieves 0.8490 instance average mIoU (mean Intersection of Union), which is only 0.0035 drop compared to the original FPS.
翻訳日:2022-08-19 14:04:54 公開日:2022-08-18
# 宇宙ラボからの教訓 -画像取得の視点から-

Lessons from a Space Lab -- An Image Acquisition Perspective ( http://arxiv.org/abs/2208.08865v1 )

ライセンス: Link先を確認
Leo Pauly, Michele Lynn Jamrozik, Miguel Ortiz Del Castillo, Olivia Borgue, Inder Pal Singh, Mohatashem Reyaz Makhdoomi, Olga-Orsalia Christidi-Loumpasefski, Vincent Gaudilliere, Carol Martinez, Arunkumar Rathinam, Andreas Hein, Miguel Olivares Mendez, Djamila Aouada(参考訳) 近年,Deep Learning (DL)アルゴリズムの利用により,視覚ベースの空間アプリケーションの性能が向上している。 しかし、これらのDLアルゴリズムをトレーニングするために大量の注釈付きデータを生成することは困難であることが証明されている。 合成生成画像は使用できるが、合成データに基づいて訓練されたdlモデルは、実環境環境でテストする場合、しばしば性能低下の影響を受けやすい。 この文脈において、ルクセンブルク大学の学際的セキュリティ・信頼性・信頼センター(snt)は、実世界の宇宙環境を模倣した条件下で視覚ベースの宇宙アルゴリズムを訓練し検証するための「snt zero-g lab」を開発した。 SnT Zero-G Labの開発の重要な側面は機器の選択であった。 本稿では,実験室開発中に学んだ教訓から,市場調査と機器選択の実験分析を組み合わせた体系的アプローチを提案する。 特に、この記事は、背景材料、カメラ、照明ランプといった宇宙実験室の画像取得装置に焦点を当てている。 実験結果から,実験室開発プロジェクトにおける効率的な機器選択には,実験分析による市場調査が不可欠であることが示唆された。

The use of Deep Learning (DL) algorithms has improved the performance of vision-based space applications in recent years. However, generating large amounts of annotated data for training these DL algorithms has proven challenging. While synthetically generated images can be used, the DL models trained on synthetic data are often susceptible to performance degradation, when tested in real-world environments. In this context, the Interdisciplinary Center of Security, Reliability and Trust (SnT) at the University of Luxembourg has developed the 'SnT Zero-G Lab', for training and validating vision-based space algorithms in conditions emulating real-world space environments. An important aspect of the SnT Zero-G Lab development was the equipment selection. From the lessons learned during the lab development, this article presents a systematic approach combining market survey and experimental analyses for equipment selection. In particular, the article focus on the image acquisition equipment in a space lab: background materials, cameras and illumination lamps. The results from the experiment analyses show that the market survey complimented by experimental analyses is required for effective equipment selection in a space lab development project.
翻訳日:2022-08-19 14:04:31 公開日:2022-08-18
# 衛星画像による環境侵害をほぼリアルタイムで検出する:清浄水法に基づく土地利用

Detecting Environmental Violations with Satellite Imagery in Near Real Time: Land Application under the Clean Water Act ( http://arxiv.org/abs/2208.08919v1 )

ライセンス: Link先を確認
Ben Chugg, Nicolas Rothbacher, Alex Feng, Xiaoqi Long, Daniel E. Ho(参考訳) 本稿では,環境保全にコンピュータビジョンを利用するための,新しい,高精度な環境設定を提案する。 集中動物給餌事業(英語版)(cafos、別名集中家畜農場または工場農場)は重要な肥料と汚染を生み出している。 冬の休養は環境に重大なリスクをもたらし、多くの州で環境法に違反している。 しかし、連邦環境保護庁(epa)と州機関は、そのような「土地申請」の状況を監視するために、主に自己報告に頼っている。 私たちの論文は4つの貢献がある。 まず,cafosの環境・政策・農業設定と土地利用について紹介する。 第2に、ウィスコンシン州の330のCAFOに対して、2018-20年の3m/ピクセルの高周期衛星画像の新しいデータセットを提供する(n=57,697)。 第3に,土地利用予測のための物体検出モデルと,ほぼリアルタイムで推論を行うシステムを開発する。 その結果,本システムは効果的に土地利用を検知し (pr auc = 0.93) ,定期的かつ過度に適用されると思われるいくつかの異常施設を明らかにすることができた。 最後に,2021/22冬期における土地利用の頻度を推定した。 本研究は, 施設が自己申告するよりも, 土地利用の有病率が高いことを示す。 このシステムは、環境規制当局と利害関係者グループによって利用することができ、この冬、このシステムに基づいて実地訪問をパイロット化した。 全体として、我々のアプリケーションは、近日画像による環境コンプライアンスにおける大きな問題を解決するために、AIベースのコンピュータビジョンシステムの可能性を示している。

This paper introduces a new, highly consequential setting for the use of computer vision for environmental sustainability. Concentrated Animal Feeding Operations (CAFOs) (aka intensive livestock farms or "factory farms") produce significant manure and pollution. Dumping manure in the winter months poses significant environmental risks and violates environmental law in many states. Yet the federal Environmental Protection Agency (EPA) and state agencies have relied primarily on self-reporting to monitor such instances of "land application." Our paper makes four contributions. First, we introduce the environmental, policy, and agricultural setting of CAFOs and land application. Second, we provide a new dataset of high-cadence (daily to weekly) 3m/pixel satellite imagery from 2018-20 for 330 CAFOs in Wisconsin with hand labeled instances of land application (n=57,697). Third, we develop an object detection model to predict land application and a system to perform inference in near real-time. We show that this system effectively appears to detect land application (PR AUC = 0.93) and we uncover several outlier facilities which appear to apply regularly and excessively. Last, we estimate the population prevalence of land application events in Winter 2021/22. We show that the prevalence of land application is much higher than what is self-reported by facilities. The system can be used by environmental regulators and interest groups, one of which piloted field visits based on this system this past winter. Overall, our application demonstrates the potential for AI-based computer vision systems to solve major problems in environmental compliance with near-daily imagery.
翻訳日:2022-08-19 14:04:13 公開日:2022-08-18
# 接触面登録による安定物体の配向

Stable Object Reorientation using Contact Plane Registration ( http://arxiv.org/abs/2208.08962v1 )

ライセンス: Link先を確認
Richard Li, Carlos Esteves, Ameesh Makadia, Pulkit Agrawal(参考訳) 多様な剛体物体に対する安定配向を正確に予測するシステムを提案する。 本研究では, 条件付き生成モデルを用いて接触面を正確に分類することにより, 回転空間における多様性モデリングの問題点を克服する。 我々のシステムは,実世界深度カメラで捉えたノイズや部分的に観測された点雲観測から操作することができる。 本手法は,高精度な回転を必要とするシミュレーションスタッキングタスクにおいて,現在の最先端システムを大きく上回り,実世界リオリエンテーションタスクにおいて,未知のさまざまな物体に対して強いsim2実数ゼロショット転送結果を示す。 プロジェクトウェブサイト: \url{https://richardrl.github.io/stable-reorientation/}

We present a system for accurately predicting stable orientations for diverse rigid objects. We propose to overcome the critical issue of modelling multimodality in the space of rotations by using a conditional generative model to accurately classify contact surfaces. Our system is capable of operating from noisy and partially-observed pointcloud observations captured by real world depth cameras. Our method substantially outperforms the current state-of-the-art systems on a simulated stacking task requiring highly accurate rotations, and demonstrates strong sim2real zero-shot transfer results across a variety of unseen objects on a real world reorientation task. Project website: \url{https://richardrl.github.io/stable-reorientation/}
翻訳日:2022-08-19 14:03:50 公開日:2022-08-18
# 統合オントロジを代数的に

Merging Ontologies Algebraically ( http://arxiv.org/abs/2208.08715v1 )

ライセンス: Link先を確認
Xiuzhan Guo, Arthur Berrill, Ajinkya Kulkarni, Kostya Belezko, and Min Luo(参考訳) オントロジー演算(例えば、アライメントとマージ)は、カテゴリー演算、関係代数、型付きグラフ文法など、様々な設定で研究され、実装された。 However, aligning and merging operations in the settings share some generic properties, e.g., idempotence, commutativity, associativity, and representativity, labeled by (I), (C), (A), and (R), respectively, which are defined on an ontology merging system $(\mathfrak{O},\sim,\merge)$, where $\mathfrak{O}$ is a set of the ontologies concerned, $\sim$ is a binary relation on $\mathfrak{O}$ modeling ontology aligning and $\merge$ is a partial binary operation on $\mathfrak{O}$ modeling ontology merging. オントロジーのレポジトリが与えられたとき、有限集合 $\mathbb{O}\subseteq \mathfrak{O}$, そのマージクロージャ $\widehat{\mathbb{O}}$ は、そのレポジトリを含み、マージに関して閉じている最小のオントロジーの集合である。 i), (c), (a), (r) が満たされると、$\mathfrak{o}$ と $\widehat{\mathbb{o}}$ はマージによって部分的に順序付けされ、$\widehat{\mathbb{o}}$ は有限であり、例えば極大オントロジーや最小オントロジーのような特定の要素のソート、選択、クエリを含む効率的な計算が可能である。 また、オントロジ$v$-アレーメントペアとプッシュアウトによって与えられるオントロジマージシステムは、マージシステムが部分的に順序付けされ、プッシュアウトに関する所定のリポジトリのマージクロージャを効率的に計算できるように、プロパティ: (i), (c), (a), (r) を満たす。

Ontology operations, e.g., aligning and merging, were studied and implemented extensively in different settings, such as, categorical operations, relation algebras, typed graph grammars, with different concerns. However, aligning and merging operations in the settings share some generic properties, e.g., idempotence, commutativity, associativity, and representativity, labeled by (I), (C), (A), and (R), respectively, which are defined on an ontology merging system $(\mathfrak{O},\sim,\merge)$, where $\mathfrak{O}$ is a set of the ontologies concerned, $\sim$ is a binary relation on $\mathfrak{O}$ modeling ontology aligning and $\merge$ is a partial binary operation on $\mathfrak{O}$ modeling ontology merging. Given an ontology repository, a finite set $\mathbb{O}\subseteq \mathfrak{O}$, its merging closure $\widehat{\mathbb{O}}$ is the smallest set of ontologies, which contains the repository and is closed with respect to merging. If (I), (C), (A), and (R) are satisfied, then both $\mathfrak{O}$ and $\widehat{\mathbb{O}}$ are partially ordered naturally by merging, $\widehat{\mathbb{O}}$ is finite and can be computed efficiently, including sorting, selecting, and querying some specific elements, e.g., maximal ontologies and minimal ontologies. We also show that the ontology merging system, given by ontology $V$-alignment pairs and pushouts, satisfies the properties: (I), (C), (A), and (R) so that the merging system is partially ordered and the merging closure of a given repository with respect to pushouts can be computed efficiently.
翻訳日:2022-08-19 14:03:07 公開日:2022-08-18
# 垂直的フェデレーション学習のためのハイブリッド自己監督学習フレームワーク

A Hybrid Self-Supervised Learning Framework for Vertical Federated Learning ( http://arxiv.org/abs/2208.08934v1 )

ライセンス: Link先を確認
Yuanqin He, Yan Kang, Jiahuan Luo, Lixin Fan, Qiang Yang(参考訳) フェデレートラーニング(FL)は、データプライバシを保護しながら、独立して機械学習(ML)モデルを構築することを可能にする。 flの変種であるvertical federated learning(vfl)は最近、vflがデータプライバシを損なうことなくよりよいモデルパフォーマンスを達成するために、より価値のある機能を活用するという企業の要求に合致するため、注目を集めている。 しかしながら、従来のVFLは、ラベル付きの整列したサンプル(パーティによって異なる)しか利用できないため、データ不足に陥る可能性がある。 データ不足は連邦の努力を妨げます。 本研究では,federated hybrid self-supervised learning framework(federated hybrid self-supervised learning framework,federssl)を提案する。 FedHSSLの中核となる考え方は、SSL(例えばSimSiam)を通じて共同VFLモデルの表現学習能力を改善するために、パーティ間で整列されたサンプルのパーティビュー(すなわち分散した特徴)と各パーティ内のサンプルのローカルビュー(すなわち拡張)を利用することである。 fedhsslはさらに、パーティ間で共有される汎用機能を活用して、部分的モデル集約によるジョイントモデルのパフォーマンスを高めている。 我々はFedHSSLが,特にラベル付きサンプルの数が少ない場合に,ベースライン法と比較して大きな性能向上を達成できることを実証的に実証した。 プライバシー漏洩に関するFedHSSLの詳細な分析を行うが、既存の自己管理型VFL作品ではめったに議論されていない。 我々はFedHSSLの保護機構について検討する。 その結果,我々の保護が最先端のラベル推論攻撃を妨害できることが示されている。

Federated learning (FL) enables independent parties to collaboratively build machine learning (ML) models while protecting data privacy. Vertical federated learning (VFL), a variant of FL, has recently drawn increasing attention as the VFL matches the enterprises' demands of leveraging more valuable features to achieve better model performance without jeopardizing data privacy. However, conventional VFL may run into data deficiency as it is only able to exploit aligned samples (belonging to different parties) with labels, leaving often the majority of unaligned and unlabeled samples unused. The data deficiency hampers the effort of the federation. In this work, we propose a Federated Hybrid Self-Supervised Learning framework, coined FedHSSL, to utilize all available data (including unaligned and unlabeled samples) of participants to train the joint VFL model. The core idea of FedHSSL is to utilize cross-party views (i.e., dispersed features) of samples aligned among parties and local views (i.e., augmentations) of samples within each party to improve the representation learning capability of the joint VFL model through SSL (e.g., SimSiam). FedHSSL further exploits generic features shared among parties to boost the performance of the joint model through partial model aggregation. We empirically demonstrate that our FedHSSL achieves significant performance gains compared with baseline methods, especially when the number of labeled samples is small. We provide an in-depth analysis of FedHSSL regarding privacy leakage, which is rarely discussed in existing self-supervised VFL works. We investigate the protection mechanism for FedHSSL. The results show our protection can thwart the state-of-the-art label inference attack.
翻訳日:2022-08-19 13:58:20 公開日:2022-08-18
# ソーシャルレコメンデーションのための異形コントラスト学習

Disentangled Contrastive Learning for Social Recommendation ( http://arxiv.org/abs/2208.08723v1 )

ライセンス: Link先を確認
Jiahao Wu, Wenqi Fan, Jingfan Chen, Shengcai Liu, Qing Li, Ke Tang(参考訳) 社会的レコメンデーションは、社会的関係を利用してレコメンデーションの表現学習を強化する。 ほとんどのソーシャルレコメンデーションモデルは、ユーザとイテムの相互作用(協調ドメイン)と社会的関係(社会ドメイン)を統一する。 しかし、このようなアプローチでは2つのドメインで不均一な動作パターンをモデル化できず、ユーザ表現の表現性が損なわれる可能性がある。 本研究では,このような制限に対処する上で,ソーシャルレコメンデーションDcRecのための新しいコントラスト学習フレームワークを提案する。 より具体的には、アイテムとソーシャルドメインから絡み合ったユーザー表現を学ぶことを提案する。 また,ソーシャルレコメンデーションのために,異種ユーザ間の知識伝達を行うために,異種コントラスト学習が設計されている。 各種実世界のデータセットに関する総合実験により,提案モデルの有効性が示された。

Social recommendations utilize social relations to enhance the representation learning for recommendations. Most social recommendation models unify user representations for the user-item interactions (collaborative domain) and social relations (social domain). However, such an approach may fail to model the users heterogeneous behavior patterns in two domains, impairing the expressiveness of user representations. In this work, to address such limitation, we propose a novel Disentangled contrastive learning framework for social Recommendations DcRec. More specifically, we propose to learn disentangled users representations from the item and social domains. Moreover, disentangled contrastive learning is designed to perform knowledge transfer between disentangled users representations for social recommendations. Comprehensive experiments on various real-world datasets demonstrate the superiority of our proposed model.
翻訳日:2022-08-19 13:57:29 公開日:2022-08-18
# エンドユーザーインスパイア設計によるXAIアルゴリズム境界の超越

Transcending XAI Algorithm Boundaries through End-User-Inspired Design ( http://arxiv.org/abs/2208.08739v1 )

ライセンス: Link先を確認
Weina Jin, Jianyu Fan, Diane Gromala, Philippe Pasquier, Xiaoxiao Li, Ghassan Hamarneh(参考訳) 既存の説明可能な人工知能(XAI)アルゴリズムの境界は、技術的ユーザによる説明可能性の要求に基づく問題に限られている。 この研究パラダイムは、技術知識を持っていないがAI支援による批判的な決定に説明を必要とするXAIの非技術エンドユーザーの大規模なグループを無視している。 エンドユーザに対する説明責任を重視した機能サポートの欠如は、医療、刑事司法、財務、自動運転システムといった高度な領域におけるAIの安全で責任ある使用を妨げる可能性がある。 本稿では,エンドユーザのクリティカルなタスクに合わせたxaiの設計が,新たな技術的問題のフレーミングを刺激する方法について検討する。 XAIアルゴリズムの解釈と要件を抽出するために、まず8つの説明形式を、機能、例、ルールを用いた説明など、AI研究者とエンドユーザ間のコミュニケーションツールとして特定する。 説明フォームを用いて,4つの重要なタスクにおいて,異なる説明目標(ai判断の検証,ユーザの予測結果の改善など)を達成するという文脈で,32名の参加者とユーザ調査を行う。 ユーザ調査の結果に基づいて,新しいXAI技術問題を特定し,定式化するとともに,AI決定の検証というユーザの説明目標に基づく評価基準検証性を提案する。 私たちの研究は、エンドユーザのxai利用における技術的な問題を基礎化することで、新たな研究課題を提起できることを示しています。 このようなエンドユーザにインスパイアされた研究質問は、AIを民主化し、クリティカルドメインにおけるAIの責任ある使用を保証することによって、社会的善を促進できる可能性がある。

The boundaries of existing explainable artificial intelligence (XAI) algorithms are confined to problems grounded in technical users' demand for explainability. This research paradigm disproportionately ignores the larger group of non-technical end users of XAI, who do not have technical knowledge but need explanations in their AI-assisted critical decisions. Lacking explainability-focused functional support for end users may hinder the safe and responsible use of AI in high-stakes domains, such as healthcare, criminal justice, finance, and autonomous driving systems. In this work, we explore how designing XAI tailored to end users' critical tasks inspires the framing of new technical problems. To elicit users' interpretations and requirements for XAI algorithms, we first identify eight explanation forms as the communication tool between AI researchers and end users, such as explaining using features, examples, or rules. Using the explanation forms, we then conduct a user study with 32 layperson participants in the context of achieving different explanation goals (such as verifying AI decisions, and improving user's predicted outcomes) in four critical tasks. Based on the user study findings, we identify and formulate novel XAI technical problems, and propose an evaluation metric verifiability based on users' explanation goal of verifying AI decisions. Our work shows that grounding the technical problem in end users' use of XAI can inspire new research questions. Such end-user-inspired research questions have the potential to promote social good by democratizing AI and ensuring the responsible use of AI in critical domains.
翻訳日:2022-08-19 13:57:14 公開日:2022-08-18
# プロセス計画とマイニングの自動化に向けて

Towards Automated Process Planning and Mining ( http://arxiv.org/abs/2208.08943v1 )

ライセンス: Link先を確認
Peter Fettke and Alexander Rombach(参考訳) AIプランニング、機械学習、プロセスマイニングは、これまで別々の研究分野に発展してきた。 同時に、近年、これらの領域の交差点で多くの興味深い概念と洞察が得られている。 例えば、将来のプロセスの振る舞いは機械学習の助けを借りて包括的に予測される。 しかし,これらの知見を実践するには,期待されるコースを知るだけでなく,目標達成のための提言やヒント,すなわち総合的なプロセス計画を行う必要がある。 同時に、前述の研究分野の適切な統合は依然として不十分である。 本稿では、AIとBPM分野の研究者が共同で働く研究プロジェクトについて紹介する。 そこで本研究では,実行プロセスデータからプロセスモデルを自動的に導出し,その後の計画問題から導出し,自動計画を行い,リアルタイム予測を用いてビジネスプロセスを適応的に計画・実行するための総合的な研究課題,関連する研究分野,および総合的な研究枠組みについて論じる。

AI Planning, Machine Learning and Process Mining have so far developed into separate research fields. At the same time, many interesting concepts and insights have been gained at the intersection of these areas in recent years. For example, the behavior of future processes is now comprehensively predicted with the aid of Machine Learning. For the practical application of these findings, however, it is also necessary not only to know the expected course, but also to give recommendations and hints for the achievement of goals, i.e. to carry out comprehensive process planning. At the same time, an adequate integration of the aforementioned research fields is still lacking. In this article, we present a research project in which researchers from the AI and BPM field work jointly together. Therefore, we discuss the overall research problem, the relevant fields of research and our overall research framework to automatically derive process models from executional process data, derive subsequent planning problems and conduct automated planning in order to adaptively plan and execute business processes using real-time forecasts.
翻訳日:2022-08-19 13:56:47 公開日:2022-08-18
# lost in the shuffle: エラーの多いネットワーク頂点ラベルの存在下でのテストパワー

Lost in the Shuffle: Testing Power in the Presence of Errorful Network Vertex Labels ( http://arxiv.org/abs/2208.08638v1 )

ライセンス: Link先を確認
Ayushi Saxena and Vince Lyzinski(参考訳) 多くの2つのサンプルネットワーク仮説テスト手法は、ネットワーク間の頂点対応が既知であるという暗黙の仮定の下で動作する。 本稿では,ネットワーク間の不整合/ラベルシャッフルの頂点が存在する場合の2サンプルグラフ仮説テストにおけるパワー低下について考察する。 確率的ブロックモデルネットワークの文脈では、推定エッジ確率行列と隣接行列との間のFrobeniusノルム差に基づく一対の仮説テストのシャッフルによるパワー損失を理論的に探索する。 テストパワーの損失は、確率ブロックモデルとランダムドット積グラフモデルの両方において多くのシミュレーションや実験によってさらに強化され、最近提案された複数のテスト間でのパワー損失を比較する。 最後に、神経科学とソーシャルネットワーク分析の2つの例において、シャッフルが実データテストにもたらす影響を実証する。

Many two-sample network hypothesis testing methodologies operate under the implicit assumption that the vertex correspondence across networks is a priori known. In this paper, we consider the degradation of power in two-sample graph hypothesis testing when there are misaligned/label-shuffled vertices across networks. In the context of stochastic block model networks, we theoretically explore the power loss due to shuffling for a pair of hypothesis tests based on Frobenius norm differences between estimated edge probability matrices or between adjacency matrices. The loss in testing power is further reinforced by numerous simulations and experiments, both in the stochastic block model and in the random dot product graph model, where we compare the power loss across multiple recently proposed tests in the literature. Lastly, we demonstrate the impact that shuffling can have in real-data testing in a pair of examples from neuroscience and from social network analysis.
翻訳日:2022-08-19 13:56:22 公開日:2022-08-18
# NeIF:未校正光度ステレオの一般反射をニューラル固有場として表現する

NeIF: Representing General Reflectance as Neural Intrinsics Fields for Uncalibrated Photometric Stereo ( http://arxiv.org/abs/2208.08897v1 )

ライセンス: Link先を確認
Zongrui Li, Qian Zheng, Feishi Wang, Boxin Shi, Gang Pan, Xudong Jiang(参考訳) 非平衡測光ステレオ(UPS)は、未知の光によってもたらされる固有の曖昧さのために困難である。 既存の解は、光条件への反射を明示的に関連付けるか、監督された方法で光条件を解消することによって曖昧さを緩和する。 本稿では,光手がかりと光推定の暗黙の関係を確立し,教師なしの方法でUPSを解く。 キーとなるアイデアは、反射を4つの神経内在界、すなわち、位置、光、スペクトル、影として表現することであり、そこでは、神経の光場が、スペクトル反射と鋳造影の光の手がかりと暗黙的に関連付けられている。 ニューラルネットワークフィールドの教師なし共同最適化は、トレーニングデータバイアスや累積誤差から解放され、UPSのすべての観測画素値を完全に活用することができる。 提案手法は,正規かつ挑戦的な設定の下で,公開および自己コンパイルされたデータセット上での最先端UPS手法よりも優れた性能を実現する。 コードはまもなくリリースされる。

Uncalibrated photometric stereo (UPS) is challenging due to the inherent ambiguity brought by unknown light. Existing solutions alleviate the ambiguity by either explicitly associating reflectance to light conditions or resolving light conditions in a supervised manner. This paper establishes an implicit relation between light clues and light estimation and solves UPS in an unsupervised manner. The key idea is to represent the reflectance as four neural intrinsics fields, \ie, position, light, specular, and shadow, based on which the neural light field is implicitly associated with light clues of specular reflectance and cast shadow. The unsupervised, joint optimization of neural intrinsics fields can be free from training data bias as well as accumulating error, and fully exploits all observed pixel values for UPS. Our method achieves a superior performance advantage over state-of-the-art UPS methods on public and self-collected datasets, under regular and challenging setups. The code will be released soon.
翻訳日:2022-08-19 13:53:20 公開日:2022-08-18
# 領域一般化のためのプロンプトビジョントランスフォーマ

Prompt Vision Transformer for Domain Generalization ( http://arxiv.org/abs/2208.08914v1 )

ライセンス: Link先を確認
Zangwei Zheng, Xiangyu Yue, Kai Wang, Yang You(参考訳) 視覚変換器 (ViT) は, 表現学習の優れた能力を示したが, 従来の領域一般化アルゴリズムではよく見えない領域に一般化できない。 本稿では,対象領域予測のために,ソース領域の知識をドメインプロンプトに埋め込むためのプロンプト学習に基づく新しい手法であるdopromptを提案する。 具体的には、ドメインプロンプトは対応するソースドメインからのViT入力トークンの前にプリペアされる。 各ドメインのプロンプトはドメイン固有の知識を効率的に学習する。 一方、プロンプトアダプタをトレーニングして、学習したソースドメインプロンプトに基づいて、入力画像毎に適切なプロンプトを生成する。 テスト時にプロンプトアダプタによって生成された適応プロンプトは、ソースドメインの知識を適切に統合するために、ドメイン外イメージとソースドメインの機能の類似性を利用することができる。 4つのベンチマークデータセットで大規模な実験を行う。 提案手法は平均精度が1.4%向上し,vitバックボーンを用いた最先端アルゴリズムの3.5倍向上した。

Though vision transformers (ViTs) have exhibited impressive ability for representation learning, we empirically find that they cannot generalize well to unseen domains with previous domain generalization algorithms. In this paper, we propose a novel approach DoPrompt based on prompt learning to embed the knowledge of source domains in domain prompts for target domain prediction. Specifically, domain prompts are prepended before ViT input tokens from the corresponding source domain. Each domain prompt learns domain-specific knowledge efficiently since it is optimized only for one domain. Meanwhile, we train a prompt adapter to produce a suitable prompt for each input image based on the learned source domain prompts. At test time, the adapted prompt generated by the prompt adapter can exploit the similarity between the feature of the out-of-domain image and source domains to properly integrate the source domain knowledge. Extensive experiments are conducted on four benchmark datasets. Our approach achieves 1.4% improvements in the averaged accuracy, which is 3.5 times the improvement of the state-of-the-art algorithm with a ViT backbone.
翻訳日:2022-08-19 13:53:01 公開日:2022-08-18
# MaskCLIPを用いたオープンボキャブラリパノプティックセグメンテーション

Open-Vocabulary Panoptic Segmentation with MaskCLIP ( http://arxiv.org/abs/2208.08984v1 )

ライセンス: Link先を確認
Zheng Ding, Jieke Wang, Zhuowen Tu(参考訳) 本稿では,テキスト記述の任意のカテゴリに対してパノプティブセグメンテーション(背景意味ラベリング+前景インスタンスセグメンテーション)を行うことを目的とした,新しいコンピュータビジョンタスクであるopen-vocabulary panoptic segmentationに取り組む。 まず,既存のクリップモデルの知識を活用すべく,微調整や蒸留を行わずにベースライン法を構築する。 次に,vitベースのクリップバックボーンを用いたマスククエリを用いたトランスフォーマティブベースのアプローチである maskclip を開発し,意味セグメンテーションとオブジェクトインスタンスのセグメンテーションを行う。 ここでは、ViT CLIPモデルに追加トークンとしてセグメンテーションを考慮に入れたRMA(Relative Mask Attention)モジュールを設計する。 MaskCLIPは、外部のCLIPイメージモデルから、収穫画像パッチや計算機能に対する時間を要する操作を回避し、事前訓練された密集/局所的なCLIP機能を有効に活用することを学ぶ。 ade20kとpascalデータセット上でのオープンボカブラリー意味セグメンテーションのためのオープンボカブラリー汎視セグメンテーションと最新結果を奨励する。 カスタムカテゴリを用いた MaskCLIP の定性的な図形を示す。

In this paper, we tackle a new computer vision task, open-vocabulary panoptic segmentation, that aims to perform panoptic segmentation (background semantic labeling + foreground instance segmentation) for arbitrary categories of text-based descriptions. We first build a baseline method without finetuning nor distillation to utilize the knowledge in the existing CLIP model. We then develop a new method, MaskCLIP, that is a Transformer-based approach using mask queries with the ViT-based CLIP backbone to perform semantic segmentation and object instance segmentation. Here we design a Relative Mask Attention (RMA) module to account for segmentations as additional tokens to the ViT CLIP model. MaskCLIP learns to efficiently and effectively utilize pre-trained dense/local CLIP features by avoiding the time-consuming operation to crop image patches and compute feature from an external CLIP image model. We obtain encouraging results for open-vocabulary panoptic segmentation and state-of-the-art results for open-vocabulary semantic segmentation on ADE20K and PASCAL datasets. We show qualitative illustration for MaskCLIP with custom categories.
翻訳日:2022-08-19 13:52:42 公開日:2022-08-18
# ViTによる相対詩予測のための誘導バイアスとしての8点アルゴリズム

The 8-Point Algorithm as an Inductive Bias for Relative Pose Prediction by ViTs ( http://arxiv.org/abs/2208.08988v1 )

ライセンス: Link先を確認
Chris Rockwell, Justin Johnson, David F. Fouhey(参考訳) 2つの画像間の相対的なポーズ(回転と変換)を直接推定するための簡単なベースラインを提案する。 ディープメソッドは最近大きく進歩しているが、しばしば複雑なアーキテクチャやマルチステージアーキテクチャを必要とする。 視覚変換器(ViT)にいくつかの修正を加えることで,その計算を8点アルゴリズムに近づけることができることを示す。 この帰納バイアスは、単純なメソッドが複数の設定で競合することを可能にし、多くの場合、限られたデータレシエーションにおいて強力なパフォーマンス向上を持つ技術状況よりも大幅に改善される。

We present a simple baseline for directly estimating the relative pose (rotation and translation, including scale) between two images. Deep methods have recently shown strong progress but often require complex or multi-stage architectures. We show that a handful of modifications can be applied to a Vision Transformer (ViT) to bring its computations close to the Eight-Point Algorithm. This inductive bias enables a simple method to be competitive in multiple settings, often substantially improving over the state of the art with strong performance gains in limited data regimes.
翻訳日:2022-08-19 13:52:15 公開日:2022-08-18
# aoiに基づく時間的注意グラフニューラルネットワークによる人気予測とコンテンツキャッシング

AoI-based Temporal Attention Graph Neural Network for Popularity Prediction and Content Caching ( http://arxiv.org/abs/2208.08606v1 )

ライセンス: Link先を確認
Jianhang Zhu, Rongpeng Li, Guoru Ding, Chan Wang, Jianjun Wu, Zhifeng Zhao, and Honggang Zhang(参考訳) ネットワーク技術の急速な発展とネットワーク機器の急速な成長に伴い、データスループットは急激に向上している。 セルラーネットワークにおけるバックホールボトルネックの問題に対処し、遅延に関する人々の要求を満たすため、ICN(Information-centric Network)のようなネットワークアーキテクチャは、予測結果に基づいて、限られた人気コンテンツをネットワークの端に積極的に保持する。 一方、コンテンツ(ディープニューラルネットワークモデル、wikipediaのような知識ベースなど)とユーザ間の相互作用は、動的二部グラフと見なすことができる。 本稿では,キャッシュヒット率を最大化するために,実効動的グラフニューラルネットワーク(DGNN)を用いて,両部グラフに埋め込まれた構造パターンと時間パターンを共同学習する。 さらに,進化するグラフのダイナミクスに関する深い洞察を得るために,メッセージの停滞という問題を回避しつつ,貴重な歴史的情報を抽出するための情報時代(aoi)に基づく注意機構を提案する。 この予測モデルを組み合わせて,予測結果に応じてキャッシュ決定を行うキャッシュ選択アルゴリズムを開発した。 その結果,本モデルは実世界の2つのデータセットにおいて,最先端のスキームよりも高い予測精度が得られることがわかった。 ヒットレートの結果は、従来の手法よりも提案したモデルに基づくキャッシュポリシーの優位性をさらに検証する。

Along with the fast development of network technology and the rapid growth of network equipment, the data throughput is sharply increasing. To handle the problem of backhaul bottleneck in cellular network and satisfy people's requirements about latency, the network architecture like information-centric network (ICN) intends to proactively keep limited popular content at the edge of network based on predicted results. Meanwhile, the interactions between the content (e.g., deep neural network models, Wikipedia-alike knowledge base) and users could be regarded as a dynamic bipartite graph. In this paper, to maximize the cache hit rate, we leverage an effective dynamic graph neural network (DGNN) to jointly learn the structural and temporal patterns embedded in the bipartite graph. Furthermore, in order to have deeper insights into the dynamics within the evolving graph, we propose an age of information (AoI) based attention mechanism to extract valuable historical information while avoiding the problem of message staleness. Combining this aforementioned prediction model, we also develop a cache selection algorithm to make caching decisions in accordance with the prediction results. Extensive results demonstrate that our model can obtain a higher prediction accuracy than other state-of-the-art schemes in two real-world datasets. The results of hit rate further verify the superiority of the caching policy based on our proposed model over other traditional ways.
翻訳日:2022-08-19 13:51:28 公開日:2022-08-18
# 大規模産業データにニューラルテンポラリポイントプロセスを適用するための挑戦と機会

Challenges and opportunities in applying Neural Temporal Point Processes to large scale industry data ( http://arxiv.org/abs/2208.08623v1 )

ライセンス: Link先を確認
Dominykas \v{S}eputis, Jevgenij Gamper, Remigijus Paulavi\v{c}ius(参考訳) 本研究では,Nural Temporal Point Process (NTPP) モデルを産業規模の顧客行動データに適用するオープンリサーチの機会を,既知の文献ベンチマークで公表されているNTPPモデルを慎重に再現し,また,NTPP モデルを用いた新たな消費者行動データセットを提案する。 以下に示す課題を特定する。 まず、NTPPモデルは、その生成性にもかかわらず、データセットの不均衡に弱いままであり、稀な事象を予測できない。 第2に、統計的微分方程式に基づくNTPPモデルは、理論上の魅力と文献ベンチマークにおける主要な性能にもかかわらず、大規模データに容易にスケールできない。 前者は、前述した深層生成モデルに関する観測に照らしている。 さらに、コールドスタート問題に対処するために、静的ユーザ機能に基づいたパラメトリゼーションであるNTPPモデルへの新たな追加を検討します。

In this work, we identify open research opportunities in applying Neural Temporal Point Process (NTPP) models to industry scale customer behavior data by carefully reproducing NTPP models published up to date on known literature benchmarks as well as applying NTPP models to a novel, real world consumer behavior dataset that is twice as large as the largest publicly available NTPP benchmark. We identify the following challenges. First, NTPP models, albeit their generative nature, remain vulnerable to dataset imbalances and cannot forecast rare events. Second, NTPP models based on stochastic differential equations, despite their theoretical appeal and leading performance on literature benchmarks, do not scale easily to large industry-scale data. The former is in light of previously made observations on deep generative models. Additionally, to combat a cold-start problem, we explore a novel addition to NTPP models - a parametrization based on static user features.
翻訳日:2022-08-19 13:50:54 公開日:2022-08-18
# hivに対する抗レトロウイルス療法の例

Generating Synthetic Clinical Data that Capture Class Imbalanced Distributions with Generative Adversarial Networks: Example using Antiretroviral Therapy for HIV ( http://arxiv.org/abs/2208.08655v1 )

ライセンス: Link先を確認
Nicholas I-Hsien Kuo, Louisa Jorm and Sebastiano Barbieri(参考訳) 臨床データは、機密性の高い性質のため、通常は自由には配布できないため、医療分野における機械学習の開発を妨げている。 この問題を緩和する一つの方法は、生成的敵ネットワーク(GAN)を使用して現実的な合成データセットを生成することである。 しかし、GANはモード崩壊に苦しむことで知られており、したがって低い発散率の出力を生成する。 本稿では,従来のGANセットアップを外部メモリに拡張し,実際のサンプルから特徴を再生する。 本研究は,ヒト免疫不全ウイルス(ART for HIV)に対する抗レトロウイルス療法を事例として実施し,より重要なこととして,実世界の臨床データに共通する重度のクラス不均衡分布の把握に有効であることを示す。

Clinical data usually cannot be freely distributed due to their highly confidential nature and this hampers the development of machine learning in the healthcare domain. One way to mitigate this problem is by generating realistic synthetic datasets using generative adversarial networks (GANs). However, GANs are known to suffer from mode collapse and thus creating outputs of low diveristy. In this paper, we extend the classic GAN setup with an external memory to replay features from real samples. Using antiretroviral therapy for human immunodeficiency virus (ART for HIV) as a case study, we show that our extended setup increases convergence and more importantly, it is effective in capturing the severe class imbalanced distributions common to real world clinical data.
翻訳日:2022-08-19 13:50:24 公開日:2022-08-18
# 線形二次レギュレータの解法における2時間アクタ臨界のグローバル収束

Global Convergence of Two-timescale Actor-Critic for Solving Linear Quadratic Regulator ( http://arxiv.org/abs/2208.08744v1 )

ライセンス: Link先を確認
Xuyang Chen, Jingliang Duan, Yingbin Liang, Lin Zhao(参考訳) アクター・クリティカル(AC)強化学習アルゴリズムは、多くの挑戦的な応用の原動力となっている。 しかし、その収束は一般に脆弱である。 その不安定性を研究するために、既存の作品は主に有限状態と作用空間を持つ一般的でない二重ループ変種や基本モデルを考える。 そこで, アクターと批評家は, 連続状態と行動空間の反復ごとに1回ずつのサンプルを更新するだけで, 正準線形二次規制 (LQR) 問題を解決するための, より実用的な単サンプル2時間スケールACについて検討する。 既存の分析はそのような挑戦的なケースの収束を結論付けることはできない。 我々は、少なくとも$\tilde{\mathcal{O}}(\epsilon^{-2.5})$サンプル複雑性を持つ$\epsilon$-optimalソリューションへのグローバル収束を確立することができる新しい分析フレームワークを開発する。 我々の知る限り、これはLQRを大域的最適で解くための単一のサンプル2時間ACに対する最初の有限時間収束解析である。 サンプルの複雑さは、他の変種を順序で改善し、単一のサンプルアルゴリズムの実用的な知識に光を当てる。 また, 総合シミュレーションによる解析結果の検証も行った。

The actor-critic (AC) reinforcement learning algorithms have been the powerhouse behind many challenging applications. Nevertheless, its convergence is fragile in general. To study its instability, existing works mostly consider the uncommon double-loop variant or basic models with finite state and action space. We investigate the more practical single-sample two-timescale AC for solving the canonical linear quadratic regulator (LQR) problem, where the actor and the critic update only once with a single sample in each iteration on an unbounded continuous state and action space. Existing analysis cannot conclude the convergence for such a challenging case. We develop a new analysis framework that allows establishing the global convergence to an $\epsilon$-optimal solution with at most an $\tilde{\mathcal{O}}(\epsilon^{-2.5})$ sample complexity. To our knowledge, this is the first finite-time convergence analysis for the single sample two-timescale AC for solving LQR with global optimality. The sample complexity improves those of other variants by orders, which sheds light on the practical wisdom of single sample algorithms. We also further validate our theoretical findings via comprehensive simulation comparisons.
翻訳日:2022-08-19 13:50:08 公開日:2022-08-18
# GraVoS: 3D検出のためのグラディエントベースのVoxel選択

GraVoS: Gradient based Voxel Selection for 3D Detection ( http://arxiv.org/abs/2208.08780v1 )

ライセンス: Link先を確認
Oren Shrout, Yizhak Ben-Shabat, Ayellet Tal(参考訳) 大きな3dシーン内の3dオブジェクト検出は、スリムで不規則な3dポイント雲のためだけでなく、シーンの不均衡とクラス不均衡のため、困難である。 一般的なアプローチは、他のシーンから地上のオブジェクトを追加することである。 別の方法では、要素を追加するのではなく、要素(ボクセル)を削除することでシーンを変更することを提案します。 このアプローチでは、両方のタイプのデータセットの不均衡に対処する方法で、"意味のある"ボクセルを選択します。 このアプローチは一般的なものであり、任意のボクセルベースの検出器に適用できるが、ボクセルの有意義性はネットワーク依存である。 我々のボクセル選択は、いくつかの顕著な3次元検出法の性能を向上させることが示されている。

3D object detection within large 3D scenes is challenging not only due to the sparse and irregular 3D point clouds, but also due to the extreme foreground-background imbalance in the scene and class imbalance. A common approach is to add ground-truth objects from other scenes. Differently, we propose to modify the scenes by removing elements (voxels), rather than adding ones. Our approach selects the "meaningful" voxels, in a manner that addresses both types dataset imbalance. The approach is general and can be applied to any voxel-based detector, yet the meaningfulness of a voxel is network-dependent. Our voxel selection is shown to improve the performance of several prominent 3D detection methods.
翻訳日:2022-08-19 13:47:55 公開日:2022-08-18
# ラベル効率のよい自動診断・解析に向けて:組織画像解析における高度な深層学習に基づく弱視的・半監督的・自己監督的手法の総合的調査

Towards Label-efficient Automatic Diagnosis and Analysis: A Comprehensive Survey of Advanced Deep Learning-based Weakly-supervised, Semi-supervised and Self-supervised Techniques in Histopathological Image Analysis ( http://arxiv.org/abs/2208.08789v1 )

ライセンス: Link先を確認
Linhao Qu, Siyu Liu, Xiaoyu Liu, Manning Wang, Zhijian Song(参考訳) 病理組織像は, 疾患診断における金の基準であり, 予後と治療成績の予測に不可欠である, 豊富な表現型情報と病理パターンを含んでいる。 近年, コンピュータによる病理画像の自動解析技術は, 臨床実践において緊急に必要とされ, 畳み込みニューラルネットワークで表現される深層学習法が, デジタル病理学の分野で徐々に主流になりつつある。 しかし、この分野で大量の細粒度アノテートデータを得ることは非常に高価で難しい作業であり、大量のアノテートデータに基づく従来の教師付きアルゴリズムの開発を妨げている。 近年では従来の教師あり学習パラダイムから解放され始めており、最も代表的なものは弱アノテーションに基づく弱教師あり学習パラダイム、限定アノテーションに基づく半教師あり学習パラダイム、病理画像表現学習に基づく自己教師あり学習パラダイムの研究である。 これらの新しい手法は、アノテーション効率を目標とした、新しい病理画像診断と解析の波を導いた。 130以上の論文を対象とした調査では, 技術的・方法論的な観点から, 弱教師付き学習, 半教師付き学習, 自己教師付き学習に関する最新の研究を包括的かつ体系的に概観する。 最後に,これらの技術の重要な課題と今後の動向を示す。

Histopathological images contain abundant phenotypic information and pathological patterns, which are the gold standards for disease diagnosis and essential for the prediction of patient prognosis and treatment outcome. In recent years, computer-automated analysis techniques for histopathological images have been urgently required in clinical practice, and deep learning methods represented by convolutional neural networks have gradually become the mainstream in the field of digital pathology. However, obtaining large numbers of fine-grained annotated data in this field is a very expensive and difficult task, which hinders the further development of traditional supervised algorithms based on large numbers of annotated data. More recent studies have started to liberate from the traditional supervised paradigm, and the most representative ones are the studies on weakly supervised learning paradigm based on weak annotation, semi-supervised learning paradigm based on limited annotation, and self-supervised learning paradigm based on pathological image representation learning. These new methods have led a new wave of automatic pathological image diagnosis and analysis targeted at annotation efficiency. With a survey of over 130 papers, we present a comprehensive and systematic review of the latest studies on weakly supervised learning, semi-supervised learning, and self-supervised learning in the field of computational pathology from both technical and methodological perspectives. Finally, we present the key challenges and future trends for these techniques.
翻訳日:2022-08-19 13:47:41 公開日:2022-08-18
# COPE: エンドツーエンドのトレーニング可能なConstant Runtime Object Pose Estimation

COPE: End-to-end trainable Constant Runtime Object Pose Estimation ( http://arxiv.org/abs/2208.08807v1 )

ライセンス: Link先を確認
Stefan Thalhammer, Timothy Patten, Markus Vincze(参考訳) State-of-the-art object pose Estimationは、複数モデルの定式化を用いて、テスト画像内の複数のインスタンスを処理する。 その後、パースペクティブ-n-Pointsアルゴリズムを実行時に使用する。 残念ながら、マルチモデルの定式化は遅く、関連するオブジェクトインスタンスの数でうまくスケールしない。 近年のアプローチでは、上記の幾何学的対応から導いた場合、直接6次元オブジェクトのポーズ推定が可能であることが示されている。 本稿では,複数のオブジェクトの中間幾何学的表現を学習して,テスト画像中の全インスタンスの6Dポーズを直接回帰する手法を提案する。 固有のエンドツーエンドのトレーサビリティは、個々のオブジェクトインスタンスを個別に処理する要件を克服します。 相互に交わる結合を計算することで、仮説は別々のインスタンスにまとめられ、オブジェクトインスタンスの数に関して実行時のオーバーヘッドを無視できる。 複数の挑戦的な標準データセットの結果から、ポーズ推定性能は、35倍以上高速であるにもかかわらず、単一モデルの最先端アプローチよりも優れていることが示された。 さらに,90以上のオブジェクトインスタンスが存在する画像に対して,リアルタイム適用性(>24fps)を示す分析も提供する。 さらに,6次元ポーズを用いた幾何対応型オブジェクトポーズ推定の利点を示す。

State-of-the-art object pose estimation handles multiple instances in a test image by using multi-model formulations: detection as a first stage and then separately trained networks per object for 2D-3D geometric correspondence prediction as a second stage. Poses are subsequently estimated using the Perspective-n-Points algorithm at runtime. Unfortunately, multi-model formulations are slow and do not scale well with the number of object instances involved. Recent approaches show that direct 6D object pose estimation is feasible when derived from the aforementioned geometric correspondences. We present an approach that learns an intermediate geometric representation of multiple objects to directly regress 6D poses of all instances in a test image. The inherent end-to-end trainability overcomes the requirement of separately processing individual object instances. By calculating the mutual Intersection-over-Unions, pose hypotheses are clustered into distinct instances, which achieves negligible runtime overhead with respect to the number of object instances. Results on multiple challenging standard datasets show that the pose estimation performance is superior to single-model state-of-the-art approaches despite being more than ~35 times faster. We additionally provide an analysis showing real-time applicability (>24 fps) for images where more than 90 object instances are present. Further results show the advantage of supervising geometric-correspondence-based object pose estimation with the 6D pose.
翻訳日:2022-08-19 13:47:16 公開日:2022-08-18
# 下流タスク損失によるCycleGANによる半教師付きドメイン適応

Semi-supervised domain adaptation with CycleGAN guided by a downstream task loss ( http://arxiv.org/abs/2208.08815v1 )

ライセンス: Link先を確認
Annika M\"utze, Matthias Rottmann, Hanno Gottschalk(参考訳) ドメイン適応は、特にセマンティックセグメンテーションのようなピクセルレベルでラベルを必要とする場合、ラベル付けは高価でエラーを起こしやすいタスクであるため、非常に興味深い。 したがって、データが豊富でラベルが正確である合成ドメイン上でニューラルネットワークをトレーニングできることを望んでいる。 しかし、これらのモデルはドメイン外の画像ではよく機能しない。 入力のシフトを緩和するために、画像から画像へのアプローチが使用できる。 それでも、デプロイドメインを合成トレーニングドメインにブリッジする標準的なイメージ・ツー・イメージのアプローチは、下流タスクではなく、視覚検査レベルにのみフォーカスする。 そこで我々は、画像から画像へのドメイン適応アプローチにおいて、GANの「タスク認識」バージョンを提案する。 合成データ(合成ドメインエキスパート)を訓練した意味セグメンテーションネットワークにおいて,少量のラベル付き基底真理データを用いて,画像から画像への変換をより適切な入力画像に導く。 この作品の主な貢献は 1) セマンティックセグメンテーションの専門家の適応を避けつつ、下流タスク意識のCycleGANを訓練し、セマンティックセグメンテーションのためのモジュール型半教師付きドメイン適応法 2 この方法が複雑な領域適応作業に適用可能であるという実演及び 3)スクラッチネットワークを用いた偏りの少ないドメインギャップ解析。 分類タスクとセマンティックセグメンテーションに基づいて,本手法の評価を行った。 提案手法は,70(10%)の真理画像のみを用いた分類作業において,標準的なイメージ・イメージ・アプローチであるCycleGANの精度を7%向上させることを示した。 セマンティックセグメンテーションでは、トレーニング中に14の真理画像しか持たないCityscapes評価データセットの結合よりも平均4~7%の改善点を示すことができる。

Domain adaptation is of huge interest as labeling is an expensive and error-prone task, especially when labels are needed on pixel-level like in semantic segmentation. Therefore, one would like to be able to train neural networks on synthetic domains, where data is abundant and labels are precise. However, these models often perform poorly on out-of-domain images. To mitigate the shift in the input, image-to-image approaches can be used. Nevertheless, standard image-to-image approaches that bridge the domain of deployment with the synthetic training domain do not focus on the downstream task but only on the visual inspection level. We therefore propose a "task aware" version of a GAN in an image-to-image domain adaptation approach. With the help of a small amount of labeled ground truth data, we guide the image-to-image translation to a more suitable input image for a semantic segmentation network trained on synthetic data (synthetic-domain expert). The main contributions of this work are 1) a modular semi-supervised domain adaptation method for semantic segmentation by training a downstream task aware CycleGAN while refraining from adapting the synthetic semantic segmentation expert 2) the demonstration that the method is applicable to complex domain adaptation tasks and 3) a less biased domain gap analysis by using from scratch networks. We evaluate our method on a classification task as well as on semantic segmentation. Our experiments demonstrate that our method outperforms CycleGAN - a standard image-to-image approach - by 7 percent points in accuracy in a classification task using only 70 (10%) ground truth images. For semantic segmentation we can show an improvement of about 4 to 7 percent points in mean Intersection over union on the Cityscapes evaluation dataset with only 14 ground truth images during training.
翻訳日:2022-08-19 13:46:57 公開日:2022-08-18
# マルチソース地理空間データに基づく都市土地利用マッピングへの粗大なアプローチ

A Coarse-to-Fine Approach for Urban Land Use Mapping Based on Multisource Geospatial Data ( http://arxiv.org/abs/2208.08824v1 )

ライセンス: Link先を確認
Qiaohua Zhou, Rui Cao(参考訳) タイムリーで正確な土地利用マッピングは長年の課題であり、効率的な土地計画と管理には不可欠である。 複雑で混在した使用のため、特に高密度都市において、広く使われているリモートセンシング画像(RSI)から直接の正確な土地利用マッピングが困難である。 そこで本稿では,rsi,posi(points-of-interest)およびaoi(area-of-interest)データを含む多元地理空間データを統合した,パーセルレベルの都市土地利用マッピングのための粗い機械学習手法を提案する。 具体的には、まず、道路網から生成された小包に基づいて、街をビルトアップ地域と非ビルトアップ地域に分けた。 次に,異なる地域の小包に対して異なる分類戦略を採り,最終的にその分類結果を統合的土地利用マップにまとめる。 提案手法は, 組立領域と非組立領域を混合したベースライン法において, レベル1とレベル2の分類において, 25%, 30%の精度向上を達成できることを示す。 さらに,レベル1とレベル2の分類精度をさらに13%と14%向上させる,まれなaoiデータについても検討した。 これらの結果は,提案手法の有効性を示すとともに,今後の研究に有用である土地利用地図におけるAOIsの有用性を示すものである。

Timely and accurate land use mapping is a long-standing problem, which is critical for effective land and space planning and management. Due to complex and mixed use, it is challenging for accurate land use mapping from widely-used remote sensing images (RSI) directly, especially for high-density cities. To address this issue, in this paper, we propose a coarse-to-fine machine learning-based approach for parcel-level urban land use mapping, integrating multisource geospatial data, including RSI, points-of-interest (POI), and area-of-interest (AOI) data. Specifically, we first divide the city into built-up and non-built-up regions based on parcels generated from road networks. Then, we adopt different classification strategies for parcels in different regions, and finally combine the classified results into an integrated land use map. The results show that the proposed approach can significantly outperform baseline method that mixes built-up and non-built-up regions, with accuracy increase of 25% and 30% for level-1 and level-2 classification, respectively. In addition, we examine the rarely explored AOI data, which can further boost the level-1 and level-2 classification accuracy by 13% and 14%. These results demonstrate the effectiveness of the proposed approach and also indicate the usefulness of AOIs for land use mapping, which are valuable for further studies.
翻訳日:2022-08-19 13:46:30 公開日:2022-08-18
# 物体追跡のための空間周波数変換器の学習

Learning Spatial-Frequency Transformer for Visual Object Tracking ( http://arxiv.org/abs/2208.08829v1 )

ライセンス: Link先を確認
Chuanming Tang, Xiao Wang, Yuanchao Bai, Zhe Wu, Jianlin Zhang, Yongmei Huang(参考訳) 最近のトラッカーはTransformerを採用して、広く使われているResNetを新しいバックボーンネットワークとして組み合わせたり置き換えたりしている。 彼らのトラッカーは通常のシナリオではうまく機能するが、トランスフォーマーによく合うように2D機能をフラットにしている。 これらの操作は、ターゲットオブジェクトの空間的先行を無視するものであり、それが準最適結果に繋がる可能性がある。 さらに、多くの作品では、セルフアテンションは実際には低パスフィルタであり、入力特徴やキー/キューとは無関係であることが示されている。 つまり、入力特徴の高周波成分を抑制し、低周波情報を保存したり、増幅したりする。 本稿では,ガウス空間優先度と高周波強調度(GPHA)を同時にモデル化した空間周波数変換器を提案する。 具体的には、二重多層パーセプトロン(mlps)を用いてガウス空間前駆体を生成し、クエリとキー特徴を自己アテンションで乗算した類似性行列に注入する。 出力はソフトマックス層に供給され、その後、直接信号と高周波信号の2つの成分に分解される。 低域と高域の分岐は再スケールされ、オールパスを実現するために結合されるため、高域の特徴は積み重ねられた自己保持層でよく保護される。 我々はさらに、Spatial-Frequency Transformerをシームズ追跡フレームワークに統合し、SFTransTと呼ばれる新しい追跡アルゴリズムを提案する。 クロススケールフュージョンベースのSwinTransformerがバックボーンとして採用され、マルチヘッドのクロスアテンションモジュールが検索機能とテンプレート機能の間の相互作用を高めるために使用される。 出力はターゲットのローカライゼーションのためにトラッキングヘッドに入力される。 短期追跡と長期追跡の両ベンチマークによる大規模な実験はいずれも,提案フレームワークの有効性を実証している。

Recent trackers adopt the Transformer to combine or replace the widely used ResNet as their new backbone network. Although their trackers work well in regular scenarios, however, they simply flatten the 2D features into a sequence to better match the Transformer. We believe these operations ignore the spatial prior of the target object which may lead to sub-optimal results only. In addition, many works demonstrate that self-attention is actually a low-pass filter, which is independent of input features or key/queries. That is to say, it may suppress the high-frequency component of the input features and preserve or even amplify the low-frequency information. To handle these issues, in this paper, we propose a unified Spatial-Frequency Transformer that models the Gaussian spatial Prior and High-frequency emphasis Attention (GPHA) simultaneously. To be specific, Gaussian spatial prior is generated using dual Multi-Layer Perceptrons (MLPs) and injected into the similarity matrix produced by multiplying Query and Key features in self-attention. The output will be fed into a Softmax layer and then decomposed into two components, i.e., the direct signal and high-frequency signal. The low- and high-pass branches are rescaled and combined to achieve all-pass, therefore, the high-frequency features will be protected well in stacked self-attention layers. We further integrate the Spatial-Frequency Transformer into the Siamese tracking framework and propose a novel tracking algorithm, termed SFTransT. The cross-scale fusion based SwinTransformer is adopted as the backbone, and also a multi-head cross-attention module is used to boost the interaction between search and template features. The output will be fed into the tracking head for target localization. Extensive experiments on both short-term and long-term tracking benchmarks all demonstrate the effectiveness of our proposed framework.
翻訳日:2022-08-19 13:46:04 公開日:2022-08-18
# ランダムな特徴を持つ異なるアーキテクチャ検索

Differentiable Architecture Search with Random Features ( http://arxiv.org/abs/2208.08835v1 )

ライセンス: Link先を確認
Xuanyang Zhang, Yonggang Li, Xiangyu Zhang, Yongtao Wang, Jian Sun(参考訳) 微分可能なアーキテクチャサーチ (DARTS) は、探索効率と効率性からNAS技術の発展を著しく促進しているが、性能の低下に悩まされている。 本稿では,dartのパフォーマンス崩壊問題を2つの側面から解決するために努力する。 まず,DARTSにおけるスーパーネットの表現力について検討し,BatchNormをトレーニングするだけでDARTSパラダイムを新たに設定する。 第二に、超ネット最適化におけるスキップ接続の補助接続の役割をランダムに減らし、探索アルゴリズムがより公平な操作選択に集中できるようにし、性能崩壊問題を解くことができる。 我々はDARTSとPC-DARTSをランダムな特徴でインスタンス化し、RF-DARTSとRF-PCDARTSをそれぞれ改良したバージョンを構築する。 実験結果から,RF-DARTS は CIFAR-10 上での \textbf{94.36\%} テスト精度(NAS-Bench-201 が最も近い結果)を取得し,CIFAR-10 からの転送時に ImageNet 上で \textbf{24.0\%} の最新の最先端トップ-1 テスト誤差を実現することがわかった。 さらに、RF-DARTSは3つのデータセット(CIFAR-10、CIFAR-100、SVHN)と4つの検索空間(S1-S4)で堅牢に動作する。 さらに、rf-pcdartsは、imagenet上で直接検索されるシングルパス、トレーニングフリー、部分チャネルパラダイムのような代表的メソッドを上回って、textbf{23.9\%} top-1および \textbf{7.1\%} top-5テストエラーでさらに優れた結果を得る。

Differentiable architecture search (DARTS) has significantly promoted the development of NAS techniques because of its high search efficiency and effectiveness but suffers from performance collapse. In this paper, we make efforts to alleviate the performance collapse problem for DARTS from two aspects. First, we investigate the expressive power of the supernet in DARTS and then derive a new setup of DARTS paradigm with only training BatchNorm. Second, we theoretically find that random features dilute the auxiliary connection role of skip-connection in supernet optimization and enable search algorithm focus on fairer operation selection, thereby solving the performance collapse problem. We instantiate DARTS and PC-DARTS with random features to build an improved version for each named RF-DARTS and RF-PCDARTS respectively. Experimental results show that RF-DARTS obtains \textbf{94.36\%} test accuracy on CIFAR-10 (which is the nearest optimal result in NAS-Bench-201), and achieves the newest state-of-the-art top-1 test error of \textbf{24.0\%} on ImageNet when transferring from CIFAR-10. Moreover, RF-DARTS performs robustly across three datasets (CIFAR-10, CIFAR-100, and SVHN) and four search spaces (S1-S4). Besides, RF-PCDARTS achieves even better results on ImageNet, that is, \textbf{23.9\%} top-1 and \textbf{7.1\%} top-5 test error, surpassing representative methods like single-path, training-free, and partial-channel paradigms directly searched on ImageNet.
翻訳日:2022-08-19 13:45:36 公開日:2022-08-18
# craquelurenetを用いたアートワークのマルチモーダル登録・可視化ツール

A Multi-modal Registration and Visualization Software Tool for Artworks using CraquelureNet ( http://arxiv.org/abs/2208.08836v1 )

ライセンス: Link先を確認
Aline Sindel, Andreas Maier and Vincent Christlein(参考訳) 絵画のアート調査には、視覚光写真、赤外線反射写真、紫外線蛍光写真、x線撮影などの複数のイメージング技術がしばしば用いられる。 ピクセル単位で比較するには、マルチモーダル画像を登録する必要がある。 本稿では,歴史画におけるひび割れ構造の横断的特徴を抽出して自動登録を行うために,畳み込みニューラルネットワークを組み込んだ登録可視化ソフトウェアツールを提案する。 グラフィカルユーザインタフェースは、ユーザの入力を処理して登録パラメータを設定し、画像ビューを登録されたペアおよび画像オーバーレイにインタラクティブに適応させる。 本評価では,本手法を歴史的印刷物に適用することにより,マルチモーダル絵画における登録性能と短い推測時間と伝達性の観点から,ソフトウェアツールの有効性を質的かつ定量的に示す。

For art investigations of paintings, multiple imaging technologies, such as visual light photography, infrared reflectography, ultraviolet fluorescence photography, and x-radiography are often used. For a pixel-wise comparison, the multi-modal images have to be registered. We present a registration and visualization software tool, that embeds a convolutional neural network to extract cross-modal features of the crack structures in historical paintings for automatic registration. The graphical user interface processes the user's input to configure the registration parameters and to interactively adapt the image views with the registered pair and image overlays, such as by individual or synchronized zoom or movements of the views. In the evaluation, we qualitatively and quantitatively show the effectiveness of our software tool in terms of registration performance and short inference time on multi-modal paintings and its transferability by applying our method to historical prints.
翻訳日:2022-08-19 13:44:55 公開日:2022-08-18
# 蒸留スタイルガンのギャップを念頭に置いて

Mind the Gap in Distilling StyleGANs ( http://arxiv.org/abs/2208.08840v1 )

ライセンス: Link先を確認
Guodong Xu, Yuenan Hou, Ziwei Liu, Chen Change Loy(参考訳) StyleGANファミリーは、非条件生成のためのGAN(Generative Adversarial Networks)として最も人気がある。 優れたパフォーマンスにもかかわらず、ストレージと計算に対する高い需要は、リソースに制約のあるデバイスへのデプロイメントを妨げる。 本稿では,StyleGAN-likeアーキテクチャの蒸留に関する総合的研究を行う。 我々の重要な洞察は、StyleGAN蒸留の主な課題は、教師と学生が同じ入力潜在コードから異なる出力を出力する出力不一致の問題にあるということである。 標準的な知識蒸留の損失は、通常、この異種蒸留のシナリオで失敗する。 本稿では,この不一致の原因と影響について詳細な分析を行い,地図ネットワークが生成画像の意味的情報を決定する上で重要な役割を担っていることを示す。 そこで,本研究では,学習者のモデルに対する新しい初期化戦略を提案する。 教師と学生のモデルのセマンティック一貫性をさらに高めるため,潜在空間における意味的関係を保った潜在方向に基づく蒸留損失を提示する。 広範囲な実験により,本手法がStyleGAN2およびStyleGAN3の蒸留に有効であることを示す。

StyleGAN family is one of the most popular Generative Adversarial Networks (GANs) for unconditional generation. Despite its impressive performance, its high demand on storage and computation impedes their deployment on resource-constrained devices. This paper provides a comprehensive study of distilling from the popular StyleGAN-like architecture. Our key insight is that the main challenge of StyleGAN distillation lies in the output discrepancy issue, where the teacher and student model yield different outputs given the same input latent code. Standard knowledge distillation losses typically fail under this heterogeneous distillation scenario. We conduct thorough analysis about the reasons and effects of this discrepancy issue, and identify that the mapping network plays a vital role in determining semantic information of generated images. Based on this finding, we propose a novel initialization strategy for the student model, which can ensure the output consistency to the maximum extent. To further enhance the semantic consistency between the teacher and student model, we present a latent-direction-based distillation loss that preserves the semantic relations in latent space. Extensive experiments demonstrate the effectiveness of our approach in distilling StyleGAN2 and StyleGAN3, outperforming existing GAN distillation methods by a large margin.
翻訳日:2022-08-19 13:44:41 公開日:2022-08-18
# 筋骨格・神経障害予測のための2ストリーム畳み込みネットワーク

A Two-stream Convolutional Network for Musculoskeletal and Neurological Disorders Prediction ( http://arxiv.org/abs/2208.08848v1 )

ライセンス: Link先を確認
Manli Zhu, Qianhui Men, Edmond S. L. Ho, Howard Leung, and Hubert P. H. Shum(参考訳) 筋骨格障害や神経障害は高齢者の歩行障害の最も一般的な原因であり、生活の質が低下することが多い。 歩行動作データを手動で分析するには熟練した専門家が必要である。 早期診断を容易にするため、最近のディープラーニングベースの手法では、従来の機械学習手法では見つからなかったパターンを発見できる自動化分析の有望な結果が示されている。 既存の研究は主に、関節の位置の時系列のような個々の関節の特徴にディープラーニングを適用している。 一般に小規模の医療データセットから足間距離(ストライド幅)などの関節間の特徴を発見することの難しさから、これらの手法は通常、準最適に実行する。 そこで本研究では,個々の関節機能と協調機能の両方を入力として明示的に取り出す手法を提案し,より複雑な特徴を小さなデータから発見する必要性からシステムを緩和する。 この2つの特徴の特色から, 関節位置の時系列から1つのストリーム学習と, 相対的な関節変位の時系列から1つのストリーム学習を行う2つのストリームフレームワークを提案する。 さらに,この2つのストリームに検出されたパターンを組み合わせて診断を行う中間層融合モジュールを開発し,予測性能を向上させるためにデータの相補的表現を行う。 筋骨格・神経障害患者45名を対象とした3次元スケルトン運動のベンチマークデータセットを用いてシステム検証を行い,最新手法を上回った95.56%の予測精度を得た。

Musculoskeletal and neurological disorders are the most common causes of walking problems among older people, and they often lead to diminished quality of life. Analyzing walking motion data manually requires trained professionals and the evaluations may not always be objective. To facilitate early diagnosis, recent deep learning-based methods have shown promising results for automated analysis, which can discover patterns that have not been found in traditional machine learning methods. We observe that existing work mostly applies deep learning on individual joint features such as the time series of joint positions. Due to the challenge of discovering inter-joint features such as the distance between feet (i.e. the stride width) from generally smaller-scale medical datasets, these methods usually perform sub-optimally. As a result, we propose a solution that explicitly takes both individual joint features and inter-joint features as input, relieving the system from the need of discovering more complicated features from small data. Due to the distinctive nature of the two types of features, we introduce a two-stream framework, with one stream learning from the time series of joint position and the other from the time series of relative joint displacement. We further develop a mid-layer fusion module to combine the discovered patterns in these two streams for diagnosis, which results in a complementary representation of the data for better prediction performance. We validate our system with a benchmark dataset of 3D skeleton motion that involves 45 patients with musculoskeletal and neurological disorders, and achieve a prediction accuracy of 95.56%, outperforming state-of-the-art methods.
翻訳日:2022-08-19 13:44:22 公開日:2022-08-18
# Finer, See more: Implicit Modality Alignment for Text-based Person Retrieval

See Finer, See More: Implicit Modality Alignment for Text-based Person Retrieval ( http://arxiv.org/abs/2208.08608v1 )

ライセンス: Link先を確認
Xiujun Shu, Wei Wen, Haoqian Wu, Keyu Chen, Yiran Song, Ruizhi Qiao, Bo Ren, Xiao Wang(参考訳) テキストに基づく人物検索は,テキスト記述に基づいて質問者を見つけることを目的としている。 鍵となるのは、視覚-テクスト間の共通潜時空間マッピングを学ぶことである。 この目的を達成するために、既存の作品ではセグメンテーションを用いて、明確に横断的なアライメントを得るか、注意を払ってサリアントアライメントを探索する。 これらの方法には2つの欠点があります 1) クロスモーダルアライメントのラベル付けは時間を要する。 2) 注意法は, 微妙で価値あるペアを無視することもあるが, 健全な横方向のアライメントを探索することができる。 これらの問題を解消するために、テキストベースの人物検索のためのImplicit Visual-Textual (IVT)フレームワークを導入する。 従来のモデルと異なり、IVTは単一のネットワークを使って両方のモダリティの表現を学習し、視覚とテクスチャの相互作用に寄与する。 さらに,多レベルアライメント(MLA)と双方向マスクモデリング(BMM)の2つの暗黙的セマンティックアライメントパラダイムを提案する。 MLAモジュールは文、フレーズ、単語レベルでのより細かいマッチングを探索し、BMMモジュールは視覚とテキストのモダリティ間の意味的アライメントを抽出することを目的としている。 提案したIVT(CUHK-PEDES, RSTPReID, ICFG-PEDES)の評価実験を行った。 明示的なボディパートアライメントがなくても,このアプローチは最先端のパフォーマンスを実現します。 コードは、https://github.com/TencentYoutuResearch/PersonRetrieval-IVTで入手できる。

Text-based person retrieval aims to find the query person based on a textual description. The key is to learn a common latent space mapping between visual-textual modalities. To achieve this goal, existing works employ segmentation to obtain explicitly cross-modal alignments or utilize attention to explore salient alignments. These methods have two shortcomings: 1) Labeling cross-modal alignments are time-consuming. 2) Attention methods can explore salient cross-modal alignments but may ignore some subtle and valuable pairs. To relieve these issues, we introduce an Implicit Visual-Textual (IVT) framework for text-based person retrieval. Different from previous models, IVT utilizes a single network to learn representation for both modalities, which contributes to the visual-textual interaction. To explore the fine-grained alignment, we further propose two implicit semantic alignment paradigms: multi-level alignment (MLA) and bidirectional mask modeling (BMM). The MLA module explores finer matching at sentence, phrase, and word levels, while the BMM module aims to mine \textbf{more} semantic alignments between visual and textual modalities. Extensive experiments are carried out to evaluate the proposed IVT on public datasets, i.e., CUHK-PEDES, RSTPReID, and ICFG-PEDES. Even without explicit body part alignment, our approach still achieves state-of-the-art performance. Code is available at: https://github.com/TencentYoutuResearch/PersonRetrieval-IVT.
翻訳日:2022-08-19 13:41:46 公開日:2022-08-18
# LoRD:高忠実度ダイナミックヒューマンモデリングのための局所4次元インプシット表現

LoRD: Local 4D Implicit Representation for High-Fidelity Dynamic Human Modeling ( http://arxiv.org/abs/2208.08622v1 )

ライセンス: Link先を確認
Boyan Jiang, Xinlin Ren, Mingsong Dou, Xiangyang Xue, Yanwei Fu, Yinda Zhang(参考訳) 4次元の暗黙的表現の最近の進歩は、低次元の潜伏ベクトルによる形状と動きのグローバルな制御に焦点を当てている。 多くの深部局所表現は3d形状モデリングに有望な結果を示しているが、それらの4d表現は現存していない。 本稿では,この空白を,4次元人体モデリングと局所表現の両方の利点を生かし,衣服のしわなどの細かな表面変形をともなう高忠実な再構築が可能な,動的衣服用ローカル4次元暗黙表現(LoRD)を提案する。 特に重要な洞察は、ネットワークに局所的な部分レベルの表現の潜在コードを学ぶように促し、局所的な幾何学と時間的変形を説明することです。 実験時間における推定を行うために,まず,各時間ステップで局所的な部位を追跡する体内骨格運動を推定し,各部位の潜伏符号を異なる種類の観測データに基づいて自動復号することで最適化する。 広範な実験により, 提案手法は4次元人間の表現能力が高く, 粗点からの4次元再構成, 非剛性深部融合, 定量的および定量的に, 実用的手法よりも優れていることが示された。

Recent progress in 4D implicit representation focuses on globally controlling the shape and motion with low dimensional latent vectors, which is prone to missing surface details and accumulating tracking error. While many deep local representations have shown promising results for 3D shape modeling, their 4D counterpart does not exist yet. In this paper, we fill this blank by proposing a novel Local 4D implicit Representation for Dynamic clothed human, named LoRD, which has the merits of both 4D human modeling and local representation, and enables high-fidelity reconstruction with detailed surface deformations, such as clothing wrinkles. Particularly, our key insight is to encourage the network to learn the latent codes of local part-level representation, capable of explaining the local geometry and temporal deformations. To make the inference at test-time, we first estimate the inner body skeleton motion to track local parts at each time step, and then optimize the latent codes for each part via auto-decoding based on different types of observed data. Extensive experiments demonstrate that the proposed method has strong capability for representing 4D human, and outperforms state-of-the-art methods on practical applications, including 4D reconstruction from sparse points, non-rigid depth fusion, both qualitatively and quantitatively.
翻訳日:2022-08-19 13:41:19 公開日:2022-08-18
# 教師なしRe-IDのためのドメインカメラ適応と協調多重特徴クラスタリング

Domain Camera Adaptation and Collaborative Multiple Feature Clustering for Unsupervised Person Re-ID ( http://arxiv.org/abs/2208.08624v1 )

ライセンス: Link先を確認
Yuanpeng Tu(参考訳) 最近、制限付きアノテートデータが利用可能なオープンワールドシナリオ設定のために、教師なしの人物再識別(re-ID)が注目されている。 既存の教師付きメソッドは、多くの場合、見当たらないドメインでうまく一般化できないが、教師なしのメソッドは、ほとんどが複数の粒度情報がなく、確認バイアスに苦しむ傾向がある。 本稿では,2つの側面から未確認対象領域のより優れた特徴表現を求める。 1)ラベル付きソースドメインで教師なしのドメイン適応を行う。 2)未ラベル対象領域における鉱業ポテンシャルの類似性 また、確認バイアスの影響を軽減するために、協調的な擬似再ラベル戦略を提案する。 まず、生成対向ネットワークを利用して、ソースドメインからターゲットドメインへの画像転送を行う。 さらに、生成画像の品質を向上させるために、人物のアイデンティティ保存とアイデンティティマッピングの損失が導入される。 第2に,グローバル機能や部分的機能ブランチを含む対象領域の内部データ構造を学習するための,協調型多機能クラスタリングフレームワーク(CMFC)を提案する。 グローバル機能ブランチ(GB)は、人画像のグローバル機能に教師なしクラスタリングを採用し、部分機能ブランチ(PB)は、異なる身体領域内で類似性をマイニングする。 最後に、2つのベンチマークデータセットに対する広範な実験により、教師なしの人物再ID設定下での手法の競合性能を示す。

Recently unsupervised person re-identification (re-ID) has drawn much attention due to its open-world scenario settings where limited annotated data is available. Existing supervised methods often fail to generalize well on unseen domains, while the unsupervised methods, mostly lack multi-granularity information and are prone to suffer from confirmation bias. In this paper, we aim at finding better feature representations on the unseen target domain from two aspects, 1) performing unsupervised domain adaptation on the labeled source domain and 2) mining potential similarities on the unlabeled target domain. Besides, a collaborative pseudo re-labeling strategy is proposed to alleviate the influence of confirmation bias. Firstly, a generative adversarial network is utilized to transfer images from the source domain to the target domain. Moreover, person identity preserving and identity mapping losses are introduced to improve the quality of generated images. Secondly, we propose a novel collaborative multiple feature clustering framework (CMFC) to learn the internal data structure of target domain, including global feature and partial feature branches. The global feature branch (GB) employs unsupervised clustering on the global feature of person images while the Partial feature branch (PB) mines similarities within different body regions. Finally, extensive experiments on two benchmark datasets show the competitive performance of our method under unsupervised person re-ID settings.
翻訳日:2022-08-19 13:40:54 公開日:2022-08-18
# 分散ポイント学習による視覚知覚の統一

Unifying Visual Perception by Dispersible Points Learning ( http://arxiv.org/abs/2208.08630v1 )

ライセンス: Link先を確認
Jianming Liang, Guanglu Song, Biao Leng and Yu Liu(参考訳) 本稿では,分類,オブジェクト検出,インスタンス分割とポーズ推定,一段階や二段階のパイプラインなど,さまざまな視覚的タスクに対して,概念的にシンプルでフレキシブルで普遍的な視覚知覚ヘッドを提案する。 本手法は,高品質な境界ボックスや輪郭型セグメンテーションマスク,キーポイントセットを同時に生成しながら,画像中の物体を効果的に識別する。 uniheadと呼ばれるこの手法は、異なる視覚知覚タスクをトランスフォーマエンコーダアーキテクチャによる分散ポイント学習として捉えている。 一定の空間座標が与えられると、ユニヘッドは変圧器エンコーダによって異なる空間点とそれらの関係に関する理由に適応的に散乱する。 これにより、最終的な予測セットを複数のポイントの形式で直接出力し、同じヘッドデザインで異なるフレームワークで異なるビジュアルタスクを実行できます。 画像ネットの分類や,オブジェクト検出,インスタンス分割,ポーズ推定など,cocoスイートの3つの課題すべてについて,広範な評価を行った。 ベルとホイッスルがなければ、ユニヘッドは1つのビジュアルヘッドデザインによってこれらのビジュアルタスクを統一し、それぞれのタスクのために開発されたエキスパートモデルと同等のパフォーマンスを達成することができます。 コードとモデルはhttps://github.com/Sense-X/UniHead.comで入手できる。

We present a conceptually simple, flexible, and universal visual perception head for variant visual tasks, e.g., classification, object detection, instance segmentation and pose estimation, and different frameworks, such as one-stage or two-stage pipelines. Our approach effectively identifies an object in an image while simultaneously generating a high-quality bounding box or contour-based segmentation mask or set of keypoints. The method, called UniHead, views different visual perception tasks as the dispersible points learning via the transformer encoder architecture. Given a fixed spatial coordinate, UniHead adaptively scatters it to different spatial points and reasons about their relations by transformer encoder. It directly outputs the final set of predictions in the form of multiple points, allowing us to perform different visual tasks in different frameworks with the same head design. We show extensive evaluations on ImageNet classification and all three tracks of the COCO suite of challenges, including object detection, instance segmentation and pose estimation. Without bells and whistles, UniHead can unify these visual tasks via a single visual head design and achieve comparable performance compared to expert models developed for each task.We hope our simple and universal UniHead will serve as a solid baseline and help promote universal visual perception research. Code and models are available at https://github.com/Sense-X/UniHead.
翻訳日:2022-08-19 13:40:31 公開日:2022-08-18
# conmatch: 信頼誘導型一貫性規則化による半教師付き学習

ConMatch: Semi-Supervised Learning with Confidence-Guided Consistency Regularization ( http://arxiv.org/abs/2208.08631v1 )

ライセンス: Link先を確認
Jiwon Kim, Youngjo Min, Daehwan Kim, Gyuseong Lee, Junyoung Seo, Kwangrok Ryoo, Seungryong Kim(参考訳) 本稿では,画像の2つの強明な視点からモデル予測間の一貫性の規則化をインテリジェントに活用する,擬似ラベルの信頼度に重みづけられた半教師付き学習フレームワークconmatchを提案する。 最新の半教師付き学習法は、方向整合性損失を定義するために画像の弱く強い教師付きビューを用いるが、2つの強教師付きビュー間の一貫性の規則化の方向性をどのように定義するかは未定である。 そこで本研究では,非パラメトリックおよびパラメトリックなアプローチにおけるアンカーとしての弱明な視点を用いて,強明な視点からの擬似ラベルに対する新たな信頼度尺度を提案する。 特にパラメトリックなアプローチでは、ネットワーク内の擬似ラベルの信頼性を初めて学習し、エンドツーエンドでバックボーンモデルで学習する。 また,トレーニングの収束性を高めるための段階的トレーニングも提示する。 既存の半教師付き学習者に組み込まれると、ConMatchは継続的にパフォーマンスを向上する。 提案手法に対するConMatchの有効性を示す実験を行い,広範囲にわたるアブレーション研究を行った。 コードはhttps://github.com/JiwonCocoder/ConMatch.comで公開されている。

We present a novel semi-supervised learning framework that intelligently leverages the consistency regularization between the model's predictions from two strongly-augmented views of an image, weighted by a confidence of pseudo-label, dubbed ConMatch. While the latest semi-supervised learning methods use weakly- and strongly-augmented views of an image to define a directional consistency loss, how to define such direction for the consistency regularization between two strongly-augmented views remains unexplored. To account for this, we present novel confidence measures for pseudo-labels from strongly-augmented views by means of weakly-augmented view as an anchor in non-parametric and parametric approaches. Especially, in parametric approach, we present, for the first time, to learn the confidence of pseudo-label within the networks, which is learned with backbone model in an end-to-end manner. In addition, we also present a stage-wise training to boost the convergence of training. When incorporated in existing semi-supervised learners, ConMatch consistently boosts the performance. We conduct experiments to demonstrate the effectiveness of our ConMatch over the latest methods and provide extensive ablation studies. Code has been made publicly available at https://github.com/JiwonCocoder/ConMatch.
翻訳日:2022-08-19 13:40:07 公開日:2022-08-18
# L3:高分解能高速DNNトレーニングのためのアクセラレータフレンドリーなロスレス画像フォーマット

L3: Accelerator-Friendly Lossless Image Format for High-Resolution, High-Throughput DNN Training ( http://arxiv.org/abs/2208.08711v1 )

ライセンス: Link先を確認
Jonghyun Bae, Woohyeon Baek, Tae Jun Ham, Jae W. Lee(参考訳) ディープニューラルネットワーク(DNN)のトレーニングプロセスは通常、CPU上でのデータ準備のステージと、GPUのようなアクセラレータ上での勾配計算によってパイプラインされる。 理想的なパイプラインでは、エンドツーエンドのトレーニングスループットは最終的に、データ準備のスループットではなく、アクセラレータのスループットによって制限される。 これまでDNNトレーニングパイプラインは、JPEGのような軽量で損失の多いイメージフォーマットでエンコードされたデータセットを利用することで、ほぼ最適スループットを達成した。 しかし、高精度でロスレスに符号化されたデータセットが、高い精度を必要とするアプリケーションに普及するにつれて、CPU上の低スループット画像復号化によるデータ準備段階での性能問題が発生する。 そこで本稿では,高解像度で高スループットなDNNトレーニングを実現するために,L3を提案する。 L3の復号処理は、アクセラレータ上で効果的に並列化され、DNNトレーニング中のデータ準備のためのCPU介入を最小化する。 L3は、NVIDIA A100 GPU上のCityscapesデータセットにおいて、最も人気のあるロスレスイメージフォーマットであるPNGよりも9.29倍高いデータ準備スループットを実現している。 JPEGとWebPの2つの人気の損失画像フォーマットと比較して、L3はImageNetの最大1.77倍と2.87倍のエンドツーエンドのトレーニングスループットを同等のパフォーマンスで提供する。

The training process of deep neural networks (DNNs) is usually pipelined with stages for data preparation on CPUs followed by gradient computation on accelerators like GPUs. In an ideal pipeline, the end-to-end training throughput is eventually limited by the throughput of the accelerator, not by that of data preparation. In the past, the DNN training pipeline achieved a near-optimal throughput by utilizing datasets encoded with a lightweight, lossy image format like JPEG. However, as high-resolution, losslessly-encoded datasets become more popular for applications requiring high accuracy, a performance problem arises in the data preparation stage due to low-throughput image decoding on the CPU. Thus, we propose L3, a custom lightweight, lossless image format for high-resolution, high-throughput DNN training. The decoding process of L3 is effectively parallelized on the accelerator, thus minimizing CPU intervention for data preparation during DNN training. L3 achieves a 9.29x higher data preparation throughput than PNG, the most popular lossless image format, for the Cityscapes dataset on NVIDIA A100 GPU, which leads to 1.71x higher end-to-end training throughput. Compared to JPEG and WebP, two popular lossy image formats, L3 provides up to 1.77x and 2.87x higher end-to-end training throughput for ImageNet, respectively, at equivalent metric performance.
翻訳日:2022-08-19 13:39:47 公開日:2022-08-18
# 非同期イベントの時間的アップサンプリング

Temporal Up-Sampling for Asynchronous Events ( http://arxiv.org/abs/2208.08721v1 )

ライセンス: Link先を確認
Xiang Xijie, Zhu lin, Li Jianing, Tian Yonghong and Huang Tiejun(参考訳) イベントカメラはバイオインスパイアされた新しい視覚センサーだ。 輝度変化がプリセットしきい値を超えると、センサは非同期にイベントを生成する。 有効なイベントの数は、再構築、検出、認識などのイベントベースのタスクのパフォーマンスに直接影響する。 しかし、低明度やスローモーションのシーンでは、イベントはスパースでノイズを伴うことが多く、イベントベースのタスクには課題が生じる。 これらの課題を解決するために,より効率的で信頼性の高いイベントを生成するイベント時間的アップサンプリングアルゴリズムを提案する。 我々のアルゴリズムの主な考え方は、イベント運動軌跡のアップサンプリングイベントを生成することである。 まず,コントラスト最大化アルゴリズムにより事象運動軌跡を推定し,その後,時間的点過程によって事象をアップサンプリングする。 実験の結果、アップサンプリングイベントはより効果的な情報を提供し、再構成画像の品質向上やオブジェクト検出精度の向上など、下流タスクのパフォーマンスを向上させることが示されている。

The event camera is a novel bio-inspired vision sensor. When the brightness change exceeds the preset threshold, the sensor generates events asynchronously. The number of valid events directly affects the performance of event-based tasks, such as reconstruction, detection, and recognition. However, when in low-brightness or slow-moving scenes, events are often sparse and accompanied by noise, which poses challenges for event-based tasks. To solve these challenges, we propose an event temporal up-sampling algorithm1 to generate more effective and reliable events. The main idea of our algorithm is to generate up-sampling events on the event motion trajectory. First, we estimate the event motion trajectory by contrast maximization algorithm and then up-sampling the events by temporal point processes. Experimental results show that up-sampling events can provide more effective information and improve the performance of downstream tasks, such as improving the quality of reconstructed images and increasing the accuracy of object detection.
翻訳日:2022-08-19 13:39:24 公開日:2022-08-18
# 単眼映像からのアニマタブル3次元人間のニューラルキャプチャ

Neural Capture of Animatable 3D Human from Monocular Video ( http://arxiv.org/abs/2208.08728v1 )

ライセンス: Link先を確認
Gusi Te, Xiu Li, Xiao Li, Jinglu Wang, Wei Hu, Yan Lu(参考訳) 本稿では,モノクラービデオ入力からアニマタブルな3次元人間の表現を構築するための新しいパラダイムを提案する。 本手法は,メッシュ型パラメトリック3次元人体モデルによる動的神経放射場(nerf)を基盤とし,幾何プロキシとして機能する。 従来の方法は、通常、追加の入力としてマルチビュービデオや正確な3D幾何学情報に頼っている。 動的NeRFを問合せするためには, 一般化の鍵が良い入力埋め込みであることを確認する: 優れた入力埋め込みは, フルボリューム空間における射影写像を定義するべきである。 そこで本研究では,メッシュ頂点上の測地線近傍の群にまたがる局所表面領域との関係について,入力クエリを組み込む手法を提案する。 位置情報と相対距離情報の両方を含めることで,距離保存された変形マッピングを定義し,見当たらないポーズにうまく一般化する。 追加入力への依存性を低減するため、まずオフザシェルフツールを使用してフレーム単位の3Dメッシュを初期化し、NeRFを共同最適化して初期メッシュを洗練するためのパイプラインを提案する。 広汎な実験により,本手法は見知らぬポーズやビューの下で,可塑性な人体レンダリング結果を合成できることが示された。

We present a novel paradigm of building an animatable 3D human representation from a monocular video input, such that it can be rendered in any unseen poses and views. Our method is based on a dynamic Neural Radiance Field (NeRF) rigged by a mesh-based parametric 3D human model serving as a geometry proxy. Previous methods usually rely on multi-view videos or accurate 3D geometry information as additional inputs; besides, most methods suffer from degraded quality when generalized to unseen poses. We identify that the key to generalization is a good input embedding for querying dynamic NeRF: A good input embedding should define an injective mapping in the full volumetric space, guided by surface mesh deformation under pose variation. Based on this observation, we propose to embed the input query with its relationship to local surface regions spanned by a set of geodesic nearest neighbors on mesh vertices. By including both position and relative distance information, our embedding defines a distance-preserved deformation mapping and generalizes well to unseen poses. To reduce the dependency on additional inputs, we first initialize per-frame 3D meshes using off-the-shelf tools and then propose a pipeline to jointly optimize NeRF and refine the initial mesh. Extensive experiments show our method can synthesize plausible human rendering results under unseen poses and views.
翻訳日:2022-08-19 13:39:08 公開日:2022-08-18
# RFLA:Tiny Object Detectionのためのガウス受容場に基づくラベルアサインメント

RFLA: Gaussian Receptive Field based Label Assignment for Tiny Object Detection ( http://arxiv.org/abs/2208.08738v1 )

ライセンス: Link先を確認
Chang Xu, Jinwang Wang, Wen Yang, Huai Yu, Lei Yu, Gui-Song Xia(参考訳) 小さな物体を検出することは、物体検出の開発を妨げる主な障害の1つである。 汎用オブジェクト検出器の性能は、小さなオブジェクト検出タスクで劇的に低下する傾向がある。 本稿では,アンカーベース検出器に先行するボックスやアンカーフリー検出器に先行するポイントが,微小物体に最適であることを示す。 現在のアンカーベースまたはアンカーフリーのラベル割り当てパラダイムは、多くの異常な小さな地上の真理サンプルを発生させ、小さな物体に焦点を合わせない検出器に繋がる。 そこで我々は,小物体検出のためのガウス受容場に基づくラベル割り当て(RFLA)戦略を提案する。 具体的には、RFLAはまず、特徴受容体がガウス分布に従うという事前情報を利用する。 そして, サンプルをIoUや中心サンプリング戦略で割り当てる代わりに, ガウスの受容場と地上の真実との類似性を直接測定する新しい受容場距離(RFD)を提案する。 IoU-thresholdベースとセンターサンプリング戦略が大きなオブジェクトに歪められていることを考慮し、RFDに基づく階層ラベル割り当て(HLA)モジュールを設計して、小さなオブジェクトに対するバランス学習を実現する。 4つのデータセットに対する実験により,提案手法の有効性が示された。 特に、私たちのアプローチは、AI-TODデータセット上の4.0APポイントで最先端の競合より優れています。 コードはhttps://github.com/chasel-tsui/mmdet-rflaで入手できる。

Detecting tiny objects is one of the main obstacles hindering the development of object detection. The performance of generic object detectors tends to drastically deteriorate on tiny object detection tasks. In this paper, we point out that either box prior in the anchor-based detector or point prior in the anchor-free detector is sub-optimal for tiny objects. Our key observation is that the current anchor-based or anchor-free label assignment paradigms will incur many outlier tiny-sized ground truth samples, leading to detectors imposing less focus on the tiny objects. To this end, we propose a Gaussian Receptive Field based Label Assignment (RFLA) strategy for tiny object detection. Specifically, RFLA first utilizes the prior information that the feature receptive field follows Gaussian distribution. Then, instead of assigning samples with IoU or center sampling strategy, a new Receptive Field Distance (RFD) is proposed to directly measure the similarity between the Gaussian receptive field and ground truth. Considering that the IoU-threshold based and center sampling strategy are skewed to large objects, we further design a Hierarchical Label Assignment (HLA) module based on RFD to achieve balanced learning for tiny objects. Extensive experiments on four datasets demonstrate the effectiveness of the proposed methods. Especially, our approach outperforms the state-of-the-art competitors with 4.0 AP points on the AI-TOD dataset. Codes are available at https://github.com/Chasel-Tsui/mmdet-rfla
翻訳日:2022-08-19 13:38:46 公開日:2022-08-18
# BCom-Net: 粗大な3次元テクスチャ形状補完ネットワーク

BCom-Net: Coarse-to-Fine 3D Textured Body Shape Completion Network ( http://arxiv.org/abs/2208.08768v1 )

ライセンス: Link先を確認
Ahmet Serdar Karadeniz, Sk Aziz Ali, Anis Kacem, Elona Dupont, Djamila Aouada(参考訳) 3D部分的なテクスチャスキャンから3Dの人体形状を再構築することは、多くのコンピュータビジョンやグラフィックアプリケーション -- ボディアニメーションや仮想ドレッシング -- の基本的な課題である。 本研究では,3次元体形状と高分解能テクスチャ補完(BCom-Net)のためのニューラルネットワークアーキテクチャを提案する。 まず,Voxelized scanとその占有網を入力として用い,全身形状の再構築と頂点テクスチャの予測を行う,共同暗黙学習ネットワーク(SCom-NetとTCom-Net)の2段階に分割する。 第二に、予測された粗い頂点テクスチャを利用して部分的な「テクスチャアトラス」の欠落部分を塗りつぶす高分解能テクスチャ補完ネットワークである。 3DBodyTex.V2データセットの詳細な実験結果から,本手法は,異なる種類の部分形状を一般化しながら,最先端技術に対する競争結果が得られることが示された。 提案手法はSHARP 2022 Challenge1-Track1でも第2位である。

Reconstructing 3D human body shapes from 3D partial textured scans remains a fundamental task for many computer vision and graphics applications -- e.g., body animation, and virtual dressing. We propose a new neural network architecture for 3D body shape and high-resolution texture completion -- BCom-Net -- that can reconstruct the full geometry from mid-level to high-level partial input scans. We decompose the overall reconstruction task into two stages - first, a joint implicit learning network (SCom-Net and TCom-Net) that takes a voxelized scan and its occupancy grid as input to reconstruct the full body shape and predict vertex textures. Second, a high-resolution texture completion network, that utilizes the predicted coarse vertex textures to inpaint the missing parts of the partial 'texture atlas'. A Thorough experimental evaluation on 3DBodyTex.V2 dataset shows that our method achieves competitive results with respect to the state-of-the-art while generalizing to different types and levels of partial shapes. The proposed method has also ranked second in the SHARP 2022 Challenge1-Track1.
翻訳日:2022-08-19 13:38:22 公開日:2022-08-18
# 最大共通グラフ問題に対する新しい値関数を用いたハイブリッド学習

Hybrid Learning with New Value Function for the Maximum Common Subgraph Problem ( http://arxiv.org/abs/2208.08620v1 )

ライセンス: Link先を確認
Yanli Liu, Jiming Zhao, Chu-Min Li, Hua Jiang, Kun He(参考訳) Maximum Common induced Subgraph (MCS) は、幅広い現実世界の応用において重要なNPハード問題である。 ブランチ・アンド・バウンド(bnb)はmcsの効率的なアルゴリズムのクラスの基礎であり、これまでに見いだされた最良の解よりも優れた解が存在しないことを発見したとき、マッチングとpruningのための頂点を連続的に選択する。 マッチングする頂点を選択する方法はBnBの性能に不可欠である。 本稿では,新しい頂点選択法を定義するために強化学習に使用される新しい値関数とハイブリッド選択戦略を提案し,mcsのための新しいbnbアルゴリズムであるmcsplitdalを提案する。 大規模な実験により、McSplitDALは現在の最高のBnBアルゴリズムであるMcSplit+LLとMcSplit+RLを大幅に改善した。 また、新しい値関数とハイブリッド選択戦略が有効である理由を説明するための実証分析を行った。

Maximum Common induced Subgraph (MCS) is an important NP-hard problem with wide real-world applications. Branch-and-Bound (BnB) is the basis of a class of efficient algorithms for MCS, consisting in successively selecting vertices to match and pruning when it is discovered that a solution better than the best solution found so far does not exist. The method of selecting the vertices to match is essential for the performance of BnB. In this paper, we propose a new value function and a hybrid selection strategy used in reinforcement learning to define a new vertex selection method, and propose a new BnB algorithm, called McSplitDAL, for MCS. Extensive experiments show that McSplitDAL significantly improves the current best BnB algorithms, McSplit+LL and McSplit+RL. An empirical analysis is also performed to illustrate why the new value function and the hybrid selection strategy are effective.
翻訳日:2022-08-19 13:35:55 公開日:2022-08-18
# SHAPを用いた金融株取引における説明可能な強化学習

Explainable Reinforcement Learning on Financial Stock Trading using SHAP ( http://arxiv.org/abs/2208.08790v1 )

ライセンス: Link先を確認
Satyam Kumar, Mendhikar Vishal and Vadlamani Ravi(参考訳) 説明可能な人工知能(XAI)の研究は、ユーザコミュニティからの透明性の向上とAIへの信頼の要求に応えて近年注目を集めている。 これは、社会、倫理、安全に影響を及ぼす金融、医療などの敏感な分野でAIが採用されているため、特に重要である。 徹底的な体系的な評価の後、XAIの作業は主に分類、決定、行動のための機械学習(ML)に焦点を当てている。 我々の知る限り、金融株を取引するための説明可能な強化学習(XRL)手法を提供する研究は報告されていない。 本稿では,金融株取引におけるエージェントの行動を説明するために,SHAP(SHapley Additive exPlanation)を一般的な深層強化学習アーキテクチャである深部Qネットワーク(DQN)に導入することを提案した。 提案手法の有効性を示すために,SENSEXとDJIAという2つの一般的なデータセットを用いて実験を行い,その結果を報告する。

Explainable Artificial Intelligence (XAI) research gained prominence in recent years in response to the demand for greater transparency and trust in AI from the user communities. This is especially critical because AI is adopted in sensitive fields such as finance, medicine etc., where implications for society, ethics, and safety are immense. Following thorough systematic evaluations, work in XAI has primarily focused on Machine Learning (ML) for categorization, decision, or action. To the best of our knowledge, no work is reported that offers an Explainable Reinforcement Learning (XRL) method for trading financial stocks. In this paper, we proposed to employ SHapley Additive exPlanation (SHAP) on a popular deep reinforcement learning architecture viz., deep Q network (DQN) to explain an action of an agent at a given instance in financial stock trading. To demonstrate the effectiveness of our method, we tested it on two popular datasets namely, SENSEX and DJIA, and reported the results.
翻訳日:2022-08-19 13:35:38 公開日:2022-08-18
# メルトニン:aiによる音楽スタイルに関する事例研究

"Melatonin": A Case Study on AI-induced Musical Style ( http://arxiv.org/abs/2208.08968v1 )

ライセンス: Link先を確認
Emmanuel Deruty, Maarten Grachten(参考訳) 音楽の作曲と制作におけるAIツールの利用は着実に増加しているが、新たに設立されたAIソングコンテストで見られるように、これらのツールを使用した音楽の分析は、AIツールが音楽制作に影響を与える方法についての洞察を得る手段として、いまだに一般的ではない。 本稿では,ベースラインを生成するためのAIツールであるBassNetを多用した楽曲である"Melatonin"のケーススタディを示す。 アーティストのワークフローと楽曲プロジェクトの分析を通じて,曲のスタイル特性とツールの余裕を識別し,イディオムと音の両方の観点からのスタイル表現を強調する。

Although the use of AI tools in music composition and production is steadily increasing, as witnessed by the newly founded AI song contest, analysis of music produced using these tools is still relatively uncommon as a mean to gain insight in the ways AI tools impact music production. In this paper we present a case study of "Melatonin", a song produced by extensive use of BassNet, an AI tool originally designed to generate bass lines. Through analysis of the artists' work flow and song project, we identify style characteristics of the song in relation to the affordances of the tool, highlighting manifestations of style in terms of both idiom and sound.
翻訳日:2022-08-19 13:35:20 公開日:2022-08-18
# 骨格に基づく行動認識のための空間時間グラフ注意ネットワーク

Spatial Temporal Graph Attention Network for Skeleton-Based Action Recognition ( http://arxiv.org/abs/2208.08599v1 )

ライセンス: Link先を確認
Lianyu Hu, Shenglan Liu, Wei Feng(参考訳) 骨格に基づく行動認識の現在の手法では、スケルトン配列が典型的には長い(>128フレーム)ため、主に長期の時間的依存関係のキャプチャを検討するのが一般的である。 このような条件下では、短期的な依存関係はほとんど考慮されておらず、同様の行動の分類に不可欠である。 現在のほとんどのアプローチは、空間のみのモジュールと時間のみのモジュールをインターリービングすることで構成されており、隣り合うフレームの関節間の直接的な情報の流れが妨げられ、短期的な動きを捉え、類似のアクションペアを区別するのに劣る。 この制限に対処するため、時空情報の流れをモデル化するための一般的なフレームワークSTGATを提案する。 空間のみのモジュールに、地域知覚のための時空間モデリングを装備する。 理論上,STGATは空間的時間的モデリングに有効であるが,局所的時間的特徴冗長性を低減し,(1)自己保持機構の範囲を狭め,(2)時間的次元に沿った動的重み付き関節,(3)静的特徴から微妙な動きを分離するSTGATのポテンシャルを解放する3つの単純なモジュールを提案する。 頑健な特徴抽出器として、STGATは、定性的かつ定量的な結果によって観察される従来の方法よりも、類似した行動を分類する方が優れている。 STGATは、NTU RGB+D 60、NTU RGB+D 120、Kineetics Skeleton 400の3つの大規模データセットで最先端のパフォーマンスを達成する。 コードはリリースされます。

It's common for current methods in skeleton-based action recognition to mainly consider capturing long-term temporal dependencies as skeleton sequences are typically long (>128 frames), which forms a challenging problem for previous approaches. In such conditions, short-term dependencies are few formally considered, which are critical for classifying similar actions. Most current approaches are consisted of interleaving spatial-only modules and temporal-only modules, where direct information flow among joints in adjacent frames are hindered, thus inferior to capture short-term motion and distinguish similar action pairs. To handle this limitation, we propose a general framework, coined as STGAT, to model cross-spacetime information flow. It equips the spatial-only modules with spatial-temporal modeling for regional perception. While STGAT is theoretically effective for spatial-temporal modeling, we propose three simple modules to reduce local spatial-temporal feature redundancy and further release the potential of STGAT, which (1) narrow the scope of self-attention mechanism, (2) dynamically weight joints along temporal dimension, and (3) separate subtle motion from static features, respectively. As a robust feature extractor, STGAT generalizes better upon classifying similar actions than previous methods, witnessed by both qualitative and quantitative results. STGAT achieves state-of-the-art performance on three large-scale datasets: NTU RGB+D 60, NTU RGB+D 120, and Kinetics Skeleton 400. Code is released.
翻訳日:2022-08-19 13:33:18 公開日:2022-08-18
# 類似解剖構造全体にわたるドメイン適応セグメンテーションのためのコントラスト半教師付き学習

Contrastive Semi-supervised Learning for Domain Adaptive Segmentation Across Similar Anatomical Structures ( http://arxiv.org/abs/2208.08605v1 )

ライセンス: Link先を確認
Ran Gu, Jingyang Zhang, Guotai Wang, Wenhui Lei, Tao Song, Xiaofan Zhang, Kang Li, Shaoting Zhang(参考訳) 畳み込みニューラルネットワーク(CNN)は、医療画像セグメンテーションの最先端のパフォーマンスを達成したが、トレーニングには多くの手動アノテーションが必要である。 SSL(Semi-Supervised Learning)メソッドはアノテーションの要件を減らすことを約束するが、データセットのサイズと注釈付き画像の数が少なくてもパフォーマンスは制限されている。 トレーニングを支援するために、同様の解剖構造を持つ既存の注釈付きデータセットを活用することは、モデルのパフォーマンスを改善する可能性がある。 しかし,対象構造物の外観や撮像モードが異なっていたため,クロス解剖領域のシフトによりさらに課題が生じた。 そこで本研究では,対象ドメインに類似する構造を分割するためにモデルを適応させるCS-CADA(Contrastive Semi-supervised Learning for Cross Anatomy Domain Adaptation)を提案する。 ドメイン特化バッチ正規化(dsbn)を用いて2つの解剖学的ドメインの特徴マップを個別に正規化し、ドメイン不変特徴の抽出を促進するクロスドメインコントラスト学習戦略を提案する。 これらはSelf-Ensembling Mean-Teacher (SE-MT)フレームワークに統合され、予測一貫性制約でラベル付けされていないターゲットドメインイメージを活用する。 CS-CADAは,網膜血管画像と心臓MR画像の併用により,X線画像における冠状動脈の正確なセグメンテーションを,ターゲット領域に少数のアノテーションのみを付与することにより,課題を解決できることを,広範囲にわたる実験により示している。

Convolutional Neural Networks (CNNs) have achieved state-of-the-art performance for medical image segmentation, yet need plenty of manual annotations for training. Semi-Supervised Learning (SSL) methods are promising to reduce the requirement of annotations, but their performance is still limited when the dataset size and the number of annotated images are small. Leveraging existing annotated datasets with similar anatomical structures to assist training has a potential for improving the model's performance. However, it is further challenged by the cross-anatomy domain shift due to the different appearance and even imaging modalities from the target structure. To solve this problem, we propose Contrastive Semi-supervised learning for Cross Anatomy Domain Adaptation (CS-CADA) that adapts a model to segment similar structures in a target domain, which requires only limited annotations in the target domain by leveraging a set of existing annotated images of similar structures in a source domain. We use Domain-Specific Batch Normalization (DSBN) to individually normalize feature maps for the two anatomical domains, and propose a cross-domain contrastive learning strategy to encourage extracting domain invariant features. They are integrated into a Self-Ensembling Mean-Teacher (SE-MT) framework to exploit unlabeled target domain images with a prediction consistency constraint. Extensive experiments show that our CS-CADA is able to solve the challenging cross-anatomy domain shift problem, achieving accurate segmentation of coronary arteries in X-ray images with the help of retinal vessel images and cardiac MR images with the help of fundus images, respectively, given only a small number of annotations in the target domain.
翻訳日:2022-08-19 13:32:46 公開日:2022-08-18
# 線形確率過程におけるラッジ相関のためのプロセスモチーフによるネットワーク推論

Network inference via process motifs for lagged correlation in linear stochastic processes ( http://arxiv.org/abs/2208.08871v1 )

ライセンス: Link先を確認
Alice C. Schwarze, Sara M. Ichinaga, Bingni W. Brunton(参考訳) 時系列データからの因果推論の大きな課題は、計算可能性と精度のトレードオフである。 平均回帰が遅い自己回帰モデルにおけるラグランジ共分散の過程モチーフに動機づけられ,ラグランジ相関行列から容易に計算できるペアワイズエッジ測度(pem)を介して因果関係のネットワークを推定する。 プロセスモチーフの共分散やラタグ分散への寄与を動機として, 因果関係や逆因果関係に正しい2つのPEMを定式化する。 本研究では,線形確率過程のシミュレーションからネットワーク干渉を考慮し,提案したPEMがネットワークを高精度かつ効率的に推論可能であることを示す。 具体的には、少し自己相関的な時系列データの場合、我々のアプローチはグランガー因果関係、転送エントロピー、収束クロスマップよりも高い確率を達成するが、これらの方法のどれよりも計算時間がずっと短い。 我々の高速かつ正確なPEMは、明確な理論的基盤を持つネットワーク推論の実装方法である。 それらは、Granger因果関係、ベクトル自己回帰、スパース逆共分散推定など、時系列データから線形モデルを推定するための現在のパラダイムに代わる有望な代替手段を提供する。

A major challenge for causal inference from time-series data is the trade-off between computational feasibility and accuracy. Motivated by process motifs for lagged covariance in an autoregressive model with slow mean-reversion, we propose to infer networks of causal relations via pairwise edge measure (PEMs) that one can easily compute from lagged correlation matrices. Motivated by contributions of process motifs to covariance and lagged variance, we formulate two PEMs that correct for confounding factors and for reverse causation. To demonstrate the performance of our PEMs, we consider network interference from simulations of linear stochastic processes, and we show that our proposed PEMs can infer networks accurately and efficiently. Specifically, for slightly autocorrelated time-series data, our approach achieves accuracies higher than or similar to Granger causality, transfer entropy, and convergent crossmapping -- but with much shorter computation time than possible with any of these methods. Our fast and accurate PEMs are easy-to-implement methods for network inference with a clear theoretical underpinning. They provide promising alternatives to current paradigms for the inference of linear models from time-series data, including Granger causality, vector-autoregression, and sparse inverse covariance estimation.
翻訳日:2022-08-19 13:29:12 公開日:2022-08-18
# MulZDG:ゼロショット対話生成のための多言語コードスイッチングフレームワーク

MulZDG: Multilingual Code-Switching Framework for Zero-shot Dialogue Generation ( http://arxiv.org/abs/2208.08629v1 )

ライセンス: Link先を確認
Yongkang Liu, Shi Feng, Daling Wang, Yifei Zhang(参考訳) GPT-3やT5のような大規模学習済み言語生成モデルに大きく依存するため、ゼロショットシナリオで対話生成システムを構築することは大きな課題である。 言語モデルを持たないゼロショット対話生成の研究は、対応するパラレル対話コーパスの欠如により制限されている。 本稿では,大規模な学習サンプルを持つ英語コーパスから,ゼロサンプルの非英語コーパスへ知識を効果的に伝達する,ゼロショット対話生成(mulzdg)のための,単純かつ効果的な多言語学習フレームワークを提案する。 さらに、MulZDGはリソース豊富な言語の性能を向上させるための多言語データ拡張手法と見なすことができる。 まず,単言語英語データセットからランダムに選択した翻訳発話を用いて,多言語コード切り換え対話データセットを構築する。 次に、MulZDGを用いて、コードスイッチングデータセットに基づく統合多言語対話モデルを訓練する。 MulZDGは異なる言語間で暗黙的なセマンティックアライメントを行うことができる。 DailyDialog と DSTC7 データセットの実験では、MulZDG がゼロショットケース下での競争性能を達成するだけでなく、十分な例によるトレーニングよりも、ソースコードのパフォーマンスを大幅に向上することを示した。

Building dialogue generation systems in a zero-shot scenario remains a huge challenge, since the typical zero-shot approaches in dialogue generation rely heavily on large-scale pre-trained language generation models such as GPT-3 and T5. The research on zero-shot dialogue generation without cumbersome language models is limited due to lacking corresponding parallel dialogue corpora. In this paper, we propose a simple but effective Multilingual learning framework for Zero-shot Dialogue Generation (dubbed as MulZDG) that can effectively transfer knowledge from an English corpus with large-scale training samples to a non-English corpus with zero samples. Besides, MulZDG can be viewed as a multilingual data augmentation method to improve the performance of the resource-rich language. First, we construct multilingual code-switching dialogue datasets via translation utterances randomly selected from monolingual English datasets. Then we employ MulZDG to train a unified multilingual dialogue model based on the code-switching datasets. The MulZDG can conduct implicit semantic alignment between different languages. Experiments on DailyDialog and DSTC7 datasets demonstrate that MulZDG not only achieve competitive performance under zero-shot case compared to training with sufficient examples but also greatly improve the performance of the source language.
翻訳日:2022-08-19 13:28:26 公開日:2022-08-18
# 連関関係抽出のための二相パラダイム

A Two-Phase Paradigm for Joint Entity-Relation Extraction ( http://arxiv.org/abs/2208.08659v1 )

ライセンス: Link先を確認
Bin Ji, Hao Xu, Jie Yu, Shasha Li, Jun Ma, Yuke Ji, Huijun Liu(参考訳) ジョイントエンティティと関係抽出タスクのスパンベースモデルを検討するために, 徹底的な研究を行った。 しかし、これらのモデルは、モデルトレーニング中に多数の負の実体と負の関係をサンプリングし、これは必須であるが、総じて不均衡なデータ分布をもたらす。 上記の問題に対処するために,第1相における実体と関係を分類し,第2相における実体と関係のタイプを予測し,スパン型結合実体と関係抽出の2相パラダイムを提案する。 この2段階のパラダイムにより、負のエンティティと他のエンティティのギャップや、負の関係と他の関係のギャップを含むデータ分散ギャップを大幅に削減できる。 さらに,グローバルな特徴としてエンティティタイプとエンティティ距離を組み合わせた最初の試みを行い,特に関係抽出において有効であることが証明された。 いくつかのデータセットにおける実験結果から, 2相パラダイムで強化されたスパンベース継手抽出モデルと, 従来からある継手抽出タスクのスパンベースモデルより一貫して優れ, 新しい標準ベンチマークが確立された。 質的かつ定量的な分析は、提案されたパラダイムとグローバル特徴の有効性をさらに検証する。

An exhaustive study has been conducted to investigate span-based models for the joint entity and relation extraction task. However, these models sample a large number of negative entities and negative relations during the model training, which are essential but result in grossly imbalanced data distributions and in turn cause suboptimal model performance. In order to address the above issues, we propose a two-phase paradigm for the span-based joint entity and relation extraction, which involves classifying the entities and relations in the first phase, and predicting the types of these entities and relations in the second phase. The two-phase paradigm enables our model to significantly reduce the data distribution gap, including the gap between negative entities and other entities, as well as the gap between negative relations and other relations. In addition, we make the first attempt at combining entity type and entity distance as global features, which has proven effective, especially for the relation extraction. Experimental results on several datasets demonstrate that the spanbased joint extraction model augmented with the two-phase paradigm and the global features consistently outperforms previous state-of-the-art span-based models for the joint extraction task, establishing a new standard benchmark. Qualitative and quantitative analyses further validate the effectiveness the proposed paradigm and the global features.
翻訳日:2022-08-19 13:28:05 公開日:2022-08-18
# 2007年から2022年までのオープン情報抽出 -調査-

Open Information Extraction from 2007 to 2022 -- A Survey ( http://arxiv.org/abs/2208.08690v1 )

ライセンス: Link先を確認
Pai Liu, Wenyang Gao, Wenjie Dong, Songfang Huang, Yue Zhang(参考訳) オープン情報抽出は、テキストの関連タイプやドメインに制限なく、構造化されていないテキストから構造化情報を抽出することを目的とした重要なnlpタスクである。 本調査では,2007年から2022年までのオープンな情報抽出技術について紹介し,従来の調査対象外の新モデルに焦点を当てた。 近年のOIE技術の発展に対応するため,情報の観点からの新たな分類手法を提案する。 さらに、タスク設定に基づく3つの主要なアプローチと、現在の一般的なデータセットとモデル評価メトリクスを要約する。 包括的なレビューをすると、データセット、情報ソース、出力フォーム、方法、評価メトリックの側面から、いくつかの将来の方向性が示されます。

Open information extraction is an important NLP task that targets extracting structured information from unstructured text without limitations on the relation type or the domain of the text. This survey paper covers open information extraction technologies from 2007 to 2022 with a focus on new models not covered by previous surveys. We propose a new categorization method from the source of information perspective to accommodate the development of recent OIE technologies. In addition, we summarize three major approaches based on task settings as well as current popular datasets and model evaluation metrics. Given the comprehensive review, several future directions are shown from datasets, source of information, output form, method, and evaluation metric aspects.
翻訳日:2022-08-19 13:27:43 公開日:2022-08-18
# 対人衝突タイプ理解と知覚分類への影響

Understanding Interpersonal Conflict Types and their Impact on Perception Classification ( http://arxiv.org/abs/2208.08758v1 )

ライセンス: Link先を確認
Charles Welch, Joan Plepi, B\'ela Neuendorf, Lucie Flek(参考訳) 対人対立の研究は長い歴史を持ち、紛争タイプ論に関する多くの示唆を含んでいる。 我々は、これを新しいアノテーションスキームの基礎として使用し、新しい状況とコンフリクトアスペクトアノテーションのデータセットをリリースする。 次に、ある状況において、ある個人の行動が正しいものであるか間違っているかを予測し、このタスクの以前の作業を上回るように分類器を構築します。 本分析では,コンフリクトの側面だけでなく,人間が検証したクラスタも含み,参加者と著者の関係に基づくコンフリクトの内容の違いを示す。 我々の発見は紛争や社会規範を理解する上で重要な意味を持つ。

Studies on interpersonal conflict have a long history and contain many suggestions for conflict typology. We use this as the basis of a novel annotation scheme and release a new dataset of situations and conflict aspect annotations. We then build a classifier to predict whether someone will perceive the actions of one individual as right or wrong in a given situation, outperforming previous work on this task. Our analyses include conflict aspects, but also generated clusters, which are human validated, and show differences in conflict content based on the relationship of participants to the author. Our findings have important implications for understanding conflict and social norms.
翻訳日:2022-08-19 13:27:33 公開日:2022-08-18
# ゼロショットスタンス検出のための爆発感度と共通感覚

Exploiting Sentiment and Common Sense for Zero-shot Stance Detection ( http://arxiv.org/abs/2208.08797v1 )

ライセンス: Link先を確認
Yun Luo, Zihan Liu, Yuefeng Shi, Yue Zhang(参考訳) 姿勢検出タスクは、所定の文書や話題に対する姿勢を分類することを目的としている。 本研究は,ゼロショット設定のトレーニングデータに暗黙的なトピックを適用できるため,従来の研究では考えられない感情や常識知識を用いて,姿勢検出モデルの伝達可能性を高めることを提案する。 我々のモデルには、常識知識を得るグラフオートエンコーダモジュールと、感情と常識を持つ姿勢検出モジュールが含まれる。 実験結果から,本モデルはゼロショットおよび少数ショットベンチマークデータセット--VASTにおいて,最先端の手法よりも優れていることがわかった。 一方、アブレーション研究はモデルにおける各モジュールの重要性を証明している。 感情、常識、姿勢の関係の分析は、感情と常識の有効性を示している。

The stance detection task aims to classify the stance toward given documents and topics. Since the topics can be implicit in documents and unseen in training data for zero-shot settings, we propose to boost the transferability of the stance detection model by using sentiment and commonsense knowledge, which are seldom considered in previous studies. Our model includes a graph autoencoder module to obtain commonsense knowledge and a stance detection module with sentiment and commonsense. Experimental results show that our model outperforms the state-of-the-art methods on the zero-shot and few-shot benchmark dataset--VAST. Meanwhile, ablation studies prove the significance of each module in our model. Analysis of the relations between sentiment, common sense, and stance indicates the effectiveness of sentiment and common sense.
翻訳日:2022-08-19 13:27:23 公開日:2022-08-18
# 自然言語処理に基づくブランドセレブマッチングモデル

Brand Celebrity Matching Model Based on Natural Language Processing ( http://arxiv.org/abs/2208.08887v1 )

ライセンス: Link先を確認
Heming Yang, Ke Yang, Erhan Zhang(参考訳) Celebrity Endorsementはブランドコミュニケーションにおける最も重要な戦略のひとつだ。 今日、ますます多くの企業が、自分たちに鮮明な特性を築こうとしている。 そのため、ブランドのアイデンティティー・コミュニケーションは人間や規制などいくつかの特徴と一致すべきである。 しかし、以前の作品は、ブランドとセレブのマッチングを行う特定の方法を提案するのではなく、仮定によって主に停止する。 本稿では,自然言語処理(NLP)技術に基づくブランド有名人マッチングモデル(BCM)を提案する。 ブランドと有名人が与えられたら、まずインターネットから記述された文書を入手し、まずこれらの文書を要約し、最終的にブランドと有名人の一致度を計算し、一致するかどうかを判断する。 実験結果から,提案モデルが0.362F1スコアと6.3%の精度で最高のベースラインを達成し,実世界のシーンにおけるモデルの有効性と適用価値を示した。 さらに、私たちの知る限りでは、提案されたBCMモデルは、NLPを使用して支持問題を解決するための最初の取り組みであり、新しい研究のアイデアと方法論を次の作品に提供できます。

Celebrity Endorsement is one of the most significant strategies in brand communication. Nowadays, more and more companies try to build a vivid characteristic for themselves. Therefore, their brand identity communications should accord with some characteristics as humans and regulations. However, the previous works mostly stop by assumptions, instead of proposing a specific way to perform matching between brands and celebrities. In this paper, we propose a brand celebrity matching model (BCM) based on Natural Language Processing (NLP) techniques. Given a brand and a celebrity, we firstly obtain some descriptive documents of them from the Internet, then summarize these documents, and finally calculate a matching degree between the brand and the celebrity to determine whether they are matched. According to the experimental result, our proposed model outperforms the best baselines with a 0.362 F1 score and 6.3% of accuracy, which indicates the effectiveness and application value of our model in the real-world scene. What's more, to our best knowledge, the proposed BCM model is the first work on using NLP to solve endorsement issues, so it can provide some novel research ideas and methodologies for the following works.
翻訳日:2022-08-19 13:27:10 公開日:2022-08-18
# Ered: エンティティと記述を備えた拡張テキスト表現

Ered: Enhanced Text Representations with Entities and Descriptions ( http://arxiv.org/abs/2208.08954v1 )

ライセンス: Link先を確認
Qinghua Zhao, Shuai Ma, Yuxuan Lei(参考訳) 外部知識、例えばエンティティやエンティティ記述は、人間がテキストを理解するのに役立つ。 事前訓練されたモデルに外部知識を含めるために多くの作品が研究されている。 これらの手法は一般に、事前学習タスクを設計し、モデルの重みを更新することで暗黙的に知識を導入する。 有効ではあるが、いくつかの制限がある。 一方、暗黙的であり、モデル重みだけが注意を払われ、事前訓練されたエンティティ埋め込みは無視される。 一方、エンティティ記述は長い場合があり、元のテキストと一緒にモデルに入力すると、モデルの注意をそらす可能性がある。 本稿では,エンティティ記述とエンティティ記述の両方を微調整段階に明示的に含むことを目的とする。 まず、事前訓練されたエンティティの埋め込みを元のテキスト表現と融合させ、バックボーンモデル層によって更新する。 第2に、記述はバックボーンモデルの外側のナレッジモジュールで表現され、各ナレッジ層は1つのバックボーン層に選択的に接続されて融合する。 第3に,2つの知識関連補助タスク,すなわちエンティティ/記述エンハンスメントとエンティティエンハンスメント/汚染タスクは,進化した表現間の意味的ギャップを円滑にするように設計されている。 4つのナレッジ指向タスクと2つの共通タスクについて実験を行い,いくつかのデータセットで新たな最先端の成果を得た。 さらに,本手法の各モジュールが必要であることを示すため,アブレーション実験を行った。 コードはhttps://github.com/lshowway/eredで入手できる。

External knowledge,e.g., entities and entity descriptions, can help humans understand texts. Many works have been explored to include external knowledge in the pre-trained models. These methods, generally, design pre-training tasks and implicitly introduce knowledge by updating model weights, alternatively, use it straightforwardly together with the original text. Though effective, there are some limitations. On the one hand, it is implicit and only model weights are paid attention to, the pre-trained entity embeddings are ignored. On the other hand, entity descriptions may be lengthy, and inputting into the model together with the original text may distract the model's attention. This paper aims to explicitly include both entities and entity descriptions in the fine-tuning stage. First, the pre-trained entity embeddings are fused with the original text representation and updated by the backbone model layer by layer. Second, descriptions are represented by the knowledge module outside the backbone model, and each knowledge layer is selectively connected to one backbone layer for fusing. Third, two knowledge-related auxiliary tasks, i.e., entity/description enhancement and entity enhancement/pollution task, are designed to smooth the semantic gaps among evolved representations. We conducted experiments on four knowledge-oriented tasks and two common tasks, and the results achieved new state-of-the-art on several datasets. Besides, we conduct an ablation study to show that each module in our method is necessary. The code is available at https://github.com/lshowway/Ered.
翻訳日:2022-08-19 13:26:53 公開日:2022-08-18
# 機械学習を用いた知的財産評価

Intellectual Property Evaluation Utilizing Machine Learning ( http://arxiv.org/abs/2208.08611v1 )

ライセンス: Link先を確認
Jinxin Ding, Yuxin Huang, Keyang Ni, Xueyao Wang, Yinxiao Wang and Yucheng Wang(参考訳) 知的財産は経済発展においてますます重要である。 従来のip評価手法による問題点を解決するために,機械学習を中心とする新しい技術を開発した。 われわれはオンラインプラットフォームを構築し、グレーターベイエリアで事業を拡大する計画を立てている。

Intellectual properties is increasingly important in the economic development. To solve the pain points by traditional methods in IP evaluation, we are developing a new technology with machine learning as the core. We have built an online platform and will expand our business in the Greater Bay Area with plans.
翻訳日:2022-08-19 13:26:14 公開日:2022-08-18
# DIET:残余情報の限界依存度を用いた条件独立試験

DIET: Conditional independence testing with marginal dependence measures of residual information ( http://arxiv.org/abs/2208.08579v1 )

ライセンス: Link先を確認
Mukund Sudarshan, Aahlad Manas Puli, Wesley Tansey, Rajesh Ranganath(参考訳) 条件付きランダム化テスト(CRT)は、変数$x$が他の変数$y$の予測値であるかどうかを評価する。 crtは大量の予測モデルに適合する必要があるが、計算上は難解であることが多い。 既存のCRTのコスト削減ソリューションは通常、データセットを列車とテスト部分に分割するか、インタラクションのヒューリスティックに頼っている。 本稿では,境界独立統計を利用して条件独立関係を検証し,両者の問題を回避するアルゴリズムである分離独立テスト(DIET)を提案する。 DIETは2つの確率変数の辺独立性をテストする:$F(x \mid z)$と$F(y \mid z)$ ここで$F(\cdot \mid z)$は条件累積分布関数(CDF)である。 これらの変数を「情報残差」と呼ぶ。 有限サンプルの1型エラー制御と1型エラーレートよりも大きなパワーを実現するために,ダイエットに十分な条件を与える。 次に,情報残差間の相互情報をテスト統計として使用する場合,食事は最も強力な条件付有効なテストとなることを示す。 最後に、DIETは、複数の合成および実ベンチマークにおいて、他のトラクタブルCRTよりも高い出力を達成することを示す。

Conditional randomization tests (CRTs) assess whether a variable $x$ is predictive of another variable $y$, having observed covariates $z$. CRTs require fitting a large number of predictive models, which is often computationally intractable. Existing solutions to reduce the cost of CRTs typically split the dataset into a train and test portion, or rely on heuristics for interactions, both of which lead to a loss in power. We propose the decoupled independence test (DIET), an algorithm that avoids both of these issues by leveraging marginal independence statistics to test conditional independence relationships. DIET tests the marginal independence of two random variables: $F(x \mid z)$ and $F(y \mid z)$ where $F(\cdot \mid z)$ is a conditional cumulative distribution function (CDF). These variables are termed "information residuals." We give sufficient conditions for DIET to achieve finite sample type-1 error control and power greater than the type-1 error rate. We then prove that when using the mutual information between the information residuals as a test statistic, DIET yields the most powerful conditionally valid test. Finally, we show DIET achieves higher power than other tractable CRTs on several synthetic and real benchmarks.
翻訳日:2022-08-19 13:22:25 公開日:2022-08-18
# 生成型adversarial networkの残存寿命推定への応用について

On an Application of Generative Adversarial Networks on Remaining Lifetime Estimation ( http://arxiv.org/abs/2208.08666v1 )

ライセンス: Link先を確認
G. Tsialiamanis, D. Wagg, N. Dervilis, K. Worden(参考訳) 構造的健康モニタリング(SHM)の大きな問題は、損傷の予後と、構造物の残りの有用寿命の定義である。 どちらのタスクも多くのパラメータに依存しており、その多くは不確かであることが多い。 上記のタスクのために多くのモデルが開発されたが、それらは決定論的あるいは確率的であり、構造の過去の状態の限られた量だけを考慮に入れることができる。 本研究では, 構造物の損傷進展を予測するために, 生成モデルを提案する。 このモデルは、人口ベースSHM(PBSHM)フレームワークを用いて、損傷構造の過去の多くの状態を考慮し、モデリングプロセスに不確実性を組み込んで、構造から取得したデータに基づいて潜在的損傷進化結果を生成することができる。 このアルゴリズムは、シミュレーションされた損傷進化の例でテストされ、その結果、集団内の構造物の残りの有用な寿命について、極めて確実な予測が可能であることが明らかになった。

A major problem of structural health monitoring (SHM) has been the prognosis of damage and the definition of the remaining useful life of a structure. Both tasks depend on many parameters, many of which are often uncertain. Many models have been developed for the aforementioned tasks but they have been either deterministic or stochastic with the ability to take into account only a restricted amount of past states of the structure. In the current work, a generative model is proposed in order to make predictions about the damage evolution of structures. The model is able to perform in a population-based SHM (PBSHM) framework, to take into account many past states of the damaged structure, to incorporate uncertainties in the modelling process and to generate potential damage evolution outcomes according to data acquired from a structure. The algorithm is tested on a simulated damage evolution example and the results reveal that it is able to provide quite confident predictions about the remaining useful life of structures within a population.
翻訳日:2022-08-19 13:22:03 公開日:2022-08-18
# 多様化重み打ちによる目標攻撃伝達性の向上

Enhancing Targeted Attack Transferability via Diversified Weight Pruning ( http://arxiv.org/abs/2208.08677v1 )

ライセンス: Link先を確認
Hung-Jui Wang, Yu-Yu Wu, Shang-Tse Chen(参考訳) 悪意のある攻撃者は、画像に人間の知覚できないノイズを課し、ニューラルネットワークモデルに特定の不正な出力を強制することで、標的となる敵の例を生成することができる。 クロスモデル転送可能な攻撃例では、モデル情報が攻撃者から秘密にされている場合でも、ニューラルネットワークの脆弱性は残る。 近年の研究では, エンサンブル法の有効性が示されている。 しかし、既存の手法は、異なるモデル間で転送可能なターゲットアタックを作成するというより困難なシナリオに該当しない。 そこで本研究では,モデル圧縮によく用いられる重み打ち法を利用して,アンサンブルに基づく手法をさらに強化するために,DWP(Diversified Weight Pruning)を提案する。 具体的には,ランダムウェイトプルーニング法を用いて多種多様なモデルを得る。 これらのモデルは類似の精度を保ち、アンサンブルベースの手法のための追加モデルとして機能し、より強力な転送可能な標的攻撃をもたらす。 ImageNet-Compatible Datasetの実験は、異なるアーキテクチャへの転送や、反対に訓練されたモデルなど、より困難なシナリオ下で提供される。 その結果,提案したDWPは,最先端手法の組み合わせにより目標攻撃成功率を最大4.1%,8.0%向上させることがわかった。

Malicious attackers can generate targeted adversarial examples by imposing human-imperceptible noise on images, forcing neural network models to produce specific incorrect outputs. With cross-model transferable adversarial examples, the vulnerability of neural networks remains even if the model information is kept secret from the attacker. Recent studies have shown the effectiveness of ensemble-based methods in generating transferable adversarial examples. However, existing methods fall short under the more challenging scenario of creating targeted attacks transferable among distinct models. In this work, we propose Diversified Weight Pruning (DWP) to further enhance the ensemble-based methods by leveraging the weight pruning method commonly used in model compression. Specifically, we obtain multiple diverse models by a random weight pruning method. These models preserve similar accuracies and can serve as additional models for ensemble-based methods, yielding stronger transferable targeted attacks. Experiments on ImageNet-Compatible Dataset under the more challenging scenarios are provided: transferring to distinct architectures and to adversarially trained models. The results show that our proposed DWP improves the targeted attack success rates with up to 4.1% and 8.0% on the combination of state-of-the-art methods, respectively
翻訳日:2022-08-19 13:21:47 公開日:2022-08-18
# ディバイス決定境界を用いたディープニューラルネットワークの残差攻撃

Resisting Adversarial Attacks in Deep Neural Networks using Diverse Decision Boundaries ( http://arxiv.org/abs/2208.08697v1 )

ライセンス: Link先を確認
Manaar Alam, Shubhajit Datta, Debdeep Mukhopadhyay, Arijit Mondal, Partha Pratim Chakrabarti(参考訳) ディープラーニング(dl)システムのセキュリティは、いくつかのアプリケーションにデプロイされているため、困難なタスクを解決するための改良的なパフォーマンスのため、非常に重要な研究分野である。 圧倒的な約束にもかかわらず、深層学習システムは、人間の目には認識できないが、モデルを誤分類させる可能性がある、人工的な敵の例に弱い。 アンサンブル技術における敵意の摂動に対する保護は、より強い敵に弱いか、エンドツーエンドの評価が不十分であることが示されている。 本稿では,オリジナルモデルに対する多様な決定境界を持つディフェンダモデルを構築するための,アンサンブルに基づく新しいソリューションの開発を試みる。 スプリット・アンド・シャッフル (Split-and-Shuffle) と呼ばれる手法による入力の変換と,(2) コントラスト・重要機能 (Contrast-Significant-Features) と呼ばれる手法による重要な特徴の制限により構成された分類器のアンサンブルは, 対角攻撃に対して多様な勾配をもたらし, 原型から同一クラスを対象とするディフェンダーモデルへの対角的例の移動の機会を減少させる。 我々は,MNIST,CIFAR-10,CIFAR-100といった標準画像分類データセットを用いた,最先端の敵攻撃に対する広範な実験を行った。 また,アンサンブル内のすべてのモデルを同時にターゲットとした,より強固な敵の存在下でのロバスト性を評価する。 提案手法の全体的な性能を推定するために, 全体の偽陽性と偽陰性の結果が得られた。

The security of deep learning (DL) systems is an extremely important field of study as they are being deployed in several applications due to their ever-improving performance to solve challenging tasks. Despite overwhelming promises, the deep learning systems are vulnerable to crafted adversarial examples, which may be imperceptible to the human eye, but can lead the model to misclassify. Protections against adversarial perturbations on ensemble-based techniques have either been shown to be vulnerable to stronger adversaries or shown to lack an end-to-end evaluation. In this paper, we attempt to develop a new ensemble-based solution that constructs defender models with diverse decision boundaries with respect to the original model. The ensemble of classifiers constructed by (1) transformation of the input by a method called Split-and-Shuffle, and (2) restricting the significant features by a method called Contrast-Significant-Features are shown to result in diverse gradients with respect to adversarial attacks, which reduces the chance of transferring adversarial examples from the original to the defender model targeting the same class. We present extensive experimentations using standard image classification datasets, namely MNIST, CIFAR-10 and CIFAR-100 against state-of-the-art adversarial attacks to demonstrate the robustness of the proposed ensemble-based defense. We also evaluate the robustness in the presence of a stronger adversary targeting all the models within the ensemble simultaneously. Results for the overall false positives and false negatives have been furnished to estimate the overall performance of the proposed methodology.
翻訳日:2022-08-19 13:21:28 公開日:2022-08-18
# ニューラルペイオフマシン: チームメンバ間の公平かつ安定したペイオフアロケーションの予測

Neural Payoff Machines: Predicting Fair and Stable Payoff Allocations Among Team Members ( http://arxiv.org/abs/2208.08798v1 )

ライセンス: Link先を確認
Daphne Cornelisse, Thomas Rood, Mateusz Malinowski, Yoram Bachrach, and Tal Kachman(参考訳) 多くのマルチエージェント設定では、参加者はチームを作り、個々の能力をはるかに超えるような集合的な成果を達成できます。 エージェントの相対的な貢献を計測し、長期的な協力を促進する報酬の共有を割り当てることは難しい。 協調ゲーム理論は、Shapley値のような分散スキームを識別するソリューション概念を提供し、それは、チームやコアのパフォーマンスに対する個人の貢献をかなり反映している。 このような方法の応用には、影響力のある特徴を特定し、ジョイントベンチャーやチーム形成のコストを共有することが含まれる。 残念ながら、これらのソリューションを使用するには、制限された設定でも計算が難しいため、計算障壁に取り組む必要がある。 そこで本研究では,ニューラルネットワークの学習により学習モデルに協調的なゲーム理論解を蒸留し,公平かつ安定した報酬配分を提案する。 提案手法は,トレーニング分布から離れたゲームに一般化可能なモデルを作成し,トレーニング中に観測されるよりも多くのプレイヤーに対する解を予測できることを示す。 私たちのアプローチは、多くのインスタンスにおけるShapley値計算の高速化に使用できます。

In many multi-agent settings, participants can form teams to achieve collective outcomes that may far surpass their individual capabilities. Measuring the relative contributions of agents and allocating them shares of the reward that promote long-lasting cooperation are difficult tasks. Cooperative game theory offers solution concepts identifying distribution schemes, such as the Shapley value, that fairly reflect the contribution of individuals to the performance of the team or the Core, which reduces the incentive of agents to abandon their team. Applications of such methods include identifying influential features and sharing the costs of joint ventures or team formation. Unfortunately, using these solutions requires tackling a computational barrier as they are hard to compute, even in restricted settings. In this work, we show how cooperative game-theoretic solutions can be distilled into a learned model by training neural networks to propose fair and stable payoff allocations. We show that our approach creates models that can generalize to games far from the training distribution and can predict solutions for more players than observed during training. An important application of our framework is Explainable AI: our approach can be used to speed-up Shapley value computations on many instances.
翻訳日:2022-08-19 13:20:55 公開日:2022-08-18
# MvDeCor:細粒度3次元セグメンテーションのための多視点深度対応学習

MvDeCor: Multi-view Dense Correspondence Learning for Fine-grained 3D Segmentation ( http://arxiv.org/abs/2208.08580v1 )

ライセンス: Link先を確認
Gopal Sharma, Kangxue Yin, Subhransu Maji, Evangelos Kalogerakis, Or Litany, Sanja Fidler(参考訳) そこで本研究では,2次元領域における自己監督技術を用いて,微細な3次元形状分割タスクを提案する。 これは、視点に基づく表面表現が、点雲やボクセルの占有率に基づく3d表現よりも高解像度の表面詳細とテクスチャのモデル化に有効であるという観察から着想を得たものである。 具体的には,3次元形状を想定して複数のビューから描画し,コントラスト学習フレームワーク内で密接な対応学習タスクをセットアップする。 結果として、学習された2D表現はビュー不変であり、幾何学的に一貫したものであり、2Dや3Dで自己スーパービジョンを利用する代替品と比較してラベル付き形状の限られた数で訓練するとより一般化される。 テクスチャ付き(RenderPeople)と非テクスチャ付き(PartNet)の3Dデータセットの実験により、我々の手法は細かな部分分割において最先端の代替品よりも優れていることが示された。 ベースラインに対する改善は、トレーニングのためにスパースなビューセットしか利用できない場合や、形状がテクスチャ化されている場合の方が大きいため、2d処理と3d幾何学的推論の両方からmvdecorの利点があることを示している。

We propose to utilize self-supervised techniques in the 2D domain for fine-grained 3D shape segmentation tasks. This is inspired by the observation that view-based surface representations are more effective at modeling high-resolution surface details and texture than their 3D counterparts based on point clouds or voxel occupancy. Specifically, given a 3D shape, we render it from multiple views, and set up a dense correspondence learning task within the contrastive learning framework. As a result, the learned 2D representations are view-invariant and geometrically consistent, leading to better generalization when trained on a limited number of labeled shapes compared to alternatives that utilize self-supervision in 2D or 3D alone. Experiments on textured (RenderPeople) and untextured (PartNet) 3D datasets show that our method outperforms state-of-the-art alternatives in fine-grained part segmentation. The improvements over baselines are greater when only a sparse set of views is available for training or when shapes are textured, indicating that MvDeCor benefits from both 2D processing and 3D geometric reasoning.
翻訳日:2022-08-19 13:17:27 公開日:2022-08-18
# 物理駆動型ディープニューラルネットワークによる単発位相検索の実現に向けて

Towards Practical Single-shot Phase Retrieval with Physics-Driven Deep Neural Network ( http://arxiv.org/abs/2208.08604v1 )

ライセンス: Link先を確認
Qiuliang Ye, Li-Wen Wang, Daniel Pak-Kong Lun(参考訳) フーリエ強度のみの測定値から複素値信号を取り出すための長年の挑戦である位相検索(pr)は、デジタルイメージングに広く応用されているため、注目を集めている。 近年,シングルショットPRである程度の成功を収めたディープラーニングベースのアプローチが開発されている。 これらのアプローチでは、測定データに追加の制約を課すことなく、単一のフーリエ強度測定が必要である。 それでも、バニラディープニューラルネットワーク(DNN)は、PR問題の入力領域と出力領域の間にかなりの差異があるため、性能が良くない。 物理インフォームドアプローチは、フーリエ強度測定を反復的なアプローチに組み込んで再構成精度を向上させる。 しかし、長い計算処理を必要とするため、精度は保証できない。 さらに、これらのアプローチの多くは、実用的な光学PRシステムにおける飽和や量子化誤差などの一般的な問題を無視するシミュレーションデータに取り組んでいる。 本稿ではPPRNetと呼ばれる物理駆動型マルチスケールDNN構造を提案する。 他のディープラーニングベースのPR手法と同様に、PPRNetは単一のフーリエ強度測定のみを必要とする。 ネットワークは、異なるスケールでのフーリエ強度測定に従って、再構成精度を高めるように誘導される。 PPRNetはフィードフォワード構造を持ち、エンドツーエンドでトレーニングできる。 したがって、従来の物理駆動のprアプローチよりもはるかに高速で正確である。 実用的な光学プラットフォームに関する広範なシミュレーションと実験が行われた。 その結果,従来の学習型PR手法よりもPPRNetの方が優れていることを示す。

Phase retrieval (PR), a long-established challenge for recovering a complex-valued signal from its Fourier intensity-only measurements, has attracted considerable attention due to its widespread applications in digital imaging. Recently, deep learning-based approaches were developed that achieved some success in single-shot PR. These approaches require a single Fourier intensity measurement without the need to impose any additional constraints on the measured data. Nevertheless, vanilla deep neural networks (DNN) do not give good performance due to the substantial disparity between the input and output domains of the PR problems. Physics-informed approaches try to incorporate the Fourier intensity measurements into an iterative approach to increase the reconstruction accuracy. It, however, requires a lengthy computation process, and the accuracy still cannot be guaranteed. Besides, many of these approaches work on simulation data that ignore some common problems such as saturation and quantization errors in practical optical PR systems. In this paper, a novel physics-driven multi-scale DNN structure dubbed PPRNet is proposed. Similar to other deep learning-based PR methods, PPRNet requires only a single Fourier intensity measurement. It is physics-driven that the network is guided to follow the Fourier intensity measurement at different scales to enhance the reconstruction accuracy. PPRNet has a feedforward structure and can be end-to-end trained. Thus, it is much faster and more accurate than the traditional physics-driven PR approaches. Extensive simulations and experiments on a practical optical platform were conducted. The results demonstrate the superiority and practicality of the proposed PPRNet over the traditional learning-based PR methods.
翻訳日:2022-08-19 13:17:06 公開日:2022-08-18
# sda-sne:多方向動的プログラミングによる空間不連続性認識面正規推定

SDA-SNE: Spatial Discontinuity-Aware Surface Normal Estimation via Multi-Directional Dynamic Programming ( http://arxiv.org/abs/2208.08667v1 )

ライセンス: Link先を確認
Nan Ming, Yi Feng, Rui Fan(参考訳) SNE(State-of-the-art surface normal estimator)は一般的に、深度画像を終末の方法で表面正規写像に変換する。 このようなSNEは効率と精度のトレードオフを大幅に最小化してきたが、エッジやリッジといった空間的不連続性に対する性能は相変わらず不満足である。 この問題に対処するために,本稿ではまず,(パス)滑らか度エネルギーを最小化することにより,不整点(平面3D点)を適応的に決定する,新しい多方向動的プログラミング手法を提案する。 深さ勾配は、より合理的な表面正規値を得るのに役立つ新しい再帰多項式補間アルゴリズムを用いて反復的に洗練することができる。 提案した空間不連続性認識(SDA)深度勾配補正戦略は,任意の深度から正常なSNEと互換性がある。 提案するSDA-SNEは,他のSoTAアプローチ,特に空間的不連続性よりもはるかに高い性能を実現する。 さらに,SDA-SNEの性能を異なるイテレーションで評価した結果,ほんの数イテレーションで高速に収束することが示唆された。 これにより、リアルタイム性能を必要とする様々なロボットやコンピュータビジョンアプリケーションにおいて、高い効率が保証される。 ランダムノイズの程度が異なるデータセットに関する追加実験は、SDA-SNEの堅牢性と環境適応性をさらに検証する。 ソースコード,デモビデオ,補足資料は mias.group/SDA-SNE で公開されている。

The state-of-the-art (SoTA) surface normal estimators (SNEs) generally translate depth images into surface normal maps in an end-to-end fashion. Although such SNEs have greatly minimized the trade-off between efficiency and accuracy, their performance on spatial discontinuities, e.g., edges and ridges, is still unsatisfactory. To address this issue, this paper first introduces a novel multi-directional dynamic programming strategy to adaptively determine inliers (co-planar 3D points) by minimizing a (path) smoothness energy. The depth gradients can then be refined iteratively using a novel recursive polynomial interpolation algorithm, which helps yield more reasonable surface normals. Our introduced spatial discontinuity-aware (SDA) depth gradient refinement strategy is compatible with any depth-to-normal SNEs. Our proposed SDA-SNE achieves much greater performance than all other SoTA approaches, especially near/on spatial discontinuities. We further evaluate the performance of SDA-SNE with respect to different iterations, and the results suggest that it converges fast after only a few iterations. This ensures its high efficiency in various robotics and computer vision applications requiring real-time performance. Additional experiments on the datasets with different extents of random noise further validate our SDA-SNE's robustness and environmental adaptability. Our source code, demo video, and supplementary material are publicly available at mias.group/SDA-SNE.
翻訳日:2022-08-19 13:16:46 公開日:2022-08-18
# Truth-Table Net:SATフォーミュラの設計で実現可能な新しい畳み込みアーキテクチャ

Truth-Table Net: A New Convolutional Architecture Encodable By Design Into SAT Formulas ( http://arxiv.org/abs/2208.08609v1 )

ライセンス: Link先を確認
Adrien Benamira, Thomas Peyrin, Bryan Hooi Kuen-Yew(参考訳) ニューラルネットワークの役割が拡大するにつれて、その特性の完全かつ健全な検証の必要性が重要になっている。 近年、BNN(Binary Neural Networks)はブール論理に等価な表現を持ち、SATソルバのような論理的推論ツールを用いて形式的に解析できることが確立されている。 しかし、現在ではBNNのみをSAT公式に変換することができる。 本研究では,SAT-Encodable モデルの新たなファミリである Truth Table Deep Convolutional Neural Networks (TTnets) を紹介する。 さらに、建設により、ロバストネス検証設定における後調整やトラクタビリティを含む、いくつかの重要な変換機能を認めている。 後者の性質はBNNよりもコンパクトなSAT記号符号化をもたらす。 これにより、一般的なSATソルバの使用が可能になり、プロパティの検証が容易になる。 形式的ロバスト性に関するTTnetの値を示す: TTnetは、全てのBNNの精度を同等の計算時間で上回る。 ttnetは高速な検証時間で高い検証精度を達成し、タイムアウトなしで完了します。 我々は,TTnet の概念を極めて重要な応用(堅牢性の完全検証)の証明として検討しており,この新たな実数値ネットワークは,機能的形式的検証の必要性の高まりに対する現実的な応答であると考えている。 TTnetは様々なCNNアーキテクチャに適用でき、公平性、障害攻撃、厳密なルール抽出など他の特性にも拡張できると仮定する。

With the expanding role of neural networks, the need for complete and sound verification of their property has become critical. In the recent years, it was established that Binary Neural Networks (BNNs) have an equivalent representation in Boolean logic and can be formally analyzed using logical reasoning tools such as SAT solvers. However, to date, only BNNs can be transformed into a SAT formula. In this work, we introduce Truth Table Deep Convolutional Neural Networks (TTnets), a new family of SAT-encodable models featuring for the first time real-valued weights. Furthermore, it admits, by construction, some valuable conversion features including post-tuning and tractability in the robustness verification setting. The latter property leads to a more compact SAT symbolic encoding than BNNs. This enables the use of general SAT solvers, making property verification easier. We demonstrate the value of TTnets regarding the formal robustness property: TTnets outperform the verified accuracy of all BNNs with a comparable computation time. More generally, they represent a relevant trade-off between all known complete verification methods: TTnets achieve high verified accuracy with fast verification time, being complete with no timeouts. We are exploring here a proof of concept of TTnets for a very important application (complete verification of robustness) and we believe this novel real-valued network constitutes a practical response to the rising need for functional formal verification. We postulate that TTnets can apply to various CNN-based architectures and be extended to other properties such as fairness, fault attack and exact rule extraction.
翻訳日:2022-08-19 13:15:24 公開日:2022-08-18
# 人ロボット共有制御物体操作のための視線と運動特徴からの意図推定

Intention estimation from gaze and motion features for human-robot shared-control object manipulation ( http://arxiv.org/abs/2208.08688v1 )

ライセンス: Link先を確認
Anna Belardinelli, Anirudh Reddy Kondapally, Dirk Ruiken, Daniel Tanneberg, Tomoki Watabe(参考訳) 共有制御は、ユーザの意図の実行を補助することにより、遠隔操作のオブジェクト操作に役立つ。 この目的のためには、行動観察に依存する堅牢で迅速な意図推定が必要である。 ここでは、現在の動作と対象物を予測するために自然な視線と運動特徴を用いた意図推定フレームワークを提案する。 このシステムは、比較的ごちゃごちゃしたシーンと両手で生成したピックとプレイスシーケンスをシミュレートされた環境で訓練され、テストされる。 検証はさまざまなユーザと手間で実施され、精度と予測能力が向上する。 単一特徴の予測力の解析により、現在の動作の早期同定において、把持トリガーの優位と視線の特徴を示す。 現在のフレームワークでは、並列かつ独立して作業する両手に対して、同じ確率モデルが使用できるが、結果のバイマニナルアクションを特定するためにルールベースのモデルが提案されている。 最後に、より複雑で本格的な操作に対するこのアプローチの限界と展望について議論する。

Shared control can help in teleoperated object manipulation by assisting with the execution of the user's intention. To this end, robust and prompt intention estimation is needed, which relies on behavioral observations. Here, an intention estimation framework is presented, which uses natural gaze and motion features to predict the current action and the target object. The system is trained and tested in a simulated environment with pick and place sequences produced in a relatively cluttered scene and with both hands, with possible hand-over to the other hand. Validation is conducted across different users and hands, achieving good accuracy and earliness of prediction. An analysis of the predictive power of single features shows the predominance of the grasping trigger and the gaze features in the early identification of the current action. In the current framework, the same probabilistic model can be used for the two hands working in parallel and independently, while a rule-based model is proposed to identify the resulting bimanual action. Finally, limitations and perspectives of this approach to more complex, full-bimanual manipulations are discussed.
翻訳日:2022-08-19 13:14:58 公開日:2022-08-18
# 統合階層強化学習としての知的問題解決

Intelligent problem-solving as integrated hierarchical reinforcement learning ( http://arxiv.org/abs/2208.08731v1 )

ライセンス: Link先を確認
Manfred Eppe, Christian Gumbsch, Matthias Kerzel, Phuong D. H. Nguyen, Martin V. Butz, Stefan Wermter(参考訳) 認知心理学と関連する分野によれば、生物学的エージェントにおける複雑な問題解決行動の発達は階層的認知メカニズムに依存する。 階層的強化学習は有望な計算手法であり、最終的には人工エージェントやロボットに匹敵する問題解決行動をもたらす可能性がある。 しかし、現在までに、多くの人間や非人間動物の問題解決能力は、人工システムの能力よりも明らかに優れている。 本稿では,生物にインスパイアされた階層的機構を統合し,人工エージェントの高度な問題解決技術を実現するためのステップを提案する。 そこで,まず認知心理学の文献を概観し,構成的抽象化と予測処理の重要性を強調する。 次に,得られた知見を,現代の階層的強化学習手法と関連づける。 興味深いことに、我々の研究結果は、識別された認知メカニズムが独立した計算アーキテクチャで個別に実装されていることを示唆している。 最後の貢献として、このような統一アーキテクチャを開発するための計算上の課題に対する統合的な視点を提供することで、この問題に対処します。 我々は、より洗練された認知的インスパイアされた階層的機械学習アーキテクチャの開発を導くことを期待する。

According to cognitive psychology and related disciplines, the development of complex problem-solving behaviour in biological agents depends on hierarchical cognitive mechanisms. Hierarchical reinforcement learning is a promising computational approach that may eventually yield comparable problem-solving behaviour in artificial agents and robots. However, to date the problem-solving abilities of many human and non-human animals are clearly superior to those of artificial systems. Here, we propose steps to integrate biologically inspired hierarchical mechanisms to enable advanced problem-solving skills in artificial agents. Therefore, we first review the literature in cognitive psychology to highlight the importance of compositional abstraction and predictive processing. Then we relate the gained insights with contemporary hierarchical reinforcement learning methods. Interestingly, our results suggest that all identified cognitive mechanisms have been implemented individually in isolated computational architectures, raising the question of why there exists no single unifying architecture that integrates them. As our final contribution, we address this question by providing an integrative perspective on the computational challenges to develop such a unifying architecture. We expect our results to guide the development of more sophisticated cognitively inspired hierarchical machine learning architectures.
翻訳日:2022-08-19 13:14:41 公開日:2022-08-18
# 欠落データに基づくシーケンス予測 : インプテーションを伴わないrnnアプローチ

Sequence Prediction Under Missing Data : An RNN Approach Without Imputation ( http://arxiv.org/abs/2208.08933v1 )

ライセンス: Link先を確認
Soumen Pachal, Avinash Achar(参考訳) データシナリオの欠如は一般的にMLアプリケーションで一般的であり、時系列/シーケンスアプリケーションは例外ではない。 本稿では,新しいリカレントニューラルネットワーク(rnn)を用いた,欠落データに基づくシーケンス予測手法について述べる。 我々の手法は既存の手法とは全く異なる。 モデル構築の前後でデータをインプットすることなく、データの不足パターンを直接エンコードしようとします。 私たちのエンコーディングはロスレスであり、圧縮を達成します。 シーケンス分類と予測の両方に使用できる。 ここでは、外因性入力が存在する場合の多段階予測の一般的な文脈における予測に焦点を当てる。 特に,これに対するエンコーダデコーダ(seq2seq)rnnの新しい変種を提案する。 ここでのエンコーダは上記のパターンエンコーディングを採用し、異なる構造を持つデコーダでは複数の変種が実現可能である。 本稿では,単一および複数シーケンス(実)データセットに関する複数の実験を通じて,提案アーキテクチャの有用性を実証する。 どちらのシナリオも考慮し (i)データは自然に欠落している (ii)データは合成マスクされている。

Missing data scenarios are very common in ML applications in general and time-series/sequence applications are no exceptions. This paper pertains to a novel Recurrent Neural Network (RNN) based solution for sequence prediction under missing data. Our method is distinct from all existing approaches. It tries to encode the missingness patterns in the data directly without trying to impute data either before or during model building. Our encoding is lossless and achieves compression. It can be employed for both sequence classification and forecasting. We focus on forecasting here in a general context of multi-step prediction in presence of possible exogenous inputs. In particular, we propose novel variants of Encoder-Decoder (Seq2Seq) RNNs for this. The encoder here adopts the above mentioned pattern encoding, while at the decoder which has a different structure, multiple variants are feasible. We demonstrate the utility of our proposed architecture via multiple experiments on both single and multiple sequence (real) data-sets. We consider both scenarios where (i)data is naturally missing and (ii)data is synthetically masked.
翻訳日:2022-08-19 13:11:05 公開日:2022-08-18
# KDD CUP 2022 風力発電チーム88VIPソリューション

KDD CUP 2022 Wind Power Forecasting Team 88VIP Solution ( http://arxiv.org/abs/2208.08952v1 )

ライセンス: Link先を確認
Fangquan Lin, Wei Jiang, Hanwei Zhang, Cheng Yang(参考訳) KDD CUP 2022は、歴史的文脈因子から、参加者が将来の世代を予測するために必要となる、空間的ダイナミック・ウィンドパワー・データセットに関する時系列予測タスクを提案する。 評価指標はRMSEとMAEを含む。 本稿では、基本データパターンを記憶するための勾配向上決定木と、深部および潜伏確率遷移を捉えるための繰り返しニューラルネットワークの2つのモデルからなる、Team 88VIPのソリューションについて述べる。 これらのモデルをセンセンシングすることは風力の変動に寄与し、予測の異種時間スケールにおける識別特性を、数分から数日にわたって訓練するサブモデルである。 また,機能工学,計算手法,オフライン評価の設計についても詳述した。 提案手法は第3相のオンラインスコアが -45.213 となる。

KDD CUP 2022 proposes a time-series forecasting task on spatial dynamic wind power dataset, in which the participants are required to predict the future generation given the historical context factors. The evaluation metrics contain RMSE and MAE. This paper describes the solution of Team 88VIP, which mainly comprises two types of models: a gradient boosting decision tree to memorize the basic data patterns and a recurrent neural network to capture the deep and latent probabilistic transitions. Ensembling these models contributes to tackle the fluctuation of wind power, and training submodels targets on the distinguished properties in heterogeneous timescales of forecasting, from minutes to days. In addition, feature engineering, imputation techniques and the design of offline evaluation are also described in details. The proposed solution achieves an overall online score of -45.213 in Phase 3.
翻訳日:2022-08-19 13:10:50 公開日:2022-08-18
# グラフ埋め込み法のメモリと容量

Memory and Capacity of Graph Embedding Methods ( http://arxiv.org/abs/2208.08769v1 )

ライセンス: Link先を確認
Frank Qiu(参考訳) 本稿では,グラフをベクトルとして構造保存的に埋め込む手法を提案する。 本稿では,その表現能力について紹介し,提案手法の理論的特性について述べる。 特に,本手法はバインド・アンド・サム法に準じており,我々の結合操作であるテンソル積が重ね合わせの原理を尊重する最も一般的な結合操作であることを示す。 同様に、球面符号が最適圧縮を達成することを示す。 そして,本手法の性能を特徴付ける精度の高い結果と,エッジ数が非常に大きい場合でも,グラフ操作をいかに正確に行うかを示す実験結果を確立した。 最後に,本手法は,ある意味では,大きなスパースグラフへの応用を伴う隣接行列の一般化であることを示す,隣接行列へのリンクを確立することで結論づける。

We introduce a method for embedding graphs as vectors in a structure-preserving manner. In this paper, we showcase its rich representational capacity and give some theoretical properties of our method. In particular, our procedure falls under the bind-and-sum approach, and we show that our binding operation - the tensor product - is the most general binding operation that respects the principle of superposition. Similarly, we show that the spherical code achieves optimal compression. We then establish some precise results characterizing the performance our method as well as some experimental results showcasing how it can accurately perform various graph operations even when the number of edges is quite large. Finally, we conclude with establishing a link to adjacency matrices, showing that our method is, in some sense, a generalization of adjacency matrices with applications towards large sparse graphs.
翻訳日:2022-08-19 13:10:35 公開日:2022-08-18
# メタスパース原理成分分析

Meta Sparse Principle Component Analysis ( http://arxiv.org/abs/2208.08938v1 )

ライセンス: Link先を確認
Imon Banerjee and Jean Honorio(参考訳) 高次元主成分分析において,支援のためのメタラーニング(非ゼロ要素の集合)について検討した。 補助タスクから学習した情報を用いて,新規タスクの十分なサンプル複雑性を低減する。 各タスクは、異なるサポートを持つ異なるランダム主成分(pc)マトリックスであると仮定し、pc行列の支持結合が小さいことを仮定する。 そして、すべてのタスクからデータをプールして、1つのpcマトリックスの不適切な推定を実行し、l_1$-regularized prediction covarianceを最大化することで、高い確率で真のサポートユニオンを復元できる、十分な数のタスク m$ と十分な数のサンプル $ o\left(\frac{\log(p)}{m}\right)$ が各タスクに対して $p$-dimensional ベクトルに対して与えられるようにする。 新たなタスクでは、$l_1$-regularized prediction covariance の最大化と、サポートが推定されたサポートユニオンのサブセットであるという追加の制約により、サポート回復に成功するサンプルの複雑さを$o(\log |j|)$ に減らすことが証明され、ここで$j$ は補助タスクから回復したサポートユニオンである。 通常、$|j|$ はスパース行列に対して $p$ 以下である。 最後に,数値シミュレーションによる実験の有効性を示す。

We study the meta-learning for support (i.e. the set of non-zero entries) recovery in high-dimensional Principal Component Analysis. We reduce the sufficient sample complexity in a novel task with the information that is learned from auxiliary tasks. We assume each task to be a different random Principal Component (PC) matrix with a possibly different support and that the support union of the PC matrices is small. We then pool the data from all the tasks to execute an improper estimation of a single PC matrix by maximising the $l_1$-regularised predictive covariance to establish that with high probability the true support union can be recovered provided a sufficient number of tasks $m$ and a sufficient number of samples $ O\left(\frac{\log(p)}{m}\right)$ for each task, for $p$-dimensional vectors. Then, for a novel task, we prove that the maximisation of the $l_1$-regularised predictive covariance with the additional constraint that the support is a subset of the estimated support union could reduce the sufficient sample complexity of successful support recovery to $O(\log |J|)$, where $J$ is the support union recovered from the auxiliary tasks. Typically, $|J|$ would be much less than $p$ for sparse matrices. Finally, we demonstrate the validity of our experiments through numerical simulations.
翻訳日:2022-08-19 13:10:23 公開日:2022-08-18
# ロバスト分類器による拡散に基づく画像合成の促進

Enhancing Diffusion-Based Image Synthesis with Robust Classifier Guidance ( http://arxiv.org/abs/2208.08664v1 )

ライセンス: Link先を確認
Bahjat Kawar, Roy Ganz, Michael Elad(参考訳) denoising diffusion probabilistic models (ddpms)は、最新の結果を達成する生成モデル群である。 クラス条件生成のために,時間依存型分類器からの勾配による拡散過程の導出を提案した。 このアイデアは理論上は健全だが、ディープラーニングベースの分類器は、勾配に基づく敵対攻撃に悪名高い。 したがって、従来の分類器は精度が良いが、その勾配は信頼性が低く、生成結果の改善を妨げる可能性がある。 近年の研究では、敵対的に頑健な分類器が人間の知覚に沿う勾配を示しており、これらが意味のある画像への生成過程を導いてくれることが判明した。 本研究では,時間依存型頑健な分類器を定義・訓練し,生成拡散モデルのガイダンスとして利用する。 非常に難易度が高く多様なImageNetデータセットの実験において、提案手法はより理解しやすい中間勾配を導入し、理論的な結果との整合性を向上し、複数の評価指標による生成結果を改善する。 さらに,人間の利率者が提案手法を好んでいることを示唆する意見調査を行った。

Denoising diffusion probabilistic models (DDPMs) are a recent family of generative models that achieve state-of-the-art results. In order to obtain class-conditional generation, it was suggested to guide the diffusion process by gradients from a time-dependent classifier. While the idea is theoretically sound, deep learning-based classifiers are infamously susceptible to gradient-based adversarial attacks. Therefore, while traditional classifiers may achieve good accuracy scores, their gradients are possibly unreliable and might hinder the improvement of the generation results. Recent work discovered that adversarially robust classifiers exhibit gradients that are aligned with human perception, and these could better guide a generative process towards semantically meaningful images. We utilize this observation by defining and training a time-dependent adversarially robust classifier and use it as guidance for a generative diffusion model. In experiments on the highly challenging and diverse ImageNet dataset, our scheme introduces significantly more intelligible intermediate gradients, better alignment with theoretical findings, as well as improved generation results under several evaluation metrics. Furthermore, we conduct an opinion survey whose findings indicate that human raters prefer our method's results.
翻訳日:2022-08-19 13:09:57 公開日:2022-08-18
# グラフ正規化ニューラルネットワークを用いた超スペクトルデータからの樹木種分類

Tree species classification from hyperspectral data using graph-regularized neural networks ( http://arxiv.org/abs/2208.08675v1 )

ライセンス: Link先を確認
Debmita Bandyopadhyay and Subhadip Mukherjee(参考訳) 木種の手動ラベリングは、特に熱帯地域では、アクセシビリティや労働集約的な地上調査のために難しい課題である。 超スペクトル画像(hsis)はその狭く連続した帯域を通して、そのスペクトル特性に基づいて樹木種を識別するのに役立つ。 したがって、HSI画像の自動分類アルゴリズムは、限られたラベル付き情報を増やし、様々な木々のリアルタイム分類マップを生成するのに役立つ。 近年,画像中のラベル付き情報量が限られているため,高い分類精度を実現することが,研究者の課題となっている。 グラフ構築のためのスーパーピクセルベースセグメンテーションを含む新しいグラフ正規化ニューラルネットワーク(GRNN)アルゴリズム,画素ワイドニューラルネットワーク分類器,および正確な分類マップを生成するラベル伝搬手法を提案する。 GRNNは、標準的なインドのピンHSIだけでなく、フランス領ギアナ(FG)の森林で収集された新しいHSIデータセットに対して、1%未満のピクセルをラベル付けしても高い分類精度(約92%)を達成している。 その結果,grnnは最先端の半教師付き手法と競合関係にあるだけでなく,学習サンプル数や学習用ラベル付き画素の独立したランダムサンプリングの精度が低下することがわかった。

Manual labeling of tree species remains a challenging task, especially in tropical regions, owing to inaccessibility and labor-intensive ground-based surveys. Hyperspectral images (HSIs), through their narrow and contiguous bands, can assist in distinguishing tree species based on their spectral properties. Therefore, automated classification algorithms on HSI images can help augment the limited labeled information and generate a real-time classification map for various tree species. Achieving high classification accuracy with a limited amount of labeled information in an image is one of the key challenges that researchers have started addressing in recent years. We propose a novel graph-regularized neural network (GRNN) algorithm that encompasses the superpixel-based segmentation for graph construction, a pixel-wise neural network classifier, and the label propagation technique to generate an accurate classification map. GRNN outperforms several state-of-the-art techniques not only for the standard Indian Pines HSI but also achieves a high classification accuracy (approx. 92%) on a new HSI data set collected over the forests of French Guiana (FG) even when less than 1% of the pixels are labeled. We show that GRNN is not only competitive with the state-of-the-art semi-supervised methods, but also exhibits lower variance in accuracy for different number of training samples and over different independent random sampling of the labeled pixels for training.
翻訳日:2022-08-19 13:09:36 公開日:2022-08-18
# 文脈および意味領域シフトに対する連続的なテスト時間適応の評価

Evaluating Continual Test-Time Adaptation for Contextual and Semantic Domain Shifts ( http://arxiv.org/abs/2208.08767v1 )

ライセンス: Link先を確認
Tommie Kerssies, Joaquin Vanschoren and Mert K{\i}l{\i}\c{c}kaya(参考訳) 本稿では,事前学習した畳み込みニューラルネットワークをテスト時にドメインシフトに適用することを目的とする。 私たちはラベルなしで、入ってくるテストバッチのストリームを継続的に行います。 既存の文献は、主にテスト画像の逆方向の摂動によって得られる人工的なシフトで動作する。 この動機付けにより、ドメインシフトの現実的かつ挑戦的な2つのソース、すなわち文脈的および意味的シフトに関する技術の現状を評価する。 例えば、屋内コンテキストで事前訓練されたモデルは、CORe-50[7]の屋外コンテキストに適応しなければならない。 例えば、自然画像上で事前訓練されたモデルは、DomainNetのクリップアート、スケッチ、絵に適応しなければならない[10]。 予測時間バッチ正規化 (bn) [8], テストエントロピー最小化 (tent) [16], 連続的テスト時間適応 (cotta) [17] などの最近の手法について分析を行った。 私たちの発見は3倍です。 一 テスト時適応法は、セマンティックシフトに比べて文脈シフトが良く、忘れられないこと。 ii)TENTは他の短期適応法よりも優れ、CoTTAは他の長期適応法より優れている。 iii)bnが最も信頼でき、堅牢である。

In this paper, our goal is to adapt a pre-trained Convolutional Neural Network to domain shifts at test time. We do so continually with the incoming stream of test batches, without labels. Existing literature mostly operates on artificial shifts obtained via adversarial perturbations of a test image. Motivated by this, we evaluate the state of the art on two realistic and challenging sources of domain shifts, namely contextual and semantic shifts. Contextual shifts correspond to the environment types, for example a model pre-trained on indoor context has to adapt to the outdoor context on CORe-50 [7]. Semantic shifts correspond to the capture types, for example a model pre-trained on natural images has to adapt to cliparts, sketches and paintings on DomainNet [10]. We include in our analysis recent techniques such as Prediction-Time Batch Normalization (BN) [8], Test Entropy Minimization (TENT) [16] and Continual Test-Time Adaptation (CoTTA) [17]. Our findings are three-fold: i) Test-time adaptation methods perform better and forget less on contextual shifts compared to semantic shifts, ii) TENT outperforms other methods on short-term adaptation, whereas CoTTA outpeforms other methods on long-term adaptation, iii) BN is most reliable and robust.
翻訳日:2022-08-19 13:09:11 公開日:2022-08-18
# 部分畳み込みを伴う深層ニューラルネットワークを用いた衛星画像時系列の効率的なデータ駆動ギャップ充填

Efficient data-driven gap filling of satellite image time series using deep neural networks with partial convolutions ( http://arxiv.org/abs/2208.08781v1 )

ライセンス: Link先を確認
Marius Appel(参考訳) 衛星画像時系列におけるギャップの多さは、畳み込みニューラルネットワークのような深層学習モデルの時空間モデリングへの応用を複雑にすることが多い。 画像インペイントにおけるコンピュータビジョンのこれまでの研究に基づいて,3次元時空間部分的畳み込みをニューラルネットワークの層として用いることで,衛星画像時系列のギャップを埋めることができることを示す。 提案手法を評価するために,Sentinel-5P衛星からの準球状一酸化炭素観測の不完全画像時系列にU-Netライクなモデルを適用した。 予測誤差は2つの統計的アプローチに匹敵するが、予測の計算時間は最大で3桁高速であり、大量の衛星データを処理できる。 部分的畳み込みは、他のタイプのニューラルネットワークのレイヤとして追加することができ、既存のディープラーニングモデルとの統合が比較的容易になる。 しかし、このアプローチは予測誤差を定量化せず、モデル転送可能性を理解し改善するにはさらなる研究が必要である。 時空間部分畳み込みとU-Netのようなモデルの実装はオープンソースソフトウェアとして利用可能である。

The abundance of gaps in satellite image time series often complicates the application of deep learning models such as convolutional neural networks for spatiotemporal modeling. Based on previous work in computer vision on image inpainting, this paper shows how three-dimensional spatiotemporal partial convolutions can be used as layers in neural networks to fill gaps in satellite image time series. To evaluate the approach, we apply a U-Net-like model on incomplete image time series of quasi-global carbon monoxide observations from the Sentinel-5P satellite. Prediction errors were comparable to two considered statistical approaches while computation times for predictions were up to three orders of magnitude faster, making the approach applicable to process large amounts of satellite data. Partial convolutions can be added as layers to other types of neural networks, making it relatively easy to integrate with existing deep learning models. However, the approach does not quantify prediction errors and further research is needed to understand and improve model transferability. The implementation of spatiotemporal partial convolutions and the U-Net-like model is available as open-source software.
翻訳日:2022-08-19 13:08:48 公開日:2022-08-18
# アクティブPET:パターン爆発訓練によるFew-Shotクレーム検証のためのアクティブデータアノテーション優先

Active PETs: Active Data Annotation Prioritisation for Few-Shot Claim Verification with Pattern Exploiting Training ( http://arxiv.org/abs/2208.08749v1 )

ライセンス: Link先を確認
Xia Zeng, Arkaitz Zubiaga(参考訳) ファクトチェックシステムにおけるデータ不足の影響を軽減するため,数発のクレーム検証に注目する。 近年、先進言語モデルの提案による数ショット分類の研究にもかかわらず、最適なモデル性能を示すためにラベル付けされる数少ないショットの選択を改善するデータアノテーション優先順位付けの研究が進められている。 本研究では,様々な言語モデルに基づくパターン活用トレーニング(pet)モデルのアンサンブルを用いて,アノテーション候補としてラベルなしデータを積極的に選択する,新しい重み付け手法であるactive petsを提案する。 データ選択にActive PETを使うことは、最先端のアクティブな学習方法、技術的事実チェックデータセットの2つ、トレーニング済みの6つの言語モデルの使用において、一貫した改善を示す。 オーバサンプリング戦略を統合したActive PETs-oのさらなる改良について述べる。 提案手法は,ラベル付きデータが多く,ラベル付けのためのリソースが限られている場合に,効果的にラベル付け可能なインスタンスの選択を可能にする。 私たちのコードは出版時に利用可能になります。

To mitigate the impact of data scarcity on fact-checking systems, we focus on few-shot claim verification. Despite recent work on few-shot classification by proposing advanced language models, there is a dearth of research in data annotation prioritisation that improves the selection of the few shots to be labelled for optimal model performance. We propose Active PETs, a novel weighted approach that utilises an ensemble of Pattern Exploiting Training (PET) models based on various language models, to actively select unlabelled data as candidates for annotation. Using Active PETs for data selection shows consistent improvement over the state-of-the-art active learning method, on two technical fact-checking datasets and using six different pretrained language models. We show further improvement with Active PETs-o, which further integrates an oversampling strategy. Our approach enables effective selection of instances to be labelled where unlabelled data is abundant but resources for labelling are limited, leading to consistently improved few-shot claim verification performance. Our code will be available upon publication.
翻訳日:2022-08-19 13:06:10 公開日:2022-08-18
# 機械読取理解のための多粒度表現の探索と展開

Exploring and Exploiting Multi-Granularity Representations for Machine Reading Comprehension ( http://arxiv.org/abs/2208.08750v1 )

ライセンス: Link先を確認
Nuo Chen, Chenyu You(参考訳) 近年,Transformer などの注目型多層エンコーダは,Machine Reading Comprehension (MRC) において広く研究されている。 回答を予測するためには、ソースシーケンスの粗い粒度の表現を生成する最終エンコーダ層からのみ情報を引き出すための予測器を用いるのが一般的である。 解析の結果,符号化層が増大するにつれて,ソースシーケンスの表現が細粒度から粗粒度になることがわかった。 ディープニューラルネットワークの層数が増加するにつれて、エンコーディングプロセスは各位置に関する関連情報を徐々に収集し、より粗い粒度の表現となり、他の位置と類似する可能性(同質性を参照)が高まると一般的に信じられている。 このような現象は、間違った判断とパフォーマンスの低下をモデルに誤解させます。 本稿では、予測者がエンコーダから異なる粒度の表現を活用し、モデルの表現力を完全に活用できるように、ソースシーケンスの異なるビューを提供することができればよいと論じる。 そこで本研究では,様々なレベルの音源表現を予測器に適応的に利用する適応型双方向注意カプセルネットワーク(aba-net)を提案する。 さらに, MRCの性能向上のコアとして, カプセルネットワークと自己保持モジュールをエンコーダのビルディングブロックとして慎重に設計し, ローカルおよびグローバルな表現を探索する機能を提供している。 SQuAD 1.0、SQuAD 2.0、COQAの3つのベンチマークデータセットの実験結果が、我々のアプローチの有効性を実証している。 特に、SQuAD 1.0データセットに新しい最先端パフォーマンスを設定しました。

Recently, the attention-enhanced multi-layer encoder, such as Transformer, has been extensively studied in Machine Reading Comprehension (MRC). To predict the answer, it is common practice to employ a predictor to draw information only from the final encoder layer which generates the coarse-grained representations of the source sequences, i.e., passage and question. The analysis shows that the representation of source sequence becomes more coarse-grained from finegrained as the encoding layer increases. It is generally believed that with the growing number of layers in deep neural networks, the encoding process will gather relevant information for each location increasingly, resulting in more coarse-grained representations, which adds the likelihood of similarity to other locations (referring to homogeneity). Such phenomenon will mislead the model to make wrong judgement and degrade the performance. In this paper, we argue that it would be better if the predictor could exploit representations of different granularity from the encoder, providing different views of the source sequences, such that the expressive power of the model could be fully utilized. To this end, we propose a novel approach called Adaptive Bidirectional Attention-Capsule Network (ABA-Net), which adaptively exploits the source representations of different levels to the predictor. Furthermore, due to the better representations are at the core for boosting MRC performance, the capsule network and self-attention module are carefully designed as the building blocks of our encoders, which provides the capability to explore the local and global representations, respectively. Experimental results on three benchmark datasets, i.e., SQuAD 1.0, SQuAD 2.0 and COQA, demonstrate the effectiveness of our approach. In particular, we set the new state-of-the-art performance on the SQuAD 1.0 dataset
翻訳日:2022-08-19 13:05:50 公開日:2022-08-18
# 症例:共感反応生成における粗悪から細かな認知と愛情の一致

CASE: Aligning Coarse-to-Fine Cognition and Affection for Empathetic Response Generation ( http://arxiv.org/abs/2208.08845v1 )

ライセンス: Link先を確認
Jinfeng Zhou, Chujie Zheng, Bo Wang, Zheng Zhang, Minlie Huang(参考訳) 共感は人間の会話に自然に現れる特性である。 理論的には、共感反応の誕生は、意識的なアライメントと認知と共感の感情の相互作用から生じる。 しかし、既存の作品は単一の情動的側面またはモデル認知と情動のみを独立に頼り、生成された反応の共感能力を制限する。 この目的のために,コモンセンス認知グラフと,コモンセンスと概念知識を含む感情概念グラフに基づいて,粗粒度(文脈認知と文脈感情状態の間)と細粒度(各特定の認知と対応する感情反応の間)を協調させる2段階の戦略を設計した。 大規模な実験では、CASEは自動評価と人的評価で最先端のベースラインを上回っている。 私たちのコードはリリースされます。

Empathy is a trait that naturally manifests in human conversation. Theoretically, the birth of empathetic responses results from conscious alignment and interaction between cognition and affection of empathy. However, existing works rely solely on a single affective aspect or model cognition and affection independently, limiting the empathetic capabilities of the generated responses. To this end, based on the commonsense cognition graph and emotional concept graph constructed involving commonsense and concept knowledge, we design a two-level strategy to align coarse-grained (between contextual cognition and contextual emotional state) and fine-grained (between each specific cognition and corresponding emotional reaction) Cognition and Affection for reSponding Empathetically (CASE). Extensive experiments demonstrate that CASE outperforms the state-of-the-art baselines on automatic and human evaluation. Our code will be released.
翻訳日:2022-08-19 13:05:20 公開日:2022-08-18
# ret3d: 運転シーンにおける効率的な3次元物体検出のためのオブジェクト関係再考

Ret3D: Rethinking Object Relations for Efficient 3D Object Detection in Driving Scenes ( http://arxiv.org/abs/2208.08621v1 )

ライセンス: Link先を確認
Yu-Huan Wu, Da Zhang, Le Zhang, Xin Zhan, Dengxin Dai, Yun Liu, and Ming-Ming Cheng(参考訳) 現在のLiDARベースの検出フレームワークは、空間的および時間的両方の方法で自然に存在するオブジェクト関係を活用できない。 この目的のために,Ret3Dと呼ばれるシンプルで効率的で効果的な2段階検出器を導入する。 Ret3Dの中核は、新しいフレーム内およびフレーム間関係モジュールを利用して空間的および時間的関係を捉えることである。 より具体的には、フレーム内関係モジュール(IntraRM)はフレーム内オブジェクトをスパースグラフにカプセル化することで、効率的なメッセージパッシングによってオブジェクトの特徴を洗練できます。 一方、フレーム間関係モジュール(interrm)は、対応するトラックシーケンス内の各オブジェクトを動的に密結合し、そのような時間情報を利用して軽量トランスフォーマネットワークを介してその表現をより効率的に強化する。 我々は、IntraRMとInterRMの新しい設計を、一般的なセンターベースまたはアンカーベース検出器でインスタンス化し、Waymo Open Dataset (WOD)で評価する。 無視できる余分なオーバーヘッドにより、Ret3Dは、車両検出におけるLEVEL 1 と LEVEL 2 mAPH の基準で、最新の競合車よりも5.5%と3.2%高い最先端の性能を達成する。

Current efficient LiDAR-based detection frameworks are lacking in exploiting object relations, which naturally present in both spatial and temporal manners. To this end, we introduce a simple, efficient, and effective two-stage detector, termed as Ret3D. At the core of Ret3D is the utilization of novel intra-frame and inter-frame relation modules to capture the spatial and temporal relations accordingly. More Specifically, intra-frame relation module (IntraRM) encapsulates the intra-frame objects into a sparse graph and thus allows us to refine the object features through efficient message passing. On the other hand, inter-frame relation module (InterRM) densely connects each object in its corresponding tracked sequences dynamically, and leverages such temporal information to further enhance its representations efficiently through a lightweight transformer network. We instantiate our novel designs of IntraRM and InterRM with general center-based or anchor-based detectors and evaluate them on Waymo Open Dataset (WOD). With negligible extra overhead, Ret3D achieves the state-of-the-art performance, being 5.5% and 3.2% higher than the recent competitor in terms of the LEVEL 1 and LEVEL 2 mAPH metrics on vehicle detection, respectively.
翻訳日:2022-08-19 13:05:03 公開日:2022-08-18
# 画素幅予測に基づく不確かさ推定によるビジュアルオドメトリー

Pixel-Wise Prediction based Visual Odometry via Uncertainty Estimation ( http://arxiv.org/abs/2208.08892v1 )

ライセンス: Link先を確認
Hao-Wei Chen, Ting-Hsuan Liao, Hsuan-Kung Yang and Chun-Yi Lee(参考訳) 本稿では,画素毎の変換と回転の値を評価する高密度予測タスクであるpwvo(pixel-wise prediction based visual odometry)を提案する。 pwvoは、入力観測におけるノイズ領域を特定するために不確実性推定を行い、推定不確実性マップに基づいて画素単位の予測を統合する選択機構を採用し、最終的な翻訳と回転を導出する。 PWVOを包括的に訓練するために、合成トレーニングデータを生成するためのデータ生成ワークフローをさらに発展させる。 実験の結果,PWVOは良好な結果が得られることが示された。 さらに,PWVOにおける設計の有効性を検証し,PWVOが推定した不確実性マップが,入力観測におけるノイズを捉えることができることを示した。

This paper introduces pixel-wise prediction based visual odometry (PWVO), which is a dense prediction task that evaluates the values of translation and rotation for every pixel in its input observations. PWVO employs uncertainty estimation to identify the noisy regions in the input observations, and adopts a selection mechanism to integrate pixel-wise predictions based on the estimated uncertainty maps to derive the final translation and rotation. In order to train PWVO in a comprehensive fashion, we further develop a data generation workflow for generating synthetic training data. The experimental results show that PWVO is able to deliver favorable results. In addition, our analyses validate the effectiveness of the designs adopted in PWVO, and demonstrate that the uncertainty maps estimated by PWVO is capable of capturing the noises in its input observations.
翻訳日:2022-08-19 13:04:37 公開日:2022-08-18
# ManiFlow: 正規化フローを持つマニフォールドを暗黙的に表現する

ManiFlow: Implicitly Representing Manifolds with Normalizing Flows ( http://arxiv.org/abs/2208.08932v1 )

ライセンス: Link先を確認
Janis Postels, Martin Danelljan, Luc Van Gool, Federico Tombari(参考訳) 正規化フロー(NF)は、複雑な実世界のデータ分布を正確にモデル化することが示されているフレキシブルな明示的な生成モデルである。 しかし、それらの可逆性制約は、高次元空間に埋め込まれた低次元多様体上に存在するデータ分布に制限を課す。 実際、この欠点はしばしば、生成されたサンプルの品質に影響を与えるデータにノイズを加えることで回避される。 先行研究とは対照的に,摂動分布とノイズモデルに関する完全な知識を与えられた元のデータ分布からサンプルを生成することにより,この問題にアプローチする。 この目的のために、摂動データで訓練されたnfsは最大確率の領域における多様体を暗黙的に表現する。 次に,摂動分布からサンプルを与えられた多様体上の最も可能性の高い点を復元する最適化目標を提案する。 最後に, nfs の明示的な性質,すなわち対数様相と対数様相自体の勾配から抽出した面正規性を利用して, ポアソン面再構成を生成点集合の精製に応用する3次元点雲に着目した。

Normalizing Flows (NFs) are flexible explicit generative models that have been shown to accurately model complex real-world data distributions. However, their invertibility constraint imposes limitations on data distributions that reside on lower dimensional manifolds embedded in higher dimensional space. Practically, this shortcoming is often bypassed by adding noise to the data which impacts the quality of the generated samples. In contrast to prior work, we approach this problem by generating samples from the original data distribution given full knowledge about the perturbed distribution and the noise model. To this end, we establish that NFs trained on perturbed data implicitly represent the manifold in regions of maximum likelihood. Then, we propose an optimization objective that recovers the most likely point on the manifold given a sample from the perturbed distribution. Finally, we focus on 3D point clouds for which we utilize the explicit nature of NFs, i.e. surface normals extracted from the gradient of the log-likelihood and the log-likelihood itself, to apply Poisson surface reconstruction to refine generated point sets.
翻訳日:2022-08-19 13:04:23 公開日:2022-08-18
# ドメイン特化リスク最小化

Domain-Specific Risk Minimization ( http://arxiv.org/abs/2208.08661v1 )

ライセンス: Link先を確認
Yi-Fan Zhang, Hanlin Zhang, Jindong Wang, Zhang Zhang, Baosheng Yu, Liang Wang, Dacheng Tao, Xing Xie(参考訳) ドメイン不変表現の学習は、ドメイン適応/一般化の最も一般的なアプローチの1つである。 本稿では,この不変表現は,ラベル付け関数のシフトを考慮した優れた一般化を保証するには不十分であることを示す。 これはまず,ラベル付け関数のシフトを明示的に考慮した経験的リスクに基づく新しい一般化上限を導出する。 次に,異なる領域の分布シフトを別々にモデル化し,対象領域に対して最も適切な領域を選択するドメイン固有リスク最小化(drm)を提案する。 CMNIST、PACS、VLCS、DomainNetの4つの一般的なドメイン一般化データセットに関する大規模な実験は、提案されたDRMの有効性を以下の利点で示す。 1) 競争基準を大きく上回っている。 2)バニラ経験的リスク最小化(erm)と比較して,すべてのトレーニング領域において,同等かそれ以上の確率を許容する。 3)訓練中はとてもシンプルで効率が良いままで、 4)不変学習アプローチを補完する。

Learning a domain-invariant representation has become one of the most popular approaches for domain adaptation/generalization. In this paper, we show that the invariant representation may not be sufficient to guarantee a good generalization, where the labeling function shift should be taken into consideration. Inspired by this, we first derive a new generalization upper bound on the empirical risk that explicitly considers the labeling function shift. We then propose Domain-specific Risk Minimization (DRM), which can model the distribution shifts of different domains separately and select the most appropriate one for the target domain. Extensive experiments on four popular domain generalization datasets, CMNIST, PACS, VLCS, and DomainNet, demonstrate the effectiveness of the proposed DRM for domain generalization with the following advantages: 1) it significantly outperforms competitive baselines; 2) it enables either comparable or superior accuracies on all training domains comparing to vanilla empirical risk minimization (ERM); 3) it remains very simple and efficient during training, and 4) it is complementary to invariant learning approaches.
翻訳日:2022-08-19 13:03:30 公開日:2022-08-18
# テンソルネットワークを用いたアクティブ推論のための生成モデル学習

Learning Generative Models for Active Inference using Tensor Networks ( http://arxiv.org/abs/2208.08713v1 )

ライセンス: Link先を確認
Samuel T. Wauthier, Bram Vanhecke, Tim Verbelen, Bart Dhoedt(参考訳) アクティブ推論は自律エージェントの振る舞いと学習のための一般的なフレームワークを提供する。 エージェントは、観察、内部状態、政策に対する信念の観点から定義される変動自由エネルギーを最小化しようとする。 伝統的に、離散的能動推論モデルのすべての側面は手動で、すなわち隠れた状態空間構造を手動で定義し、可能性や遷移確率などの必要な分布を指定しなければならない。 近年,深層ニューラルネットワークを用いた観測から状態空間表現を自動的に学習する取り組みが進められている。 しかし、これらのモデルは一般的に過パラメータ化され、手元にあるデータに過度に適合するリスクがある。 本稿では,量子物理学に基づくテンソルネットワークを用いた状態空間の学習手法を提案する。 量子状態の確率的性質を表現するテンソルネットワークの能力と、大きな状態空間を減らす能力により、テンソルネットワークは能動推論の自然な候補となる。 逐次データ生成モデルとしてテンソルネットワークをどのように利用できるかを示す。 さらに,そのような生成モデルから信念を得る方法と,アクティブ推論エージェントがこれらを用いて期待自由エネルギーを計算する方法を示す。 最後に,古典的なT迷路環境における手法を実証する。

Active inference provides a general framework for behavior and learning in autonomous agents. It states that an agent will attempt to minimize its variational free energy, defined in terms of beliefs over observations, internal states and policies. Traditionally, every aspect of a discrete active inference model must be specified by hand, i.e.\ by manually defining the hidden state space structure, as well as the required distributions such as likelihood and transition probabilities. Recently, efforts have been made to learn state space representations automatically from observations using deep neural networks. However, these models are typically overparameterized, with the risk of overfitting the data at hand. In this paper, we present a novel approach of learning state spaces using quantum physics-inspired tensor networks. The ability of tensor networks to represent the probabilistic nature of quantum states as well as to reduce large state spaces makes tensor networks a natural candidate for active inference. We show how tensor networks can be used as a generative model for sequential data. Furthermore, we show how one can obtain beliefs from such a generative model and how an active inference agent can use these to compute the expected free energy. Finally, we demonstrate our method on the classic T-maze environment.
翻訳日:2022-08-19 13:03:13 公開日:2022-08-18
# 専門知識を有効活用したベイズ最適化

Bayesian Optimization Augmented with Actively Elicited Expert Knowledge ( http://arxiv.org/abs/2208.08742v1 )

ライセンス: Link先を確認
Daolang Huang, Louis Filstroff, Petrus Mikkola, Runkai Zheng, Samuel Kaski(参考訳) ベイズ最適化(英: Bayesian Optimization, BO)は、直接評価を行うブラックボックス関数を最適化する手法である。 本稿では,これまでにほとんど注目されていない最適化をさらに加速することを目的として,boに専門家の知識を組み込むことの問題に取り組む。 我々は,専門家の知識を抽出し,目的関数を最小化することを目的として,タスクのためのマルチタスク学習アーキテクチャを設計した。 特に、これは専門家の知識をBOタスクに転送することを可能にする。 我々は、ペアワイズクエリから知識を引き出すために、Siameseニューラルネットワークに基づく特定のアーキテクチャを導入する。 シミュレーションと実際の人間のエキスパートによる様々なベンチマーク関数の実験では、専門家の知識が客観的な関数に偏っていても、提案手法はboを著しく高速化することが示された。

Bayesian optimization (BO) is a well-established method to optimize black-box functions whose direct evaluations are costly. In this paper, we tackle the problem of incorporating expert knowledge into BO, with the goal of further accelerating the optimization, which has received very little attention so far. We design a multi-task learning architecture for this task, with the goal of jointly eliciting the expert knowledge and minimizing the objective function. In particular, this allows for the expert knowledge to be transferred into the BO task. We introduce a specific architecture based on Siamese neural networks to handle the knowledge elicitation from pairwise queries. Experiments on various benchmark functions with both simulated and actual human experts show that the proposed method significantly speeds up BO even when the expert knowledge is biased compared to the objective function.
翻訳日:2022-08-19 13:02:53 公開日:2022-08-18
# gsrformer: 意味的注意を細分化した接地状況認識トランスフォーマ

GSRFormer: Grounded Situation Recognition Transformer with Alternate Semantic Attention Refinement ( http://arxiv.org/abs/2208.08965v1 )

ライセンス: Link先を確認
Zhi-Qi Cheng, Qi Dai, Siyao Li, Teruko Mitamura, Alexander Hauptmann(参考訳) グラウンドドコンディション認識(GSR)は、「ヒューマンライク」イベント理解のための画像の構造化セマンティック要約を生成することを目的としている。 具体的には、gsrタスクは、サルエントアクティビティ動詞(例えば購入)を検出するだけでなく、対応するすべての意味的役割(例えばエージェントとグッズ)を予測する。 オブジェクト検出とイメージキャプションタスクに触発されて、既存のメソッドは通常、2段階のフレームワークを使用します。 1)活動動詞を検出し、それから 2) 検出した動詞に基づいて意味的役割を予測する。 もちろん、この非論理的枠組みは意味理解の大きな障害となっている。 まず、意味的役割を伴わない動詞を事前に検出することは、必然的に多くの類似した日常的活動(例えば、提供、提供、販売、販売)を区別することができない。 第二に、閉じた自己回帰的な方法で意味的役割を予測することは、動詞と役割間の意味的関係をほとんど利用できない。 そこで本稿では,動詞と役割の双方向関係の活用に焦点をあてた,新しい2段階の枠組みを提案する。 第1段階では、動詞を事前に検出するのではなく、検出ステップを延期して擬似ラベルを仮定し、各意味的役割の中間表現を画像から学習する。 第2段階では、トランスフォーマー層を利用して、動詞と意味役割の両方における潜在的な意味関係を解明する。 サポート画像の集合の助けを借りて、結果を同時に最適化する代替学習スキームをデザインする: 画像に対応する名詞を使用して動詞を更新し、サポート画像から動詞を使用して名詞を更新する。 SWiGベンチマークの大規模な実験結果から, 改良されたフレームワークは, 様々な測定基準下での他の最先端手法よりも優れた性能を示した。

Grounded Situation Recognition (GSR) aims to generate structured semantic summaries of images for ``human-like'' event understanding. Specifically, GSR task not only detects the salient activity verb (e.g. buying), but also predicts all corresponding semantic roles (e.g. agent and goods). Inspired by object detection and image captioning tasks, existing methods typically employ a two-stage framework: 1) detect the activity verb, and then 2) predict semantic roles based on the detected verb. Obviously, this illogical framework constitutes a huge obstacle to semantic understanding. First, pre-detecting verbs solely without semantic roles inevitably fails to distinguish many similar daily activities (e.g., offering and giving, buying and selling). Second, predicting semantic roles in a closed auto-regressive manner can hardly exploit the semantic relations among the verb and roles. To this end, in this paper we propose a novel two-stage framework that focuses on utilizing such bidirectional relations within verbs and roles. In the first stage, instead of pre-detecting the verb, we postpone the detection step and assume a pseudo label, where an intermediate representation for each corresponding semantic role is learned from images. In the second stage, we exploit transformer layers to unearth the potential semantic relations within both verbs and semantic roles. With the help of a set of support images, an alternate learning scheme is designed to simultaneously optimize the results: update the verb using nouns corresponding to the image, and update nouns using verbs from support images. Extensive experimental results on challenging SWiG benchmarks show that our renovated framework outperforms other state-of-the-art methods under various metrics.
翻訳日:2022-08-19 13:00:43 公開日:2022-08-18
# RRWaveNet:ロバストPSG呼吸速度推定のための小型マルチスケール残留CNN

RRWaveNet: A Compact End-to-End Multi-Scale Residual CNN for Robust PPG Respiratory Rate Estimation ( http://arxiv.org/abs/2208.08672v1 )

ライセンス: Link先を確認
Pongpanut Osathitporn, Guntitat Sawadwuthikul, Punnawish Thuwajit, Kawisara Ueafuea, Thee Mateepithaktham, Narin Kunaseth, Tanut Choksatchawathi, Proadpran Punyabukkana, Emmanuel Mignot and Theerawit Wilaiprasitporn(参考訳) RRの変化は、心臓病、肺疾患、睡眠障害などの深刻な医療イベントを反映できるため、呼吸速度(RR)は重要なバイオマーカーである。 しかし残念なことに、標準的な手動rrカウントはヒューマンエラーを起こしやすく、継続的に実行できない。 本研究では,RRWaveNetを連続的に推定する手法を提案する。 この方法は、機能工学を必要としないコンパクトなエンドツーエンドのディープラーニングモデルであり、低コストなraw photoplethysmography (ppg) を入力信号として使用できる。 RRWaveNetは,3つのデータセット(BIDMC, CapnoBase, WESAD)のベースラインと比較し,3つのウィンドウサイズ(16, 32, 64秒)を使用した。 RRWaveNetは、平均絶対誤差を最適なウィンドウサイズ 1.66 \pm 1.01, 1.59 \pm 1.08, 1.92 \pm 0.96 で上回った。 WESADデータセットなどのリモート監視設定では、他の2つのICUデータセットに転送学習を適用し、MAEを1分あたり1.22 \pm 0.50に削減し、このモデルが安価なウェアラブルデバイス上でのRRの正確かつ実用的な推定を可能にしていることを示す。 遠隔医療と在宅における遠隔rrモニタリングの実現可能性について検討した。

Respiratory rate (RR) is an important biomarker as RR changes can reflect severe medical events such as heart disease, lung disease, and sleep disorders. Unfortunately, however, standard manual RR counting is prone to human error and cannot be performed continuously. This study proposes a method for continuously estimating RR, RRWaveNet. The method is a compact end-to-end deep learning model which does not require feature engineering and can use low-cost raw photoplethysmography (PPG) as input signal. RRWaveNet was tested subject-independently and compared to baseline in three datasets (BIDMC, CapnoBase, and WESAD) and using three window sizes (16, 32, and 64 seconds). RRWaveNet outperformed current state-of-the-art methods with mean absolute errors at optimal window size of 1.66 \pm 1.01, 1.59 \pm 1.08, and 1.92 \pm 0.96 breaths per minute for each dataset. In remote monitoring settings, such as in the WESAD dataset, we apply transfer learning to two other ICU datasets, reducing the MAE to 1.52 \pm 0.50 breaths per minute, showing this model allows accurate and practical estimation of RR on affordable and wearable devices. Our study shows feasibility of remote RR monitoring in the context of telemedicine and at home.
翻訳日:2022-08-19 12:59:49 公開日:2022-08-18
# DNNにおける知識の定量化と分類のための知識蒸留

Quantifying the Knowledge in a DNN to Explain Knowledge Distillation for Classification ( http://arxiv.org/abs/2208.08741v1 )

ライセンス: Link先を確認
Quanshi Zhang, Xu Cheng, Yilan Chen, Zhefan Rao(参考訳) スクラッチからの伝統的な学習と比較すると、知識の蒸留は時にDNNが優れた性能を発揮する。 本稿では,DNNの中間層にコード化されている知識点を情報理論に基づいて定量化する,知識蒸留の成功を説明する新しい視点を提供する。 この目的のために、dnnにおける信号処理を層別情報廃棄として検討する。 知識ポイントは入力ユニットと呼ばれ、その情報は他の入力ユニットよりもはるかに少ない。 そこで,我々は知識点の定量化に基づく知識蒸留の3つの仮説を提案する。 1. 知識蒸留によるDNN学習は,DNN学習をゼロから行うよりも多くの知識ポイントを符号化する。 2. 知識蒸留により、DNNは異なる知識ポイントを同時に学習しやすくなる。 対照的に、DNN学習はスクラッチから様々な知識ポイントを逐次エンコードする傾向にある。 3) 知識蒸留によるDNN学習は, ゼロから学習するDNNよりも安定的に最適化されることが多い。 以上の仮説を検証するため,DNNの特徴表現を解析するために,前景オブジェクトのアノテーションを用いた3種類のメトリクスを設計し,知識点の量と品質,異なる知識点の学習速度,最適化方向の安定性について検討した。 実験では, 画像分類, 3次元点雲分類, バイナリ感情分類, 質問応答など, 異なる分類課題に対して様々なdnnを診断し, 上記の仮説を検証した。

Compared to traditional learning from scratch, knowledge distillation sometimes makes the DNN achieve superior performance. This paper provides a new perspective to explain the success of knowledge distillation, i.e., quantifying knowledge points encoded in intermediate layers of a DNN for classification, based on the information theory. To this end, we consider the signal processing in a DNN as the layer-wise information discarding. A knowledge point is referred to as an input unit, whose information is much less discarded than other input units. Thus, we propose three hypotheses for knowledge distillation based on the quantification of knowledge points. 1. The DNN learning from knowledge distillation encodes more knowledge points than the DNN learning from scratch. 2. Knowledge distillation makes the DNN more likely to learn different knowledge points simultaneously. In comparison, the DNN learning from scratch tends to encode various knowledge points sequentially. 3. The DNN learning from knowledge distillation is often optimized more stably than the DNN learning from scratch. In order to verify the above hypotheses, we design three types of metrics with annotations of foreground objects to analyze feature representations of the DNN, \textit{i.e.} the quantity and the quality of knowledge points, the learning speed of different knowledge points, and the stability of optimization directions. In experiments, we diagnosed various DNNs for different classification tasks, i.e., image classification, 3D point cloud classification, binary sentiment classification, and question answering, which verified above hypotheses.
翻訳日:2022-08-19 12:59:21 公開日:2022-08-18
# シームズ原型コントラスト学習

Siamese Prototypical Contrastive Learning ( http://arxiv.org/abs/2208.08819v1 )

ライセンス: Link先を確認
Shentong Mo, Zhun Sun, Chao Li(参考訳) コントラスト型自己教師学習(Contrastive Self-supervised Learning, CSL)は、大規模データから意味のある視覚的表現を教師なしアプローチで学習する実践的ソリューションである。 通常のCSLは、ニューラルネットワークから抽出された特徴を特定の位相構造に埋め込む。 トレーニングの進行中に、対照的な損失は、異なる入力から埋め込みを分離しながら、同じ入力の異なるビューを一緒に引き出す。 CSLの欠点の1つは、損失項が理想的にはより良い相互情報を提供するために多くの負のサンプルを必要とすることである。 しかし、実行中のバッチサイズを大きくすることで、負のサンプルの数を増やすことで、偽の陰性の影響も増大する。 本稿では,単純だが効果的なコントラスト学習フレームワークを導入することで,この問題に取り組む。 重要な洞察は、シアメスタイルのメートル法損失を用いて、原型間特徴間の距離を増大させながら、原型内特徴と一致させることである。 そこで本研究では,様々なベンチマーク実験を行い,視覚的表現の質向上に本手法の有効性を示す。 具体的には、プレトレーニング済みのresnet-50をリニアプローブと組み合わせることで、imagenet-1kデータセットの完全な教師付きトレーニングバージョンよりも優れています。

Contrastive Self-supervised Learning (CSL) is a practical solution that learns meaningful visual representations from massive data in an unsupervised approach. The ordinary CSL embeds the features extracted from neural networks onto specific topological structures. During the training progress, the contrastive loss draws the different views of the same input together while pushing the embeddings from different inputs apart. One of the drawbacks of CSL is that the loss term requires a large number of negative samples to provide better mutual information bound ideally. However, increasing the number of negative samples by larger running batch size also enhances the effects of false negatives: semantically similar samples are pushed apart from the anchor, hence downgrading downstream performance. In this paper, we tackle this problem by introducing a simple but effective contrastive learning framework. The key insight is to employ siamese-style metric loss to match intra-prototype features, while increasing the distance between inter-prototype features. We conduct extensive experiments on various benchmarks where the results demonstrate the effectiveness of our method on improving the quality of visual representations. Specifically, our unsupervised pre-trained ResNet-50 with a linear probe, out-performs the fully-supervised trained version on the ImageNet-1K dataset.
翻訳日:2022-08-19 12:59:01 公開日:2022-08-18
# オフザシェルフ画像生成とキャプションを用いた視覚モデルにおけるバグ発見

Discovering Bugs in Vision Models using Off-the-shelf Image Generation and Captioning ( http://arxiv.org/abs/2208.08831v1 )

ライセンス: Link先を確認
Olivia Wiles, Isabela Albuquerque, Sven Gowal(参考訳) 現実の設定下でビジョンモデルの失敗を自動的に発見することは、まだ未解決の課題である。 この研究は、大量のデータに基づいてトレーニングされたオフザシェルフ、大規模、画像からテキスト、およびテキストから画像へのモデルがどのように活用され、そのような障害を自動的に見つけることができるかを示す。 本質的には、条件付きテキストから画像への生成モデルは、接地ラベルが与えられた大量の合成だが現実的な入力を生成するために使用される。 誤分類された入力はクラスタ化され、各クラスタを記述するためにキャプションモデルが使用される。 各クラスタの説明は、より多くの入力を生成し、特定のクラスタが期待以上の障害を引き起こすかどうかを評価するために使われる。 このパイプラインを使用して、imagenetでトレーニングされた分類器を効果的に問合せして、特定の障害ケースを見つけ、スプリアス相関を見つけることができることを実証する。 また、特定の分類器アーキテクチャをターゲットとした逆データセットを生成するアプローチをスケールできることも示しています。 この研究は、ビジョンモデルのバグを自動的にオープンに発見する大規模な生成モデルの有用性を示す概念実証として機能する。 このアプローチに関連するいくつかの制限と落とし穴についても述べています。

Automatically discovering failures in vision models under real-world settings remains an open challenge. This work demonstrates how off-the-shelf, large-scale, image-to-text and text-to-image models, trained on vast amounts of data, can be leveraged to automatically find such failures. In essence, a conditional text-to-image generative model is used to generate large amounts of synthetic, yet realistic, inputs given a ground-truth label. Misclassified inputs are clustered and a captioning model is used to describe each cluster. Each cluster's description is used in turn to generate more inputs and assess whether specific clusters induce more failures than expected. We use this pipeline to demonstrate that we can effectively interrogate classifiers trained on ImageNet to find specific failure cases and discover spurious correlations. We also show that we can scale the approach to generate adversarial datasets targeting specific classifier architectures. This work serves as a proof-of-concept demonstrating the utility of large-scale generative models to automatically discover bugs in vision models in an open-ended manner. We also describe a number of limitations and pitfalls related to this approach.
翻訳日:2022-08-19 12:58:21 公開日:2022-08-18
# CP-PINN:物理情報ニューラルネットワークによるPDEの変化点検出

CP-PINNs: Changepoints Detection in PDEs using Physics Informed Neural Networks with Total-Variation Penalty ( http://arxiv.org/abs/2208.08626v1 )

ライセンス: Link先を確認
Zhikang Dong, Pawel Polak(参考訳) 部分微分方程式(PDE)の逆問題を考えると、依存構造のパラメータが時間とともにランダムな変化点を示すことができる。 これは例えば、物理的システムが悪意のある攻撃(例えば、電力網やインターネットネットワークへのハッカー攻撃)や極端な外部条件(例えば、電力網やデリバティブ契約のバリュエーションに影響を及ぼす大規模な市場の動きに影響を及ぼす気象条件)にさらされている時に発生する。 その目的のために、PDEシステムで記述された物理法則の事前情報を組み込むことができる普遍近似器である物理情報ニューラルネットワーク(PINN)を採用している。 この事前知識は、ニューラルネットワークのトレーニングにおいて、許容解の空間を制限し、関数近似の正確性を高める正規化として作用する。 真のデータ生成プロセスがPDE力学において変化点を示す場合、この正規化は完全なミス校正とモデルの失敗につながる可能性があることを示す。 そこで本研究では,PDE力学における複数の変化点に対応する全変量ペナルティを用いたPINNの拡張を提案する。 これらの変化点は時間とともにランダムな場所で起こり、解とともに推定される。 本稿では,変化点検出と,計算集約的なPINN手法で実現可能な動的プログラミング手法を併用した改良アルゴリズムを提案し,パラメータの変化を伴う異なる方程式の例を用いて,提案手法の利点を実証的に示す。 データに変化点がない場合、提案したモデルは元のPINNモデルに還元される。 変更点が存在する場合、パラメータ推定の改善、モデル適合性の向上、元のpinnsモデルと比較してトレーニングエラーの低減につながる。

We consider the inverse problem for the Partial Differential Equations (PDEs) such that the parameters of the dependency structure can exhibit random changepoints over time. This can arise, for example, when the physical system is either under malicious attack (e.g., hacker attacks on power grids and internet networks) or subject to extreme external conditions (e.g., weather conditions impacting electricity grids or large market movements impacting valuations of derivative contracts). For that purpose, we employ Physics Informed Neural Networks (PINNs) -- universal approximators that can incorporate prior information from any physical law described by a system of PDEs. This prior knowledge acts in the training of the neural network as a regularization that limits the space of admissible solutions and increases the correctness of the function approximation. We show that when the true data generating process exhibits changepoints in the PDE dynamics, this regularization can lead to a complete miss-calibration and a failure of the model. Therefore, we propose an extension of PINNs using a Total-Variation penalty which accommodates (multiple) changepoints in the PDE dynamics. These changepoints can occur at random locations over time, and they are estimated together with the solutions. We propose an additional refinement algorithm that combines changepoints detection with a reduced dynamic programming method that is feasible for the computationally intensive PINNs methods, and we demonstrate the benefits of the proposed model empirically using examples of different equations with changes in the parameters. In case of no changepoints in the data, the proposed model reduces to the original PINNs model. In the presence of changepoints, it leads to improvements in parameter estimation, better model fitting, and a lower training error compared to the original PINNs model.
翻訳日:2022-08-19 12:58:02 公開日:2022-08-18
# クロスオーバーでNSGA-IIの超安定性能が向上する最初の数学的証明

The First Mathematical Proof That Crossover Gives Super-Constant Performance Gains For the NSGA-II ( http://arxiv.org/abs/2208.08759v1 )

ライセンス: Link先を確認
Benjamin Doerr and Zhongdi Qu(参考訳) 最近では、最も一般的な多目的進化アルゴリズムであるNSGA-IIの数学的ランタイム解析が行われた(Zheng, Liu, Doerr (AAAI 2022))。 この研究の方向性を続けて、NSGA-IIがOneJumpZeroJumpベンチマークをクロスオーバー時に漸近的に高速に最適化することを証明する。 このようなクロスオーバーの利点がNSGA-IIで証明されたのはこれが初めてである。 引数は単一目的最適化に転送できます。 すると、クロスオーバーが$(\mu+1)$の遺伝的アルゴリズムを、以前よりも大きくスピードアップできることが証明される。 実験はクロスオーバーの付加価値を確認し、観測されたスピードアップが我々の証明が保証できるものよりもさらに大きいことを示す。

Very recently, the first mathematical runtime analyses for the NSGA-II, the most common multi-objective evolutionary algorithm, have been conducted (Zheng, Liu, Doerr (AAAI 2022)). Continuing this research direction, we prove that the NSGA-II optimizes the OneJumpZeroJump benchmark asymptotically faster when crossover is employed. This is the first time such an advantage of crossover is proven for the NSGA-II. Our arguments can be transferred to single-objective optimization. They then prove that crossover can speed-up the $(\mu+1)$ genetic algorithm in a different way and more pronounced than known before. Our experiments confirm the added value of crossover and show that the observed speed-ups are even larger than what our proofs can guarantee.
翻訳日:2022-08-19 12:57:32 公開日:2022-08-18
# クロスドメイン感情分析のためのコントラスト学習

Mere Contrastive Learning for Cross-Domain Sentiment Analysis ( http://arxiv.org/abs/2208.08678v1 )

ライセンス: Link先を確認
Yun Luo, Fang Guo, Zihan Liu, Yue Zhang(参考訳) クロスドメイン感情分析は、ソースドメインでトレーニングされたモデルを用いて、ターゲットドメイン内のテキストの感情を予測し、ラベル付きデータの不足に対処することを目的としている。 従来の研究はほとんどがクロスエントロピーに基づく手法であり、不安定性と一般化不良に悩まされていた。 本稿では,クロスドメイン感情分析タスクにおける対比学習について検討する。 そこで我々は,同じクラスからの文表現が近くまで押し上げられ,異なるクラスからの文表現が潜時空間でさらに切り離されるように,バッチ内負のサンプルを用いた改良されたコントラスト目的を提案する。 2つの広く使われているデータセットの実験により、我々のモデルはクロスドメインおよびマルチドメインの感情分析タスクにおいて最先端のパフォーマンスを達成できることが示された。 一方、可視化では、ソース領域で学習した知識を対象領域に転送する効果が示され、敵検定はモデルの堅牢性を検証する。

Cross-domain sentiment analysis aims to predict the sentiment of texts in the target domain using the model trained on the source domain to cope with the scarcity of labeled data. Previous studies are mostly cross-entropy-based methods for the task, which suffer from instability and poor generalization. In this paper, we explore contrastive learning on the cross-domain sentiment analysis task. We propose a modified contrastive objective with in-batch negative samples so that the sentence representations from the same class will be pushed close while those from the different classes become further apart in the latent space. Experiments on two widely used datasets show that our model can achieve state-of-the-art performance in both cross-domain and multi-domain sentiment analysis tasks. Meanwhile, visualizations demonstrate the effectiveness of transferring knowledge learned in the source domain to the target domain and the adversarial test verifies the robustness of our model.
翻訳日:2022-08-19 12:57:15 公開日:2022-08-18
# 分散学習のための効率的な検出・フィルタリングシステム

Efficient Detection and Filtering Systems for Distributed Training ( http://arxiv.org/abs/2208.08085v2 )

ライセンス: Link先を確認
Konstantinos Konstantinidis and Aditya Ramamoorthy(参考訳) 現代の機械学習タスクの多くは、トレーニングパイプラインの重要なコンポーネントとして大規模分散クラスタを使用する必要がある。 しかし、作業ノードの異常なビザンチン挙動は、トレーニングを脱線させ、推論の品質を損なう可能性がある。 このような動作は意図しないシステム障害や組織的攻撃によるものでもあり、結果として、トレーニングを調整するパラメータサーバ(PS)に任意の結果を返すノードもある。 最近の研究は、幅広い攻撃モデルを検討し、歪んだ勾配を補正するためにロバストアグリゲーションと/または計算冗長性を検討した。 本研究では,攻撃モデルについて検討する。$q$ 防御プロトコルに精通し,反復から弱いものへ変更できる。$q$ ランダムに選択した敵は,一度に数回のイテレーションでのみ変更可能な,限定的な結束能力を持つ。 我々のアルゴリズムは、冗長なタスク割り当てと敵対行動の検出に頼っている。 強い攻撃に対しては,従来の最先端技術と比較して16%~99%の歪み勾配が減少することを示した。 トップ1の分類精度はcifar-10のデータセットにおいて,最先端の手法と比較して25%の精度向上(強弱のシナリオ平均)を示した。

A plethora of modern machine learning tasks require the utilization of large-scale distributed clusters as a critical component of the training pipeline. However, abnormal Byzantine behavior of the worker nodes can derail the training and compromise the quality of the inference. Such behavior can be attributed to unintentional system malfunctions or orchestrated attacks; as a result, some nodes may return arbitrary results to the parameter server (PS) that coordinates the training. Recent work considers a wide range of attack models and has explored robust aggregation and/or computational redundancy to correct the distorted gradients. In this work, we consider attack models ranging from strong ones: $q$ omniscient adversaries with full knowledge of the defense protocol that can change from iteration to iteration to weak ones: $q$ randomly chosen adversaries with limited collusion abilities which only change every few iterations at a time. Our algorithms rely on redundant task assignments coupled with detection of adversarial behavior. For strong attacks, we demonstrate a reduction in the fraction of distorted gradients ranging from 16%-99% as compared to the prior state-of-the-art. Our top-1 classification accuracy results on the CIFAR-10 data set demonstrate 25% advantage in accuracy (averaged over strong and weak scenarios) under the most sophisticated attacks compared to state-of-the-art methods.
翻訳日:2022-08-19 11:22:49 公開日:2022-08-18
# illume: jabberとのインタラクションによるビジョン言語モデルの合理化

ILLUME: Rationalizing Vision-Language Models by Interacting with their Jabber ( http://arxiv.org/abs/2208.08241v2 )

ライセンス: Link先を確認
Manuel Brack, Patrick Schramowski, Bj\"orn Deiseroth and Kristian Kersting(参考訳) 事前学習された言語モデルからのブートストラップは、イメージキャプションや視覚的質問応答といったタスクのための基礎視覚言語モデル(VLM)を構築するための効率的なアプローチであることが証明されている。 しかし, 特定の解答に対して, モデルがユーザの理性に適合するようには, 利用できない。 画像探索-回答プロンプトが与えられた場合、VLMは複数の候補論理をサンプリングし、人間の批評家は選好選択によって最小限のフィードバックを与える。 このループはトレーニングデータを増やし、徐々にVLMの合理化能力を削ります。 我々の徹底的な実験は、ILLUMEが標準的な教師付き微調整と競合する一方で、トレーニングデータが非常に少なく、最小限のフィードバックしか必要としないことを示した。

Bootstrapping from pre-trained language models has been proven to be an efficient approach for building foundation vision-language models (VLM) for tasks such as image captioning or visual question answering. However, it is difficult-if not impossible-to utilize it to make the model conform with user's rationales for specific answers. To elicit and reinforce commonsense reasons, we propose an iterative sampling and tuning paradigm, called ILLUME, that executes the following loop: Given an image-question-answer prompt, the VLM samples multiple candidate rationales, and a human critic provides minimal feedback via preference selection, used for fine-tuning. This loop increases the training data and gradually carves out the VLM's rationalization capabilities. Our exhaustive experiments demonstrate that ILLUME is competitive with standard supervised fine-tuning while using significantly fewer training data and only requiring minimal feedback.
翻訳日:2022-08-19 11:21:58 公開日:2022-08-18
# EGCR:会話レコメンデーションのための説明生成

EGCR: Explanation Generation for Conversational Recommendation ( http://arxiv.org/abs/2208.08035v2 )

ライセンス: Link先を確認
Bingbing Wen, Xiaoning Bu, Chirag Shah(参考訳) Conversational Recommendation System (CRS) では、関心のあるアイテムを提供し、ユーザの好みを探求する会話ベースでレコメンデーション指向のタスク指向ツールとして機能する。 しかし、CRSの既存の作業は、ユーザへの推論ロジックを明確に示すことができず、CRS全体がまだブラックボックスのままである。 そこで本研究では,会話エージェントが行動を起こす理由を説明するための説明を生成することに基づいて,会話推薦のための説明生成(egcr)という新しいエンドツーエンドフレームワークを提案する。 EGCRはユーザレビューを取り入れて項目表現を強化し、会話全体の情報性を高める。 私たちの知る限りでは、これは現実世界のデータセットで説明可能な会話推奨のための最初のフレームワークです。 さらに,あるベンチマークの会話推薦データセット上でEGCRを評価し,他の最先端技術モデルと比較して,推奨精度と会話品質の両面において優れた性能を実現する。 最後に、広範囲な実験により、生成された説明は高品質で説明可能なだけでなく、CRSをより信頼できるものにしている。 私たちはCRSコミュニティにコントリビュートするためにコードを公開します。

Growing attention has been paid in Conversational Recommendation System (CRS), which works as a conversation-based and recommendation task-oriented tool to provide items of interest and explore user preference. However, existing work in CRS fails to explicitly show the reasoning logic to users and the whole CRS still remains a black box. Therefore we propose a novel end-to-end framework named Explanation Generation for Conversational Recommendation (EGCR) based on generating explanations for conversational agents to explain why they make the action. EGCR incorporates user reviews to enhance the item representation and increase the informativeness of the whole conversation. To the best of our knowledge, this is the first framework for explainable conversational recommendation on real-world datasets. Moreover, we evaluate EGCR on one benchmark conversational recommendation datasets and achieve better performance on both recommendation accuracy and conversation quality than other state-of-the art models. Finally, extensive experiments demonstrate that generated explanations are not only having high quality and explainability, but also making CRS more trustworthy. We will make our code available to contribute to the CRS community
翻訳日:2022-08-19 11:21:41 公開日:2022-08-18
# Z-BERT-A:未知物体検出のためのゼロショットパイプライン

Z-BERT-A: a zero-shot Pipeline for Unknown Intent detection ( http://arxiv.org/abs/2208.07084v2 )

ライセンス: Link先を確認
Daniele Comi, Dimitrios Christofidellis, Pier Francesco Piazza and Matteo Manica(参考訳) 意図の発見はnlpの基本的なタスクであり、様々な産業応用に益々関係している( quarteroni 2018)。 主な課題は、新しい目立たないインテントの入力発話から識別する必要性にある。 本稿では、Transformerアーキテクチャ(Vaswani et al. 2017; Devlin et al. 2018; fine-tuned with Adapters (Pfeiffer et al. 2020)に依存した意図発見のための2段階手法であるZ-BERT-Aを提案する。 本評価では,まず,既知のクラスにおける適応的微調整後のモデル品質を解析する。 次に,NLIタスクとしてパフォーマンスキャスト意図分類を評価する。 最後に,Z-BERT-Aが意味論的に同一でなくても,真理に近いインテントを生成することによって,モデルが持つゼロショット性能を非可視クラスで検証する。 我々の実験は、Z-BERT-Aが2つのゼロショット設定(既知のインテント分類と見えないインテント発見)において、多種多様なベースラインを上回っていることを示す。 提案するパイプラインは,カスタマケアのさまざまなアプリケーションに適用可能な可能性を秘めている。 大規模な言語モデルとは異なり、さまざまなビジネスシナリオで簡単にデプロイおよびスケールできる軽量モデルを使用して、自動動的トリアージを可能にする。 特に、ハードウェアの可用性とパフォーマンスに制限がある場合、オンプレミスや低リソースのクラウドデプロイメントは必須である。 単一の発話から新しい意図を予測するZ-BERT-Aは、意図発見のための革新的なアプローチであり、新しい意図のオンライン生成を可能にする。 パイプラインは以下のリンクでインストール可能なpythonパッケージとして利用できる。

Intent discovery is a fundamental task in NLP, and it is increasingly relevant for a variety of industrial applications (Quarteroni 2018). The main challenge resides in the need to identify from input utterances novel unseen in-tents. Herein, we propose Z-BERT-A, a two-stage method for intent discovery relying on a Transformer architecture (Vaswani et al. 2017; Devlin et al. 2018), fine-tuned with Adapters (Pfeiffer et al. 2020), initially trained for Natural Language Inference (NLI), and later applied for unknown in-tent classification in a zero-shot setting. In our evaluation, we firstly analyze the quality of the model after adaptive fine-tuning on known classes. Secondly, we evaluate its performance casting intent classification as an NLI task. Lastly, we test the zero-shot performance of the model on unseen classes, showing how Z-BERT-A can effectively perform in-tent discovery by generating intents that are semantically similar, if not equal, to the ground truth ones. Our experiments show how Z-BERT-A is outperforming a wide variety of baselines in two zero-shot settings: known intents classification and unseen intent discovery. The proposed pipeline holds the potential to be widely applied in a variety of application for customer care. It enables automated dynamic triage using a lightweight model that, unlike large language models, can be easily deployed and scaled in a wide variety of business scenarios. Especially when considering a setting with limited hardware availability and performance whereon-premise or low resource cloud deployments are imperative. Z-BERT-A, predicting novel intents from a single utterance, represents an innovative approach for intent discovery, enabling online generation of novel intents. The pipeline is available as an installable python package at the following link: https://github.com/GT4SD/zberta.
翻訳日:2022-08-19 11:21:22 公開日:2022-08-18
# NECE:ナラティブイベントチェーン抽出ツールキット

NECE: Narrative Event Chain Extraction Toolkit ( http://arxiv.org/abs/2208.08063v2 )

ライセンス: Link先を確認
Guangxuan Xu, Paulina Toro Isaza, Moshi Li, Akintoye Oloko, Bingsheng Yao, Aminat Adebeyi, Yufang Hou, Nanyun Peng, Dakuo Wang(参考訳) NECEは、物語文書のためのイベントベースのテキスト分析ツールキットである。 NECEは、ユーザに対して、グラフィックインターフェースとピソンパッケージの両方を通じて、イベントベースの要約と長い物語文書の抽象化へのオープンで簡単なアクセスを提供することを目的としている。 本研究は,重要なイベントの長期的イベント抽出と時間的順序付けの課題に対処し,同時に,主人公や性別グループといった物語的実体に関連するイベントを選択・閲覧するオプションを提供する。 イベントチェーン抽出システムの品質を実証するため,人間による評価を行い,特徴抽出アルゴリズムを提案する。 最後に、ジェンダーバイアス分析や質問応答タスクでの使用法を実証することで、ツールキットの潜在的な下流アプリケーションに光を当てた。

NECE is an event-based text analysis toolkit built for narrative documents. NECE aims to provide users open and easy accesses to an event-based summary and abstraction of long narrative documents through both a graphic interface and a python package, which can be readily used in narrative analysis, understanding, or other advanced purposes. Our work addresses the challenge of long passage events extraction and temporal ordering of key events; at the same time, it offers options to select and view events related to narrative entities, such as main characters and gender groups. We conduct human evaluation to demonstrate the quality of the event chain extraction system and character features mining algorithms. Lastly, we shed light on the toolkit's potential downstream applications by demonstrating its usage in gender bias analysis and Question-Answering tasks.
翻訳日:2022-08-19 11:20:47 公開日:2022-08-18
# 多項式の浅層ニューラルネットワーク表現

Shallow neural network representation of polynomials ( http://arxiv.org/abs/2208.08138v2 )

ライセンス: Link先を確認
Aleksandr Beknazaryan(参考訳) 次数$R$の$d$-変数多項式は、$[0,1]^d$に、幅$d+1+\sum_{r=2}^R\binom{r+d-1}{d-1}[\binom{r+d-1}{d-1}+1]$の浅いニューラルネットワークとして表すことができる。 また、単変量$C^\beta$-smooth関数の局所化テイラー多項式のSNN表現により、浅いネットワークに対して対数係数までの収束の最小値から未知の単変量回帰関数へと導かれる。

We show that $d$-variate polynomials of degree $R$ can be represented on $[0,1]^d$ as shallow neural networks of width $d+1+\sum_{r=2}^R\binom{r+d-1}{d-1}[\binom{r+d-1}{d-1}+1]$. Also, by SNN representation of localized Taylor polynomials of univariate $C^\beta$-smooth functions, we derive for shallow networks the minimax optimal rate of convergence, up to a logarithmic factor, to unknown univariate regression function.
翻訳日:2022-08-19 11:20:34 公開日:2022-08-18
# 境界上の確率近似に対する収束率

Convergence Rates for Stochastic Approximation on a Boundary ( http://arxiv.org/abs/2208.07243v2 )

ライセンス: Link先を確認
Kody Law and Neil Walton and Shangda Yang(参考訳) 我々は、制約セットの境界に最適が配置され、最適に勾配が消えない場合に焦点をあてた確率勾配勾配の挙動を解析する。 ここでは、各ステップで目的に対して進捗を期待する。 これと雑音に対する適切なモーメント条件が成立すると、制約付き確率勾配勾配の最適値への収束速度は、制約なし確率勾配勾配のアルゴリズムと異なり、典型的には高速であることを示す。 その結果, 最適値周辺の濃度は通常分布するよりも指数関数的に分布し, 非拘束の場合の限界収束を決定する。 私たちが開発する手法は幾何学的エルゴディディティ証明に依存している。 これはHajek (1982) によるマルコフ連鎖上の結果を確率近似アルゴリズムの領域にまで拡張する。 例えば、結果は線形プログラミングや表型強化学習にどのように適用されるかを示す。

We analyze the behavior of projected stochastic gradient descent focusing on the case where the optimum is on the boundary of the constraint set and the gradient does not vanish at the optimum. Here iterates may in expectation make progress against the objective at each step. When this and an appropriate moment condition on noise holds, we prove that the convergence rate to the optimum of the constrained stochastic gradient descent will be different and typically be faster than the unconstrained stochastic gradient descent algorithm. Our results argue that the concentration around the optimum is exponentially distributed rather than normally distributed, which typically determines the limiting convergence in the unconstrained case. The methods that we develop rely on a geometric ergodicity proof. This extends a result on Markov chains by Hajek (1982) to the area of stochastic approximation algorithms. As examples, we show how the results apply to linear programming and tabular reinforcement learning.
翻訳日:2022-08-19 11:20:22 公開日:2022-08-18
# モデルベース思い出における発話からの個人モデルパラメータの推定

Estimating Personal Model Parameters from Utterances in Model-based Reminiscence ( http://arxiv.org/abs/2208.07087v2 )

ライセンス: Link先を確認
Shoki Sakai, Kazuki Itabashi, Junya Morita(参考訳) 回想療法は、記憶の回想に基づく精神医療である。 しかし、この方法の有効性は個人によって異なる。 この問題を解決するためには,よりパーソナライズされた支援を提供する必要がある。そのために本研究では,思考-合理(act-r)の認知的アーキテクチャ適応制御に基づく個人記憶記憶記憶の計算モデルを用いた。 ユーザの状態を反映したACT-Rメモリモデルが,個人の再会を促進することが期待されている。 本研究では,メモリモデルとの繰り返し相互作用によりユーザの内部状態を推定する手法を提案する。 ユーザのライフログを含むモデルは、ユーザに対してメモリアイテム(刺激)を提示し、モデルの内部パラメータを調整した刺激に対するユーザの応答を受信する。 これらのプロセスの繰り返しを通じて、モデルのパラメータはユーザーの内部状態を反映します。 提案手法の有効性を確認するため,本モデルを組み込んだシステムを用いてユーザの発話を分析した。 その結果,ユーザの発話からモデルのメモリ検索パラメータを推定する手法の有効性が確認された。 また,システム使用によるユーザの気分変化を推定する手法の有効性を確認した。 これらの結果は、人間の内的状態を推定するための対話的手法の実現性を支持し、最終的には私たちの幸福のために記憶記憶と感情を誘導する能力に寄与する。

Reminiscence therapy is mental health care based on the recollection of memories. However, the effectiveness of this method varies amongst individuals. To solve this problem, it is necessary to provide more personalized support; therefore, this study utilized a computational model of personal memory recollection based on a cognitive architecture adaptive control of thought-rational (ACT-R). An ACT-R memory model reflecting the state of users is expected to facilitate personal recollection. In this study, we proposed a method for estimating the internal states of users through repeated interactions with the memory model. The model, which contains the lifelog of the user, presents a memory item (stimulus) to the user, and receives the response of the user to the stimulus, based on which it adjusts the internal parameters of the model. Through the repetition of these processes, the parameters of the model will reflect the internal states of the user. To confirm the feasibility of the proposed method, we analyzed utterances of users when using a system that incorporates this model. The results confirmed the ability of the method to estimate the memory retrieval parameters of the model from the utterances of the user. In addition, the ability of the method to estimate changes in the mood of the user caused by using the system was confirmed. These results support the feasibility of the interactive method for estimating human internal states, which will eventually contribute to the ability to induce memory recall and emotions for our well-being.
翻訳日:2022-08-19 11:20:09 公開日:2022-08-18
# 移動学習を用いたマルチプラナーUNetを用いた股関節の自動分割

Auto-segmentation of Hip Joints using MultiPlanar UNet with Transfer learning ( http://arxiv.org/abs/2208.08226v2 )

ライセンス: Link先を確認
Peidi Xu, Faezeh Moshfeghifar, Torkan Gholamalizadeh, Michael Bachmann Nielsen, Kenny Erleben, Sune Darkner(参考訳) 正確な幾何学表現は有限要素モデルの開発に不可欠である。 一般的には良いが、データが少ないディープラーニングのセグメンテーションアプローチでは、ギャップや薄い構造といった細かい特徴を正確にセグメンテーションするのが困難である。 その後、セグメンテッドジオメトリは、シミュレーション目的に使用できる品質に達するために、労働集約的な手作業の修正を必要とする。 本稿では,データの微調整によってシミュレーションに適した解剖学的精度のセグメンテーションが実現される対話型学習ステップと組み合わせ,セグメンテーションが不十分なデータセットを再利用する手法を提案する。 変形したMultiPlanar UNetを用いて、下肢関節分節と専用損失関数を併用して、ギャップ領域の学習と後処理を行い、回転不変性による対称クラス上の小さな不正確な修正を行う。 このロバストで概念的にシンプルなアプローチを, 人工股関節のctスキャンで臨床的に検証された結果に適用した。 コードと結果の3Dモデルは、https://github.com/MICCAI2022-155/AuToSeg}で入手できる。

Accurate geometry representation is essential in developing finite element models. Although generally good, deep-learning segmentation approaches with only few data have difficulties in accurately segmenting fine features, e.g., gaps and thin structures. Subsequently, segmented geometries need labor-intensive manual modifications to reach a quality where they can be used for simulation purposes. We propose a strategy that uses transfer learning to reuse datasets with poor segmentation combined with an interactive learning step where fine-tuning of the data results in anatomically accurate segmentations suitable for simulations. We use a modified MultiPlanar UNet that is pre-trained using inferior hip joint segmentation combined with a dedicated loss function to learn the gap regions and post-processing to correct tiny inaccuracies on symmetric classes due to rotational invariance. We demonstrate this robust yet conceptually simple approach applied with clinically validated results on publicly available computed tomography scans of hip joints. Code and resulting 3D models are available at: https://github.com/MICCAI2022-155/AuToSeg}
翻訳日:2022-08-19 11:19:48 公開日:2022-08-18
# Video-TransUNet:CT VFSSインスタンスセグメンテーションのための一時的に曲げられた視覚変換器

Video-TransUNet: Temporally Blended Vision Transformer for CT VFSS Instance Segmentation ( http://arxiv.org/abs/2208.08315v2 )

ライセンス: Link先を確認
Chengxi Zeng, Xinyu Yang, Majid Mirmehdi, Alberto M Gambaruto and Tilo Burghardt(参考訳) 本稿では,TransUNetの深層学習フレームワークに時間的特徴ブレンドを組み込んだ医療用CTビデオの深層構造であるVideo-TransUNetを提案する。 特に,resnet cnnバックボーンによる強固なフレーム表現,時間的コンテキストモジュール(tcm)によるマルチフレーム特徴のブレンド,視覚トランスフォーマによる非局所的注意,unetベースの畳み込み・デコンボリューションアーキテクチャによる複数ターゲットの再構成機能などと融合する。 VFSS(Vofluoroscopic Swallowing Study)CTにおける骨と咽頭の分画試験において,この新しいネットワーク設計は,他の最先端システムよりも有意に優れていることを示す。 私たちのvfss2022データセットでは、サイス係数0.8796\%$、平均表面距離1.0379$ピクセルを達成しています。 咽頭骨の追跡は, 摂食障害の診断における主要な方法であるため, 臨床実践において特に重要である。 提案手法は, 時間的情報を活用し, セグメンテーション性能を著しく向上させることにより, TransUNet アーキテクチャを拡張できることが示唆された。 キーとなるソースコード、ネットワーク重み付け、グラウンド・真理アノテーションを公開し、パフォーマンスの再現を簡略化します。

We propose Video-TransUNet, a deep architecture for instance segmentation in medical CT videos constructed by integrating temporal feature blending into the TransUNet deep learning framework. In particular, our approach amalgamates strong frame representation via a ResNet CNN backbone, multi-frame feature blending via a Temporal Context Module (TCM), non-local attention via a Vision Transformer, and reconstructive capabilities for multiple targets via a UNet-based convolutional-deconvolutional architecture with multiple heads. We show that this new network design can significantly outperform other state-of-the-art systems when tested on the segmentation of bolus and pharynx/larynx in Videofluoroscopic Swallowing Study (VFSS) CT sequences. On our VFSS2022 dataset it achieves a dice coefficient of $0.8796\%$ and an average surface distance of $1.0379$ pixels. Note that tracking the pharyngeal bolus accurately is a particularly important application in clinical practice since it constitutes the primary method for diagnostics of swallowing impairment. Our findings suggest that the proposed model can indeed enhance the TransUNet architecture via exploiting temporal information and improving segmentation performance by a significant margin. We publish key source code, network weights, and ground truth annotations for simplified performance reproduction.
翻訳日:2022-08-19 11:19:28 公開日:2022-08-18
# 元anteによるデータセットの識別評価

Ex-Ante Assessment of Discrimination in Dataset ( http://arxiv.org/abs/2208.07918v2 )

ライセンス: Link先を確認
Jonathan Vasquez, Xavier Gitiaux and Huzefa Rangwala(参考訳) データ所有者は、自分たちのデータの使用が過小評価されているコミュニティにどのように害を与えるかという責任を負う。 株主は、例えば人種、性別、年齢、宗教などによって定義された特定の人口集団に対してアルゴリズムに偏りを生じるデータの特徴を特定したいと考えています。 具体的には,特徴から観察結果への基底的真理応答関数が集団間で異なる特徴空間のサブセットを特定することに興味がある。 この目的のために, 個人の反応が感性特性によってどの程度の確率で変化するかを示すスコアを生成する, FORESEE, FORESt of decision trEEsアルゴリズムを提案する。 経験的に、我々のアプローチはランダムフォレスト、ロジスティック回帰、サポートベクトルマシン、k-Nearest Neighborsなど、いくつかの分類で誤分類される可能性のある個人を特定することができる。 このアプローチの利点は、利害関係者が差別に寄与する可能性のあるリスクのあるサンプルを特徴づけるだけでなく、FOESEEを使って今後のサンプルのリスクを見積もることができることです。

Data owners face increasing liability for how the use of their data could harm under-priviliged communities. Stakeholders would like to identify the characteristics of data that lead to algorithms being biased against any particular demographic groups, for example, defined by their race, gender, age, and/or religion. Specifically, we are interested in identifying subsets of the feature space where the ground truth response function from features to observed outcomes differs across demographic groups. To this end, we propose FORESEE, a FORESt of decision trEEs algorithm, which generates a score that captures how likely an individual's response varies with sensitive attributes. Empirically, we find that our approach allows us to identify the individuals who are most likely to be misclassified by several classifiers, including Random Forest, Logistic Regression, Support Vector Machine, and k-Nearest Neighbors. The advantage of our approach is that it allows stakeholders to characterize risky samples that may contribute to discrimination, as well as, use the FORESEE to estimate the risk of upcoming samples.
翻訳日:2022-08-19 11:19:02 公開日:2022-08-18