このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220502となっている論文です。

PDF登録状況(公開日: 20220502)

TitleAuthorsAbstract論文公表日・翻訳日
# 定数サイズの量子相関のメンバシップ問題は決定不能である

The membership problem for constant-sized quantum correlations is undecidable ( http://arxiv.org/abs/2101.11087v3 )

ライセンス: Link先を確認
Honghao Fu, Carl A. Miller and William Slofstra(参考訳) 2つの空間的に分離されたパーティが未知の絡み合った量子状態の測定を行うとき、どのような相関が達成できるのか? 与えられた相関が量子相関であるかどうかを判断するのは難しいか? これらの問題は量子通信と計算における問題の中心である。 これまでの研究により、量子相関の一般会員問題は計算不可能であることが示されている。 現在の研究では、より強い何かを示す: 定数サイズの相関の族 -- すなわち、測定数と測定結果の数が固定された相関 -- があり、この族に対する量子メンバシップ問題の解法は計算的に不可能である。 したがって、ベル実験の理解において生じる不確定性は、実験における測定数の変化に依存しない。 これは量子相関集合に対して与えられる記述の種類に強い制約を与える。 本証明は, 線形システム非局所ゲームにおいて, 量子自己検定法と第3著者の判定不能結果を組み合わせたものである。

When two spatially separated parties make measurements on an unknown entangled quantum state, what correlations can they achieve? How difficult is it to determine whether a given correlation is a quantum correlation? These questions are central to problems in quantum communication and computation. Previous work has shown that the general membership problem for quantum correlations is computationally undecidable. In the current work we show something stronger: there is a family of constant-sized correlations -- that is, correlations for which the number of measurements and number of measurement outcomes are fixed -- such that solving the quantum membership problem for this family is computationally impossible. Thus, the undecidability that arises in understanding Bell experiments is not dependent on varying the number of measurements in the experiment. This places strong constraints on the types of descriptions that can be given for quantum correlation sets. Our proof is based on a combination of techniques from quantum self-testing and from undecidability results of the third author for linear system nonlocal games.
翻訳日:2023-04-13 22:10:35 公開日:2022-05-02
# 乱れたランダム行列積状態の性質からの創発的統計力学

Emergent statistical mechanics from properties of disordered random matrix product states ( http://arxiv.org/abs/2103.02634v4 )

ライセンス: Link先を確認
Jonas Haferkamp, Christian Bertoni, Ingo Roth, Jens Eisert(参考訳) 量子状態の一般性の研究は、多くの洞察に富んだ結果をもたらした。 実験で効率的に作成できる有意義な状態の集合は、ガッピング局所ハミルトンの基底状態であり、行列積状態によってよく近似される。 本研究では,非平衡およびエントロピー特性に関して,物質の自明な相における一般状態の図式を導入する。我々は局所的な i.i.d. haar-measure から引き出された非翻訳不変行列積状態を厳密に探索することによって,これを実現している。 我々は、ランダムユニタリ行列のモーメントを計算する手法と、局所ランダム量子回路の貴重な洞察をもたらす手法である古典統計モデルの分割関数へのマッピングを利用することにより、これらの結果に到達した。 具体的には、非退化スペクトルを特徴とするハミルトニアンの時間発展の下で、そのような乱れたランダム行列積状態が指数関数的に有意な確率と一致することを証明する。 さらに, エントロピーのエントロピーについて, 十分に分離されたサブシステムに対するエントロピーは, システムサイズにおいて汎用的に広く, 小さい結合系ではエントロピーが十分大きな結合次元に対してほぼ最大となることを証明した。

The study of generic properties of quantum states has led to an abundance of insightful results. A meaningful set of states that can be efficiently prepared in experiments are ground states of gapped local Hamiltonians, which are well approximated by matrix product states. In this work, we introduce a picture of generic states within the trivial phase of matter with respect to their non-equilibrium and entropic properties: We do so by rigorously exploring non-translation-invariant matrix product states drawn from a local i.i.d. Haar-measure. We arrive at these results by exploiting techniques for computing moments of random unitary matrices and by exploiting a mapping to partition functions of classical statistical models, a method that has lead to valuable insights on local random quantum circuits. Specifically, we prove that such disordered random matrix product states equilibrate exponentially well with overwhelming probability under the time evolution of Hamiltonians featuring a non-degenerate spectrum. Moreover, we prove two results about the entanglement Renyi entropy: The entropy with respect to sufficiently disconnected subsystems is generically extensive in the system-size, and for small connected systems the entropy is almost maximal for sufficiently large bond dimensions.
翻訳日:2023-04-09 07:53:54 公開日:2022-05-02
# 熱量子系における厳密な普遍的カオス、速度限界、加速度、平面輸送係数、平衡への「収束」、その他の境界

Exact Universal Chaos, Speed Limit, Acceleration, Planckian Transport Coefficient, "Collapse" to equilibrium, and Other Bounds in Thermal Quantum Systems ( http://arxiv.org/abs/2107.10222v3 )

ライセンス: Link先を確認
Zohar Nussinov, Saurish Chakrabarty(参考訳) 熱多体系に「局所不確実性関係」を導入する。 これらの関係を用いて、基本境界を導出する。 これらの結果は、(相互作用範囲によらず)普遍的非相対論的速度制限の実証、加速または力/応力の境界、加速または物質応力率、輸送係数(拡散定数と粘度を含む)、電磁場強度、任意の時空間微分の相関関数、リャプノフ指数、熱化時間などを含む。 さらに ioffe-regel 極限のアナログも導出する。 これらの境界は、様々な実験データと比較すると比較的狭い。 hbar \to 0$ 極限では、すべての境界は発散(例えば、導出速度と加速限界)するか、消滅する(例えば、我々の粘度と拡散定数境界)。 我々の不等式はあらゆる温度で保たれており、総理法則は漸近的に高い温度と低い温度の両方で応答関数に束縛されていることを暗示している。 以上の結果から,超高次相互作用系において,エネルギー固有状態へのほぼ瞬時的「収束」がいかに生じているかが明らかとなった。 局所作用素のランダムな対角行列要素(ハミルトニアンの固有ベイシス)がそれらのダイナミクスをいかに阻害するかについて考察する。

We introduce "local uncertainty relations" in thermal many body systems. Using these relations, we derive basic bounds. These results include the demonstration of universal non-relativistic speed limits (regardless of interaction range), bounds on acceleration or force/stress, acceleration or material stress rates, transport coefficients (including the diffusion constant and viscosity), electromagnetic or other gauge field strengths, correlation functions of arbitrary spatio-temporal derivatives, Lyapunov exponents, and thermalization times. We further derive analogs of the Ioffe-Regel limit. These bounds are relatively tight when compared to various experimental data. In the $\hbar \to 0$ limit, all of our bounds either diverge (e.g., the derived speed and acceleration limit) or vanish (as in, e.g., our viscosity and diffusion constant bounds). Our inequalities hold at all temperatures and, as corollaries, imply general power law bounds on response functions at both asymptotically high and low temperatures. Our results shed light on how apparent nearly instantaneous effective "collapse" to energy eigenstates may arise in macroscopic interacting many body quantum systems. We comment on how random off-diagonal matrix elements of local operators (in the eigenbasis of the Hamiltonian) may inhibit their dynamics.
翻訳日:2023-03-21 07:28:59 公開日:2022-05-02
# 2つの量子エミッタからの異種集団崩壊と方向性放出

Dissimilar collective decay and directional emission from two quantum emitters ( http://arxiv.org/abs/2108.12951v2 )

ライセンス: Link先を確認
P. Solano, P. Barberis-Blostein, and K. Sinha(参考訳) 電磁界が方向依存速度を持つ1次元導波路を介して結合された2つの遠方量子エミッタ系について検討する。 その結果、集団放出の開始は非同時であり、適切なパラメータに対して、エミッターの1つは超放射能を示し、もう1つはサブラジアンである。 干渉効果により、システムは原子状態と電場伝播位相に応じて優先方向に放射することができる。 このような方向放射を様々なパラメータの関数として特徴付け、最適方向の条件を規定する。

We study a system of two distant quantum emitters coupled via a one-dimensional waveguide where the electromagnetic field has a direction-dependent velocity. As a consequence, the onset of collective emission is non-simultaneous and, for appropriate parameters, while one of the emitters exhibits superradiance the other can be subradiant. Interference effects enable the system to radiate in a preferential direction depending on the atomic state and the field propagation phases. We characterize such directional emission as a function of various parameters, delineating the conditions for optimal directionality.
翻訳日:2023-03-16 19:24:21 公開日:2022-05-02
# 双曲井戸におけるソリトンに対する量子情報エントロピー

Quantum information entropies for a soliton at hyperbolic well ( http://arxiv.org/abs/2110.11195v2 )

ライセンス: Link先を確認
F. C. E. Lima(参考訳) 本研究では、変形可能な双曲ポテンシャルを受けるソリトン質量分布を持つ定常量子系に関する確率不確実性について研究する。 シャノンのエントロピーとフィッシャーの位置依存質量に関する情報を計算する。 双曲ポテンシャルのソリトン質量分布のシャノンとフィッシャーのエントロピーの概念を研究するためには、位置と運動量空間における解析解を得る必要がある。 ハミルトニアン作用素がエルミート作用素であるためには、Zhu-Kroemer によって順序づけられた定常シュリンガー方程式を考える。 この順序は半導体材料の突然のヘテロ接合を記述することで知られている。

In this work, the probability uncertainties related to a stationary quantum system with solitonic mass distribution when subjected to deformable hyperbolic potentials are studied. Shannon's entropy and Fisher's information of a position-dependent mass are calculated. To investigate the concept of Shannon and Fisher entropies of the solitonic mass distribution subject to the hyperbolic potential, it is necessary to obtain the analytic solutions at position and momentum space. For the Hamiltonian operator to be Hermitian, we consider the stationary Schr\"odinger equation ordered by Zhu-Kroemer. This ordering is known to describe abrupt heterojunctions in semiconductor materials.
翻訳日:2023-03-10 21:41:41 公開日:2022-05-02
# 物理力学における異なる状態の計数

Counting distinct states in physical dynamics ( http://arxiv.org/abs/2111.00297v3 )

ライセンス: Link先を確認
Norman Margolus(参考訳) 有限物理系は有限エントロピー(有限個の異なる可能な状態)を持つ。 ここで、異なる(直交)状態の有限の最大数もまた、エネルギー、運動量、ラグランジアン作用を含む他の基本的な物理量を定義する。 有限個の異なる状態も測定の分解を制限し、古典時空を効果的に離散化する。 解析は時間進化の速度制限を一般化し、有限長のユニタリ変換で可能な異なる状態を数える。 ナイキストの古典波の異なる信号値に束縛されるように、重ね合わせの幅は単位長さあたりの異なる状態に束縛される。 最大微分変換は事実上離散的であり、最大微分力学の解析とシミュレーションを単純化することができる。

A finite physical system has a finite entropy -- a finite number of distinct possible states. Here we show that finite maximum counts of distinct (orthogonal) states also define other basic quantities of physics, including energy, momentum and Lagrangian action. A finite number of distinct states also limits the resolution of measurements and makes classical spacetime effectively discrete. Our analysis generalizes speed limits on time evolution: we count the distinct states possible in a finite-length of unitary transformation. As in Nyquist's bound on distinct signal values in classical waves, widths of superpositions bound the distinct states per unit length. Maximally distinct transformations are effectively discrete, allowing us to simplify analysis and simulation of maximally distinct dynamics.
翻訳日:2023-03-09 20:47:54 公開日:2022-05-02
# 最小シナリオにおける量子相関

Quantum Correlations in the Minimal Scenario ( http://arxiv.org/abs/2111.06270v2 )

ライセンス: Link先を確認
Thinh P. Le, Chiara Meroni, Bernd Sturmfels, Reinhard F. Werner, and Timo Ziegler(参考訳) 量子相関の最小のシナリオでは、2つの観測可能量からそれぞれ2つの可能な結果を選ぶことができる。 確率は4つの辺数と4つの相関によって指定される。 結果として得られる4次元凸相関体は $\mathcal{q}$ と表され、量子情報理論の基礎となる。 これは凸代数幾何学のレンズを通して研究されている。 我々は、既知のことをレビューし、体系化し、多くの詳細、視覚化、そして完全な証明を加えます。 新たな結果として、$\mathcal{q}$ はその極双対に同型である。 $\mathcal{Q}$ の境界は、楕円面に同型な3次元の面と、露出極点のセクティック代数多様体からなる。 これらはすべての基本的な性質を、通常最大CHSH違反相関と共有する。 これらのパッチは、露出しない極点の立方曲面によって分離される。 すべての極点の三角測度パラメトリゼーションと、その露出するチレルソンの不等式と量子モデルを提供する。 古典的でない極端点 (exposed or not) はすべて自己テストであり、本質的に一意な量子モデルによって実現される。 最小のシナリオに特有な2つの原理は、素早く完全な概要を与える: 1つはプッシュアウト変換であり、各座標への正弦関数の適用である。 これは古典的ポリトープをちょうど相関体 $\mathcal{Q}$ に変換し、境界構造も特定する。 第二の原理である自己双対は極双対、すなわち全ての量子相関によって満たされるすべてのツィレルソンの不等式の集合を明らかにする。 凸体 $\mathcal{q}$ は古典相関、クロスポリトープを含み、無信号体である4-cubeに含まれる。 これらのポリトープは互いに双対であり、この双対性を実現する線型変換もまた、その双対と$\mathcal{Q}$を識別する。

In the minimal scenario of quantum correlations, two parties can choose from two observables with two possible outcomes each. Probabilities are specified by four marginals and four correlations. The resulting four-dimensional convex body of correlations, denoted $\mathcal{Q}$, is fundamental for quantum information theory. It is here studied through the lens of convex algebraic geometry. We review and systematize what is known and add many details, visualizations, and complete proofs. A new result is that $\mathcal{Q}$ is isomorphic to its polar dual. The boundary of $\mathcal{Q}$ consists of three-dimensional faces isomorphic to elliptopes and sextic algebraic manifolds of exposed extreme points. These share all basic properties with the usual maximally CHSH-violating correlations. These patches are separated by cubic surfaces of non-exposed extreme points. We provide a trigonometric parametrization of all extreme points, along with their exposing Tsirelson inequalities and quantum models. All non-classical extreme points (exposed or not) are self-testing, i.e., realized by an essentially unique quantum model. Two principles, which are specific to the minimal scenario, allow a quick and complete overview: The first is the pushout transformation, the application of the sine function to each coordinate. This transforms the classical polytope exactly into the correlation body $\mathcal{Q}$, also identifying the boundary structures. The second principle, self-duality, reveals the polar dual, i.e., the set of all Tsirelson inequalities satisfied by all quantum correlations. The convex body $\mathcal{Q}$ includes the classical correlations, a cross polytope, and is contained in the no-signaling body, a 4-cube. These polytopes are dual to each other, and the linear transformation realizing this duality also identifies $\mathcal{Q}$ with its dual.
翻訳日:2023-03-08 10:00:58 公開日:2022-05-02
# 数値パワー系列の収束を加速する効率的な近似法 1D Schr\"odinger's equation の結果

An efficient approximation for accelerating convergence of the numerical power series. Results for the 1D Schr\"odinger's equation ( http://arxiv.org/abs/2111.11379v3 )

ライセンス: Link先を確認
A. Bagci, Z. Gune\c{s}(参考訳) 数値行列ヌメロフアルゴリズムは、中央クーロンポテンシャルの定常schr\"odinger方程式を解くために用いられる。 収束を加速する効率的な近似法を提案する。 Numerov のメソッドは、グリッド$-$size が適切に選択されない場合、エラーを起こしやすい。 これまでに多くのルールが考案されている。 これらの規則の有効性はより複雑な方程式に対して減少する。 グリッドサイズに変動最適値を持たせることにより,収束を加速する手法の有効性を検証した。 本研究は, 励起状態を計算する際に, 誤差率の増加を除去する手法である。 エネルギー固有値について得られた結果を文献と比較する。 水素エネルギー固有値の格子サイズの値が得られれば、水素の等電子級数に対して単に $h_{\varepsilon}(z)=h_{\varepsilon}(1)/z$ を求めることができる。

The numerical matrix Numerov algorithm is used to solve the stationary Schr\"odinger equation for central Coulomb potentials. An efficient approximation for accelerating the convergence is proposed. The Numerov method is error-prone if the magnitude of grid$-$size is not chosen properly. A number of rules so far, have been devised. The effectiveness of these rules decrease for more complicated equations. Efficiency of the technique used for accelerating the convergence is tested by allowing the grid-sizes to have variationally optimum values. The method presented in this study eliminates the increased margin of error while calculating the excited states. The results obtained for energy eigenvalues are compared with the literature. It is observed that, once the values of grid-sizes for hydrogen energy eigenvalues are obtained, they can simply be determined for the hydrogen iso-electronic series as, $h_{\varepsilon}(Z)=h_{\varepsilon}(1)/Z$.
翻訳日:2023-03-07 04:22:20 公開日:2022-05-02
# 量子力学は負の質量を育むことができるか?

Can quantum mechanics breed negative masses? ( http://arxiv.org/abs/2112.08881v3 )

ライセンス: Link先を確認
Bruno Arderucio Costa and George E. A. Matsas(参考訳) カシミール効果は、量子場理論における静的負のエネルギー密度の存在を実現する。 ミンコフスキー背景下で平衡状態にあるカシミール装置の全質量の非ネガティビティに対する物理的に合理的な条件を確立する。 具体的には、力学平衡は系を分離する追加の物質の存在を必要とする。 この余剰物質が支配的なエネルギー条件を満たす限り、結合系の質量は正である。 したがって、エネルギーが時間内に逆向きに移動できない理由は、質量の正の裏にあるメカニズムである可能性がある。 我々は、カシミール設定からより一般的な状況への出発点について論じる。

The Casimir effect realizes the existence of static negative energy densities in quantum field theory. We establish physically reasonable conditions for the non-negativity of the total mass of a Casimir apparatus held in equilibrium in the Minkowski background, irrespective of any condensed matter consideration. Specifically, the dynamical equilibrium requires the presence of additional matter to hold the system apart. As long as this extra matter satisfies the dominant energy condition, the mass of the combined system is positive. Thus, the very same reason why energy cannot travel backwards in time could be the underlying mechanism behind the positivity of the mass. We discuss the takeaways from the Casimir setting to more general circumstances.
翻訳日:2023-03-04 09:29:48 公開日:2022-05-02
# 障害誘発非エルミタン相のメソスコピック輸送シグナル

Mesoscopic transport signatures of disorder-induced non-Hermitian phases ( http://arxiv.org/abs/2201.05616v2 )

ライセンス: Link先を確認
Benjamin Michen, Jan Carl Budich(参考訳) スピンまたは軌道依存電位散乱を持つ2次元(2次元)ディラック半金属の平均グリーン関数記述に現れる障害誘発例外点(EP)の基本的な量子輸送特性への影響について検討する。 驚くべきことに、epsはディラック点における有限サンプルのほぼ消滅するコンダクタンスを、障害強度とともに増加する相当な値へと促進する可能性がある。 この衝撃的挙動は、epをつなぐフェルミアークと密接な関係にある強い方向異方性を示す。 我々は, 数値シミュレーションにより, 特徴的非エルミートスペクトル特徴の指紋を同定し, 対象システムの局在性について検討した。 最後に, スピン依存光学格子中の電子四角ネット材料や低温原子など, 理論解析の実験的検証の候補について検討した。

We investigate the impact on basic quantum transport properties of disorder-induced exceptional points (EPs) that emerge in a disorder-averaged Green's function description of two-dimensional (2D) Dirac semimetals with spin- or orbital-dependent potential scattering. Remarkably, we find that EPs may promote the nearly vanishing conductance of a finite sample at the Dirac point to a sizable value that increases with disorder strength. This striking behavior exhibits a strong directional anisotropy that is closely related to the Fermi arcs connecting the EPs. We corroborate our results by numerically exact simulations, thus revealing the fingerprints of characteristic non-Hermitian spectral features also on the localization properties of the considered systems. Finally, several candidates for the experimental verification of our theoretical analysis are discussed, including disordered electronic square-net materials and cold atoms in spin-dependent optical lattices.
翻訳日:2023-03-01 04:21:41 公開日:2022-05-02
# 重力場とディラトン場における光伝搬と原子干渉

Light propagation and atom interferometry in gravity and dilaton fields ( http://arxiv.org/abs/2201.07053v2 )

ライセンス: Link先を確認
Fabio Di Pumpo, Alexander Friedrich, Andreas Geyer, Christian Ufrecht, Enno Giese(参考訳) アインシュタイン同値原理の暗黒物質または違反は、原子の運動、内部状態、および電磁場に影響を及ぼし、原子検出器の信号にシグネチャをもたらす。 このような新しい物理をモデル化するために、ディラトン場を導入し、光パルス原子干渉計で原子を操作するために用いられる光の変形伝搬を研究する。 その干渉信号は、物質の重力とディラトンとのカップリングによって支配される。 電磁場は位相に寄与するが、ディラトンに依存した効果は観測できない。 しかし、重力下での光の伝播は、修正された運動量移動と有限の速度によって入る。 本稿では,光伝搬とディラトンがグラディオメーター,同値原理試験,暗黒物質検出など,異なる原子間計測装置に与える影響について考察する。

Dark matter or violations of the Einstein equivalence principle influence the motion of atoms, their internal states as well as electromagnetic fields, thus causing a signature in the signal of atomic detectors. To model such new physics, we introduce dilaton fields and study the modified propagation of light used to manipulate atoms in light-pulse atom interferometers. Their interference signal is dominated by the matter's coupling to gravity and the dilaton. Even though the electromagnetic field contributes to the phase, no additional dilaton-dependent effect can be observed. However, the light's propagation in gravity enters via a modified momentum transfer and its finite speed. For illustration, we discuss effects from light propagation and the dilaton on different atom-interferometric setups, including gradiometers, equivalence principle tests, and dark matter detection.
翻訳日:2023-02-28 20:49:54 公開日:2022-05-02
# 完全量子隠れ部分群アルゴリズムと可解群への応用

An exact quantum hidden subgroup algorithm and applications to solvable groups ( http://arxiv.org/abs/2202.04047v3 )

ライセンス: Link先を確認
Muhammad Imran and Gabor Ivanyos(参考訳) Z_{m^k}^n$ の隠れ部分群問題に対する多項式時間正確な量子アルゴリズムを提案する。 このアルゴリズムは量子フーリエ変換 modulo m を用い、m の分解を必要としない。 滑らかな m に対して、すなわち m の素数が poly(log m) であるとき、クレーブとカッパースミスによって独立に発見された方法を用いて量子フーリエ変換を正確に計算することができるが、一般的な m ではmosca と zalka のアルゴリズムが利用できる。 m=3 と k=1 であっても、結果は新しく見える。 また、順序が m と同じ(しかしおそらく不明な)素因子を持つアーベル群と可解群の構造を計算する応用も提示する。 可解群の応用はまた、部分群の要素の均一な重ね合わせを計算するためにWatrousによって提案された技法の正確なバージョンにも依存する。

We present a polynomial time exact quantum algorithm for the hidden subgroup problem in $Z_{m^k}^n$. The algorithm uses the quantum Fourier transform modulo m and does not require factorization of m. For smooth m, i.e., when the prime factors of m are of size poly(log m), the quantum Fourier transform can be exactly computed using the method discovered independently by Cleve and Coppersmith, while for general m, the algorithm of Mosca and Zalka is available. Even for m=3 and k=1 our result appears to be new. We also present applications to compute the structure of abelian and solvable groups whose order has the same (but possibly unknown) prime factors as m. The applications for solvable groups also rely on an exact version of a technique proposed by Watrous for computing the uniform superposition of elements of subgroups.
翻訳日:2023-02-26 09:05:33 公開日:2022-05-02
# 遷移状態理論へのランダム行列アプローチ

Random-Matrix Approach to Transition-State Theory ( http://arxiv.org/abs/2202.04914v2 )

ライセンス: Link先を確認
H. A. Weidenm\"uller(参考訳) バリアによって内在的に分離された複素系をモデル化するために、トンネルマトリクス要素または中間遷移状態によって互いに結合した2つのランダムハミルトニアンを用いる。 我々はこのモデルを大行列次元の普遍極限で研究する。 第1ハミルトニアンに結合した散乱チャネルから第2ハミルトニアンに結合した散乱チャネルへの遷移の平均確率を計算する。 第二ハミルトニアンに結合されたチャネルの伝達係数の和が大きいという仮定のみを用いて、遷移状態理論をその一般形式で求める。 トンネルの形成と崩壊の非常に厚い障壁を通すトンネルは、より一般的に保持される。

To model a complex system intrinsically separated by a barrier, we use two random Hamiltonians, coupled to each other either by a tunneling matrix element or by an intermediate transition state. We study that model in the universal limit of large matrix dimension. We calculate the average probability for transition from scattering channel coupled to the first Hamiltonian to a scattering channel coupled to the second Hamiltonian. Using only the assumption that the sum of transmission coefficients of channels coupled to the second Hamiltonian is large we retrieve transition-state theory in its general form. For tunneling through a very thick barrier independence of formation and decay of the tunneling process hold more generally.
翻訳日:2023-02-26 04:58:08 公開日:2022-05-02
# 意味のあるコンテキスト、赤い旗、あるいはその両方? twitter上での誤情報警告の強化に対するユーザの選好

Meaningful Context, a Red Flag, or Both? Users' Preferences for Enhanced Misinformation Warnings on Twitter ( http://arxiv.org/abs/2205.01243v1 )

ライセンス: Link先を確認
Filipo Sharevski and Amy Devine and Emma Pieroni and Peter Jacnim(参考訳) ソーシャルメディア上での誤情報の警告は、単純なユーザビリティタスクではない。 ソフトモデレーションは、ソーシャルメディアの消費の流れを保ちながら、偽装とモデレーションバイアスを避けるためのバランスをとる必要がある。 したがってプラットフォームは、疑わしい誤情報コンテンツの下で、最小限の識別可能な警告タグとジェネリックテキストを使用する。 このアプローチは、警告が"バックファイア"され、ユーザが誤報をより信じているという好ましくない結果をもたらした。 そこで我々は,情報ハザードの文脈でユーザがアドバイスされ,標準警告アイコンに露出する誤報警告の強化を行った。 337名の参加者によるユーザビリティスタディにおいて、twitterのオリジナルの警告タグを用いてa/b評価を行った。 参加者の大半は、誤情報の認識と回避の核心として、この強化を好んだ。 強化された警告タグは、政治的に左派とやや穏健な参加者に最も好まれたが、右派の参加者の約3分の1に訴えた。 教育水準は、参加者の嗜好を形作る唯一の要因であった。 本研究は,ソーシャルメディア上での誤情報のソフトモデレーションにおけるユーザ調整による改善を提案する。

Warning users about misinformation on social media is not a simple usability task. Soft moderation has to balance between debunking falsehoods and avoiding moderation bias while preserving the social media consumption flow. Platforms thus employ minimally distinguishable warning tags with generic text under a suspected misinformation content. This approach resulted in an unfavorable outcome where the warnings "backfired" and users believed the misinformation more, not less. In response, we developed enhancements to the misinformation warnings where users are advised on the context of the information hazard and exposed to standard warning iconography. We ran an A/B evaluation with the Twitter's original warning tags in a 337 participant usability study. The majority of the participants preferred the enhancements as a nudge toward recognizing and avoiding misinformation. The enhanced warning tags were most favored by the politically left-leaning and to a lesser degree moderate participants, but they also appealed to roughly a third of the right-leaning participants. The education level was the only demographic factor shaping participants' preferences. We use our findings to propose user-tailored improvements in the soft moderation of misinformation on social media.
翻訳日:2023-02-19 16:38:57 公開日:2022-05-02
# Insider Stories: 大手アメリカの企業の内部持続可能性に関するオンラインレビューからの分析

Insider Stories: Analyzing Internal Sustainability Efforts of Major US Companies from Online Reviews ( http://arxiv.org/abs/2205.01217v1 )

ライセンス: Link先を確認
Indira Sen, Daniele Quercia, Licia Capra, Matteo Montecchi, Sanja \v{S}\'cepanovi\'c(参考訳) 企業の内部持続可能性プラクティスを運用する方法論が欠如していることや、そうした取り組みを誠実に記録していることから、企業が男女平等、多様性、一般職員の福祉を支えているかどうかを確定することは困難である。 我々は、内部持続可能性(ISEs)を反映した6次元の枠組みを開発し、2008-2020年の間、米国全体で104の大企業の350万以上の従業員レビューを集め、これらの評価を6つのISEの観点で評価するディープラーニングフレームワークを開発した。 ISEへのコミットメントはマイクロレベルだけでなくマクロレベル(これらの企業を主催する国家は経済的に富み平等であり、いわゆる創造階級を惹きつけていた)にも現れていた。 ISEのこの新しい概念化は、企業サステナビリティと経済地理学における文学に対する理論的意味と、企業や政策立案者に対する実践的意味の両方を提供する。

It is hard to establish whether a company supports gender equality, diversity, and general staff welfare, not least because of lack of methodologies operationalizing these internal sustainability practices, and of data honestly documenting such efforts. We developed and validated a six-dimension framework reflecting Internal Sustainability Efforts (ISEs), gathered more than 350K employee reviews of 104 major companies across the whole US for the (2008-2020) years, and developed a deep-learning framework scoring these reviews in terms of the six ISEs. Commitment to ISEs manifested itself not only at micro-level (companies scoring high in ISEs enjoyed high stock growth) but also at macro-level (states hosting these companies were economically wealthy and equal, and attracted the so-called creative class). This new conceptualization of ISEs offers both theoretical implications for the literature in corporate sustainability and economic geography, and practical implications for companies and policy makers.
翻訳日:2023-02-19 16:38:39 公開日:2022-05-02
# 有害でないアプリのエコシステムを想像し、研究し、認識する

Imagining, Studying and Realising A Less Harmful App Ecosystem ( http://arxiv.org/abs/2205.00774v1 )

ライセンス: Link先を確認
Konrad Kollnig, Siddhartha Datta, Nigel Shadbolt(参考訳) デスクトップブラウザ拡張機能は、長い間ユーザーがオンライン体験を改善し、ウェブサイトの幅広い害に対処できるようにしてきた。 これまでのところ、モバイルアプリに匹敵するソリューションは存在しないが、今や個人はデスクトップよりもはるかに多くの時間をモバイルで過ごしている。 本研究は,モバイルアプリケーションにおけるディジタル障害の調査と対処を,分散的,コミュニティ主導の方法で行う,これまで未検討のコンセプトであるモバイルアプリ拡張について検討する。 このアプローチを採用する上での課題を分析し,システム開発の重要かつ慎重な結果として,Android用の即時実装を提示する。 さまざまなケーススタディを通じて、ブラウザ拡張機能がデスクトップで行っているように、実装がすでに広範囲の損害を低減(完全には取り除いていないが)できることを実証します。 提案手法は,従来は不可能であったモバイル・アプリにおけるデジタル・ハザードの追跡研究の基盤として,ブラウザ・エクステンションがデスクトップ研究の成果の源泉であったことを踏まえ,多種多様な基盤を提供する。 言い換えれば、われわれのシステムは以前の研究におけるデスクトップの介入に焦点をあてるギャップに対処しようとしている。

Desktop browser extensions have long allowed users to improve their experience online and tackle widespread harms on websites. So far, no equivalent solution exists for mobile apps, despite the fact that individuals now spend significantly more time on mobile than on desktop, and arguably face similarly widespread harms. In this work, we investigate mobile app extensions, a previously underexplored concept to study and address digital harms within mobile apps in a decentralised, community-driven way. We analyse challenges to adoption of this approach so far, and present a ready-to-use implementation for Android as a result of significant and careful system development. Through a range of case studies, we demonstrate that our implementation can already reduce (though not completely eliminate) a wide range of harms - similarly as browser extensions do on desktops. Our method provides a versatile foundation for a range of follow-up research into digital harms in mobile apps that has not previously been possible, given that browser extensions have long been a fruitful foundation for research studies on desktops. In other words, our system tries to address the gap of a focus on desktop interventions in previous research.
翻訳日:2023-02-19 16:36:22 公開日:2022-05-02
# (プライベート)-retroactive carbon pricing [(p)recap]:気候金融とリスクアセスメントのための市場ベースのアプローチ

(Private)-Retroactive Carbon Pricing [(P)ReCaP]: A Market-based Approach for Climate Finance and Risk Assessment ( http://arxiv.org/abs/2205.00666v1 )

ライセンス: Link先を確認
Yoshua Bengio, Prateek Gupta, Dylan Radovic, Maarten Scholl, Andrew Williams, Christian Schroeder de Witt, Tianyu Zhang, Yang Zhang(参考訳) 炭素の社会的コスト(SCC)推定手法と短期的な意思決定の地平線は、気候変動の負の外部性に対するカーボンエミッターの正当性や、経済・気候政策のバランスをとる国家の能力の低下を妨げている。 これらの制限を克服するために,実証的な証拠としてこれらの制限を補正する新しいメカニズムであるRetrospective Social Cost of Carbon Updating (ReSCCU)を導入する。 炭素課税の文脈でresccuを実装するために, 汚染者がresccu調整の支払いを保険業者にオフロードする市場メカニズムであるrecap(retroactive carbon pricing)を提案する。 組織的リスクを緩和し、政府の関与を最小限に抑えるため、我々は、少数の高純価値個人または独立機関の関与に基づいて現実の実施を見ることができるPrivate ReCaP(PReCaP)予測市場を導入する。

Insufficient Social Cost of Carbon (SCC) estimation methods and short-term decision-making horizons have hindered the ability of carbon emitters to properly correct for the negative externalities of climate change, as well as the capacity of nations to balance economic and climate policy. To overcome these limitations, we introduce Retrospective Social Cost of Carbon Updating (ReSCCU), a novel mechanism that corrects for these limitations as empirically measured evidence is collected. To implement ReSCCU in the context of carbon taxation, we propose Retroactive Carbon Pricing (ReCaP), a market mechanism in which polluters offload the payment of ReSCCU adjustments to insurers. To alleviate systematic risks and minimize government involvement, we introduce the Private ReCaP (PReCaP) prediction market, which could see real-world implementation based on the engagement of a few high net-worth individuals or independent institutions.
翻訳日:2023-02-19 16:35:42 公開日:2022-05-02
# pseudo-pflow:限定的な旅行調査とオープン統計データに基づく全国的な人行動総合オープンデータセットの開発

Pseudo-PFLOW: Development of nationwide synthetic open dataset for people movement based on limited travel survey and open statistical data ( http://arxiv.org/abs/2205.00657v1 )

ライセンス: Link先を確認
Takehiro Kashiyama, Yanbo Pang, Yoshihide Sekimoto, Takahiro Yabe(参考訳) 人フローデータは、都市や商業計画、災害管理など様々な分野で活用されている。 しかし, 携帯電話から収集したデータ, グローバル位置情報システム, コール詳細記録データ等は, プライバシー上の問題により入手が困難である。 たとえデータが得られたとしても、処理は困難だろう。 本研究は,都市部における公共統計・旅行調査データを組み合わせた擬似人流データを構築した。 このデータセットは、実際の旅行運動の表現ではなく、典型的な平日移動の表現である。 そのため、様々な用途に有用であることが期待されている。 さらに、このデータセットは、旅行調査とは異なり、日本全国の人々のシームレスな動きを表しており、カバー範囲に制限はない。 本稿では,擬似人流を生成する手法を提案し,約1億3千万人の人口をカバーする「擬似人流」データセットの開発について述べる。 次に,複数の大都市圏からの携帯電話と旅行調査データを用いて,データセットの精度を評価した。 その結果,人口分布と旅行量の比較において,0.5以上の決定係数が確認された。

People flow data are utilized in diverse fields such as urban and commercial planning and disaster management. However, people flow data collected from mobile phones, such as using global positioning system and call detail records data, are difficult to obtain because of privacy issues. Even if the data were obtained, they would be difficult to handle. This study developed pseudo-people-flow data covering all of Japan by combining public statistical and travel survey data from limited urban areas. This dataset is not a representation of actual travel movements but of typical weekday movements of people. Therefore it is expected to be useful for various purposes. Additionally, the dataset represents the seamless movement of people throughout Japan, with no restrictions on coverage, unlike the travel surveys. In this paper, we propose a method for generating pseudo-people-flow and describe the development of a "Pseudo-PFLOW" dataset covering the entire population of approximately 130 million people. We then evaluated the accuracy of the dataset using mobile phone and trip survey data from multiple metropolitan areas. The results showed that a coefficient of determination of more than 0.5 was confirmed for comparisons regarding population distribution and trip volume.
翻訳日:2023-02-19 16:35:20 公開日:2022-05-02
# 一般化ボソンに対するボソンサンプリング

Boson Sampling for Generalized Bosons ( http://arxiv.org/abs/2204.08389v2 )

ライセンス: Link先を確認
En-Jui Kuo, Yijia Xu, Dominik Hangleiter, Andrey Grankin, and Mohammad Hafezi(参考訳) 交換統計がボソンと類似する「一般化ボソン」の概念を導入するが、局所ボゾン変換器 $[a_i,a_i^\dagger]=1$ は一般化フォック基底で対角的な任意の単一モード作用素に置き換えられる。 一般化されたボソンの例としては、ボソン対とスピンがある。 これらの粒子のボソンサンプリングタスクの類似性を考察し、その出力確率が永久的に与えられることを観測し、サンプリングの硬さに関する結果を直接引き継ぐ。 最後に,回路QEDおよびイオントラッププラットフォームにおける一般ボソンサンプリングの実装を提案する。

We introduce the notion of "generalized bosons" whose exchange statistics resemble those of bosons, but the local bosonic commutator $[a_i,a_i^\dagger]=1$ is replaced by an arbitrary single-mode operator that is diagonal in the generalized Fock basis. Examples of generalized bosons include boson pairs and spins. We consider the analogue of the boson sampling task for these particles and observe that its output probabilities are still given by permanents, so that the results regarding hardness of sampling directly carry over. Finally, we propose implementations of generalized boson sampling in circuit-QED and ion-trap platforms.
翻訳日:2023-02-16 11:43:27 公開日:2022-05-02
# quartz: 量子回路の超最適化(拡張版)

Quartz: Superoptimization of Quantum Circuits (Extended Version) ( http://arxiv.org/abs/2204.09033v2 )

ライセンス: Link先を確認
Mingkuan Xu and Zikun Li and Oded Padon and Sina Lin and Jessica Pointing and Auguste Hirth and Henry Ma and Jens Palsberg and Alex Aiken and Umut A. Acar and Zhihao Jia(参考訳) 既存の量子コンパイラは、専門家が設計した回路変換を適用することで量子回路を最適化する。 このアプローチでは、異なるゲートセットを使用する異なる量子デバイスのための回路変換の設計と実装に多大な手作業が必要であり、手動で見つけるのが難しい最適化を見逃す可能性がある。 任意の量子ゲート集合に対して自動的に回路変換を生成し検証する量子回路スーパーオプティマイザquartzを提案する。 与えられたゲート集合に対して、石英は小さな回路を体系的に探索して候補回路変換を生成し、自動定理証明器を用いて検出された変換を検証する。 量子回路を最適化するためにquartzは、回路に検証された変換を適用するコストベースのバックトラッキング検索を使用する。 3つの人気ゲート集合について評価した結果,石英は異なるゲート集合の変換を効果的に生成し検証できることがわかった。 生成された変換は、既存のオプティマイザが使用する手動設計の変換をカバーし、新しい変換も含む。 それゆえ、Quartzは様々なゲートセットに対して広範囲の回路を最適化することができ、手動調整回路オプティマイザの性能を向上または適合させることができる。

Existing quantum compilers optimize quantum circuits by applying circuit transformations designed by experts. This approach requires significant manual effort to design and implement circuit transformations for different quantum devices, which use different gate sets, and can miss optimizations that are hard to find manually. We propose Quartz, a quantum circuit superoptimizer that automatically generates and verifies circuit transformations for arbitrary quantum gate sets. For a given gate set, Quartz generates candidate circuit transformations by systematically exploring small circuits and verifies the discovered transformations using an automated theorem prover. To optimize a quantum circuit, Quartz uses a cost-based backtracking search that applies the verified transformations to the circuit. Our evaluation on three popular gate sets shows that Quartz can effectively generate and verify transformations for different gate sets. The generated transformations cover manually designed transformations used by existing optimizers and also include new transformations. Quartz is therefore able to optimize a broad range of circuits for diverse gate sets, outperforming or matching the performance of hand-tuned circuit optimizers.
翻訳日:2023-02-16 08:47:50 公開日:2022-05-02
# 分割位相Oracleによる振幅増幅の最適化

Amplitude Amplification for Optimization via Subdivided Phase Oracle ( http://arxiv.org/abs/2205.00602v1 )

ライセンス: Link先を確認
Naphan Benchasattabuse, Takahiko Satoh, Michal Hajdu\v{s}ek, Rodney Van Meter(参考訳) 本稿では, 振幅増幅の修正版を用いて, 分割位相オラクルを用いて組合せ最適化問題を解くアルゴリズムを提案する。 入力状態を2つのグループに分割し、同じグループ内の全ての状態に対して等しく位相をシフトする代わりに、サブ分割されたフェーズオラクルは、それぞれの入力状態の位相を目的値に比例して一意に変更する。 複素平面における従来のグローバー拡散に続いて, 分割位相オラクルを適用した各繰り返しの振幅の変化を可視化する。 次に, 対象値の正規分布, 歪正規分布, 指数分布の数値シミュレーションにより, 最適解の測定確率を探索空間サイズに依存しないかなりの程度に増幅できることを示す。 スキュー正規分布と指数分布の場合、この確率は一意に近いように増幅することができ、アルゴリズムは決定論的に近い。 次に、より広範な目的値分布にどのように拡張できるかを示すために、アルゴリズムを変更します。 最後に,クエリ複雑性モデルを用いた古典的スキームと比較して,高速化について論じるとともに,従来の手法に対してアルゴリズムが大きなアドバンテージを与えることを示す。

We propose an algorithm using a modified variant of amplitude amplification to solve combinatorial optimization problems via the use of a subdivided phase oracle. Instead of dividing input states into two groups and shifting the phase equally for all states within the same group, the subdivided phase oracle changes the phase of each input state uniquely in proportion to their objective value. We provide visualization of how amplitudes change after each iteration of applying the subdivided phase oracle followed by conventional Grover diffusion in the complex plane. We then show via numerical simulation that for normal, skew normal, and exponential distribution of objective values, the algorithm can be used to amplify the probability of measuring the optimal solution to a significant degree independent of the search space size. In the case of skew normal and exponential distributions, this probability can be amplified to be close to unity, making our algorithm near deterministic. We then modify our algorithm in order to demonstrate how it can be extended to a broader set of objective value distributions. Finally, we discuss the speedup compared to classical schemes using the query complexity model, and show that our algorithm offers a significant advantage over these classical approaches.
翻訳日:2023-02-14 20:55:24 公開日:2022-05-02
# ドメイン科学における量子アルゴリズムのスケーラビリティと資源推定の重要性について

On the importance of scalability and resource estimation of quantum algorithms for domain sciences ( http://arxiv.org/abs/2205.00585v1 )

ライセンス: Link先を確認
Vincent R. Pascuzzi and Ning Bao and Ang Li(参考訳) 量子情報科学コミュニティは、科学分野における新しいアルゴリズム開発が急増している。 これらの発展は、計算と空間の複雑さの多項式あるいはより良い改善を示し、この分野におけるさらなる研究のインセンティブとなった。 しかし、近年の進歩にもかかわらず、アルゴリズムのスケーラビリティや必要な量子リソース(例えば論理量子ビット数、誤差しきい値など)を定量的に見積もることに失敗し、高度に要求される「量子長所」を実現する。 本稿では,いくつかの量子アルゴリズムについて考察し,その評価の重要性について考察する。 例えば、単純なスケーリング仮定の下で、高エネルギー物理学シミュレーションアルゴリズムのための将来の量子デバイスに対する計算上の期待と、その古典的アナログとの比較を近似する。 量子優位性の主張には標準ろうそくが必要であると主張する。

The quantum information science community has seen a surge in new algorithmic developments across scientific domains. These developments have demonstrated polynomial or better improvements in computational and space complexity, incentivizing further research in the field. However, despite recent progress, many works fail to provide quantitative estimates on algorithmic scalability or quantum resources required -- e.g., number of logical qubits, error thresholds, etc. -- to realize the highly sought "quantum advantage." In this paper, we discuss several quantum algorithms and motivate the importance of such estimates. By example and under simple scaling assumptions, we approximate the computational expectations of a future quantum device for a high energy physics simulation algorithm and how it compares to its classical analog. We assert that a standard candle is necessary for claims of quantum advantage.
翻訳日:2023-02-14 20:54:27 公開日:2022-05-02
# 運動量弱値の検出:shack-hartmann対弱測定波面センサ

Detecting momentum weak value: Shack-Hartmann versus a weak measurement wavefront sensor ( http://arxiv.org/abs/2205.00669v1 )

ライセンス: Link先を確認
Yi Zheng, Mu Yang, Zheng-Hao Liu, Jin-Shi Xu, Chuan-Feng Li, Guang-Can Guo(参考訳) ウェーブフロントセンシングのタスクは、光学場の位相を測定することである。 ここでは、広く使われているシャック・ハートマン波面センサが、通常量子弱測定法によって達成される横運動量の弱い値を検出することを実証する。 入力状態を部分的にコヒーレントな状態に拡張し、より空間分解能が高いがダイナミックレンジが小さい弱い測定波面センサと比較する。 弱い値は基本的な量子物理学や量子メトロロジーの研究によく用いられるので、我々の研究はこれらの分野において必須の応用を見出すだろう。

The task of wavefront sensing is to measure the phase of the optical field. Here, we demonstrate that the widely used Shack-Hartmann wavefront sensor detects the weak value of transverse momentum, usually achieved by the method of quantum weak measurement. We extend its input states to partially coherent states and compare it with the weak measurement wavefront sensor, which has a higher spatial resolution but a smaller dynamic range. Since weak values are commonly used in investigating fundamental quantum physics and quantum metrology, our work would find essential applications in these fields.
翻訳日:2023-02-14 20:51:46 公開日:2022-05-02
# Giallar: Qiskit量子コンパイラのプッシュボタン検証

Giallar: Push-Button Verification for the Qiskit Quantum Compiler ( http://arxiv.org/abs/2205.00661v1 )

ライセンス: Link先を確認
Runzhou Tao, Yunong Shi, Jianan Yao, Xupeng Li, Ali Javadi-Abhari, Andrew W. Cross, Frederic T. Chong, Ronghui Gu(参考訳) 本稿では,量子コンパイラの完全自動検証ツールキットであるGiallarを提案する。 Giallarは手動の仕様、不変性、証明を必要とせず、コンパイラが量子回路のセマンティクスを保存することを自動的に検証することができる。 量子コンパイラの非有界ループを扱うために、giallarは3つのループテンプレートを抽象化し、ループ不変量は自動的に推論される。 複雑な行列意味表現を持つ任意の入力回路と出力回路の等価性を効率的にチェックするために、Giallarは、量子回路の記号表現と、記号量子回路の等価性を示す一連の書き換え規則を導入する。 Giallarでは,Qiskitコンパイラの13バージョンに44パス(56件中)を実装,検証し,その間にQiskitによって3つのバグが検出・確認された。 評価の結果,Qiskitコンパイラのパスの大部分が数秒で自動的に検証可能であり,コンパイル性能に多少のオーバーヘッドしか課さないことがわかった。

This paper presents Giallar, a fully-automated verification toolkit for quantum compilers. Giallar requires no manual specifications, invariants, or proofs, and can automatically verify that a compiler pass preserves the semantics of quantum circuits. To deal with unbounded loops in quantum compilers, Giallar abstracts three loop templates, whose loop invariants can be automatically inferred. To efficiently check the equivalence of arbitrary input and output circuits that have complicated matrix semantics representation, Giallar introduces a symbolic representation for quantum circuits and a set of rewrite rules for showing the equivalence of symbolic quantum circuits. With Giallar, we implemented and verified 44 (out of 56) compiler passes in 13 versions of the Qiskit compiler, the open-source quantum compiler standard, during which three bugs were detected in and confirmed by Qiskit. Our evaluation shows that most of Qiskit compiler passes can be automatically verified in seconds and verification imposes only a modest overhead to compilation performance.
翻訳日:2023-02-14 20:51:36 公開日:2022-05-02
# ウッドベリー恒等式に基づく方程式の線形系解のための短期量子アルゴリズム

A near-term quantum algorithm for solving linear systems of equations based on the Woodbury identity ( http://arxiv.org/abs/2205.00645v1 )

ライセンス: Link先を確認
Daniel O'Malley and Yigit Subasi and John Golden and Robert Lowrie and Stephan Eidenbenz(参考訳) 方程式の線形系を解くための量子アルゴリズムは、潜在的なスピードアップと多くの応用において線形方程式を解くことの重要性から興奮を引き起こしている。 しかし、これらのアルゴリズムを適用することは難しい。 harrow-hassidim-lloydアルゴリズムとその改善には、ハミルトンシミュレーションのようなフォールトトレラントなハードウェアに適した複雑なサブルーチンが必要である。 一方、変分アルゴリズムは高価な最適化ループを伴い、不毛の台地や局所的なオプティマが引き起こされる可能性がある。 これらの問題を回避する線形方程式系を解くための量子アルゴリズムについて述べる。 このアルゴリズムは、他の(容易に可逆な)行列の低ランクな修正である行列の逆を解析的に記述するウッドベリー恒等式に基づいている。 このアプローチは、Hadamardテストやスワップテストのような基本的な量子サブルーチンのみを使用するため、現在のハードウェアに適している。 最適化ループがないため、不毛の台地や局所的なオプティマは問題を示しない。 アイデンティティの低ランクな側面により、量子コンピュータへの情報転送を効率的に行うことができる。 このアプローチは、現在のハードウェアで正確な結果を生み出すことができる。 これの証拠として、IBMのオークランド量子コンピュータを用いて、2%の誤差で1600万以上の方程式からなるシステムの解を含む内部積を推定する。 我々の知る限り、この大きな方程式系は量子コンピュータ上のこのレベルの精度で以前に解かれていない。

Quantum algorithms for solving linear systems of equations have generated excitement because of the potential speed-ups involved and the importance of solving linear equations in many applications. However, applying these algorithms can be challenging. The Harrow-Hassidim-Lloyd algorithm and improvements thereof require complex subroutines suitable for fault-tolerant hardware such as Hamiltonian simulation, making it ill-suited to current hardware. Variational algorithms, on the other hand, involve expensive optimization loops, which can be prone to barren plateaus and local optima. We describe a quantum algorithm for solving linear systems of equations that avoids these problems. Our algorithm is based on the Woodbury identity, which analytically describes the inverse of a matrix that is a low-rank modification of another (easily-invertible) matrix. This approach only utilizes basic quantum subroutines like the Hadamard test or the swap test, so it is well-suited to current hardware. There is no optimization loop, so barren plateaus and local optima do not present a problem. The low-rank aspect of the identity enables us to efficiently transfer information to and from the quantum computer. This approach can produce accurate results on current hardware. As evidence of this, we estimate an inner product involving the solution of a system of more than 16 million equations with 2% error using IBM's Auckland quantum computer. To our knowledge, no system of equations this large has previously been solved to this level of accuracy on a quantum computer.
翻訳日:2023-02-14 20:50:40 公開日:2022-05-02
# オンチップ塑性を利用したLoihiのシーケンス学習と統合

Sequence Learning and Consolidation on Loihi using On-chip Plasticity ( http://arxiv.org/abs/2205.00643v1 )

ライセンス: Link先を確認
Jack Lindsey, James B Aimone(参考訳) 本研究では,ニューロモルフィックハードウェアを用いた予測学習モデルを開発した。 我々のモデルは,Loihiチップのチップ上の可塑性特性を用いて観測された事象のシーケンスを記憶し,このメモリを用いて将来の事象をリアルタイムで予測する。 オンチップの可塑性規則の局所性制約を考えると、進行中の学習プロセスに干渉することなく予測を生成することは非自明である。 この課題に対して,海馬のリプレイにインスパイアされた記憶統合アプローチで対処する。 シーケンスメモリはスパイクタイピング依存塑性を用いて初期記憶モジュールに格納される。 その後、オフライン期間中に記憶は別個の予測モジュールに統合される。 この第2のモジュールは、第1のモジュールのアクティビティや塑性に干渉することなく、予測される将来の事象を表現でき、予測と地平線観測のオンライン比較を可能にする。 私たちのモデルは、オンライン予測学習モデルがオンチッププラスティックなニューロモルフィックハードウェアにデプロイできるという概念実証に役立ちます。

In this work we develop a model of predictive learning on neuromorphic hardware. Our model uses the on-chip plasticity capabilities of the Loihi chip to remember observed sequences of events and use this memory to generate predictions of future events in real time. Given the locality constraints of on-chip plasticity rules, generating predictions without interfering with the ongoing learning process is nontrivial. We address this challenge with a memory consolidation approach inspired by hippocampal replay. Sequence memory is stored in an initial memory module using spike-timing dependent plasticity. Later, during an offline period, memories are consolidated into a distinct prediction module. This second module is then able to represent predicted future events without interfering with the activity, and plasticity, in the first module, enabling online comparison between predictions and ground-truth observations. Our model serves as a proof-of-concept that online predictive learning models can be deployed on neuromorphic hardware with on-chip plasticity.
翻訳日:2023-02-14 20:50:13 公開日:2022-05-02
# 重力の絡み合いは時空の量子化の証拠か?

Is gravitational entanglement evidence for the quantization of spacetime? ( http://arxiv.org/abs/2205.00939v1 )

ライセンス: Link先を確認
M. Kemal D\"oner, Andr\'e Gro{\ss}ardt(参考訳) 重力場を通してのみ相互作用する2つの粒子間の絡み合いを目撃する実験は、重力が量子化されるべきかどうかの試験として提案されている。 量子情報の言語では、非量子重力は古典的通信(locc)を持つ局所的な操作によってモデル化され、当初は絡み合っていない状態での絡み合いを発生できない。 この考え方は、量子重力の代替となる可能性への制約が多すぎると批判されている。 古典時空における量子物質の重力相互作用のパラメトリケートモデルを提案し、量子力学のデ・ブロイ=ボームの定式化にインスパイアされ、量子化された重力場だけがこの能力を持つという主張に対して明確な反例を与える。

Experiments witnessing the entanglement between two particles interacting only via the gravitational field have been proposed as a test whether gravity must be quantized. In the language of quantum information, a non-quantum gravitational force would be modeled by local operations with classical communication (LOCC), which cannot generate entanglement in an initially unentangled state. This idea is criticized as too constraining on possible alternatives to quantum gravity. We present a parametrized model for the gravitational interaction of quantum matter on a classical spacetime, inspired by the de Broglie-Bohm formulation of quantum mechanics, which results in entanglement and thereby provides an explicit counterexample to the claim that only a quantized gravitational field possesses this capability.
翻訳日:2023-02-14 20:43:01 公開日:2022-05-02
# 生成ニューラルネットワークモデルを用いた絡み合わせ鍛造

Entanglement Forging with generative neural network models ( http://arxiv.org/abs/2205.00933v1 )

ライセンス: Link先を確認
Patrick Huembeli, Giuseppe Carleo, Antonio Mezzacapo(参考訳) 量子計算と古典計算の最適利用は、量子計算だけでは簡単には解けない問題に対処するために重要である。 これは、量子多体系の基底状態問題の場合である。 ここでは、確率的生成モデルが量子アルゴリズムと連携して、量子資源オーバーヘッドを下げるために絡み合いを鍛えるハイブリッド量子古典的変分 ans\atze を設計できることを示す。 変分 ans\atze は、2つの異なる量子レジスタ上のパラメタライズド量子回路と、システム全体のシュミット分解を学習することでそれらを絡み合わせることができる古典的生成ニューラルネットワークから構成される。 提案手法は観測可能な期待値の一定精度を達成するのに必要な測定回数の点で効率的である。 その効果を示すために, 1次元および2次元の横磁場イジングモデルと, 格子上のスピンレスフェルミオンのt-vハミルトニアンなどのフェルミオン系について数値実験を行った。

The optimal use of quantum and classical computational techniques together is important to address problems that cannot be easily solved by quantum computations alone. This is the case of the ground state problem for quantum many-body systems. We show here that probabilistic generative models can work in conjunction with quantum algorithms to design hybrid quantum-classical variational ans\"atze that forge entanglement to lower quantum resource overhead. The variational ans\"atze comprise parametrized quantum circuits on two separate quantum registers, and a classical generative neural network that can entangle them by learning a Schmidt decomposition of the whole system. The method presented is efficient in terms of the number of measurements required to achieve fixed precision on expected values of observables. To demonstrate its effectiveness, we perform numerical experiments on the transverse field Ising model in one and two dimensions, and fermionic systems such as the t-V Hamiltonian of spinless fermions on a lattice.
翻訳日:2023-02-14 20:42:42 公開日:2022-05-02
# 動的フレームとしてのエッジモード:一般共変理論におけるポストセレクションからの電荷

Edge modes as dynamical frames: charges from post-selection in generally covariant theories ( http://arxiv.org/abs/2205.00913v1 )

ライセンス: Link先を確認
Sylvain Carrozza, Stefan Eccles, Philipp A. Hoehn(参考訳) 重力エッジモードを動的参照フレームとして識別する共変位相空間形式に基づく枠組みを開発した。 以前はゲージ理論 [arXiv:2109.06184] において、この構成は体系的なポストセレクション手順に依存していた。 大域的な変分原理が与えられたとき、コディメンション 1 の時間的部分多様体によって有界な時空部分領域に対する一貫したダイナミクスを生み出す。 ゲージ群に対する動的参照フレームとして機能することにより、エッジモードはゲージ不変境界条件の付与を可能にする。 ゲージ群が微分同相群の群である一般共変理論において、そのような参照フレームはゲージ不変の方法で部分領域を特定できるため、さらに基本的な役割を果たす。 これは、関係時空(relational spacetime)と呼ばれるフレームド・時空(frame-dressed spacetime)の導入につながります。 ゲージ理論と同様に、準領域プレシンプレクティック構造を力学で保存することを要求すると、本質的に一意な処方と曖昧なハミルトン電荷が生じる。 ゲージ微分同相は時間的境界の近傍でどのように振る舞うかに関係なく可積分であり、第一級制約代数を生成する。 対照的に、リレーショナル時空に作用する微分同相は一般に物理的であり、時間的境界に平行なものは可積分である。 境界条件を保存する関係微分同相写像にさらに制限を加えると、保存電荷の部分代数が得られる。 最後に, 境界条件と保存プレシンプレクティック構造をどのように適切な境界動作に符号化するかを説明する。 我々の形式論は一般に共変理論に当てはまるが、真空一般相対性理論でそれを説明し、我々の発見と初期の業績を詳細に比較して結論付ける。

We develop a framework based on the covariant phase space formalism that identifies gravitational edge modes as dynamical reference frames. Previously considered in gauge theory [arXiv:2109.06184], this construction relies on a systematic post-selection procedure. Given a global variational principle, it produces consistent dynamics for a spacetime subregion bounded by a codimension-one timelike submanifold. By serving as dynamical reference frames for the gauge group, edge modes enable the imposition of gauge-invariant boundary conditions. In generally covariant theories, where the gauge group is a group of diffeomorphisms, such reference frames play an even more fundamental role, as they allow one to identify the subregion in a gauge-invariant manner. This leads to the introduction of a frame-dressed spacetime, that we call relational spacetime, and which serves as the primary arena in which to perform post-selection. Just like in gauge theory, requiring the subregion presymplectic structure to be conserved by the dynamics leads to an essentially unique prescription and unambiguous Hamiltonian charges. Gauge diffeomorphisms are integrable, irrespective of how they behave in the vicinity of the time-like boundary, and generate a first-class constraint algebra. By contrast, diffeomorphisms acting on relational spacetime are in general physical, and those that are parallel to the timelike boundary are integrable. Upon further restriction to relational diffeomorphisms that preserve the boundary conditions, we obtain a subalgebra of conserved charges. Finally, we explain how the boundary conditions and the conserved presymplectic structure can both be encoded into suitable boundary actions. While our formalism applies to any generally covariant theory, we illustrate it on vacuum general relativity, and conclude with a detailed comparison of our findings to earlier works.
翻訳日:2023-02-14 20:42:25 公開日:2022-05-02
# 非線形反応拡散方程式の効率的な量子アルゴリズムとエネルギー推定

Efficient quantum algorithm for nonlinear reaction-diffusion equations and energy estimation ( http://arxiv.org/abs/2205.01141v1 )

ライセンス: Link先を確認
Dong An, Di Fang, Stephen Jordan, Jin-Peng Liu, Guang Hao Low, Jiasu Wang(参考訳) 非線形微分方程式は多くの分野において豊富な現象を示すが、解くのは非常に難しい。 最近、liuら。 [1] は、$R < 1$ という条件の下で、散逸2次微分方程式に対する最初の効率的な量子アルゴリズムを示し、$R$ は$\ell_2$ノルムを用いて、散逸の非線形性の比を測った。 ここでは、非線形偏微分方程式(PDE)のクラスである反応拡散方程式の[1]に基づく効率的な量子アルゴリズムを開発する。 これを達成するために、[1] で導入されたカールマン線型化アプローチを改善して、$R_D < 1$ という条件の下でより高速な収束率を得る。 $R_D$は空間格子点数$n$とは独立であり、$R$は$n$で増加するので、高次元系では$R_D<1$は$R<1$よりもかなり軽く、PDEを近似するためのグリッド精製の下で収束することができる。 量子アルゴリズムの応用として、古典物理学における解釈を持つフィッシャー・kppおよびアレン・カーン方程式を考える。 特に、導関数情報を抽出するために量子状態を後処理することで、溶液中の平均2乗運動エネルギーを推定する方法を示す。

Nonlinear differential equations exhibit rich phenomena in many fields but are notoriously challenging to solve. Recently, Liu et al. [1] demonstrated the first efficient quantum algorithm for dissipative quadratic differential equations under the condition $R < 1$, where $R$ measures the ratio of nonlinearity to dissipation using the $\ell_2$ norm. Here we develop an efficient quantum algorithm based on [1] for reaction-diffusion equations, a class of nonlinear partial differential equations (PDEs). To achieve this, we improve upon the Carleman linearization approach introduced in [1] to obtain a faster convergence rate under the condition $R_D < 1$, where $R_D$ measures the ratio of nonlinearity to dissipation using the $\ell_{\infty}$ norm. Since $R_D$ is independent of the number of spatial grid points $n$ while $R$ increases with $n$, the criterion $R_D<1$ is significantly milder than $R<1$ for high-dimensional systems and can stay convergent under grid refinement for approximating PDEs. As applications of our quantum algorithm we consider the Fisher-KPP and Allen-Cahn equations, which have interpretations in classical physics. In particular, we show how to estimate the mean square kinetic energy in the solution by postprocessing the quantum state that encodes it to extract derivative information.
翻訳日:2023-02-14 20:33:31 公開日:2022-05-02
# 任意に高い成功確率を持つ普遍量子巻き戻しプロトコル

A universal quantum rewinding protocol with an arbitrarily high probability of success ( http://arxiv.org/abs/2205.01131v1 )

ライセンス: Link先を確認
David Trillo, Benjamin Dive, Miguel Navascu\'es(参考訳) 我々は,任意の対象の量子ビット上で動作し,実験開始前にt時間単位を持つ状態に伝播する普遍的なメカニズムを提案する。 このプロトコルは、ターゲットを飛行経路の重ね合わせに設定することで動作し、キャラクタライズされていないが反復可能な量子演算によって実行される。 これらの個々の操作がターゲットに与える影響から独立して、パスの干渉が成功すると、パスは過去の状態に跳躍する。 一般的な相互作用効果に対して、系は有限ステップの後に確率 1 で所望の状態に達することを証明している。

We present a universal mechanism that, acting on any target qubit, propagates it to the state it had T time units before the experiment started. This protocol works by setting the target on a superposition of flight paths, where it is acted on by uncharacterized, but repeatable, quantum operations. Independently of the effect of each of these individual operations on the target, the successful interference of the paths causes it to leap to its past state. We prove that, for generic interaction effects, the system will reach the desired state with probability 1 after some finite number of steps.
翻訳日:2023-02-14 20:33:04 公開日:2022-05-02
# 拡張系におけるカオスへの遷移とその量子不純物モデル

Transition to chaos in extended systems and their quantum impurity models ( http://arxiv.org/abs/2205.01130v1 )

ライセンス: Link先を確認
Mahaveer Prasad, Hari Kumar Yadalam, Manas Kulkarni, Camille Aron(参考訳) chaosは量子情報処理の基本的な限界を設定する。 量子光学デバイスに関連する空間拡張量子多体系におけるカオスの発生について検討する。 有限鎖上のTavis-Cummingsモデルの拡張版を考える。 レベルスペーシング統計,隣接ギャップ比,スペクトル形状因子を調べた結果,tavis-cummingsサイト間のホッピングが有限値を超えるにつれて,積分可能性からカオスへの移行が観察される。 この結果は,拡張格子測地では明らかに難しい数値対角化によって得られる。 これらの困難を回避しようとする試みとして、格子モデルのスペクトル特性をうまく捉えることができる最小の単一サイト量子不純物モデルを特定する。 このアプローチは、大きな局所ヒルベルト空間を持つ他の格子モデルに適応することを意図している。

Chaos sets a fundamental limit to quantum-information processing schemes. We study the onset of chaos in spatially extended quantum many-body systems that are relevant to quantum optical devices. We consider an extended version of the Tavis-Cummings model on a finite chain. By studying level-spacing statistics, adjacent gap ratios, and spectral form factors, we observe the transition from integrability to chaos as the hopping between the Tavis-Cummings sites is increased above a finite value. The results are obtained by means of exact numerical diagonalization which becomes notoriously hard for extended lattice geometries. In an attempt to circumvent these difficulties, we identify a minimal single-site quantum impurity model which successfully captures the spectral properties of the lattice model. This approach is intended to be adaptable to other lattice models with large local Hilbert spaces.
翻訳日:2023-02-14 20:32:55 公開日:2022-05-02
# 量子プロセスのための普遍的時間反転の実証

Demonstration of universal time-reversal for quantum processes ( http://arxiv.org/abs/2205.01122v1 )

ライセンス: Link先を確認
Peter Schiansky, Teodor Str\"omberg, David Trillo, Valeria Saggio, Ben Dive, Miguel Navascu\'es, Philip Walther(参考訳) 古典物理学の法則は決定論的であるが、熱力学は不可逆過程を通じて時間の矢印を生み出す。 量子力学において、時間進化のユニタリな性質は本質的には可逆的であるが、未知の時間進化を戻す方法に関する問題はまだ残っている。 驚くべきことに、ターゲットシステムとのインタラクションが不明なシナリオにおいて、未知のユニタリを復元するためのプロトコルの最近のいくつかの実証がある。 これらの普遍的な巻き戻しプロトコルの実用化は、その確率論的性質によって制限され、時間反転が決定論的に実行可能であるかどうかという根本的な問題を引き起こす。 ここで量子物理学は、量子作用素の非可換な性質を利用して決定論的普遍的時間反転を可能にし、任意に高い成功確率を持つ2レベル量子システムに対する再帰的プロトコルを示す。 フォトニックプラットフォームを用いて、偏光状態の離散時間進化を95%以上の平均状態忠実度で再現し、我々のプロトコルを実証する。 我々のプロトコルは、量子プロセスに関する知識を必要とせず、その実行時間に最適であり、量子再巻き戻しを実用的な妥当性の仕組みにもたらします。

Although the laws of classical physics are deterministic, thermodynamics gives rise to an arrow of time through irreversible processes. In quantum mechanics the unitary nature of the time evolution makes it intrinsically reversible, however the question of how to revert an unknown time evolution nevertheless remains. Remarkably, there have been several recent demonstrations of protocols for reverting unknown unitaries in scenarios where even the interactions with the target system are unknown. The practical use of these universal rewinding protocols is limited by their probabilistic nature, raising the fundamental question of whether time-reversal could be performed deterministically. Here we show that quantum physics indeed allows for deterministic universal time-reversal by exploiting the non-commuting nature of quantum operators, and demonstrate a recursive protocol for two-level quantum systems with an arbitrarily high probability of success. Using a photonic platform we demonstrate our protocol, reverting the discrete time evolution of a polarization state with an average state fidelity of over 95%. Our protocol, requiring no knowledge of the quantum process to be rewound, is optimal in its running time, and brings quantum rewinding into a regime of practical relevance.
翻訳日:2023-02-14 20:32:43 公開日:2022-05-02
# コヒーレントマルチスタート最適化による量子回路の効率的な変分合成

Efficient variational synthesis of quantum circuits with coherent multi-start optimization ( http://arxiv.org/abs/2205.01121v1 )

ライセンス: Link先を確認
Nikita A. Nemkov, Evgeniy O. Kiktenko, Ilia A. Luchnikov, Aleksey K. Fedorov(参考訳) 我々は、cnotゲートと任意の単一量子ビット (1q) ゲートからなるゲート集合への変分量子回路合成の問題を考える。 まず、複雑性の組合せ爆発に苦しむ離散的なアーキテクチャ探索とともに、1qゲートの最適化は局所的最小値の不完全性(変分量子アルゴリズムの文脈ではよく知られているが、変分コンパイルの文脈では過小評価されている)のために重要な障害となる。 この問題を真剣に受け止めるため、初期条件に関する広範囲な調査を私たちのアプローチの重要な部分としています。 もう一つの重要なアイデアは、パラメータ化された2量子ビット(2q)制御相ゲートを使用することで、IDゲートとCNOTゲートの間を補間し、1qゲートの最適化と共同で実行できる離散アーキテクチャ探索を連続的に緩和することである。 このアーキテクチャの一貫性のある最適化と1qゲートは、実際は驚くほどうまく機能し、時には1qゲート単独での最適化(固定された最適アーキテクチャの場合)よりも優れています。 8 cnot と t depth 3 を最近傍トポロジー上の 3q toffoli ゲートの分解、星型トポロジー上の 1 cnot ゲート改良を含む全 4q トポロジー上の 4q toffoli ゲートの既知の最良の分解を再発見し、48 cnot ゲートを持つ最近傍トポロジー上の 5q toffoli ゲートの分解を提案する。 また、ibm_qx_mappingデータベースから得られた5q量子回路の性能をベンチマークし、既存のソフトウェアと高い競合性を示している。 この研究で開発されたアルゴリズムはPythonパッケージCPFlowとして利用可能である。

We consider the problem of the variational quantum circuit synthesis into a gate set consisting of the CNOT gate and arbitrary single-qubit (1q) gates with the primary target being the minimization of the CNOT count. First we note that along with the discrete architecture search suffering from the combinatorial explosion of complexity, optimization over 1q gates can also be a crucial roadblock due to the omnipresence of local minimums (well known in the context of variational quantum algorithms but apparently underappreciated in the context of the variational compiling). Taking the issue seriously, we make an extensive search over the initial conditions an essential part of our approach. Another key idea we propose is to use parametrized two-qubit (2q) controlled phase gates, which can interpolate between the identity gate and the CNOT gate, and allow a continuous relaxation of the discrete architecture search, which can be executed jointly with the optimization over 1q gates. This coherent optimization of the architecture together with 1q gates appears to work surprisingly well in practice, sometimes even outperforming optimization over 1q gates alone (for fixed optimal architectures). As illustrative examples and applications we derive 8 CNOT and T depth 3 decomposition of the 3q Toffoli gate on the nearest-neighbor topology, rediscover known best decompositions of the 4q Toffoli gate on all 4q topologies including a 1 CNOT gate improvement on the star-shaped topology, and propose decomposition of the 5q Toffoli gate on the nearest-neighbor topology with 48 CNOT gates. We also benchmark the performance of our approach on a number of 5q quantum circuits from the ibm_qx_mapping database showing that it is highly competitive with the existing software. The algorithm developed in this work is available as a Python package CPFlow.
翻訳日:2023-02-14 20:32:23 公開日:2022-05-02
# arXiv:2203.14555への返信

Reply to arXiv:2203.14555 ( http://arxiv.org/abs/2205.01020v1 )

ライセンス: Link先を確認
Margaret Hawton(参考訳) このコメントは、A. JadczykとA.M.の主張を否定している。 arXiv:2203.14555 において、1999年に提案された交換成分を持つ光子位置演算子は光子位置演算子に必要な性質を持っていない。

This comment refutes the claim made by A. Jadczyk and A.M. Schlichtinger in arXiv:2203.14555 that the photon position operator with commuting components proposed in 1999 does not have the properties required for a photon position operator.
翻訳日:2023-02-14 20:31:41 公開日:2022-05-02
# ヘリカルスピン系と非マルコフ浴における情報バックフローの切り替え

Switching of the information backflow between a helical spin system and non-Markovian bath ( http://arxiv.org/abs/2205.00985v1 )

ライセンス: Link先を確認
Micha{\l} Kaczor, Igor Tralle, Pawe{\l} Jakubczyk, Stefan Stagraczy\'nski, Levan Chotorlishvili(参考訳) 非マルコフマグノン貯留層に結合したスピン鎖の散逸ダイナミクスについて検討した。 鎖のキラリティは磁力結合によって形成される。 トレース距離微分の徴候を調べ,系の時間発展における正負の周期を交互に観測した。 負の符号はシステムから浴槽への情報の流れと関連し、状態の識別性が低下する一方、正の符号は反対方向の情報の流れと関連し、識別性が増加する。 印加された電場と磁場の影響は明らかであった。 dzyaloshinskii-moriya相互作用と外部の電場は周期をリシャッフルさせるが、印加された磁場は急速に正負の遷移をもたらす。 したがって、ヘリカル量子環が非マルコフのマグノニクス浴に結合すると、外部の場を流れる情報の流れの方向を制御することができる。

The dissipative dynamics of the spin chain coupled to the non-Markovian magnonic reservoir was studied. The chirality of the chain is formed due to the magnetoelectric coupling. We explored the sign of the trace distance derivative and found the alternating positive/negative periods in system's time evolution. The negative sign is associated with the flow of information from the system to the bath and decrease in states distinguishability, while the positive sign is related to the flow of the information in the opposite direction and increase in distinguishability. We found the distinct effect of the applied electric and magnetic fields. While the Dzyaloshinskii-Moriya interaction and external electric field lead to reshuffling of the periods, the applied magnetic field leads to the swift positive-negative transitions. Thus, in the helical quantum rings coupled to the non-Markovian magnonic baths, it is possible to control the directions of information flow through the external fields.
翻訳日:2023-02-14 20:31:26 公開日:2022-05-02
# プログラム可能な原子量子デバイスにおけるランダム化測定からのフェルミオン相関関数

Fermionic correlation functions from randomized measurements in programmable atomic quantum devices ( http://arxiv.org/abs/2205.00981v1 )

ライセンス: Link先を確認
Piero Naldesi, Andreas Elben, Anna Minguzzi, David Cl\'ement, Peter Zoller, Beno\^it Vermersch(参考訳) 超低温原子実験における2点と4点のフェルミオン相関を推定するための測定プロトコルを提供する。 本手法は,プログラム可能な光学ランドスケープで実現可能なランダム原子ビームスプリッタ演算と,量子ガス顕微鏡などの高分解能イメージングシステムを組み合わせたものである。 本稿では,量子化学問題を解くための変分量子固有ソルバアルゴリズムの文脈での結果を説明する。

We provide a measurement protocol to estimate 2- and 4-point fermionic correlations in ultra-cold atom experiments. Our approach is based on combining random atomic beam splitter operations, which can be realized with programmable optical landscapes, with high-resolution imaging systems such as quantum gas microscopes. We illustrate our results in the context of the variational quantum eigensolver algorithm for solving quantum chemistry problems.
翻訳日:2023-02-14 20:31:11 公開日:2022-05-02
# 多目的ベイズ最適化におけるモノサロゲート対マルチサロゲート

Mono-surrogate vs Multi-surrogate in Multi-objective Bayesian Optimisation ( http://arxiv.org/abs/2208.07240v1 )

ライセンス: Link先を確認
Tinkle Chugh(参考訳) ベイズ最適化(BO)は高価な関数評価の問題を解くために広く用いられている。 多目的最適化問題では、BOは近似されたパレート最適解の集合を求める。 目的関数(モノサーロゲートアプローチとも呼ばれるスカラー関数を用いて)と複数のサーロゲート(それぞれの目的関数に対してマルチサーロゲートアプローチとも呼ばれる)を集約するサーロゲートである。 どちらの手法においても、探索プロセスのガイドには取得関数(AF)が使用される。 モノサロゲートは1つのモデルのみを使用するという利点があるが、アプローチには2つの大きな制限がある。 第一に、スキャラライジング関数と目的関数のフィットネスランドスケープは似ていないかもしれない。 第二に、この手法はスキャラライジング関数の分布がガウスであり、したがって AF の閉形式表現を使うことができると仮定する。 本研究では,各対象関数に対する代理モデルを構築することにより,これらの制限を克服し,スカラー化関数分布がガウス的でないことを示す。 一般化極値分布を用いて分布を近似する。 標準ベンチマークと実世界の最適化問題に対する既存手法との比較の結果は,マルチサロゲート方式の可能性を示している。

Bayesian optimisation (BO) has been widely used to solve problems with expensive function evaluations. In multi-objective optimisation problems, BO aims to find a set of approximated Pareto optimal solutions. There are typically two ways to build surrogates in multi-objective BO: One surrogate by aggregating objective functions (by using a scalarising function, also called mono-surrogate approach) and multiple surrogates (for each objective function, also called multi-surrogate approach). In both approaches, an acquisition function (AF) is used to guide the search process. Mono-surrogate has the advantage that only one model is used, however, the approach has two major limitations. Firstly, the fitness landscape of the scalarising function and the objective functions may not be similar. Secondly, the approach assumes that the scalarising function distribution is Gaussian, and thus a closed-form expression of the AF can be used. In this work, we overcome these limitations by building a surrogate model for each objective function and show that the scalarising function distribution is not Gaussian. We approximate the distribution using Generalised extreme value distribution. The results and comparison with existing approaches on standard benchmark and real-world optimisation problems show the potential of the multi-surrogate approach.
翻訳日:2023-02-14 20:25:07 公開日:2022-05-02
# 分子特性予測のための注意面グラフコントラスト学習

Attention-wise masked graph contrastive learning for predicting molecular property ( http://arxiv.org/abs/2206.08262v1 )

ライセンス: Link先を確認
Hui Liu, Yibiao Huang, Xuejun Liu and Lei Deng(参考訳) 薬物の分子特性の正確かつ効率的な予測は、薬物研究と開発における根本的な問題の一つである。 近年の表現学習の進歩は分子特性予測の性能を大幅に向上させることが示されている。 しかし、ラベル付きデータに制限があるため、教師付き学習に基づく分子表現アルゴリズムは限られた化学空間しか探索できないため、一般化性は低い。 本研究では,大規模無ラベル分子に対する自己教師付き表現学習フレームワークを提案する。 本研究では,注意方向グラフマスクと呼ばれる新しい分子グラフ拡張戦略を開発し,コントラスト学習のための難解な正のサンプルを生成する。 分子グラフエンコーダとしてグラフアテンションネットワーク(gat)を採用し,学習アテンションスコアをマスキングガイダンスとして活用し,分子アテンショングラフを生成する。 オリジナルグラフとマスクグラフの対比損失を最小化することで, 重要な分子構造と高次意味情報を得ることができる。 広範な実験により,注意を向けたグラフマスクのコントラスト学習は,下流の分子特性予測タスクにおいて最先端のパフォーマンスを示すことが示された。

Accurate and efficient prediction of the molecular properties of drugs is one of the fundamental problems in drug research and development. Recent advancements in representation learning have been shown to greatly improve the performance of molecular property prediction. However, due to limited labeled data, supervised learning-based molecular representation algorithms can only search limited chemical space, which results in poor generalizability. In this work, we proposed a self-supervised representation learning framework for large-scale unlabeled molecules. We developed a novel molecular graph augmentation strategy, referred to as attention-wise graph mask, to generate challenging positive sample for contrastive learning. We adopted the graph attention network (GAT) as the molecular graph encoder, and leveraged the learned attention scores as masking guidance to generate molecular augmentation graphs. By minimization of the contrastive loss between original graph and masked graph, our model can capture important molecular structure and higher-order semantic information. Extensive experiments showed that our attention-wise graph mask contrastive learning exhibit state-of-the-art performance in a couple of downstream molecular property prediction tasks.
翻訳日:2023-02-14 20:24:47 公開日:2022-05-02
# 太陽バースト量子イジングモデルにおけるデコヒーレンスとエネルギーフロー

Decoherence and energy flow in the sunburst quantum Ising model ( http://arxiv.org/abs/2205.01208v1 )

ライセンス: Link先を確認
Alessio Franchi, Davide Rossini, Ettore Vicari(参考訳) 量子サンバーストスピンモデルのポストクエンチユニタリダイナミクス(英語版)について検討し、残差変換不変性とイジング $\mathbb{z}_2$ 対称性を尊重するために、縦方向に沿った独立した外部量子ビットの集合に突然結合する横場量子イジング環からなる。 系の異なる平衡量子相から始めて、外部量子ビットにおけるデコヒーレンスとエネルギー貯蔵を特徴付け、これは内部イジング環の探査装置として解釈できる。 以上の結果から,Ising環の量子遷移に近く,一階あるいは連続のいずれにおいても,探索量子ビット数$n$の固定や,その空間距離$b$の固定など,大きな制限が取られる方法によって,特異なスケーリング機構を示す動的FSSフレームワークを前進させることが可能であることが示唆された。 いずれにせよ、$n$に対する様々な観測変数の依存は、$\sqrt{n}$ prefactor によってquenchパラメータの再定義に再吸収される。 また、外部キュービット間の最寄り-neighbor結合の役割についても論じる。

We study the post-quench unitary dynamics of a quantum sunburst spin model, composed of a transverse-field quantum Ising ring which is suddenly coupled to a set of independent external qubits along the longitudinal direction, in a way to respect a residual translation invariance and the Ising $\mathbb{Z}_2$ symmetry. Starting from the different equilibrium quantum phases of the system, we characterize the decoherence and the energy storage in the external qubits, which may be interpreted as a probing apparatus for the inner Ising ring. Our results show that, in proximity of the quantum transitions of the Ising ring, either first-order or continuous, it is possible to put forward dynamic FSS frameworks which unveil peculiar scaling regimes, depending on the way in which the large-size limit is taken: either by fixing the number $n$ of probing qubits, or their interspace distance $b$. In any case, the dependence of the various observables on $n$ can be reabsorbed into a redefinition of the quench parameter by a $\sqrt{n}$ prefactor. We also address the role of a nearest-neighbor coupling between the external qubits.
翻訳日:2023-02-14 20:23:11 公開日:2022-05-02
# マルチパラメータ問題非依存層によるQAOAアンサッツの増大

Augmenting QAOA Ansatz with Multiparameter Problem-Independent Layer ( http://arxiv.org/abs/2205.01192v1 )

ライセンス: Link先を確認
Michelle Chalupnik, Hans Melo, Yuri Alexeev, Alexey Galda(参考訳) 量子近似最適化アルゴリズム(QAOA)は、組合せ最適化の分野で古典的に難解な計算問題を解くことを約束する。 しかし、多くの証拠が、当初提案されたカオア・アンサッツの形式が最適ではないことを示唆している。 この問題に対処するために、従来の$p = 1$ QAOA アンサッツを追加のマルチパラメータ問題非依存層で拡張する代替アンサッツ QAOA+ を提案する。 QAOA+アンサッツは、ランダム正規グラフのMaxCut問題でベンチマークされたように、回路深さを$p = 1$ QAOA以下に保ちながら、$p = 1$ QAOAよりも高い近似比を得ることができる。 さらに、提案したQAOA+アンサッツは、標準QAOAよりも多くのトレーニング可能な古典的パラメータを使用しながら、ほとんどの場合、代替マルチ角QAOAアンサッツよりも優れていることを示す。

The quantum approximate optimization algorithm (QAOA) promises to solve classically intractable computational problems in the area of combinatorial optimization. A growing amount of evidence suggests that the originally proposed form of the QAOA ansatz is not optimal, however. To address this problem, we propose an alternative ansatz, which we call QAOA+, that augments the traditional $p = 1$ QAOA ansatz with an additional multiparameter problem-independent layer. The QAOA+ ansatz allows obtaining higher approximation ratios than $p = 1$ QAOA while keeping the circuit depth below that of $p = 2$ QAOA, as benchmarked on the MaxCut problem for random regular graphs. We additionally show that the proposed QAOA+ ansatz, while using a larger number of trainable classical parameters than with the standard QAOA, in most cases outperforms alternative multiangle QAOA ans\"atze.
翻訳日:2023-02-14 20:22:50 公開日:2022-05-02
# ネットワーク/サーバの電力最適化のための古典解と量子解法

Classical and Quantum Solvers for Joint Network/Servers Power Optimization ( http://arxiv.org/abs/2205.01165v1 )

ライセンス: Link先を確認
Michele Amoretti, Davide Ferrari, Antonio Manzalini(参考訳) 今日、電気通信とictドメインが交差するデジタルトランスフォーメーションは、通信事業者にいくつかの新たな課題をもたらしている。 これらの課題には、データセンターにおける仮想リソースの次元化とスケジューリング、ネットワークプロセスのリアルタイム管理/制御とオーケストレーションの自動化、エネルギー消費の最適化、ネットワークとサービスの安定性の確保など、複雑な問題を解決する必要がある。 これらの問題は通常、計算効率の理由から最適化された解を見つける方法やアルゴリズムに対処される。 本研究では,ネットワーク/サーバの電力消費を最小化して仮想マシンの統合を行う仮想データセンターのシナリオを検討する。 このシナリオでは、量子最適化アルゴリズムを用いて解くのに適した、ILPモデル、等価バイナリモデルおよび等価な準非制約バイナリ最適化(QUBO)モデルへのステップを提供する。 最後に,古典解と量子解の計算複雑性を理論的観点から比較する。

The digital transformation that Telecommunications and ICT domains are crossing today, is posing several new challenges to Telecom Operators. These challenges require solving complex problems such as: dimensioning and scheduling of virtual/real resources in data centers; automating real-time management/control and orchestration of networks processes; optimizing energy consumption; and overall, ensuring networks and services stability. These problems are usually tackled with methods and algorithms that find suboptimal solutions, for computational efficiency reasons. In this work, we consider a Virtual Data Center scenario where virtual machine consolidation must be performed with joint minimization of network/servers power consumption. For this scenario, we provide an ILP model, the equivalent binary model and the steps towards the equivalent Quadratic Unconstrained Binary Optimization (QUBO) model that is suitable for being solved by means of quantum optimization algorithms. Finally, we compare the computational complexity of classical and quantum solvers from a theoretical perspective.
翻訳日:2023-02-14 20:22:29 公開日:2022-05-02
# 絡み合いのための高品位独占不平等

Tight Product Monogamy Inequality for Entanglement ( http://arxiv.org/abs/2205.01160v1 )

ライセンス: Link先を確認
Ida Mishra, Arun K Pati and Sohail(参考訳) マルチパーティシステムの量子絡み合いは、その性質を様々なサブシステム間で共有するという点でユニークな特徴を持っている。 これは絡み合いのモノガミーとして有名である。 トリパルタイト系における従来のコンカレンスのモノガミーは和形で証明された。 近年,コンカージェンスも製品形態における一夫一婦制を尊重していることが判明した。 ここでは,純三成分系の共起に対する積形式における密接な一夫一夫一婦関係を証明する。 このモノガミー関係が飽和している正準3量子状態を含むいくつかの例との関係を説明する。

Quantum entanglement for multiparty system has a unique feature when it comes to sharing its property among various subsystems. This is famously stated as the monogamy of entanglement. The traditional monogamy of concurrence for tripartite system was proved in a sum form. Recently, it was found that concurrence also respects a monogamy in the product form. Here, we prove a tight monogamy relation in the product form for the concurrence of pure tripartite systems. We illustrate our relation with several examples, including the canonical three qubit states, where this monogamy relation is saturated.
翻訳日:2023-02-14 20:22:00 公開日:2022-05-02
# ランクに基づくエンティティアライメントやリンク予測手法の評価の曖昧性について

On the Ambiguity of Rank-Based Evaluation of Entity Alignment or Link Prediction Methods ( http://arxiv.org/abs/2002.06914v4 )

ライセンス: Link先を確認
Max Berrendorf and Evgeniy Faerman and Laurent Vermue and Volker Tresp(参考訳) 本稿では,知識グラフから情報を得る方法として,リンク予測とエンティティアライメントの2つのファミリについて,より詳しく検討する。 現在の実験では、モデル性能の異なる側面を評価するために複数の異なるスコアが用いられる。 本研究は,これらの評価尺度の妥当性を分析し,いくつかの問題点を同定する。 特に、既存のスコアは、異なるデータセットで結果を比較するのにほとんど使えないことを実証する。 さらに、テストサイズが変化すると、エンティティアライメントタスクでよく使われるメトリクスに基づいて、同じモデルのパフォーマンスに自動的に影響を与えることを実証する。 結果の解釈には様々な問題があり,誤解を招く結論に支障をきたす可能性がある。 そこで本研究では,評価に対する調整を提案するとともに,モデル性能の公平で比較可能な評価法を実証的に示す。 私たちのコードはhttps://github.com/mberr/rank-based-evaluationで利用可能です。

In this work, we take a closer look at the evaluation of two families of methods for enriching information from knowledge graphs: Link Prediction and Entity Alignment. In the current experimental setting, multiple different scores are employed to assess different aspects of model performance. We analyze the informativeness of these evaluation measures and identify several shortcomings. In particular, we demonstrate that all existing scores can hardly be used to compare results across different datasets. Moreover, we demonstrate that varying size of the test size automatically has impact on the performance of the same model based on commonly used metrics for the Entity Alignment task. We show that this leads to various problems in the interpretation of results, which may support misleading conclusions. Therefore, we propose adjustments to the evaluation and demonstrate empirically how this supports a fair, comparable, and interpretable assessment of model performance. Our code is available at https://github.com/mberr/rank-based-evaluation.
翻訳日:2022-12-31 12:08:38 公開日:2022-05-02
# 効率的なメタ強化学習のためのコンテキスト認識タスク推論

Learning Context-aware Task Reasoning for Efficient Meta-reinforcement Learning ( http://arxiv.org/abs/2003.01373v2 )

ライセンス: Link先を確認
Haozhe Wang, Jiale Zhou, Xuming He(参考訳) 最近のディープネットワークベース強化学習(rl)の成功にもかかわらず、新しいタスクの学習において人間レベルの効率を達成することはいまだに不可能である。 これまでの試みでは、メタラーニング戦略を使ってこの問題に対処しようとしたが、通常は、オンポリシーrlアルゴリズムによる非効率サンプリングや、オフポリシー学習によるメタオーバーフィットに苦しむ。 本研究では,これらの制約に対処するメタRL戦略を提案する。 特に,メタRL問題をタスク探索,タスク推論,タスク充足という3つのサブタスクに分解し,2つのディープネットワークエージェントとタスクエンコーダでインスタンス化する。 メタトレーニング中,タスク充足のためのタスク条件付きアクターネットワーク,タスク探索におけるタスクインフォーマティブ体験を促進する自己教師付き報酬形成のためのエクスプローラーネットワーク,タスク推論のためのコンテキスト対応グラフベースタスクエンコーダを学習する。 その結果,提案手法はタスク推論の探索を効果的に行うことができ,トレーニングとテストの両方においてサンプル効率が向上し,メタオーバーフィッティング問題を軽減できることがわかった。

Despite recent success of deep network-based Reinforcement Learning (RL), it remains elusive to achieve human-level efficiency in learning novel tasks. While previous efforts attempt to address this challenge using meta-learning strategies, they typically suffer from sampling inefficiency with on-policy RL algorithms or meta-overfitting with off-policy learning. In this work, we propose a novel meta-RL strategy to address those limitations. In particular, we decompose the meta-RL problem into three sub-tasks, task-exploration, task-inference and task-fulfillment, instantiated with two deep network agents and a task encoder. During meta-training, our method learns a task-conditioned actor network for task-fulfillment, an explorer network with a self-supervised reward shaping that encourages task-informative experiences in task-exploration, and a context-aware graph-based task encoder for task inference. We validate our approach with extensive experiments on several public benchmarks and the results show that our algorithm effectively performs exploration for task inference, improves sample efficiency during both training and testing, and mitigates the meta-overfitting problem.
翻訳日:2022-12-26 21:40:52 公開日:2022-05-02
# 決定論的近似EMアルゴリズム : Riemann近似EMと温度EMへの応用

Deterministic Approximate EM Algorithm; Application to the Riemann Approximation EM and the Tempered EM ( http://arxiv.org/abs/2003.10126v3 )

ライセンス: Link先を確認
Thomas Lartigue (ARAMIS, CMAP), Stanley Durrleman (ARAMIS), St\'ephanie Allassonni\`ere (CRC)(参考訳) 予測最大化(EM)アルゴリズムは、非凸確率関数を潜在変数で最適化するために広く用いられている。 多くの著者は、より特定の状況に合うようにシンプルなデザインを変更した。 例えば、期待(E)ステップはモンテカルロ (MC)、マルコフ・チェイン・モンテカルロ (Markov Chain Monte Carlo)、または誘惑近似などに置き換えられている。 良く研究された近似の多くは確率類に属する。 比較すると、決定論的近似に関して文学は欠落している。 本稿では,Eステップの任意の決定論的近似に対して,最先端の収束を保証する理論的枠組みを導入する。 この枠組みに適合するいくつかの近似を理論的および経験的に解析する。 まず、難解なE-ステップに対して、リーマン和を用いたMC-EMの決定論的バージョンを導入する。 超パラメータ微調整を一切必要とせず、低次元がMC-EMを保証しない場合に有用である。 次に, シミュレーションアニーリングの文献を参考にして, 局所的極値から逃れるために用いた, テンパード近似を考える。 本研究では, 温度分布の収束保証を従来考えられていたよりも広い範囲で検証する。 新たな非自明なプロファイルが、逆初期化をうまく回避できることを実証的に示します。 最後に、リーマン近似と誘惑近似を、両方の目的を達成する方法に組み合わせる。

The Expectation Maximisation (EM) algorithm is widely used to optimise non-convex likelihood functions with latent variables. Many authors modified its simple design to fit more specific situations. For instance, the Expectation (E) step has been replaced by Monte Carlo (MC), Markov Chain Monte Carlo or tempered approximations, etc. Most of the well-studied approximations belong to the stochastic class. By comparison, the literature is lacking when it comes to deterministic approximations. In this paper, we introduce a theoretical framework, with state-of-the-art convergence guarantees, for any deterministic approximation of the E step. We analyse theoretically and empirically several approximations that fit into this framework. First, for intractable E-steps, we introduce a deterministic version of MC-EM using Riemann sums. A straightforward method, not requiring any hyper-parameter fine-tuning, useful when the low dimensionality does not warrant a MC-EM. Then, we consider the tempered approximation, borrowed from the Simulated Annealing literature and used to escape local extrema. We prove that the tempered EM verifies the convergence guarantees for a wider range of temperature profiles than previously considered. We showcase empirically how new non-trivial profiles can more successfully escape adversarial initialisations. Finally, we combine the Riemann and tempered approximations into a method that accomplishes both their purposes.
翻訳日:2022-12-21 00:50:41 公開日:2022-05-02
# 不完全選好から特徴を持つランダム効用モデルの混合学習

Learning Mixtures of Random Utility Models with Features from Incomplete Preferences ( http://arxiv.org/abs/2006.03869v3 )

ライセンス: Link先を確認
Zhibing Zhao, Ao Liu, Lirong Xia(参考訳) 特別な場合としてplacett-luce model(pl)を代用するランダムユーティリティモデル(rums)は、選好学習において最も人気のあるモデルである。 本稿では,それぞれの選択肢が特徴量ベクトルを持ち,おそらくエージェント間で異なる特徴量を持つ,特徴量とそれらの混合量を持つラムについて考察する。 このようなモデルは標準PLとRUMを著しく一般化するが、文献ではあまり研究されていない。 我々はRUMと特徴の混合を不完全な嗜好を生成し、その識別性を特徴づけるモデルに拡張する。 PL の場合、特徴を持つ PL が識別可能である場合、その MLE はルート平均二乗誤差 (RMSE) 上の境界を特徴付けることによって、厳密な対物関数と一致することが証明される。 また、より一般的なRUMの特徴を特徴付け、それらを学ぶための汎用RBCMLを提案する。 本実験は,PL上でのMLEの有効性を示すものであり,統計効率と計算効率のトレードオフがある。 実世界データを用いた実験では,plの予測能力と特徴量および混合特性を示す。

Random Utility Models (RUMs), which subsume Plackett-Luce model (PL) as a special case, are among the most popular models for preference learning. In this paper, we consider RUMs with features and their mixtures, where each alternative has a vector of features, possibly different across agents. Such models significantly generalize the standard PL and RUMs, but are not as well investigated in the literature. We extend mixtures of RUMs with features to models that generate incomplete preferences and characterize their identifiability. For PL, we prove that when PL with features is identifiable, its MLE is consistent with a strictly concave objective function under mild assumptions, by characterizing a bound on root-mean-square-error (RMSE), which naturally leads to a sample complexity bound. We also characterize identifiability of more general RUMs with features and propose a generalized RBCML to learn them. Our experiments on synthetic data demonstrate the effectiveness of MLE on PL with features with tradeoffs between statistical efficiency and computational efficiency. Our experiments on real-world data show the prediction power of PL with features and its mixtures.
翻訳日:2022-11-24 21:06:38 公開日:2022-05-02
# 非同期マルチカメラ監視のためのシングルフレームベースのディープビュー同期

Single-Frame based Deep View Synchronization for Unsynchronized Multi-Camera Surveillance ( http://arxiv.org/abs/2007.03891v3 )

ライセンス: Link先を確認
Qi Zhang and Antoni B. Chan(参考訳) マルチカメラ監視はシーンの理解とモデリングにおいて活発な研究課題となっている。 単一のカメラと比較して、マルチカメラは視野の広いオブジェクトキューを提供し、関連するアプリケーションはマルチビューカウント、マルチビュートラッキング、3Dポーズ推定、あるいは3D再構成などである。 通常、これらのマルチカメラベースのタスクのモデルを設計する際、カメラは全て時間的同期であると仮定される。 しかし、この仮定は必ずしも有効ではなく、特にネットワーク伝送遅延とネットワーク帯域幅の制限によるフレームレートの低いマルチカメラシステムでは、キャプチャされたフレームをカメラ間で非同期化する。 本稿では,非同期マルチカメラの問題に対処するため,既存のDNNベースのマルチビューモデルと協調して動作する同期モデルを提案する。 低fps環境下では、各ビューから1つの関連するフレームのみが利用可能であると仮定し、エピポーラ幾何によって導かれた画像コンテンツのマッチングによって同期を実現する。 本稿では,パイプライン内で同期が発生する場所,シーンレベルの同期,カメラレベルの同期の2つのモデルについて考察する。 ビュー同期ステップとタスク固有のビュー融合と予測ステップは同じフレームワークで統一され、エンドツーエンドでトレーニングされます。 我々のビュー同期モデルは、マルチビューカウントや3Dポーズ推定を含む非同期環境下での異なるDNNベースのマルチカメラビジョンタスクに適用し、ベースラインと比較して優れた性能を実現する。

Multi-camera surveillance has been an active research topic for understanding and modeling scenes. Compared to a single camera, multi-cameras provide larger field-of-view and more object cues, and the related applications are multi-view counting, multi-view tracking, 3D pose estimation or 3D reconstruction, etc. It is usually assumed that the cameras are all temporally synchronized when designing models for these multi-camera based tasks. However, this assumption is not always valid,especially for multi-camera systems with network transmission delay and low frame-rates due to limited network bandwidth, resulting in desynchronization of the captured frames across cameras. To handle the issue of unsynchronized multi-cameras, in this paper, we propose a synchronization model that works in conjunction with existing DNN-based multi-view models, thus avoiding the redesign of the whole model. Under the low-fps regime, we assume that only a single relevant frame is available from each view, and synchronization is achieved by matching together image contents guided by epipolar geometry. We consider two variants of the model, based on where in the pipeline the synchronization occurs, scene-level synchronization and camera-level synchronization. The view synchronization step and the task-specific view fusion and prediction step are unified in the same framework and trained in an end-to-end fashion. Our view synchronization models are applied to different DNNs-based multi-camera vision tasks under the unsynchronized setting, including multi-view counting and 3D pose estimation, and achieve good performance compared to baselines.
翻訳日:2022-11-12 13:14:59 公開日:2022-05-02
# 大規模ラベル付きマルチグラフデータベースにおける異常検出

Anomaly Detection in Large Labeled Multi-Graph Databases ( http://arxiv.org/abs/2010.03600v2 )

ライセンス: Link先を確認
Hung T. Nguyen, Pierre J. Liang, Leman Akoglu(参考訳) ラベル付きノードと有向多重エッジを持つグラフを含む大規模データベースG内で、どのように異常グラフを検出するのか? 既存の作業のほとんどは、平易(ラベルなし)および/または単純(アンウェイト付き)グラフ用に設計されている。 CODETECTは,グラフデータベースの異常検出タスクに,そのような複雑な性質で対処する最初のアプローチである。 この目的のために、データベースGを可能な限り簡潔に圧縮する構造パターン(ノードラベル付きネットワークモチーフ)の小さな代表集合Sを特定する。 圧縮がよくないグラフは異常としてフラグ付けされる。 CODETECTは2つの新しいビルディングブロックを展示しています。 (i)モチーフに基づくロスレスグラフ符号化方式、及び (ii) s の高速メモリ効率検索アルゴリズムは、3 つの異なる企業によるトランザクショングラフデータベースにおける共検出の有効性を示し、そこでは、タスク用に調整された既存のベースラインが、異なる種類の異常とパフォーマンス指標で大幅に遅れている。

Within a large database G containing graphs with labeled nodes and directed, multi-edges; how can we detect the anomalous graphs? Most existing work are designed for plain (unlabeled) and/or simple (unweighted) graphs. We introduce CODETECT, the first approach that addresses the anomaly detection task for graph databases with such complex nature. To this end, it identifies a small representative set S of structural patterns (i.e., node-labeled network motifs) that losslessly compress database G as concisely as possible. Graphs that do not compress well are flagged as anomalous. CODETECT exhibits two novel building blocks: (i) a motif-based lossless graph encoding scheme, and (ii) fast memory-efficient search algorithms for S. We show the effectiveness of CODETECT on transaction graph databases from three different corporations, where existing baselines adjusted for the task fall behind significantly, across different types of anomalies and performance metrics.
翻訳日:2022-10-09 22:45:50 公開日:2022-05-02
# 盲点に光を当てる:プロセスマイニングにビデオデータを活用するための参照アーキテクチャの開発

Shedding Light on Blind Spots: Developing a Reference Architecture to Leverage Video Data for Process Mining ( http://arxiv.org/abs/2010.11289v3 )

ライセンス: Link先を確認
Wolfgang Kratsch, Fabian Koenig, Maximilian Roeglinger(参考訳) プロセスマイニングは、ビジネスプロセス管理における最も活発な研究の流れの1つです。 近年,構造化プロセスデータの解析手法が数多く提案されている。 しかし、多くの場合、プロセス認識情報システムから直接キャプチャされるプロセスのデジタル化部分のみであり、手動の活動は盲点をもたらすことが多い。 これらの活動を監視するためにビデオカメラを使用することは、このギャップを埋めるのに役立つが、非構造化ビデオデータからイベントログを抽出するための標準化されたアプローチは、いまだに不足している。 本稿では,コンピュータビジョンとプロセスマイニングのギャップを埋めるための参照アーキテクチャを提案する。 様々な評価活動(例えば、競合するアーティファクト分析、プロトタイピング、および実世界のアプリケーション)により、提案された参照アーキテクチャは柔軟性、ユースケース駆動、コンテキスト固有のインスタンス化を可能にする。 また,提案した参照アーキテクチャの模範的ソフトウェアプロトタイプにより,非構造化ビデオデータからプロセス関連イベントのほとんどを自動的に抽出できることを示す。

Process mining is one of the most active research streams in business process management. In recent years, numerous methods have been proposed for analyzing structured process data. Yet, in many cases, it is only the digitized parts of processes that are directly captured from process-aware information systems, and manual activities often result in blind spots. While the use of video cameras to observe these activities could help to fill this gap, a standardized approach to extracting event logs from unstructured video data remains lacking. Here, we propose a reference architecture to bridge the gap between computer vision and process mining. Various evaluation activities (i.e., competing artifact analysis, prototyping, and real-world application) ensured that the proposed reference architecture allows flexible, use-case-driven, and context-specific instantiations. Our results also show that an exemplary software prototype instantiation of the proposed reference architecture is capable of automatically extracting most of the process-relevant events from unstructured video data.
翻訳日:2022-10-04 22:30:18 公開日:2022-05-02
# (参考訳) PSIドラフト仕様

PSI Draft Specification ( http://arxiv.org/abs/2205.09488v1 )

ライセンス: CC BY-SA 4.0
Mark Reid, James Montgomery, Barry Drake, Avraham Ruderman(参考訳) この文書は、2013年に終了したProtocols and Structures for Inferenceプロジェクトの一部として開発された、HTTP上で機械学習サービスを提供するためのドラフト仕様を提示する。 これは、機械学習をサービスとして提供する動機を示し、続いて、そのようなサービスの本質的およびオプション的なコンポーネントを記述します。

This document presents the draft specification for delivering machine learning services over HTTP, developed as part of the Protocols and Structures for Inference project, which concluded in 2013. It presents the motivation for providing machine learning as a service, followed by a description of the essential and optional components of such a service.
翻訳日:2022-05-22 18:33:58 公開日:2022-05-02
# 0.5kb深層学習モデルによるセンサ歩行位相検出のリアルタイム化

Real Time On Sensor Gait Phase Detection with 0.5KB Deep Learning Model ( http://arxiv.org/abs/2205.03234v1 )

ライセンス: Link先を確認
Yi-An Chen, Jien-De Sui and Tian-Sheuan Chang(参考訳) 畳み込みニューラルネットワークによる歩行位相検出は、正確な分類を提供するが、高い計算コストを必要とするため、リアルタイムの低電力オンセンサー処理を阻害する。 本稿では,0.5KBのモデルサイズと毎秒67Kの操作しか必要とせず,95.9%の精度でセンサマイクロコントローラに制限された資源に容易に適用可能なセグメント化に基づく歩行位相検出手法を提案する。

Gait phase detection with convolution neural network provides accurate classification but demands high computational cost, which inhibits real time low power on-sensor processing. This paper presents a segmentation based gait phase detection with a width and depth downscaled U-Net like model that only needs 0.5KB model size and 67K operations per second with 95.9% accuracy to be easily fitted into resource limited on sensor microcontroller.
翻訳日:2022-05-16 01:14:36 公開日:2022-05-02
# ai index 2022年次報告書

The AI Index 2022 Annual Report ( http://arxiv.org/abs/2205.03468v1 )

ライセンス: Link先を確認
Daniel Zhang, Nestor Maslej, Erik Brynjolfsson, John Etchemendy, Terah Lyons, James Manyika, Helen Ngo, Juan Carlos Niebles, Michael Sellitto, Ellie Sakhaee, Yoav Shoham, Jack Clark, Raymond Perrault(参考訳) AI Index Reportの第5版にようこそ! 最新のエディションには、学術、民間、非営利の幅広い組織からのデータに加えて、技術パフォーマンス章、世界中のロボット研究者の新たな調査、25カ国における世界ai立法記録、技術ai倫理指標の詳細な分析を含む新しい章など、これまでのどのエディションよりも多くの自己収集されたデータとオリジナル分析が含まれている。 AI Index Reportは、人工知能に関連するデータを追跡、照合、蒸留、可視化する。 そのミッションは、政策立案者、研究者、幹部、ジャーナリスト、および一般大衆に対して、偏見のない、厳格な、そしてグローバルにソースされたデータを提供することであり、複雑なaiの分野をより徹底的かつ微妙な理解を開発することである。 このレポートは、AIに関するデータと洞察の最も信頼性が高く権威のある情報源になることを目指している。

Welcome to the fifth edition of the AI Index Report! The latest edition includes data from a broad set of academic, private, and nonprofit organizations as well as more self-collected data and original analysis than any previous editions, including an expanded technical performance chapter, a new survey of robotics researchers around the world, data on global AI legislation records in 25 countries, and a new chapter with an in-depth analysis of technical AI ethics metrics. The AI Index Report tracks, collates, distills, and visualizes data related to artificial intelligence. Its mission is to provide unbiased, rigorously vetted, and globally sourced data for policymakers, researchers, executives, journalists, and the general public to develop a more thorough and nuanced understanding of the complex field of AI. The report aims to be the world's most credible and authoritative source for data and insights about AI.
翻訳日:2022-05-16 00:52:21 公開日:2022-05-02
# (参考訳) DALL-E 2 の非常に予備的な解析

A very preliminary analysis of DALL-E 2 ( http://arxiv.org/abs/2204.13807v2 )

ライセンス: CC BY-SA 4.0
Gary Marcus, Ernest Davis, Scott Aaronson(参考訳) DALL−E2システムは、入力テキストをキャプションとして対応する独自の合成画像を生成する。 本システムでは,その共通感覚,推論,複雑なテキストの理解能力を評価するために,14回の試験結果について報告する。 私たちのプロンプトはすべて、この数週間で紹介された典型的なものよりも、意図的にずっと難しいものでした。 それでも、14のプロンプトのうち5つでは、少なくとも10のイメージのうち1つが我々の要求を完全に満たした。 一方、プロンプトでは10枚の画像がすべて私たちの要求を満たしていました。

The DALL-E 2 system generates original synthetic images corresponding to an input text as caption. We report here on the outcome of fourteen tests of this system designed to assess its common sense, reasoning and ability to understand complex texts. All of our prompts were intentionally much more challenging than the typical ones that have been showcased in recent weeks. Nevertheless, for 5 out of the 14 prompts, at least one of the ten images fully satisfied our requests. On the other hand, on no prompt did all of the ten images satisfy our requests.
翻訳日:2022-05-09 01:14:53 公開日:2022-05-02
# (参考訳) 深層学習に基づく品質認識型心磁図再構成と解析のための統合フレームワーク

A Deep Learning-based Integrated Framework for Quality-aware Undersampled Cine Cardiac MRI Reconstruction and Analysis ( http://arxiv.org/abs/2205.01673v1 )

ライセンス: CC BY 4.0
In\^es P. Machado, Esther Puyol-Ant\'on, Kerstin Hammernik, Gast\~ao Cruz, Devran Ugurlu, Ihsane Olakorede, Ilkay Oksuz, Bram Ruijsink, Miguel Castelo-Branco, Alistair A. Young, Claudia Prieto, Julia A. Schnabel and Andrew P. King(参考訳) 心機能評価の基準として, シン心磁気共鳴(CMR)イメージングが重要である。 しかし、cine CMRの獲得は本質的に遅いため、近年では画像の品質や結果の精度を損なうことなくスキャン時間を短縮する努力が続けられている。 本稿では,全自動で品質制御されたcine cmrデータの再構成,セグメンテーション,下流解析のための統合フレームワークを提案する。 このフレームワークはラジアルk空間データのアクティブな取得を可能にし、取得したデータが高品質な再構築とセグメンテーションを生成するのに十分であれば、取得を停止することができる。 これによりスキャン時間の短縮と自動分析が可能になり、機能的バイオマーカーのロバストで正確な推定が可能になる。 提案手法の有効性を実証するため,イギリスバイオバンクの被験者データセット上でラジアルk空間取得の現実的なシミュレーションを行い,健常者から収集したin-vivo cine cmr k空間データについて報告する。 以上の結果から,スライス1秒あたり12秒から4秒に短縮された平均スキャン時間で品質制御画像が作成でき,臨床関連パラメータを5%の平均絶対差で自動的に推定できる画像品質が十分であることが示された。

Cine cardiac magnetic resonance (CMR) imaging is considered the gold standard for cardiac function evaluation. However, cine CMR acquisition is inherently slow and in recent decades considerable effort has been put into accelerating scan times without compromising image quality or the accuracy of derived results. In this paper, we present a fully-automated, quality-controlled integrated framework for reconstruction, segmentation and downstream analysis of undersampled cine CMR data. The framework enables active acquisition of radial k-space data, in which acquisition can be stopped as soon as acquired data are sufficient to produce high quality reconstructions and segmentations. This results in reduced scan times and automated analysis, enabling robust and accurate estimation of functional biomarkers. To demonstrate the feasibility of the proposed approach, we perform realistic simulations of radial k-space acquisitions on a dataset of subjects from the UK Biobank and present results on in-vivo cine CMR k-space data collected from healthy subjects. The results demonstrate that our method can produce quality-controlled images in a mean scan time reduced from 12 to 4 seconds per slice, and that image quality is sufficient to allow clinically relevant parameters to be automatically estimated to within 5% mean absolute difference.
翻訳日:2022-05-06 07:13:39 公開日:2022-05-02
# (参考訳) 乳がんのロバスト分類のためのDrop-Max Layerを用いたマルチインスタンスRTT

MIRST-DM: Multi-Instance RST with Drop-Max Layer for Robust Classification of Breast Cancer ( http://arxiv.org/abs/2205.01674v1 )

ライセンス: CC BY 4.0
Shoukun Sun, Min Xian, Aleksandar Vakanski, Hossny Ghanem(参考訳) ロバスト自己学習(RST)は、画像分類モデルの対角的堅牢性を増大させ、モデルの一般化性を著しく犠牲にする。 しかし、RTTや他の最先端の防衛アプローチは、その一般化性を保ち、小さな医用画像集合に対して良好な敵の堅牢性を再現できなかった。 そこで本研究では,学習中に繰り返し生成された敵インスタンスの列を含むドロップマックス層であるmirst-dmを用いたマルチインスタンスrstを提案し,小さなデータセット上でのよりスムーズな決定境界を学習する。 提案したドロップマックス層は不安定な特徴を排除し,画像摂動に頑健な表現の学習を支援する。 提案手法は1,190画像の乳房超音波データを用いて検証した。 その結果,提案手法は3つの攻撃に対して最先端の対向ロバスト性を実現することが示された。

Robust self-training (RST) can augment the adversarial robustness of image classification models without significantly sacrificing models' generalizability. However, RST and other state-of-the-art defense approaches failed to preserve the generalizability and reproduce their good adversarial robustness on small medical image sets. In this work, we propose the Multi-instance RST with a drop-max layer, namely MIRST-DM, which involves a sequence of iteratively generated adversarial instances during training to learn smoother decision boundaries on small datasets. The proposed drop-max layer eliminates unstable features and helps learn representations that are robust to image perturbations. The proposed approach was validated using a small breast ultrasound dataset with 1,190 images. The results demonstrate that the proposed approach achieves state-of-the-art adversarial robustness against three prevalent attacks.
翻訳日:2022-05-06 06:45:00 公開日:2022-05-02
# (参考訳) ASTROMER:光曲線表現のためのトランスベースの埋め込み

ASTROMER: A transformer-based embedding for the representation of light curves ( http://arxiv.org/abs/2205.01677v1 )

ライセンス: CC0 1.0
C. Donoso-Oliva, I. Becker, P. Protopapas, G. Cabrera-Vives, Vishnu M., Harsh Vardhan(参考訳) 自然言語の埋め込みからインスピレーションを得て,光曲線の表現を生成する変換器モデルASTROMERを提案する。 ASTROMERは数百万のMACHO Rバンドのサンプルで訓練されており、下流タスクに関連する特定のドメインと容易に一致するように微調整することができる。 一例として、可変星の分類に事前訓練された表現を用いることの利点を示す。 また,本研究で使用されるすべての機能を含むピソンライブラリも提供する。 このライブラリには、ディープラーニングモデルの性能向上や計算資源の削減、最先端の結果の達成に使用できる事前学習モデルが含まれている。

Taking inspiration from natural language embeddings, we present ASTROMER, a transformer-based model to create representations of light curves. ASTROMER was trained on millions of MACHO R-band samples, and it can be easily fine-tuned to match specific domains associated with downstream tasks. As an example, this paper shows the benefits of using pre-trained representations to classify variable stars. In addition, we provide a python library including all functionalities employed in this work. Our library includes the pre-trained models that can be used to enhance the performance of deep learning models, decreasing computational resources while achieving state-of-the-art results.
翻訳日:2022-05-06 06:36:40 公開日:2022-05-02
# 分解を伴う拡張・転置コンボリューションの効率的な加速器

Efficient Accelerator for Dilated and Transposed Convolution with Decomposition ( http://arxiv.org/abs/2205.02103v1 )

ライセンス: Link先を確認
Kuo-Wei Chang, and Tian-Sheuan Chang(参考訳) 拡張および変換された畳み込みのためのハードウェアアクセラレーションは、セグメンテーションのような関連するタスクをリアルタイムに実行可能にするが、現在の設計はこれらの畳み込みに特化している。 本稿では,拡張畳み込みと転置畳み込みをそれぞれ分解して冗長計算を省略し,既存の高密度CNNハードウェアでも効率的に実行する設計を提案する。 提案されたアーキテクチャは、サイクルカウントの87.8\%を削減でき、enetケースのnaive実行よりも8.2倍のスピードアップを達成できる。

Hardware acceleration for dilated and transposed convolution enables real time execution of related tasks like segmentation, but current designs are specific for these convolutional types or suffer from complex control for reconfigurable designs. This paper presents a design that decomposes input or weight for dilated and transposed convolutions respectively to skip redundant computations and thus executes efficiently on existing dense CNN hardware as well. The proposed architecture can cut down 87.8\% of the cycle counts to achieve 8.2X speedup over a naive execution for the ENet case.
翻訳日:2022-05-05 16:24:48 公開日:2022-05-02
# MRIにおけるリアルタイム胎児脳分割のためのディープラーニングフレームワーク

Deep Learning Framework for Real-time Fetal Brain Segmentation in MRI ( http://arxiv.org/abs/2205.01675v1 )

ライセンス: Link先を確認
Razieh Faghihpirayesh, Davood Karimi, Deniz Erdogmus, Ali Gholipour(参考訳) 胎児脳分節は胎児MRIにおけるスライスレベルの運動補正とスライス・ツー・ボリューム再構成のための重要な第1ステップである。 胎児MRIにおける胎児脳の高速かつ正確なセグメンテーションは、スライス再獲得とステアリングのためのリアルタイム胎児頭部ポーズ推定と運動追跡を実現するために必要である。 そこで本研究では,様々な深層ニューラルネットワークモデルの速度精度を解析し,高分解能の空間的詳細と低分解能で抽出された文脈特徴を組み合わせた,シンボル的に小さい畳み込みニューラルネットワークを考案した。 入力ダウンサンプリングモジュールとして畳み込みとプーリング操作の並列組み合わせを考案し,高い精度を維持するためにスキップ接続を持つ複数のブランチを用いた。 私たちは、手動で胎児のMRIスライスをラベル付けした8種類の最先端ネットワークをトレーニングし、正常な2種類のテストケースでテストしました。 実験の結果, 実時間分割法と比較した結果, ネットワークの精度と推定時間が最も高いことがわかった。 nvidia geforce rtx 2080 ti で平均 dice スコア 97.99\% と 84.04\% をそれぞれ3.36ミリ秒の推論時間で達成した。 コード、データ、トレーニングされたモデルはhttps://github.com/bchimagine/real_time_fetal_brain_segmentationで利用可能である。

Fetal brain segmentation is an important first step for slice-level motion correction and slice-to-volume reconstruction in fetal MRI. Fast and accurate segmentation of the fetal brain on fetal MRI is required to achieve real-time fetal head pose estimation and motion tracking for slice re-acquisition and steering. To address this critical unmet need, in this work we analyzed the speed-accuracy performance of a variety of deep neural network models, and devised a symbolically small convolutional neural network that combines spatial details at high resolution with context features extracted at lower resolutions. We used multiple branches with skip connections to maintain high accuracy while devising a parallel combination of convolution and pooling operations as an input downsampling module to further reduce inference time. We trained our model as well as eight alternative, state-of-the-art networks with manually-labeled fetal brain MRI slices and tested on two sets of normal and challenging test cases. Experimental results show that our network achieved the highest accuracy and lowest inference time among all of the compared state-of-the-art real-time segmentation methods. We achieved average Dice scores of 97.99\% and 84.04\% on the normal and challenging test sets, respectively, with an inference time of 3.36 milliseconds per image on an NVIDIA GeForce RTX 2080 Ti. Code, data, and the trained models are available at https://github.com/bchimagine/real_time_fetal_brain_segmentation.
翻訳日:2022-05-05 15:13:51 公開日:2022-05-02
# fundusq-net: fundus images quality gradingのための回帰品質評価ディープラーニングアルゴリズム

FundusQ-Net: a Regression Quality Assessment Deep Learning Algorithm for Fundus Images Quality Grading ( http://arxiv.org/abs/2205.01676v1 )

ライセンス: Link先を確認
Or Abramovich, Hadas Pizem, Jan Van Eijgen, Ingeborg Stalmans, Eytan Blumenthal and Joachim A. Behar(参考訳) 目的:緑内障,糖尿病網膜症,加齢黄斑変性などの眼科疾患は盲目や視力障害の主な原因である。 これらの病態の診断を簡素化し、迅速化する新しい意思決定支援ツールが必要である。 このプロセスの鍵となるステップは、基礎画像の品質を自動的に推定し、それが人間のオペレータや機械学習モデルによって解釈可能であることを保証することである。 本稿では,この新たな尺度に対して,新たな基礎画像品質尺度と深層学習(DL)モデルを提案する。 方法】1-10範囲の眼科医2名による1,245枚の画像の画質は0.5。 画像品質評価のためのDL回帰モデルを訓練した。 アーキテクチャはInception-V3である。 このモデルは6つのデータベースから89,947枚の画像を用いて開発され、そのうち1,245枚の画像は専門家によってラベル付けされ、残りの88,702枚の画像は事前学習と半教師付き学習に使用された。 最終dlモデルは内部テストセット(n=209)と外部テストセット(n=194)で評価された。 結果: fundusq-net と名づけられた最終dlモデルは、内部テストセットで 0.61 (0.54-0.68) の平均絶対誤差を達成した。 外部テストセットとして公開DRIMDBデータベース上でバイナリ分類モデルとして評価すると,精度は99%であった。 意義:本アルゴリズムは,基礎画像の自動品質評価のための新しいロバストなツールを提供する。

Objective: Ophthalmological pathologies such as glaucoma, diabetic retinopathy and age-related macular degeneration are major causes of blindness and vision impairment. There is a need for novel decision support tools that can simplify and speed up the diagnosis of these pathologies. A key step in this process is to automatically estimate the quality of the fundus images to make sure these are interpretable by a human operator or a machine learning model. We present a novel fundus image quality scale and deep learning (DL) model that can estimate fundus image quality relative to this new scale. Methods: A total of 1,245 images were graded for quality by two ophthalmologists within the range 1-10, with a resolution of 0.5. A DL regression model was trained for fundus image quality assessment. The architecture used was Inception-V3. The model was developed using a total of 89,947 images from 6 databases, of which 1,245 were labeled by the specialists and the remaining 88,702 images were used for pre-training and semi-supervised learning. The final DL model was evaluated on an internal test set (n=209) as well as an external test set (n=194). Results: The final DL model, denoted FundusQ-Net, achieved a mean absolute error of 0.61 (0.54-0.68) on the internal test set. When evaluated as a binary classification model on the public DRIMDB database as an external test set the model obtained an accuracy of 99%. Significance: the proposed algorithm provides a new robust tool for automated quality grading of fundus images.
翻訳日:2022-05-05 15:13:27 公開日:2022-05-02
# 融合層をサポートしたプレRTL DNNハードウェア評価器

Pre-RTL DNN Hardware Evaluator With Fused Layer Support ( http://arxiv.org/abs/2205.01729v1 )

ライセンス: Link先を確認
Chih-Chyau Yang and Tian-Sheuan Chang(参考訳) deep neural network(dnn)の人気により、ハードウェアアクセラレーターはリアルタイム実行のために要求される。 しかし、長い設計プロセスと急速に進化するDNNモデルは、ハードウェア評価を市場のニーズを満たすために困難にしている。 本稿では,従来の層間処理と,低帯域幅要求に対する融合層処理をサポートするプレRTL DNNハードウェア評価器を提案する。 評価器は2つの最先端アクセラレータアーキテクチャをサポートし、最高のハードウェアと層融合グループを見出した。実験結果は、層融合方式が層間操作と比較して55.6%のメモリ帯域幅削減、36.7%のレイテンシ改善、49.2%のエネルギー削減を達成できることを示している。

With the popularity of the deep neural network (DNN), hardware accelerators are demanded for real time execution. However, lengthy design process and fast evolving DNN models make hardware evaluation hard to meet the time to market need. This paper proposes a pre-RTL DNN hardware evaluator that supports conventional layer-by-layer processing as well as the fused layer processing for low external bandwidth requirement. The evaluator supports two state-of-the-art accelerator architectures and finds the best hardware and layer fusion group The experimental results show the layer fusion scheme can achieve 55.6% memory bandwidth reduction, 36.7% latency improvement and 49.2% energy reduction compared with layer-by-layer operation.
翻訳日:2022-05-05 15:09:22 公開日:2022-05-02
# 単語レベルの差分プライバシーの限界

The Limits of Word Level Differential Privacy ( http://arxiv.org/abs/2205.02130v1 )

ライセンス: Link先を確認
Justus Mattern, Benjamin Weggenmann, Florian Kerschbaum(参考訳) プライバシーと信頼の問題が研究コミュニティで注目を集めている中、テキストデータの匿名化は様々な試みがなされている。 これらのアプローチの重要なサブセットは、文中の個々の単語を置き換えるために、単語の埋め込みを摂動する微分プライベートなメカニズムを取り入れている。 これらの方法は非常に重要な貢献であり、他の技術よりも様々な利点があり、匿名化能力を示しているが、いくつかの欠点がある。 本稿では,これらの弱点を検証し,理論的プライバシー保証を低下させる重要な数学的制約と,非匿名化攻撃に対する保護,原文の内容の保存,および言語出力の質に関する主要な実用的欠点を示す。 最後に,テキスト匿名化のための新しい手法として,認識された弱点のほとんどを回避し,形式的なプライバシー保証を提供するパラフレージングを念入りに調整したトランスフォーマティブ言語モデルを提案する。 本手法の性能を徹底的な実験により評価し,提案手法よりも優れた性能を示す。

As the issues of privacy and trust are receiving increasing attention within the research community, various attempts have been made to anonymize textual data. A significant subset of these approaches incorporate differentially private mechanisms to perturb word embeddings, thus replacing individual words in a sentence. While these methods represent very important contributions, have various advantages over other techniques and do show anonymization capabilities, they have several shortcomings. In this paper, we investigate these weaknesses and demonstrate significant mathematical constraints diminishing the theoretical privacy guarantee as well as major practical shortcomings with regard to the protection against deanonymization attacks, the preservation of content of the original sentences as well as the quality of the language output. Finally, we propose a new method for text anonymization based on transformer based language models fine-tuned for paraphrasing that circumvents most of the identified weaknesses and also offers a formal privacy guarantee. We evaluate the performance of our method via thorough experimentation and demonstrate superior performance over the discussed mechanisms.
翻訳日:2022-05-05 14:06:25 公開日:2022-05-02
# 顔行動単位認識のための多次元エッジ特徴量に基づくAU関係グラフの学習

Learning Multi-dimensional Edge Feature-based AU Relation Graph for Facial Action Unit Recognition ( http://arxiv.org/abs/2205.01782v1 )

ライセンス: Link先を確認
Cheng Luo, Siyang Song, Weicheng Xie, Linlin Shen, Hatice Gunes(参考訳) 顔行動ユニット(AU)の活性化は相互に影響を及ぼす。 ausのペア間の関係は複雑かつ一意であるが、既存のアプローチでは、顔のディスプレイのそれぞれのausのペアに対して、そのキューを具体的に明示的に表現できない。 本稿では,ターゲット顔ディスプレイのAU間の関係を明確に記述するために,独自のグラフを深く学習するAU関係モデリング手法を提案する。 提案手法はまず,各AUのアクティベーション状態と他のAUとの関連性をノード機能にエンコードする。 次に、各 aus のペア間の複数のタスク固有の関係を記述するために、複数の多次元エッジ特徴を学習する。 ノード機能学習とエッジ機能学習の両方において,本手法では,一意な顔表示がausの関係に与える影響を,全顔表現を入力として検討する。 BP4DおよびDIFAデータセットによる実験結果から,ノード特徴学習モジュールとエッジ特徴学習モジュールはCNNとトランスフォーマーベースバックボーンに大きな性能向上をもたらすことが示された。 私たちのアプローチは、au認識のための関係の手がかりをモデル化する能力を持つだけでなく、様々なバックボーンに容易に組み込むことができます。 私たちのPyTorchコードは利用可能です。

The activations of Facial Action Units (AUs) mutually influence one another. While the relationship between a pair of AUs can be complex and unique, existing approaches fail to specifically and explicitly represent such cues for each pair of AUs in each facial display. This paper proposes an AU relationship modelling approach that deep learns a unique graph to explicitly describe the relationship between each pair of AUs of the target facial display. Our approach first encodes each AU's activation status and its association with other AUs into a node feature. Then, it learns a pair of multi-dimensional edge features to describe multiple task-specific relationship cues between each pair of AUs. During both node and edge feature learning, our approach also considers the influence of the unique facial display on AUs' relationship by taking the full face representation as an input. Experimental results on BP4D and DISFA datasets show that both node and edge feature learning modules provide large performance improvements for CNN and transformer-based backbones, with our best systems achieving the state-of-the-art AU recognition results. Our approach not only has a strong capability in modelling relationship cues for AU recognition but also can be easily incorporated into various backbones. Our PyTorch code is made available.
翻訳日:2022-05-05 13:34:59 公開日:2022-05-02
# (参考訳) RangeSeg: 3次元LiDAR点雲のレンジ対応リアルタイムセグメンテーション

RangeSeg: Range-Aware Real Time Segmentation of 3D LiDAR Point Clouds ( http://arxiv.org/abs/2205.01570v1 )

ライセンス: CC BY-SA 4.0
Tzu-Hsuan Chen and Tian Sheuan Chang(参考訳) 3次元LiDAR点雲に基づくセマンティック屋外シーン理解は、スパースで不規則なデータ構造のため、自律運転には難しい課題である。 本稿では、異なるLiDARレーザビームの不均一領域分布の利点を生かし、範囲認識型インスタンスセグメンテーションネットワークであるRangeSegを提案する。 rangesegは2つのレンジ依存デコーダを持つ共有エンコーダバックボーンを使用する。 重復号器は、遠小の物体が位置する範囲画像の頂点のみを演算して小さな物体検出精度を向上し、光復号器は計算コストの低い範囲画像全体を演算する。 結果はDBSCAN法によりさらにクラスタ化され、分解能重み付き距離関数によりインスタンスレベルのセグメンテーション結果が得られる。 KITTIデータセットの実験では、RangeSegは最先端のセマンティックセマンティックセマンティクス手法よりも大幅に高速化され、小型および極小オブジェクトでのインスタンスレベルのセマンティクス性能が向上している。 RangeSegパイプライン全体がNVIDIA\textsuperscript{\textregistered} JETSON AGX Xavierのリアルタイム要件を満たしている。

Semantic outdoor scene understanding based on 3D LiDAR point clouds is a challenging task for autonomous driving due to the sparse and irregular data structure. This paper takes advantages of the uneven range distribution of different LiDAR laser beams to propose a range aware instance segmentation network, RangeSeg. RangeSeg uses a shared encoder backbone with two range dependent decoders. A heavy decoder only computes top of a range image where the far and small objects locate to improve small object detection accuracy, and a light decoder computes whole range image for low computational cost. The results are further clustered by the DBSCAN method with a resolution weighted distance function to get instance-level segmentation results. Experiments on the KITTI dataset show that RangeSeg outperforms the state-of-the-art semantic segmentation methods with enormous speedup and improves the instance-level segmentation performance on small and far objects. The whole RangeSeg pipeline meets the real time requirement on NVIDIA\textsuperscript{\textregistered} JETSON AGX Xavier with 19 frames per second in average.
翻訳日:2022-05-05 04:27:57 公開日:2022-05-02
# (参考訳) PSCNN: 885.86 TOPS/WプログラマブルSRAMベースのキーワードスポッティング用メモリプロセッサ

PSCNN: A 885.86 TOPS/W Programmable SRAM-based Computing-In-Memory Processor for Keyword Spotting ( http://arxiv.org/abs/2205.01569v1 )

ライセンス: CC BY-SA 4.0
Shu-Hung Kuo, and Tian-Sheuan Chang(参考訳) cim(compute-in-memory)は、並列処理の大規模化と消費電力の低さにより、近年で注目を集めている。 しかし、現在のCIM設計では、小さなCIMマクロの大幅なオーバーヘッドとモデル実行のプログラム性に悩まされている。 本稿では,複数のより小さなCIMマクロではなく,プログラム可能なCIMプロセッサを提案し,様々なバイナリ1-D畳み込みニューラルネットワーク(CNN)モデルをサポートするフレキシブルな命令セットを提案する。 Furthermore, the proposed architecture adopts the pooling write-back method to support fused or independent convolution/pooling operations to reduce 35.9\% of latency, and the flexible ping-pong feature SRAM to fit different feature map sizes during layer-by-layer execution.The design fabricated in TSMC 28nm technology achieves 150.8 GOPS throughput and 885.86 TOPS/W power efficiency at 10 MHz when executing our binary keyword spotting model, which has higher power efficiency and flexibility than previous designs.

Computing-in-memory (CIM) has attracted significant attentions in recent years due to its massive parallelism and low power consumption. However, current CIM designs suffer from large area overhead of small CIM macros and bad programmablity for model execution. This paper proposes a programmable CIM processor with a single large sized CIM macro instead of multiple smaller ones for power efficient computation and a flexible instruction set to support various binary 1-D convolution Neural Network (CNN) models in an easy way. Furthermore, the proposed architecture adopts the pooling write-back method to support fused or independent convolution/pooling operations to reduce 35.9\% of latency, and the flexible ping-pong feature SRAM to fit different feature map sizes during layer-by-layer execution.The design fabricated in TSMC 28nm technology achieves 150.8 GOPS throughput and 885.86 TOPS/W power efficiency at 10 MHz when executing our binary keyword spotting model, which has higher power efficiency and flexibility than previous designs.
翻訳日:2022-05-05 04:11:41 公開日:2022-05-02
# (参考訳) 神経複合コンピューティング:認知の中枢パラドックスから新しい世代のAIシステムへ

Neurocompositional computing: From the Central Paradox of Cognition to a new generation of AI systems ( http://arxiv.org/abs/2205.01128v1 )

ライセンス: CC BY 4.0
Paul Smolensky, R. Thomas McCoy, Roland Fernandez, Matthew Goldrick, Jianfeng Gao(参考訳) 20世紀から21世紀にかけてのAIの劇的な進歩と、現在のAIの残りの制限を克服するにはどうすればよいのか? 広く受け入れられているナラティブは、この進歩を、ディープニューラルネットワークにおける統計的学習をサポートするために利用可能な計算量とデータ量の増加に帰している。 さらに,新たな計算手法の開発が重要な要因であることを示す。 ニューロコンポジションコンピューティングは、人間のレベルの認識を可能にするために同時に尊重しなければならない2つの原則、すなわち構成性と連続性の原則を採用する。 これらは、シンボリックコンピューティングの離散的な方法だけでなく、新しいタイプの連続型ニューラルネットワークによって構成性が実現できるという最近の数学的発見まで、相容れないように思われた。 aiの最近の革命的な進歩は、限られた形態のニューロコンポジションコンピューティングの使用によって生じた。 新しいより深い形のニューロコンポジションコンピューティングは、より堅牢で正確で理解しやすいaiシステムを創り出す。

What explains the dramatic progress from 20th-century to 21st-century AI, and how can the remaining limitations of current AI be overcome? The widely accepted narrative attributes this progress to massive increases in the quantity of computational and data resources available to support statistical learning in deep artificial neural networks. We show that an additional crucial factor is the development of a new type of computation. Neurocompositional computing adopts two principles that must be simultaneously respected to enable human-level cognition: the principles of Compositionality and Continuity. These have seemed irreconcilable until the recent mathematical discovery that compositionality can be realized not only through discrete methods of symbolic computing, but also through novel forms of continuous neural computing. The revolutionary recent progress in AI has resulted from the use of limited forms of neurocompositional computing. New, deeper forms of neurocompositional computing create AI systems that are more robust, accurate, and comprehensible.
翻訳日:2022-05-05 04:05:11 公開日:2022-05-02
# (参考訳) Hausa Visual Genome: Hausa 機械翻訳のためのマルチモーダル英語データセット

Hausa Visual Genome: A Dataset for Multi-Modal English to Hausa Machine Translation ( http://arxiv.org/abs/2205.01133v1 )

ライセンス: CC BY 4.0
Idris Abdulmumin, Satya Ranjan Dash, Musa Abdullahi Dawud, Shantipriya Parida, Shamsuddeen Hassan Muhammad, Ibrahim Sa'id Ahmad, Subhadarshi Panda, Ond\v{r}ej Bojar, Bashir Shehu Galadanci, Bello Shehu Bello(参考訳) マルチモーダル機械翻訳(mmt)は、視覚情報を使用して翻訳の質を高めることを可能にする。 視覚情報は、入力文の曖昧さを減少させる貴重な文脈情報として機能することができる。 このような技術の人気が高まっているにもかかわらず、良質でスケール可能なデータセットは乏しく、その潜在能力を最大限に制限している。 ハウサ語(Hausa)は、アフロ・アジア語族に属する言語である。 約1億から1億5000万人がこの言語を話し、8000万人以上の先住民が話すと推定されている。 これは他のどのチャド語よりも多い。 話者数が多いにもかかわらず、Hausa言語は自然言語処理(NLP)において低リソースであると考えられている。 これは、ほとんどのNLPタスクを実装するのに十分なリソースがないためである。 いくつかのデータセットは存在するが、それらは希少、機械生成、または宗教領域にある。 したがって、機械学習タスクを実装し、言語における研究ギャップを埋めるために、トレーニングと評価データを作成する必要がある。 hausa visual genome (havg)は、hausaの画像内の画像またはセクションの記述を含むデータセットであり、英語で等価である。 データセットを作成するために、Hindi Visual Genome(HVG)の画像の英語記述をHausaに自動的に翻訳することから始めた。 その後, 合成ハウサデータを各画像から慎重に後編集した。 データセットは32,923の画像とその記述からなり、トレーニング、開発、テスト、チャレンジテストセットに分けられる。 hausa visual genomeはその種の最初のデータセットであり、様々な自然言語処理や生成タスクの中で、hausa- english machine translation、multi-modal research、image descriptionに使用できる。

Multi-modal Machine Translation (MMT) enables the use of visual information to enhance the quality of translations. The visual information can serve as a valuable piece of context information to decrease the ambiguity of input sentences. Despite the increasing popularity of such a technique, good and sizeable datasets are scarce, limiting the full extent of their potential. Hausa, a Chadic language, is a member of the Afro-Asiatic language family. It is estimated that about 100 to 150 million people speak the language, with more than 80 million indigenous speakers. This is more than any of the other Chadic languages. Despite a large number of speakers, the Hausa language is considered low-resource in natural language processing (NLP). This is due to the absence of sufficient resources to implement most NLP tasks. While some datasets exist, they are either scarce, machine-generated, or in the religious domain. Therefore, there is a need to create training and evaluation data for implementing machine learning tasks and bridging the research gap in the language. This work presents the Hausa Visual Genome (HaVG), a dataset that contains the description of an image or a section within the image in Hausa and its equivalent in English. To prepare the dataset, we started by translating the English description of the images in the Hindi Visual Genome (HVG) into Hausa automatically. Afterward, the synthetic Hausa data was carefully post-edited considering the respective images. The dataset comprises 32,923 images and their descriptions that are divided into training, development, test, and challenge test set. The Hausa Visual Genome is the first dataset of its kind and can be used for Hausa-English machine translation, multi-modal research, and image description, among various other natural language processing and generation tasks.
翻訳日:2022-05-05 03:29:43 公開日:2022-05-02
# (参考訳) ファインチューニングとハイパーパラメータ最適化を用いたデンドライトセグメンテーションのための3次元畳み込みニューラルネットワーク

3D Convolutional Neural Networks for Dendrite Segmentation Using Fine-Tuning and Hyperparameter Optimization ( http://arxiv.org/abs/2205.01167v1 )

ライセンス: CC BY 4.0
Jim James, Nathan Pruyne, Tiberiu Stan, Marcus Schwarting, Jiwon Yeom, Seungbum Hong, Peter Voorhees, Ben Blaiszik, Ian Foster(参考訳) 樹状組織は自然界に広く存在し、金属材料の主要な凝固形態である。 X線CT(X-ray Computed Tomography)のような技術は、樹状相変態現象に新たな洞察を与えている。 しかし、顕微鏡データ中の樹状形態を手動で同定することは、労働集約的かつ潜在的に曖昧である。 3Dデータセットの分析は、大きなサイズ(テラバイト)と、画像ボリューム内に散在するアーティファクトの存在のため、特に困難である。 本研究では,3次元畳み込みニューラルネットワーク(CNN)を用いて3次元データセットのセグメンテーションを行った。 FCDenseの新しい3Dバージョンを含む3つのCNNアーキテクチャが調査された。 ハイパーパラメータ最適化(hpo)と微調整技術を用いることで,2dと3dのcnnアーキテクチャを訓練し,従来の技術よりも優れることを示す。 この研究で訓練された3D U-Netアーキテクチャは、測定値(ピクセル単位の精度99.84%、境界ずれ誤差0.58ピクセル)に基づいて最良のセグメンテーションを生成し、一方、3D FCDenseは視覚検査により最も滑らかな境界線と最良のセグメンテーションを生み出した。 トレーニングされた3d cnnは、わずか60秒で852 x 852 x 250 voxel 3dボリューム全体を分割できるため、デンドリティック固化のような相変態現象をより深く理解するための進歩を早めることができる。

Dendritic microstructures are ubiquitous in nature and are the primary solidification morphologies in metallic materials. Techniques such as x-ray computed tomography (XCT) have provided new insights into dendritic phase transformation phenomena. However, manual identification of dendritic morphologies in microscopy data can be both labor intensive and potentially ambiguous. The analysis of 3D datasets is particularly challenging due to their large sizes (terabytes) and the presence of artifacts scattered within the imaged volumes. In this study, we trained 3D convolutional neural networks (CNNs) to segment 3D datasets. Three CNN architectures were investigated, including a new 3D version of FCDense. We show that using hyperparameter optimization (HPO) and fine-tuning techniques, both 2D and 3D CNN architectures can be trained to outperform the previous state of the art. The 3D U-Net architecture trained in this study produced the best segmentations according to quantitative metrics (pixel-wise accuracy of 99.84% and a boundary displacement error of 0.58 pixels), while 3D FCDense produced the smoothest boundaries and best segmentations according to visual inspection. The trained 3D CNNs are able to segment entire 852 x 852 x 250 voxel 3D volumes in only ~60 seconds, thus hastening the progress towards a deeper understanding of phase transformation phenomena such as dendritic solidification.
翻訳日:2022-05-05 03:18:02 公開日:2022-05-02
# (参考訳) 機械学習による位置ビッグデータを用いた不動産価格評価

Using Machine Learning to Evaluate Real Estate Prices Using Location Big Data ( http://arxiv.org/abs/2205.01180v1 )

ライセンス: CC BY 4.0
Walter Coleman, Ben Johann, Nicholas Pasternak, Jaya Vellayan, Natasha Foutz and Heman Shakeri(参考訳) 近年、誰もが不動産市場に参入しようとする中、住宅や商業施設の適切な評価を知ることが重要になっている。 過去の研究者は静的な不動産データ(ベッド数、浴室数、四角い映像など)や不動産情報と人口統計情報を組み合わせて不動産価格を予測することが知られている。 この調査では過去の研究を改良しようと試みた。 私たちは、人気のある回帰モデルとツリーベースモデルの予測能力を改善するために、モバイル位置情報が使えるかどうかを判断したいと考えました。 我々のモデルのためのデータを作成するために、我々は1週間に500メートル以内にユーザーを集約した不動産データから個々のプロパティにそれをアタッチすることで、モビリティデータを処理しました。 各土地の500メートル以内の住民を排除したので、各土地の総移動量データには、非居住者の国勢調査特徴のみが含まれていた。 これらの動的な国勢調査機能に加えて、地域の人口数、通勤者の平均比率、地域の住民数など、静的な国勢調査機能も含まれています。 最後に、不動産価格を予測するために複数のモデルをテストした。 提案モデルは,ランダムフォレストアウトプットを予測器として用いたリッジ回帰を用いた2つの積層ランダムフォレストモジュールである。 第1のランダム森林モデルは静的特徴のみを使用し、第2のランダム森林モデルは動的特徴のみを使用した。 我々のモデルと動的な移動位置特徴を比べると、ダイナミックな移動位置特徴と比較すると、同じモデルよりも平均2乗誤差が3/%低いが、動的な移動位置特徴がない。

With everyone trying to enter the real estate market nowadays, knowing the proper valuations for residential and commercial properties has become crucial. Past researchers have been known to utilize static real estate data (e.g. number of beds, baths, square footage) or even a combination of real estate and demographic information to predict property prices. In this investigation, we attempted to improve upon past research. So we decided to explore a unique approach: we wanted to determine if mobile location data could be used to improve the predictive power of popular regression and tree-based models. To prepare our data for our models, we processed the mobility data by attaching it to individual properties from the real estate data that aggregated users within 500 meters of the property for each day of the week. We removed people that lived within 500 meters of each property, so each property's aggregated mobility data only contained non-resident census features. On top of these dynamic census features, we also included static census features, including the number of people in the area, the average proportion of people commuting, and the number of residents in the area. Finally, we tested multiple models to predict real estate prices. Our proposed model is two stacked random forest modules combined using a ridge regression that uses the random forest outputs as predictors. The first random forest model used static features only and the second random forest model used dynamic features only. Comparing our models with and without the dynamic mobile location features concludes the model with dynamic mobile location features achieves 3/% percent lower mean squared error than the same model but without dynamic mobile location features.
翻訳日:2022-05-05 03:02:31 公開日:2022-05-02
# (参考訳) NHA12D:新しい舗装き裂データセットとき裂検出アルゴリズムの比較検討

NHA12D: A New Pavement Crack Dataset and a Comparison Study Of Crack Detection Algorithms ( http://arxiv.org/abs/2205.01198v1 )

ライセンス: CC BY 4.0
Zhening Huang, Weiwei Chen, Abir Al-Tabbaa, Ioannis Brilakis(参考訳) 亀裂検出は自動舗装検査において重要な役割を果たしている。 近年は性能向上のために多くのアルゴリズムが開発されているが、舗装画像の複雑さのため、実際はまだ課題が残っている。 開発をさらに加速させ,残りの課題を特定するため,本研究では,アートクラック検出アルゴリズムの性能を定量的に客観的に評価する比較研究を行う。 異なる視点と舗装型の画像を含むより包括的な舗装ひび割れデータセット(nha12d)を提案する。 比較実験では, 提案したデータセット (NHA12D) で収集, 評価された最大公的なひび割れデータセット上で, ひび割れ検出アルゴリズムを等しく訓練した。 全体としては、VGG-16をバックボーンとするU-Netモデルは、最高のオールアラウンド性能を持つが、一般的にはコンクリート接合部と亀裂を区別できず、偽陽性率が高い。 また, コンクリート舗装画像からの亀裂検出にも改善の余地があることが判明した。 コンクリート舗装画像のデータセットも文献に欠落している。 この領域の今後の方向性は、コンクリート舗装画像のギャップを埋めることと、未認識データセットの検出結果を強化するためにドメイン適応技術を使用することである。

Crack detection plays a key role in automated pavement inspection. Although a large number of algorithms have been developed in recent years to further boost performance, there are still remaining challenges in practice, due to the complexity of pavement images. To further accelerate the development and identify the remaining challenges, this paper conducts a comparison study to evaluate the performance of the state of the art crack detection algorithms quantitatively and objectively. A more comprehensive annotated pavement crack dataset (NHA12D) that contains images with different viewpoints and pavements types is proposed. In the comparison study, crack detection algorithms were trained equally on the largest public crack dataset collected and evaluated on the proposed dataset (NHA12D). Overall, the U-Net model with VGG-16 as backbone has the best all-around performance, but models generally fail to distinguish cracks from concrete joints, leading to a high false-positive rate. It also found that detecting cracks from concrete pavement images still has huge room for improvement. Dataset for concrete pavement images is also missing in the literature. Future directions in this area include filling the gap for concrete pavement images and using domain adaptation techniques to enhance the detection results on unseen datasets.
翻訳日:2022-05-05 02:56:00 公開日:2022-05-02
# (参考訳) グラフ畳み込みネットワークを用いた大規模低資源言語のためのマルチタスクテキスト分類

Multi-Task Text Classification using Graph Convolutional Networks for Large-Scale Low Resource Language ( http://arxiv.org/abs/2205.01204v1 )

ライセンス: CC BY 4.0
Mounika Marreddy, Subba Reddy Oota, Lakshmi Sireesha Vakada, Venkata Charan Chinni, Radhika Mamidi(参考訳) グラフ畳み込みネットワーク(gcn)は、感情分析や感情検出など、単一のテキスト分類タスクで最先端の結果を達成した。 しかし、パフォーマンスは英語のようなリソース豊富な言語をテストし、レポートすることで達成される。 マルチタスクテキスト分類にGCNを適用することは未調査領域である。 さらに、GCNをトレーニングしたり、インドの言語に英語のGCNを採用することは、データ可用性、豊富な形態変化、構文、意味の違いによって制限されることが多い。 本稿では,自然言語処理 (nlp) タスク (viz. sentiment analysis (sa), emotion identification (ei), hate-speech (hs), sarcasm detection (sar) の4つのタスクに対して,telugu言語におけるgcnの使用について検討する。 インドの言語であるTeluguを用いてGCNの性能を評価するために,4つの下流タスクについて広範な実験を行い,GCNに基づくモデルの解析を行った。 さらに,4つのNLPタスクに対して,アノテーション付きTeluguデータセットTEL-NLPを作成した。 また,Telugu上のマルチタスクテキストGCN (MT-Text GCN) を同時に利用する教師付きグラフ再構成手法を提案する。 (i)グラフオートエンコーダ(gae)を用いた単語・文グラフ再構成から低次元単語・文グラフ埋め込みを学ぶ (ii)これらの潜在文グラフ埋め込みを用いてマルチタスクテキスト分類を行う。 提案したMT-Text GCNは,既存のTelugu事前学習語埋め込みや,mBERTやXLM-Rといった多言語事前学習トランスフォーマモデルに比べて,TEL-NLPを大幅に改善した。 TEL-NLPでは,SA(0.84),EI(0.55),HS(0.83),SAR(0.66)の4つのNLPタスクに対して高いF1スコアを実現する。 最後に,テルグにおける4つのNLPタスクの定量的,定性的な分析について述べる。

Graph Convolutional Networks (GCN) have achieved state-of-art results on single text classification tasks like sentiment analysis, emotion detection, etc. However, the performance is achieved by testing and reporting on resource-rich languages like English. Applying GCN for multi-task text classification is an unexplored area. Moreover, training a GCN or adopting an English GCN for Indian languages is often limited by data availability, rich morphological variation, syntax, and semantic differences. In this paper, we study the use of GCN for the Telugu language in single and multi-task settings for four natural language processing (NLP) tasks, viz. sentiment analysis (SA), emotion identification (EI), hate-speech (HS), and sarcasm detection (SAR). In order to evaluate the performance of GCN with one of the Indian languages, Telugu, we analyze the GCN based models with extensive experiments on four downstream tasks. In addition, we created an annotated Telugu dataset, TEL-NLP, for the four NLP tasks. Further, we propose a supervised graph reconstruction method, Multi-Task Text GCN (MT-Text GCN) on the Telugu that leverages to simultaneously (i) learn the low-dimensional word and sentence graph embeddings from word-sentence graph reconstruction using graph autoencoder (GAE) and (ii) perform multi-task text classification using these latent sentence graph embeddings. We argue that our proposed MT-Text GCN achieves significant improvements on TEL-NLP over existing Telugu pretrained word embeddings, and multilingual pretrained Transformer models: mBERT, and XLM-R. On TEL-NLP, we achieve a high F1-score for four NLP tasks: SA (0.84), EI (0.55), HS (0.83) and SAR (0.66). Finally, we show our model's quantitative and qualitative analysis on the four NLP tasks in Telugu.
翻訳日:2022-05-05 02:47:41 公開日:2022-05-02
# (参考訳) 無限非定常クラスタリングのためのストリーミング推論

Streaming Inference for Infinite Non-Stationary Clustering ( http://arxiv.org/abs/2205.01212v1 )

ライセンス: CC BY 4.0
Rylan Schaeffer, Gabrielle Kaili-May Liu, Yilun Du, Scott Linderman, Ila Rani Fiete(参考訳) 非定常データの連続的なストリームから教師なしの方法で学ぶことは、インテリジェントエージェントに直面する最も一般的かつ最も挑戦的な設定の1つでしょう。 ここでは、クラスタリング(混合モデリング)の文脈における3つの条件(教師なし、ストリーミング、非定常)の学習を攻撃する。 本稿では,データから要求されるように,確率的かつ時間的かつ原則的に,モデルと新たなクラスタをオンラインに作成する機能を混合する新しいクラスタリングアルゴリズムを提案する。 そこで我々はまず,ある集合の分割上の非交換可能分布である動的中華レストランプロセス(Dynamical Chinese Restaurant Process, Dynamical CRP)という,新しい確率的プロセスを定義し,次に,動的中華レストランはクラスタ割り当てに先立って非定常的であり,効率的なストリーミング変動推論アルゴリズムを提供することを示す。 我々は、動的CRPがガウス的および非ガウス的確率の多様な合成および実データに適用可能であることを示す実験で結論付けた。

Learning from a continuous stream of non-stationary data in an unsupervised manner is arguably one of the most common and most challenging settings facing intelligent agents. Here, we attack learning under all three conditions (unsupervised, streaming, non-stationary) in the context of clustering, also known as mixture modeling. We introduce a novel clustering algorithm that endows mixture models with the ability to create new clusters online, as demanded by the data, in a probabilistic, time-varying, and principled manner. To achieve this, we first define a novel stochastic process called the Dynamical Chinese Restaurant Process (Dynamical CRP), which is a non-exchangeable distribution over partitions of a set; next, we show that the Dynamical CRP provides a non-stationary prior over cluster assignments and yields an efficient streaming variational inference algorithm. We conclude with experiments showing that the Dynamical CRP can be applied on diverse synthetic and real data with Gaussian and non-Gaussian likelihoods.
翻訳日:2022-05-05 02:29:15 公開日:2022-05-02
# (参考訳) 流体シミュレーションのためのベイズニューラルネットワークの確率予測の活用

Leveraging Stochastic Predictions of Bayesian Neural Networks for Fluid Simulations ( http://arxiv.org/abs/2205.01222v1 )

ライセンス: CC BY 4.0
Maximilian Mueller, Robin Greif, Frank Jenko and Nils Thuerey(参考訳) 流体シミュレーションにおけるベイズニューラルネットワーク(bnns)の非決定論的予測を通じて不確実性推定とマルチモダリティについて検討する。 我々は,bnnを定常流動流予測のためのサロゲートモデルとして使用する場合,不確実性の推定と合わせて,正確な物理予測を提供することを示す。 さらに,navier-stokesシミュレーションによる摂動時間系列の実験を行い,マルチモーダル進化を捉えるbnnの性能評価を行った。 以上の結果から,大きな摂動では問題となるが,ネットワークはそのような状況において高い不確実性を正確に予測することが判明した。 最後に,BNNを乱流プラズマ流と解法相互作用の文脈で検討する。 BNNベースの補正ネットワークは、粗粒度シミュレーションを安定化し、マルチモーダルな軌道生成に成功した。

We investigate uncertainty estimation and multimodality via the non-deterministic predictions of Bayesian neural networks (BNNs) in fluid simulations. To this end, we deploy BNNs in three challenging experimental test-cases of increasing complexity: We show that BNNs, when used as surrogate models for steady-state fluid flow predictions, provide accurate physical predictions together with sensible estimates of uncertainty. Further, we experiment with perturbed temporal sequences from Navier-Stokes simulations and evaluate the capabilities of BNNs to capture multimodal evolutions. While our findings indicate that this is problematic for large perturbations, our results show that the networks learn to correctly predict high uncertainties in such situations. Finally, we study BNNs in the context of solver interactions with turbulent plasma flows. We find that BNN-based corrector networks can stabilize coarse-grained simulations and successfully create multimodal trajectories.
翻訳日:2022-05-05 02:13:50 公開日:2022-05-02
# (参考訳) FINETUNA:微調整加速分子シミュレーション

FINETUNA: Fine-tuning Accelerated Molecular Simulations ( http://arxiv.org/abs/2205.01223v1 )

ライセンス: CC BY 4.0
Joseph Musielewicz, Xiaoxiao Wang, Tian Tian, and Zachary Ulissi(参考訳) 機械学習のアプローチは、原子論的シミュレーションの近似密度汎関数理論(dft)を計算効率良く行う可能性を秘めており、実世界の問題に対する計算シミュレーションの影響を劇的に増加させる可能性がある。 しかし、それらの精度とラベル付きデータを生成するコストによって制限されている。 本稿では,open catalystプロジェクトから得られた大規模事前学習グラフニューラルネットワークモデルから得られた事前物理情報を取り入れることで,原子システムのシミュレーションを効率的に高精度に促進するオンラインアクティブラーニングフレームワークを提案する。 これらのシミュレーションを加速することにより、有用なデータがより安価に生成され、より良いモデルをトレーニングし、より原子系のスクリーニングが可能になる。 また,局所最適化手法を速度と精度の両方に基づいて比較する手法を提案する。 30のベンチマーク吸着触媒系を用いた実験により,事前学習したモデルから事前情報を組み込む変換学習法は,精度の0.02 eV 93%を満たすとともに,DFT計算数を91%削減し,シミュレーションを加速することがわかった。 最後に,vaspに組み込まれたインタラクティブな機能を活用して,オンラインアクティブラーニングフレームワーク内のシングルポイント計算を,スタートアップコストを伴わずに効率的に計算する手法を実証する。 これによってVASPは、従来の単一ポイント計算よりも75%少ない自己整合サイクルを必要としながら、私たちのフレームワークと連動して動作します。 VASPインタラクティブコードを使用したオンラインアクティブラーニングの実装と例は、GithubのオープンソースFINETUNAパッケージで公開されている。

Machine learning approaches have the potential to approximate Density Functional Theory (DFT) for atomistic simulations in a computationally efficient manner, which could dramatically increase the impact of computational simulations on real-world problems. However, they are limited by their accuracy and the cost of generating labeled data. Here, we present an online active learning framework for accelerating the simulation of atomic systems efficiently and accurately by incorporating prior physical information learned by large-scale pre-trained graph neural network models from the Open Catalyst Project. Accelerating these simulations enables useful data to be generated more cheaply, allowing better models to be trained and more atomistic systems to be screened. We also present a method of comparing local optimization techniques on the basis of both their speed and accuracy. Experiments on 30 benchmark adsorbate-catalyst systems show that our method of transfer learning to incorporate prior information from pre-trained models accelerates simulations by reducing the number of DFT calculations by 91%, while meeting an accuracy threshold of 0.02 eV 93% of the time. Finally, we demonstrate a technique for leveraging the interactive functionality built in to VASP to efficiently compute single point calculations within our online active learning framework without the significant startup costs. This allows VASP to work in tandem with our framework while requiring 75% fewer self-consistent cycles than conventional single point calculations. The online active learning implementation, and examples using the VASP interactive code, are available in the open source FINETUNA package on Github.
翻訳日:2022-05-05 01:52:40 公開日:2022-05-02
# (参考訳) 多文推論のためのパラグラフ変換器事前学習

Paragraph-based Transformer Pre-training for Multi-Sentence Inference ( http://arxiv.org/abs/2205.01228v1 )

ライセンス: CC BY 4.0
Luca Di Liello, Siddhant Garg, Luca Soldaini, Alessandro Moschitti(参考訳) 回答文選択(as2)や事実検証といった推論タスクは通常、個々の文ペア分類器としてトランスフォーマーベースのモデルを微調整することで解決される。 最近の研究では、これらのタスクは複数の候補文の依存性を一緒にモデル化することで恩恵を受けている。 本稿では,マルチ候補推論タスクの微調整に使用する場合,一般的な事前学習トランスフォーマーの性能が低下することを示す。 次に、複数の入力文にまたがる段落レベルの意味論をモデル化する新しい事前学習目的を提案する。 3つのAS2と1つの事実検証データセットに対する評価は、従来のマルチ候補推論タスクのジョイントモデルや、これらのタスクの文対式定式化のクロスエンコーダとして使われる場合よりも、事前学習技術の優位性を示している。

Inference tasks such as answer sentence selection (AS2) or fact verification are typically solved by fine-tuning transformer-based models as individual sentence-pair classifiers. Recent studies show that these tasks benefit from modeling dependencies across multiple candidate sentences jointly. In this paper, we first show that popular pre-trained transformers perform poorly when used for fine-tuning on multi-candidate inference tasks. We then propose a new pre-training objective that models the paragraph-level semantics across multiple input sentences. Our evaluation on three AS2 and one fact verification datasets demonstrates the superiority of our pre-training technique over the traditional ones for transformers used as joint models for multi-candidate inference tasks, as well as when used as cross-encoders for sentence-pair formulations of these tasks.
翻訳日:2022-05-05 01:29:12 公開日:2022-05-02
# (参考訳) 検索強化機械学習

Retrieval-Enhanced Machine Learning ( http://arxiv.org/abs/2205.01230v1 )

ライセンス: CC BY 4.0
Hamed Zamani and Fernando Diaz and Mostafa Dehghani and Donald Metzler and Michael Bendersky(参考訳) 情報アクセスシステムは,様々なタスクをこなすのに長い時間を費やしてきたが,機械学習モデルなどのタスク駆動型マシンを含む情報アクセスシステムの利用者範囲を広げる。 このように、索引付け、表現、検索、ランキングの基本的な原則を適用して、モデルの一般化、スケーラビリティ、堅牢性、解釈可能性を大幅に改善することができる。 本稿では,多数の既存モデルを含む汎用検索強化機械学習(REML)フレームワークについて述べる。 REMLは情報検索の慣例に挑戦し、最適化を含む中核領域における新たな進歩の機会を提示している。 REMLリサーチアジェンダは、情報アクセス研究の新しいスタイルの基礎を築き、機械学習と人工知能の進歩への道を開く。

Although information access systems have long supported people in accomplishing a wide range of tasks, we propose broadening the scope of users of information access systems to include task-driven machines, such as machine learning models. In this way, the core principles of indexing, representation, retrieval, and ranking can be applied and extended to substantially improve model generalization, scalability, robustness, and interpretability. We describe a generic retrieval-enhanced machine learning (REML) framework, which includes a number of existing models as special cases. REML challenges information retrieval conventions, presenting opportunities for novel advances in core areas, including optimization. The REML research agenda lays a foundation for a new style of information access research and paves a path towards advancing machine learning and artificial intelligence.
翻訳日:2022-05-05 01:10:47 公開日:2022-05-02
# (参考訳) 解釈可能なクラウドセキュリティポリシ生成のための制約プログラミングとグラフ表現学習の利用

Using Constraint Programming and Graph Representation Learning for Generating Interpretable Cloud Security Policies ( http://arxiv.org/abs/2205.01240v1 )

ライセンス: CC BY 4.0
Mikhail Kazdagli, Mohit Tiwari, Akshat Kumar(参考訳) 現代のソフトウェアシステムは、パブリッククラウドに格納されたビジネス機密データからインサイトをマイニングする。 データ漏洩は通常、商業組織に重大な(金銭的な)損失をもたらす。 概念的には、クラウドセキュリティはIT管理者が適切に設定し定期的に更新する必要があるIDアクセス管理(IAM)ポリシーに大きく依存している。 セキュリティの無視とヒューマンエラーは、攻撃者のバックドアを開く可能性のあるIAMポリシーの誤った設定につながることが多い。 これらの課題に対処するため、まず制約プログラミング(CP)を用いて最適なIAMポリシーを生成することを符号化する新しいフレームワークを開発する。 クラウドユーザのダークパーミッションの削減は,不必要なデータストアアクセス権限の最小化を直感的に意味する最適基準である。 第二に、IAMポリシーを解釈可能にするために、ユーザの過去のアクセスパターンに適用したグラフ表現学習を使用して、類似性制約でCPモデルを拡張します。 第三に、複数の攻撃モデルを説明し、最適化されたIAMポリシーは、8つの商業組織と合成インスタンスの実際のデータを用いたセキュリティ攻撃の影響を著しく低減することを示す。

Modern software systems rely on mining insights from business sensitive data stored in public clouds. A data breach usually incurs significant (monetary) loss for a commercial organization. Conceptually, cloud security heavily relies on Identity Access Management (IAM) policies that IT admins need to properly configure and periodically update. Security negligence and human errors often lead to misconfiguring IAM policies which may open a backdoor for attackers. To address these challenges, first, we develop a novel framework that encodes generating optimal IAM policies using constraint programming (CP). We identify reducing dark permissions of cloud users as an optimality criterion, which intuitively implies minimizing unnecessary datastore access permissions. Second, to make IAM policies interpretable, we use graph representation learning applied to historical access patterns of users to augment our CP model with similarity constraints: similar users should be grouped together and share common IAM policies. Third, we describe multiple attack models and show that our optimized IAM policies significantly reduce the impact of security attacks using real data from 8 commercial organizations, and synthetic instances.
翻訳日:2022-05-05 00:47:39 公開日:2022-05-02
# 深層学習の無線通信システム設計への応用

Applications of Deep Learning to the Design of Enhanced Wireless Communication Systems ( http://arxiv.org/abs/2205.01210v1 )

ライセンス: Link先を確認
Mathieu Goutay(参考訳) 通信システムの物理層における革新は、伝統的にトランシーバーを処理ブロックの集合に分解することで達成され、それぞれが数学的モデルに基づいて独立に最適化されている。 逆に、ディープラーニング(DL)ベースのシステムでは、トラクタブルモデルが利用できないような、ますます複雑なタスクを処理できる。 この論文は、物理層におけるDLの潜在能力を解き放つための様々なアプローチを比較することを目的としている。 まず、ニューラルネットワーク(NN)ベースのブロック戦略を説明し、通信システム内のブロックを置き換えるためにNNを最適化する。 本稿では,既存のDLアーキテクチャ上に構築されたMU-MIMO(multi-user multiple-input multiple-output)検出手法を提案する。 次に,送信機と受信機をオートエンコーダとしてモデル化するエンドツーエンド戦略について述べる。 本手法は,ピーク平均電力比 (papr) と隣接チャネルリーク率 (aclr) 制約を満たしながら高スループットを実現する波形を設計したものである。 最後に,複数のDLコンポーネントを従来のアーキテクチャに挿入し,エンドツーエンドのパフォーマンスを最適化するハイブリッド戦略を提案する。 その利点を実証するため,従来の受信機に比べてビット誤り率(BER)が低く,かつ,任意のユーザに対してスケーラブルなDL拡張MU-MIMO受信機を提案する。 それぞれのアプローチには長所と短所がある。 1つは最も実装が簡単であるが、個々のブロック最適化はシステム全体の最適性を保証しない。 一方、第2のアプローチで設計されたシステムは計算が複雑であるが、パイロットレストランスミッションのような新しい機会を得られる。 最後に、第3のアプローチの柔軟性とエンドツーエンドのパフォーマンス向上が組み合わさって、短期的な実装への利用を動機付けている。

Innovation in the physical layer of communication systems has traditionally been achieved by breaking down the transceivers into sets of processing blocks, each optimized independently based on mathematical models. Conversely, deep learning (DL)-based systems are able to handle increasingly complex tasks for which no tractable models are available. This thesis aims at comparing different approaches to unlock the full potential of DL in the physical layer. First, we describe a neural network (NN)-based block strategy, where an NN is optimized to replace a block in a communication system. We apply this strategy to introduce a multi-user multiple-input multiple-output (MU-MIMO) detector that builds on top of an existing DL-based architecture. Second, we detail an end-to-end strategy, in which the transmitter and receiver are modeled as an autoencoder. This approach is illustrated with the design of waveforms that achieve high throughputs while satisfying peak-to-average power ratio (PAPR) and adjacent channel leakage ratio (ACLR) constraints. Lastly, we propose a hybrid strategy, where multiple DL components are inserted into a traditional architecture but are trained to optimize the end-to-end performance. To demonstrate its benefits, we propose a DL-enhanced MU-MIMO receiver that both enable lower bit error rates (BERs) compared to a conventional receiver and remains scalable to any number of users. Each approach has its own strengths and shortcomings. While the first one is the easiest to implement, its individual block optimization does not ensure the overall system optimality. On the other hand, systems designed with the second approach are computationally complex but allow for new opportunities such as pilotless transmissions. Finally, the combined flexibility and end-to-end performance gains of the third approach motivate its use for short-term practical implementations.
翻訳日:2022-05-04 16:06:57 公開日:2022-05-02
# 高性能自動脳腫瘍分離のための高性能・高効率CNNシステム

A Performance-Consistent and Computation-Efficient CNN System for High-Quality Automated Brain Tumor Segmentation ( http://arxiv.org/abs/2205.01239v1 )

ライセンス: Link先を確認
Juncheng Tong and Chunyan Wang(参考訳) cnnベースの完全自動脳腫瘍摘出システムの開発は急速に進められている。 実際に適用するためには、CNNベースの完全自動脳-運動-隔離システムの開発研究が急速に進められている。 実際にシステムを適用するためには、優れた処理品質と信頼性が必要である。 さらに、そのようなシステムの広範な応用においては、計算複雑性の最小化が望ましいため、計算におけるランダム性の最小化や性能の整合性の向上も期待できる。 この目的のために,提案方式のCNNは2つの特徴を持つユニークな構造を持つ。 まず, 特徴抽出ブロックの3つの経路を, 多モード入力, モノモダリティの包括的特徴情報, ペアモダリティ, クロスモダリティデータから抽出する。 また、特定の3枝の分類ブロックを持ち、4つのクラスのピクセルを識別する。 各枝は、対象腫瘍領域の対応する接地真実データでパラメータを具体的に更新するように別々に訓練される。 システムの畳み込み層は、特定の目的のためにカスタム設計されており、合計61,843のパラメータからなる非常に単純な構成になっている。 提案システムはBraTS2018とBraTS2019データセットで広範囲にテストされている。 BraTS2018の10実験から得られたDiceスコアの平均値は,BraTS2019の腫瘍,腫瘍全体,腫瘍コアをそれぞれ強化するための0.787+0.003,0.886+0.002,0.801+0.007,0.751+0.007,0.885+0.002,0.776+0.004である。 実験の結果,提案システムは高品質なセグメンテーションを一貫した方法で実現可能であることが示された。 さらに、計算の複雑さが非常に低いため、様々な環境での実装/適用が容易になる。

The research on developing CNN-based fully-automated Brain-Tumor-Segmentation systems has been progressed rapidly. For the systems to be applicable in practice, a good The research on developing CNN-based fully-automated Brain-Tumor-Segmentation systems has been progressed rapidly. For the systems to be applicable in practice, a good processing quality and reliability are the must. Moreover, for wide applications of such systems, a minimization of computation complexity is desirable, which can also result in a minimization of randomness in computation and, consequently, a better performance consistency. To this end, the CNN in the proposed system has a unique structure with 2 distinguished characters. Firstly, the three paths of its feature extraction block are designed to extract, from the multi-modality input, comprehensive feature information of mono-modality, paired-modality and cross-modality data, respectively. Also, it has a particular three-branch classification block to identify the pixels of 4 classes. Each branch is trained separately so that the parameters are updated specifically with the corresponding ground truth data of a target tumor areas. The convolution layers of the system are custom-designed with specific purposes, resulting in a very simple config of 61,843 parameters in total. The proposed system is tested extensively with BraTS2018 and BraTS2019 datasets. The mean Dice scores, obtained from the ten experiments on BraTS2018 validation samples, are 0.787+0.003, 0.886+0.002, 0.801+0.007, for enhancing tumor, whole tumor and tumor core, respectively, and 0.751+0.007, 0.885+0.002, 0.776+0.004 on BraTS2019. The test results demonstrate that the proposed system is able to perform high-quality segmentation in a consistent manner. Furthermore, its extremely low computation complexity will facilitate its implementation/application in various environments.
翻訳日:2022-05-04 14:58:19 公開日:2022-05-02
# TRUST XAI: IIoTセキュリティに関するケーススタディによるAIのモデルに依存しない説明

TRUST XAI: Model-Agnostic Explanations for AI With a Case Study on IIoT Security ( http://arxiv.org/abs/2205.01232v1 )

ライセンス: Link先を確認
Maede Zolanvari, Zebo Yang, Khaled Khan, Raj Jain, and Nader Meskin(参考訳) AIの著しい成長にもかかわらず、その“ブラックボックス”の性質は、適切な信頼を生み出す上での課題を生み出します。 したがって、重要な産業インフラ、医療システム、金融アプリケーションなど、iotハイリスクアプリケーションにおいてスタンドアロンユニットとして利用されることはめったにない。 この問題を解決するために、説明可能なAI(XAI)が登場した。 しかしながら、特に数値アプリケーションでは、適切に高速かつ正確なXAIを設計することは依然として困難である。 本稿では,トランスペアレンシー・アポン・統計理論 (Transparency Relying Upon Statistical Theory, TRUST) と呼ばれる汎用XAIモデルを提案する。 簡単に言うと、TRUST XAIはAIベースのシステムでAIの出力の統計的挙動をモデル化する。 因子分析は入力特徴を新しい潜在変数のセットに変換するために使用される。 相互情報を使ってこれらの変数をランク付けし、aiのアウトプットでもっとも影響力のある変数だけを選び、それらをクラスの“代表”と呼ぶ。 次に、マルチモーダルガウス分布を用いて、各クラスに属する新しいサンプルの可能性を決定する。 3つの異なるサイバーセキュリティデータセットを用いた産業用モノのインターネット(IIoT)のサイバーセキュリティに関するケーススタディにおいて、TRUSTの有効性を実証する。 IIoTは数値データを扱う顕著なアプリケーションである。 その結果, TRUST XAIは, 平均成功率98%の新しいランダムサンプルについて説明できることがわかった。 一般的なXAIモデルであるLIMEと比較して、TRUSTは性能、速度、説明可能性の点で優れていることが示されている。 最後に、TRUSTがユーザに対してどのように説明されるかを示す。

Despite AI's significant growth, its "black box" nature creates challenges in generating adequate trust. Thus, it is seldom utilized as a standalone unit in IoT high-risk applications, such as critical industrial infrastructures, medical systems, and financial applications, etc. Explainable AI (XAI) has emerged to help with this problem. However, designing appropriately fast and accurate XAI is still challenging, especially in numerical applications. Here, we propose a universal XAI model named Transparency Relying Upon Statistical Theory (TRUST), which is model-agnostic, high-performing, and suitable for numerical applications. Simply put, TRUST XAI models the statistical behavior of the AI's outputs in an AI-based system. Factor analysis is used to transform the input features into a new set of latent variables. We use mutual information to rank these variables and pick only the most influential ones on the AI's outputs and call them "representatives" of the classes. Then we use multi-modal Gaussian distributions to determine the likelihood of any new sample belonging to each class. We demonstrate the effectiveness of TRUST in a case study on cybersecurity of the industrial Internet of things (IIoT) using three different cybersecurity datasets. As IIoT is a prominent application that deals with numerical data. The results show that TRUST XAI provides explanations for new random samples with an average success rate of 98%. Compared with LIME, a popular XAI model, TRUST is shown to be superior in the context of performance, speed, and the method of explainability. In the end, we also show how TRUST is explained to the user.
翻訳日:2022-05-04 14:54:27 公開日:2022-05-02
# VAE-Loco:不整合歩行表現学習による四足歩行

VAE-Loco: Versatile Quadruped Locomotion by Learning a Disentangled Gait Representation ( http://arxiv.org/abs/2205.01179v1 )

ライセンス: Link先を確認
Alexander L. Mitchell, Wolfgang Merkt, Mathieu Geisert, Siddhant Gangapurwala, Martin Engelcke, Oiwi Parker Jones, Ioannis Havoutis and Ingmar Posner(参考訳) 四足歩行は急速に成熟し、ロボットは様々な非構造な地形を日常的に横断している。 しかし、様々な事前計算されたスタイルから選択することで、歩行は典型的には変化するが、現在のプランナーは、ロボットが動いている間、キー歩行パラメータを連続的に変化させることができない。 予期せぬ操作特性を持つ歩行の合成、オンザフライ、あるいは動的操作のブレンディングは、現在の最先端技術の能力を超えている。 本研究では,特定の歩行を構成する主要なスタンスフェーズを捉える潜在空間を学習することで,この制限に対処する。 これは、単一のトロットスタイルで訓練された生成モデルによって達成され、駆動信号の潜伏状態の1次元への適用が連続的なトロットスタイルを合成する全体計画を引き起こすような非絡み合いを促進する。 運転信号の特定の特性は,歩調,歩幅,姿勢持続時間などの歩行パラメータに直接マップできることを実証する。 本手法の特性から,これらの合成歩行はロボット操作中にオンラインで連続的に変動し,運動の豊かさをトレーニング中に見られる比較的狭い動作よりもはるかに大きく捉えている。 さらに、生成モデルの使用は外乱の検出と緩和を容易にし、汎用的で堅牢な計画フレームワークを提供する。 実ANYmal四足歩行ロボットの2つのバージョンに対するアプローチを評価し, 動的トロットスタイルの連続的なブレンドを実現するとともに, 外部摂動に対して頑健かつ反応性を示す。

Quadruped locomotion is rapidly maturing to a degree where robots now routinely traverse a variety of unstructured terrains. However, while gaits can be varied typically by selecting from a range of pre-computed styles, current planners are unable to vary key gait parameters continuously while the robot is in motion. The synthesis, on-the-fly, of gaits with unexpected operational characteristics or even the blending of dynamic manoeuvres lies beyond the capabilities of the current state-of-the-art. In this work we address this limitation by learning a latent space capturing the key stance phases constituting a particular gait. This is achieved via a generative model trained on a single trot style, which encourages disentanglement such that application of a drive signal to a single dimension of the latent state induces holistic plans synthesising a continuous variety of trot styles. We demonstrate that specific properties of the drive signal map directly to gait parameters such as cadence, footstep height and full stance duration. Due to the nature of our approach these synthesised gaits are continuously variable online during robot operation and robustly capture a richness of movement significantly exceeding the relatively narrow behaviour seen during training. In addition, the use of a generative model facilitates the detection and mitigation of disturbances to provide a versatile and robust planning framework. We evaluate our approach on two versions of the real ANYmal quadruped robots and demonstrate that our method achieves a continuous blend of dynamic trot styles whilst being robust and reactive to external perturbations.
翻訳日:2022-05-04 14:52:27 公開日:2022-05-02
# 劣化源に対するロバストフェデレーション学習のための性能重み付け

Performance Weighting for Robust Federated Learning Against Corrupted Sources ( http://arxiv.org/abs/2205.01184v1 )

ライセンス: Link先を確認
Dimitris Stripelis, Marcin Abram, Jose Luis Ambite(参考訳) フェデレーション学習は分散機械学習の主要な計算パラダイムとして登場した。 そのユニークなデータプライバシ特性により、モデルのトレーニングを共同で行なえると同時に、特定のプライバシ保護保証をクライアントに提供することができます。 しかし、現実世界のアプリケーションでは、フェデレーションされた環境は、悪意のあるクライアントと悪意のあるクライアントの混合で構成され、フェデレーションされたモデルのパフォーマンスを腐敗させ、劣化させることを目的としている。 モデル中毒やデータ破損など,さまざまな腐敗スキームが適用可能だ。 ここでは,フェデレーション学習の各種データ破損攻撃に対する感受性を,後者に焦点をあてる。 局所重みの標準的グローバルアグリゲーション方式は, クライアントの破損の有無で非効率であることを示す。 この問題を軽減するために,分散検証データセット上で計算されたタスク指向のパフォーマンスに基づく手法のクラスを提案する。 具体的には,幾何平均に基づく頑健な重み集約スキームを構築し,ランダムラベルシャッフルおよび標的ラベルフリップ攻撃においてその効果を示す。

Federated Learning has emerged as a dominant computational paradigm for distributed machine learning. Its unique data privacy properties allow us to collaboratively train models while offering participating clients certain privacy-preserving guarantees. However, in real-world applications, a federated environment may consist of a mixture of benevolent and malicious clients, with the latter aiming to corrupt and degrade federated model's performance. Different corruption schemes may be applied such as model poisoning and data corruption. Here, we focus on the latter, the susceptibility of federated learning to various data corruption attacks. We show that the standard global aggregation scheme of local weights is inefficient in the presence of corrupted clients. To mitigate this problem, we propose a class of task-oriented performance-based methods computed over a distributed validation dataset with the goal to detect and mitigate corrupted clients. Specifically, we construct a robust weight aggregation scheme based on geometric mean and demonstrate its effectiveness under random label shuffling and targeted label flipping attacks.
翻訳日:2022-05-04 14:51:58 公開日:2022-05-02
# 三角形ドロップアウト:リトレーニングなしの可変ネットワーク幅

Triangular Dropout: Variable Network Width without Retraining ( http://arxiv.org/abs/2205.01235v1 )

ライセンス: Link先を確認
Edward W. Staley and Jared Markowitz(参考訳) ニューラルネットワークにおける最も基本的な設計選択の1つは層幅であり、ネットワークが学習し、ソリューションの複雑さを決定する能力に影響する。 後者の性質は情報ボトルネックを導入する際にしばしば利用され、ネットワークは圧縮表現を学習せざるを得ない。 しかし、そのようなアーキテクチャの決定は訓練が始まると不変であり、より圧縮されたアーキテクチャに切り替えるには再訓練が必要である。 本稿では,この制限を伴わない三角形ドロップアウトと呼ばれる新しい層設計を提案する。 トレーニング後、層幅を任意に減らし、狭さのために性能を交換することができる。 このようなメカニズムの構築とユースケースを3つの領域で実証する。 まず,自動エンコーダにおける三角形ドロップアウトの定式化について述べる。 第二に、ImageNetでVGG19に三角形のドロップアウトを追加し、リトレーニングなしでパラメータを大幅に削減できる強力なネットワークを作成します。 最後に,選択した制御問題に対する強化学習(rl)ポリシーへの三角形ドロップアウトの適用について検討する。

One of the most fundamental design choices in neural networks is layer width: it affects the capacity of what a network can learn and determines the complexity of the solution. This latter property is often exploited when introducing information bottlenecks, forcing a network to learn compressed representations. However, such an architecture decision is typically immutable once training begins; switching to a more compressed architecture requires retraining. In this paper we present a new layer design, called Triangular Dropout, which does not have this limitation. After training, the layer can be arbitrarily reduced in width to exchange performance for narrowness. We demonstrate the construction and potential use cases of such a mechanism in three areas. Firstly, we describe the formulation of Triangular Dropout in autoencoders, creating models with selectable compression after training. Secondly, we add Triangular Dropout to VGG19 on ImageNet, creating a powerful network which, without retraining, can be significantly reduced in parameters. Lastly, we explore the application of Triangular Dropout to reinforcement learning (RL) policies on selected control problems.
翻訳日:2022-05-04 14:51:40 公開日:2022-05-02
# 速度予測によるスケジューリング

Scheduling with Speed Predictions ( http://arxiv.org/abs/2205.01247v1 )

ライセンス: Link先を確認
Eric Balkanski, Tingting Ou, Clifford Stein, Hao-Ting Wei(参考訳) 予測を伴うアルゴリズムは、不完全な情報設定における悲観的な最悪のケース境界を克服するために最近使われたフレームワークである。 スケジューリングの文脈では、最近の研究は機械学習による予測を利用して、ジョブの処理時間が最初に不明な設定で近似比を改善するアルゴリズムを設計している。 本稿では,ジョブの処理時間ではなく,マシンの速度が未知である高速化スケジューリング問題について検討し,この問題を予測を用いて拡張する。 我々の主な結果は、任意の定数に対して$\alpha, \epsilon \in (0,1)$に対して$\min\{\eta^2(1+\epsilon)^2(1+\alpha), (1+\epsilon)(2+2/\alpha)\}$の近似を達成するアルゴリズムである。 予測が正確であれば、この近似は、予測が間違っても最悪の場合でも$(1+\epsilon)(2 + 2/\alpha)$の近似を維持しながら、マシン数を$m$とする速度ロバストスケジューリングに対して、これまで最もよく知られていた2-1/m$の近似よりも改善される。 さらに, 等小および無限小のジョブサイズを持つ特殊な場合に対する近似精度が向上し, アルゴリズムの結果を下限で補完する。 最後に,本アルゴリズムを既存の速度ロバストスケジューリングアルゴリズムに対して実証的に評価する。

Algorithms with predictions is a recent framework that has been used to overcome pessimistic worst-case bounds in incomplete information settings. In the context of scheduling, very recent work has leveraged machine-learned predictions to design algorithms that achieve improved approximation ratios in settings where the processing times of the jobs are initially unknown. In this paper, we study the speed-robust scheduling problem where the speeds of the machines, instead of the processing times of the jobs, are unknown and augment this problem with predictions. Our main result is an algorithm that achieves a $\min\{\eta^2(1+\epsilon)^2(1+\alpha), (1+\epsilon)(2 + 2/\alpha)\}$ approximation, for any constants $\alpha, \epsilon \in (0,1)$, where $\eta \geq 1$ is the prediction error. When the predictions are accurate, this approximation improves over the previously best known approximation of $2-1/m$ for speed-robust scheduling, where $m$ is the number of machines, while simultaneously maintaining a worst-case approximation of $(1+\epsilon)(2 + 2/\alpha)$ even when the predictions are wrong. In addition, we obtain improved approximations for the special cases of equal and infinitesimal job sizes, and we complement our algorithmic results with lower bounds. Finally, we empirically evaluate our algorithm against existing algorithms for speed-robust scheduling.
翻訳日:2022-05-04 14:51:24 公開日:2022-05-02
# マルチモーダルディープ・サバイバル分析によるアルツハイマー型認知症の経時的変化予測

Predicting Time-to-conversion for Dementia of Alzheimer's Type using Multi-modal Deep Survival Analysis ( http://arxiv.org/abs/2205.01188v1 )

ライセンス: Link先を確認
Ghazal Mirabnahrazam, Da Ma, C\'edric Beaulac, Sieun Lee, Karteek Popuri, Hyunwoo Lee, Jiguo Cao, James E Galvin, Lei Wang, Mirza Faisal Beg, the Alzheimer's Disease Neuroimaging Initiative(参考訳) アルツハイマー型認知症(DAT)は多くの要因に影響される複雑な疾患であるが、それぞれの要因が疾患の進行にどう寄与するかは不明である。 これらの因子の詳細な検査は、様々な疾患の患者に対するDATへの変換時間を正確に見積もることができる。 我々は、アルツハイマー病神経画像イニシアチブ(ADNI)データベースに、MRI、遺伝子、CDC(認知検査、デモグラフィー、CSF)データモダリティから63の特徴を持つ401名の被験者を用いた。 我々は,従来のCox回帰モデルを拡張したディープラーニングに基づく生存分析モデルを用いて,DATへの変換時間を予測する。 以上の結果より, 遺伝学的特徴が生存率に最も寄与し, CDC的特徴が最も寄与した。 MRIと遺伝的特徴を組み合わせることで、いずれのモダリティ単独の使用よりも生存予測が向上したが、CDCをあらゆる特徴の組み合わせに追加することは、CDC機能のみの使用と同様に機能した。 その結果,認知検査結果の収集を含む現在の臨床試験は,費用がかかる遺伝子やCSFデータを用いた生存分析結果よりも優れていた。

Dementia of Alzheimer's Type (DAT) is a complex disorder influenced by numerous factors, but it is unclear how each factor contributes to disease progression. An in-depth examination of these factors may yield an accurate estimate of time-to-conversion to DAT for patients at various disease stages. We used 401 subjects with 63 features from MRI, genetic, and CDC (Cognitive tests, Demographic, and CSF) data modalities in the Alzheimer's Disease Neuroimaging Initiative (ADNI) database. We used a deep learning-based survival analysis model that extends the classic Cox regression model to predict time-to-conversion to DAT. Our findings showed that genetic features contributed the least to survival analysis, while CDC features contributed the most. Combining MRI and genetic features improved survival prediction over using either modality alone, but adding CDC to any combination of features only worked as well as using only CDC features. Consequently, our study demonstrated that using the current clinical procedure, which includes gathering cognitive test results, can outperform survival analysis results produced using costly genetic or CSF data.
翻訳日:2022-05-04 14:30:59 公開日:2022-05-02
# 素因数分解定理を用いたグラフ同型ネットワークに関する結果の改善

An improvement to a result about graph isomorphism networks using the prime factorization theorem ( http://arxiv.org/abs/2205.01214v1 )

ライセンス: Link先を確認
Rahul Sarkar(参考訳) ユニークな素因数分解定理は可算集合 $\mathcal{X}$ 上の函数の存在を示すために用いられ、和アグリゲータ函数は有限サイズの $\mathcal{X}$ のすべての多重集合に対して射影的である。

The unique prime factorization theorem is used to show the existence of a function on a countable set $\mathcal{X}$ so that the sum aggregator function is injective on all multisets of $\mathcal{X}$ of finite size.
翻訳日:2022-05-04 14:30:37 公開日:2022-05-02
# 人工的不変性の理論:反差別法の下でのアルゴリズム群保護

The Theory of Artificial Immutability: Protecting Algorithmic Groups Under Anti-Discrimination Law ( http://arxiv.org/abs/2205.01166v1 )

ライセンス: Link先を確認
Sandra Wachter(参考訳) 人工知能(AI)は、人々の重要な決定にますます使われています。 AIバイアスやプロキシ差別の問題はよく研究されているが、性や民族のような法的に保護されたグループにマップされていない、あるいは関連しないグループに基づいてプロファイリングによって生じる害に焦点が当てられている。 既存の平等法は、創発的なAI駆動の不平等から保護できるのだろうか? 本論では,北米およびヨーロッパの非差別主義,法学,法学におけるアルゴリズム群の法的地位について検討し,アルゴリズム群が伝統的保護グループに匹敵しないことを示す。 しかし、これらの新しいグループは保護に値する。 本稿では,AIグループを法の範囲に含めることを目的とした,新たな危害理論である「人工不変性理論」を提案する。 私の理論では、アルゴリズムグループが、人々の自律性を制限し、重要な目標を達成するのを防ぐ、事実上不変な特性として振舞う方法を記述しています。

Artificial Intelligence (AI) is increasingly used to make important decisions about people. While issues of AI bias and proxy discrimination are well explored, less focus has been paid to the harms created by profiling based on groups that do not map to or correlate with legally protected groups such as sex or ethnicity. This raises a question: are existing equality laws able to protect against emergent AI-driven inequality? This article examines the legal status of algorithmic groups in North American and European non-discrimination doctrine, law, and jurisprudence and will show that algorithmic groups are not comparable to traditional protected groups. Nonetheless, these new groups are worthy of protection. I propose a new theory of harm - "the theory of artificial immutability" - that aims to bring AI groups within the scope of the law. My theory describes how algorithmic groups act as de facto immutable characteristics in practice that limit people's autonomy and prevent them from achieving important goals.
翻訳日:2022-05-04 14:30:03 公開日:2022-05-02
# ADDAI:分散AIを用いた異常検出

ADDAI: Anomaly Detection using Distributed AI ( http://arxiv.org/abs/2205.01231v1 )

ライセンス: Link先を確認
Maede Zolanvari, Ali Ghubaish, and Raj Jain(参考訳) IoT(Internet of Things)、特にIIoT(Industrial IoT)を扱う場合には、2つの顕著な課題が思い浮かびます。 第一に、IoTデバイスへの大量のデータストリーミングであり、第二に、これらのシステムが動作しなければならない高速なペースである。 エッジ/クラウド構造という形での分散コンピューティングは、これら2つの課題を克服するための一般的なテクニックである。 本稿では,多数のiotソースをカバーするため,地理的に容易にスパンできるaddai(anomaly detection using distributed ai)を提案する。 分散した性質のため、高速、単一障害点に対する堅牢性、通信オーバーヘッドの低減、プライバシ、スケーラビリティといった重要なIIoT要件が保証されている。 実証実験により,通信コストが最小化され,ローカル層における生データのプライバシーを維持しつつ,性能が大幅に向上することを示す。 ADDAIは、すべての生センサデータをクラウドにオフロードする従来の手法と比較して、通信オーバーヘッドを半分に減らしながら、平均成功率98.4%の新しいランダムサンプルの予測を提供する。

When dealing with the Internet of Things (IoT), especially industrial IoT (IIoT), two manifest challenges leap to mind. First is the massive amount of data streaming to and from IoT devices, and second is the fast pace at which these systems must operate. Distributed computing in the form of edge/cloud structure is a popular technique to overcome these two challenges. In this paper, we propose ADDAI (Anomaly Detection using Distributed AI) that can easily span out geographically to cover a large number of IoT sources. Due to its distributed nature, it guarantees critical IIoT requirements such as high speed, robustness against a single point of failure, low communication overhead, privacy, and scalability. Through empirical proof, we show the communication cost is minimized, and the performance improves significantly while maintaining the privacy of raw data at the local layer. ADDAI provides predictions for new random samples with an average success rate of 98.4% while reducing the communication overhead by half compared with the traditional technique of offloading all the raw sensor data to the cloud.
翻訳日:2022-05-04 14:29:45 公開日:2022-05-02
# LiDARを用いた3次元物体検出装置のコスト・アウェア比較

Cost-Aware Comparison of LiDAR-based 3D Object Detectors ( http://arxiv.org/abs/2205.01142v1 )

ライセンス: Link先を確認
Xiaofang Wang, Kris M. Kitani(参考訳) LiDARをベースとした3Dオブジェクト検出に多大な研究努力が注がれており、その経験的性能は大幅に改善されている。 進歩は奨励されているが、見過ごされた問題を観察している: 異なる3D検出器を同じコストで比較することは、まだ一般的ではない。 これにより、最近提案されたアーキテクチャ設計による真のパフォーマンス向上の定量化が困難になる。 この研究の目的は、LiDARベースの3Dオブジェクト検出器を公平に比較することである。 具体的には、単純なグリッドベースのワンステージ検出器であるSECONDに着目し、元のアーキテクチャをスケールすることで、その性能を異なるコストで解析する。 次に,大規模SECONDとVoxel R-CNNやPV-RCNN++といった最近の3次元検出手法を比較した。 結果は驚きだった。 また,同じレイテンシを使用可能なSECONDは,Waymo Open Datasetの最先端メソッドであるPV-RCNN++のパフォーマンスに適合することがわかった。 scaled secondは、最近発表された多くの3d検出方法に匹敵する。 実験的な比較における推論コストの今後の制御を推奨し、新しい3D検出方法を示す際には、スケールしたSECONDのファミリーを強力なベースラインとして含めることを推奨する。

Considerable research efforts have been devoted to LiDAR-based 3D object detection and its empirical performance has been significantly improved. While the progress has been encouraging, we observe an overlooked issue: it is not yet common practice to compare different 3D detectors under the same cost, e.g., inference latency. This makes it difficult to quantify the true performance gain brought by recently proposed architecture designs. The goal of this work is to conduct a fair comparison of LiDAR-based 3D object detectors. Specifically, we focus on SECOND, a simple grid-based one-stage detector, and analyze its performance under different costs by scaling its original architecture. Then we compare the family of scaled SECOND with recent 3D detection methods, such as Voxel R-CNN and PV-RCNN++. The results are surprising. We find that, if allowed to use the same latency, SECOND can match the performance of PV-RCNN++, the current state-of-the-art method on the Waymo Open Dataset. Scaled SECOND also easily outperforms many recent 3D detection methods published during the past year. We recommend future research control the inference cost in their empirical comparison and include the family of scaled SECOND as a strong baseline when presenting novel 3D detection methods.
翻訳日:2022-05-04 14:26:34 公開日:2022-05-02
# 霊長類視覚野のスパイクニューラルネットワークから得られる特徴を用いた塩分マップ

Saliency map using features derived from spiking neural networks of primate visual cortex ( http://arxiv.org/abs/2205.01159v1 )

ライセンス: Link先を確認
Reza Hojjaty Saeedy, Richard A. Messner(参考訳) 生体視覚システムにインスパイアされた,デジタル画像の鮮度マップ作成のためのフレームワークを提案する。 色と向きの知覚に特化している視覚野の受容野に対するよく知られた計算モデルを用いる。 これらの領域間の接続性をモデル化するために、スパイクニューラルネットワーク(SNN)シミュレータであるCARLsimライブラリを使用する。 CARLsimが生成したスパイクは抽出された特徴として機能し、私たちの唾液検出アルゴリズムに入力します。 この新たな塩分濃度検出法を,ベンチマーク画像に適用した。

We propose a framework inspired by biological vision systems to produce saliency maps of digital images. Well-known computational models for receptive fields of areas in the visual cortex that are specialized for color and orientation perception are used. To model the connectivity between these areas we use the CARLsim library which is a spiking neural network(SNN) simulator. The spikes generated by CARLsim, then serve as extracted features and input to our saliency detection algorithm. This new method of saliency detection is described and applied to benchmark images.
翻訳日:2022-05-04 14:26:12 公開日:2022-05-02
# スケール不整合に基づくビデオオブジェクトセグメンテーションの強化

Boosting Video Object Segmentation based on Scale Inconsistency ( http://arxiv.org/abs/2205.01197v1 )

ライセンス: Link先を確認
Hengyi Wang, Changjae Oh(参考訳) 本稿では,事前学習した半教師付きビデオオブジェクトセグメンテーション(vos)モデルの性能向上のための改良フレームワークを提案する。 我々の研究はスケール不整合に基づいており、既存のVOSモデルが異なる大きさの入力フレームから不整合予測を生成するという観察から動機づけられている。 さまざまなサイズの入力から予測の利点を集約するピクセルレベルのアテンションモジュールを考案するための手掛かりとして,スケールの不整合を利用する。 また、不確実性推定によって測定された画素レベルの分散に基づいてトレーニングを正則化するために、スケール不一致も用いられる。 さらに,実験時間最適化に適した自己教師型オンライン適応システムを提案し,そのスケール不整合性に基づいて,地中安定マスクを使わずに予測をブートストラップする。 DAVIS 16 と DAVIS 17 データセットによる実験により、我々のフレームワークは様々な VOS モデルに汎用的に適用でき、性能が向上することが示された。

We present a refinement framework to boost the performance of pre-trained semi-supervised video object segmentation (VOS) models. Our work is based on scale inconsistency, which is motivated by the observation that existing VOS models generate inconsistent predictions from input frames with different sizes. We use the scale inconsistency as a clue to devise a pixel-level attention module that aggregates the advantages of the predictions from different-size inputs. The scale inconsistency is also used to regularize the training based on a pixel-level variance measured by an uncertainty estimation. We further present a self-supervised online adaptation, tailored for test-time optimization, that bootstraps the predictions without ground-truth masks based on the scale inconsistency. Experiments on DAVIS 16 and DAVIS 17 datasets show that our framework can be generically applied to various VOS models and improve their performance.
翻訳日:2022-05-04 14:26:04 公開日:2022-05-02
# COMETフロー:多変量エクストリームの生成モデルとテール依存性

COMET Flows: Towards Generative Modeling of Multivariate Extremes and Tail Dependence ( http://arxiv.org/abs/2205.01224v1 )

ライセンス: Link先を確認
Andrew McDonald, Pang-Ning Tan, Lifeng Luo(参考訳) 深層生成モデルの一般的なクラスである流れの正規化は、しばしば実世界のプロセスで観測される極端な現象を表現することができない。 特に、既存の正規化フローアーキテクチャは、変数間の重み付き辺縁分布と非対称尾辺依存性を特徴とする、多変量極端のモデル化に苦慮している。 この欠点を踏まえて,共同分布のモデル化プロセスを2つの部分に分割するCOMET(COpula Multivariate ExTreme)フローを提案する。 (i)その限界分布のモデル化と (ii)コプラ分布のモデル化 COMET Flowsは、端辺の極端量子のパラメトリックテール信念と、中間クォーティルにおける経験的カーネル密度関数を組み合わせることで、重い尾辺分布をキャプチャする。 さらに、COMETフローは、特徴空間における低次元多様体構造を誘導するなどの依存を観察することにより、多変量極小間の非対称テール依存を捉える。 合成および実世界の両方のデータセットに対する実験結果は、COMETフローが、他の最先端のベースラインアーキテクチャと比較して、重い尾の縁と非対称の尾の依存を捕捉する効果を示した。 すべてのコードはgithubのhttps://github.com/andrewmcdonald27/cometflowsで入手できる。

Normalizing flows, a popular class of deep generative models, often fail to represent extreme phenomena observed in real-world processes. In particular, existing normalizing flow architectures struggle to model multivariate extremes, characterized by heavy-tailed marginal distributions and asymmetric tail dependence among variables. In light of this shortcoming, we propose COMET (COpula Multivariate ExTreme) Flows, which decompose the process of modeling a joint distribution into two parts: (i) modeling its marginal distributions, and (ii) modeling its copula distribution. COMET Flows capture heavy-tailed marginal distributions by combining a parametric tail belief at extreme quantiles of the marginals with an empirical kernel density function at mid-quantiles. In addition, COMET Flows capture asymmetric tail dependence among multivariate extremes by viewing such dependence as inducing a low-dimensional manifold structure in feature space. Experimental results on both synthetic and real-world datasets demonstrate the effectiveness of COMET Flows in capturing both heavy-tailed marginals and asymmetric tail dependence compared to other state-of-the-art baseline architectures. All code is available on GitHub at https://github.com/andrewmcdonald27/COMETFlows.
翻訳日:2022-05-04 13:43:45 公開日:2022-05-02
# SELC: ノイズラベルによる学習を改善する自己組織化ラベル補正

SELC: Self-Ensemble Label Correction Improves Learning with Noisy Labels ( http://arxiv.org/abs/2205.01156v1 )

ライセンス: Link先を確認
Yangdi Lu, Wenbo He(参考訳) ディープニューラルネットワークはノイズラベルをオーバーフィットしやすいため、一般化性能が低下する。 そこで本研究では,ノイズラベルを段階的に補正し,モデルを洗練するために,単純かつ効果的な自己センブルラベル補正法(selc)を提案する。 ノイズラベルを用いたトレーニングにおける記憶挙動を深く調べ,ネットワーク出力が早期に信頼性が高いことを観察する。 この信頼できる知識を維持するために、selcは、ネットワーク出力の指数関数的移動平均によって形成されたアンサンブル予測を使用して、元のノイズラベルを更新する。 selcによるトレーニングは,ノイズラベルからの監視を徐々に削減し,アンサンブル予測からの監視を増大させることにより,モデルを洗練することを示す。 その単純さにもかかわらず、多くの最先端手法と比較して、SELCは、クラス条件、インスタンス依存、実世界のラベルノイズの存在において、より有望で安定した結果を得る。 コードはhttps://github.com/MacLLL/SELCで入手できる。

Deep neural networks are prone to overfitting noisy labels, resulting in poor generalization performance. To overcome this problem, we present a simple and effective method self-ensemble label correction (SELC) to progressively correct noisy labels and refine the model. We look deeper into the memorization behavior in training with noisy labels and observe that the network outputs are reliable in the early stage. To retain this reliable knowledge, SELC uses ensemble predictions formed by an exponential moving average of network outputs to update the original noisy labels. We show that training with SELC refines the model by gradually reducing supervision from noisy labels and increasing supervision from ensemble predictions. Despite its simplicity, compared with many state-of-the-art methods, SELC obtains more promising and stable results in the presence of class-conditional, instance-dependent, and real-world label noise. The code is available at https://github.com/MacLLL/SELC.
翻訳日:2022-05-04 13:43:23 公開日:2022-05-02
# 半弱で監督されたセマンティックセグメンテーションモデルを改善する方法

One Weird Trick to Improve Your Semi-Weakly Supervised Semantic Segmentation Model ( http://arxiv.org/abs/2205.01233v1 )

ライセンス: Link先を確認
Wonho Bae, Junhyug Noh, Milad Jalali Asadabadi, Danica J. Sutherland(参考訳) semi-weakly supervised semantic segmentation (swsss) は、ピクセルレベルのラベルを持つ少数の画像と、画像レベルのラベルのみを持つ多くの画像に基づいて、画像内のオブジェクトを識別するモデルをトレーニングすることを目的としている。 ほとんどの既存のSWSSSアルゴリズムは、画像分類器からピクセルレベルの擬似ラベルを抽出する。 本稿では,疑似ラベルを抽出する代わりに,分類器を分類器として使用する予測フィルタリングという手法を提案する。 この単純な後処理メソッドをベースラインに追加すると、従来のSWSSSアルゴリズムと競合する結果が得られる。 さらに、既存のSWSSSアルゴリズムに予測フィルタリングを追加することにより、セグメンテーション性能がさらに向上する。

Semi-weakly supervised semantic segmentation (SWSSS) aims to train a model to identify objects in images based on a small number of images with pixel-level labels, and many more images with only image-level labels. Most existing SWSSS algorithms extract pixel-level pseudo-labels from an image classifier - a very difficult task to do well, hence requiring complicated architectures and extensive hyperparameter tuning on fully-supervised validation sets. We propose a method called prediction filtering, which instead of extracting pseudo-labels, just uses the classifier as a classifier: it ignores any segmentation predictions from classes which the classifier is confident are not present. Adding this simple post-processing method to baselines gives results competitive with or better than prior SWSSS algorithms. Moreover, it is compatible with pseudo-label methods: adding prediction filtering to existing SWSSS algorithms further improves segmentation performance.
翻訳日:2022-05-04 13:43:08 公開日:2022-05-02
# 合成データ解析における再生カーネルと新しいアプローチ

Reproducing Kernels and New Approaches in Compositional Data Analysis ( http://arxiv.org/abs/2205.01158v1 )

ライセンス: Link先を確認
Binglin Li and Jeongyoun Ahn(参考訳) ヒト腸内マイクロバイオームのような構成データは、他の変数に対する相対値のみが利用できる非負の変数からなる。 人間の腸内マイクロバイオームなどの合成データを分析するには、データの形状を慎重に扱う必要がある。 構成データの一般的な幾何学的理解は、正則単純体を通してである。 既存のアプローチの大多数は、生来の単純幾何を克服するために対数比や電力変換に依存している。 本研究では、合成データが自然界において射影的であること、および射影幾何学と球面幾何学の本質的な関係に基づいて、構成領域を群作用によって変調された球面の商位相として再解釈する。 この再解釈により、球面上での合成領域上の函数空間を理解し、球面調和理論と、合成再生ケルネルヒルベルト空間(RKHS)を構成する反射群作用を利用することができる。 この構成データのためのRKHSの構築は、今後の方法論開発のために広く研究の道を開くだろう。 特に、よく開発されたカーネル埋め込みメソッドが合成データ解析に導入できるようになった。 合成 rkhs の多項式の性質は理論的にも計算的にも有益である。 提案する理論フレームワークの広範な適用性は,非パラメトリック密度推定と,合成データに対するカーネル指数族を用いて実証される。

Compositional data, such as human gut microbiomes, consist of non-negative variables whose only the relative values to other variables are available. Analyzing compositional data such as human gut microbiomes needs a careful treatment of the geometry of the data. A common geometrical understanding of compositional data is via a regular simplex. Majority of existing approaches rely on a log-ratio or power transformations to overcome the innate simplicial geometry. In this work, based on the key observation that a compositional data are projective in nature, and on the intrinsic connection between projective and spherical geometry, we re-interpret the compositional domain as the quotient topology of a sphere modded out by a group action. This re-interpretation allows us to understand the function space on compositional domains in terms of that on spheres and to use spherical harmonics theory along with reflection group actions for constructing a compositional Reproducing Kernel Hilbert Space (RKHS). This construction of RKHS for compositional data will widely open research avenues for future methodology developments. In particular, well-developed kernel embedding methods can be now introduced to compositional data analysis. The polynomial nature of compositional RKHS has both theoretical and computational benefits. The wide applicability of the proposed theoretical framework is exemplified with nonparametric density estimation and kernel exponential family for compositional data.
翻訳日:2022-05-04 13:40:39 公開日:2022-05-02
# D-DPCC:3次元運動予測による深部ダイナミックポイント雲圧縮

D-DPCC: Deep Dynamic Point Cloud Compression via 3D Motion Prediction ( http://arxiv.org/abs/2205.01135v1 )

ライセンス: Link先を確認
Tingyu Fan, Linyao Gao, Yiling Xu, Zhu Li and Dong Wang(参考訳) 3Dダイナミックポイントクラウド(DPC)の非一様分散性は、その高効率なフレーム間圧縮に重大な課題をもたらす。 本稿では,DPC幾何を3次元運動推定と運動補償で補償・圧縮する3次元スパース畳み込みに基づくD-DPCC(Deep Dynamic Point Cloud Compression)ネットワークを提案する。 提案するD-DPCCネットワークでは,隣接する点雲フレームの特徴表現間の3次元光学的流れを正確に推定するMMFモジュールを設計する。 具体的には、3次元スパース畳み込みに基づくエンコーダを用いて、特徴空間における動き推定の潜時表現を求め、融合した3次元モーション埋め込みのためのMMFモジュールを提案する。 また, 動き補償のために, ペナルティ係数を持つ3D {\displaystyle Adaptively Weighted Interpolation} (3DAWI) アルゴリズムを提案する。 動作埋め込みと残差を、損失のあるオートエンコーダベースのネットワークで圧縮する。 本稿では,エンド・ツー・エンドのディープ・ダイナミック・ポイント・クラウド圧縮フレームワークを提案する最初の研究である。 実験の結果,提案したD-DPCCフレームワークは,映像ベースポイントクラウド圧縮(V-PCC)v13に対して,平均76 %のBD-Rate(Bjontegaard Delta Rate)が得られることがわかった。

The non-uniformly distributed nature of the 3D dynamic point cloud (DPC) brings significant challenges to its high-efficient inter-frame compression. This paper proposes a novel 3D sparse convolution-based Deep Dynamic Point Cloud Compression (D-DPCC) network to compensate and compress the DPC geometry with 3D motion estimation and motion compensation in the feature space. In the proposed D-DPCC network, we design a {\it Multi-scale Motion Fusion} (MMF) module to accurately estimate the 3D optical flow between the feature representations of adjacent point cloud frames. Specifically, we utilize a 3D sparse convolution-based encoder to obtain the latent representation for motion estimation in the feature space and introduce the proposed MMF module for fused 3D motion embedding. Besides, for motion compensation, we propose a 3D {\it Adaptively Weighted Interpolation} (3DAWI) algorithm with a penalty coefficient to adaptively decrease the impact of distant neighbors. We compress the motion embedding and the residual with a lossy autoencoder-based network. To our knowledge, this paper is the first work proposing an end-to-end deep dynamic point cloud compression framework. The experimental result shows that the proposed D-DPCC framework achieves an average 76\% BD-Rate (Bjontegaard Delta Rate) gains against state-of-the-art Video-based Point Cloud Compression (V-PCC) v13 in inter mode.
翻訳日:2022-05-04 13:37:17 公開日:2022-05-02
# 感情制御可能な一般化対話顔生成

Emotion-Controllable Generalized Talking Face Generation ( http://arxiv.org/abs/2205.01155v1 )

ライセンス: Link先を確認
Sanjana Sinha, Sandika Biswas, Ravindra Yadav and Brojeshwar Bhowmick(参考訳) 近年の大きな進歩にもかかわらず、自然な感情を表現しようとするAIベースの会話顔生成手法はほとんどない。 さらに,手法の範囲はトレーニングデータセットの特性に大きく制限されているため,任意の未知の顔への一般化に失敗する。 本稿では,任意の顔に一般化できる一発顔形状認識型感情対話顔生成法を提案する。 本稿では,音声コンテンツ機能と独立した感情入力を併用したグラフ畳み込みニューラルネットワークを提案する。 この表現は、テクスチャを製造するための光学式フローガイドテクスチャ生成ネットワークでさらに使用される。 本研究では,動きとテクスチャを独立に考慮し,動きとテクスチャの分岐を考慮した2分岐テクスチャ生成ネットワークを提案する。 従来の感情対話法と比較して,中性感情における対象アイデンティティの1つのイメージのみを微調整することで,任意の顔に適応できる。

Despite the significant progress in recent years, very few of the AI-based talking face generation methods attempt to render natural emotions. Moreover, the scope of the methods is majorly limited to the characteristics of the training dataset, hence they fail to generalize to arbitrary unseen faces. In this paper, we propose a one-shot facial geometry-aware emotional talking face generation method that can generalize to arbitrary faces. We propose a graph convolutional neural network that uses speech content feature, along with an independent emotion input to generate emotion and speech-induced motion on facial geometry-aware landmark representation. This representation is further used in our optical flow-guided texture generation network for producing the texture. We propose a two-branch texture generation network, with motion and texture branches designed to consider the motion and texture content independently. Compared to the previous emotion talking face methods, our method can adapt to arbitrary faces captured in-the-wild by fine-tuning with only a single image of the target identity in neutral emotion.
翻訳日:2022-05-04 13:36:54 公開日:2022-05-02
# 585MB/sリアルタイム1280x720物体検出チップ

A Real Time 1280x720 Object Detection Chip With 585MB/s Memory Traffic ( http://arxiv.org/abs/2205.01571v1 )

ライセンス: Link先を確認
Kuo-Wei Chang, Hsu-Tung Shih, Tian-Sheuan Chang, Shang-Hong Tsai, Chih-Chyau Yang, Chien-Ming Wu, Chun-Ming Huang(参考訳) メモリ帯域幅は、特にHDオブジェクト検出において、現在のディープラーニングアクセラレータ(DLA)のリアルタイムボトルネックとなっている。 資源制約下では,ハードウェアとソフトウェアを併用した低メモリトラフィックDLAチップを提案する。 メモリ帯域幅のハードウェア利用を最大化するために,オブジェクト検出モデルをグループ融合対応モデルに変形・融合し,中間データアクセスを低減する。 これにより、YOLOv2のメモリトラフィックは2.9GB/sから0.15GB/sに削減される。 グループ融合をサポートするため、従来のDLAベースのハードウェアでは、単純な層間処理に書き込み・マスキングを併用した統一バッファをフュージョン・グループに導入した。 TSMC 40nmプロセスで実装されたチップは1280x720@30FPSオブジェクト検出をサポートし、2607mJから327.6mJまでの7.9倍少ない外部DRAMアクセスエネルギーを消費する。

Memory bandwidth has become the real-time bottleneck of current deep learning accelerators (DLA), particularly for high definition (HD) object detection. Under resource constraints, this paper proposes a low memory traffic DLA chip with joint hardware and software optimization. To maximize hardware utilization under memory bandwidth, we morph and fuse the object detection model into a group fusion-ready model to reduce intermediate data access. This reduces the YOLOv2's feature memory traffic from 2.9 GB/s to 0.15 GB/s. To support group fusion, our previous DLA based hardware employes a unified buffer with write-masking for simple layer-by-layer processing in a fusion group. When compared to our previous DLA with the same PE numbers, the chip implemented in a TSMC 40nm process supports 1280x720@30FPS object detection and consumes 7.9X less external DRAM access energy, from 2607 mJ to 327.6 mJ.
翻訳日:2022-05-04 13:35:54 公開日:2022-05-02
# (参考訳) BERTに待機を教える: ストリーミングの周波数検出における精度とレイテンシのバランスをとる

Teaching BERT to Wait: Balancing Accuracy and Latency for Streaming Disfluency Detection ( http://arxiv.org/abs/2205.00620v1 )

ライセンス: CC BY 4.0
Angelica Chen, Vicky Zayats, Daniel D. Walker, Dirk Padfield(参考訳) 現代の対話型音声システムでは、不純物を取り除く前に音声を消費し、漸進的に書き起こされる。 この後処理ステップは、クリーンな書き起こしと下流タスク(例えば機械翻訳)の高性能化に不可欠である。 しかし、Transformerのような現在の最先端のNLPモデルは非インクリメンタルに動作し、許容できない遅延を引き起こす可能性がある。 本稿では,新たなトレーニング目標と組み合わさって,精度とレイテンシのバランスを保ちながら,リアルタイムの分散を検出できるストリーミングBERTベースのシーケンスタグモデルを提案する。 これはモデルをトレーニングして、現在の入力の予測を直ちに出力するか、あるいはさらなるコンテキストを待つかを判断することで実現される。 基本的に、モデルはルックアヘッドウィンドウを動的にサイズすることを学ぶ。 以上の結果から,我々のモデルでは,比較的正確な予測が得られ,フリック率の低いベースラインよりも早い結果が得られた。 さらに, インクリメンタル・ディフルエンシー検出における最近の作業と比較して, 最先端のレイテンシと安定性スコアを得ることができた。

In modern interactive speech-based systems, speech is consumed and transcribed incrementally prior to having disfluencies removed. This post-processing step is crucial for producing clean transcripts and high performance on downstream tasks (e.g. machine translation). However, most current state-of-the-art NLP models such as the Transformer operate non-incrementally, potentially causing unacceptable delays. We propose a streaming BERT-based sequence tagging model that, combined with a novel training objective, is capable of detecting disfluencies in real-time while balancing accuracy and latency. This is accomplished by training the model to decide whether to immediately output a prediction for the current input or to wait for further context. Essentially, the model learns to dynamically size its lookahead window. Our results demonstrate that our model produces comparably accurate predictions and does so sooner than our baselines, with lower flicker. Furthermore, the model attains state-of-the-art latency and stability scores when compared with recent work on incremental disfluency detection.
翻訳日:2022-05-04 00:27:41 公開日:2022-05-02
# (参考訳) 直交非負行列三要素化に基づく多重ネットワークのコミュニティ検出

Community detection in multiplex networks based on orthogonal nonnegative matrix tri-factorization ( http://arxiv.org/abs/2205.00626v1 )

ライセンス: CC BY 4.0
Meiby Ortiz-Bouza and Selin Aviyente(参考訳) ネットワークは、システムの異なるエンティティがノードによって表現され、エッジによって相互作用する複雑なシステムをモデル化するための強力なツールを提供する。 近年、マルチプレックスネットワークへの関心が高まっており、異なるタイプのインタラクションを反映した複数のタイプのリンクを介して、複数のノード間のインタラクションを表現できるようになっている。 ネットワークトポロジを理解する上で重要なツールのひとつは,コミュニティ検出である。 単一層ネットワークにおけるコミュニティ検出には多くの研究があるが、既存のマルチプレックスコミュニティ検出の研究は主に、異なるレイヤの不均一性を考慮することなく、レイヤ間の共通のコミュニティ構造を学ぶことに焦点を当てている。 本稿では,各層に共通するコミュニティと,各層に固有のコミュニティを識別可能な,新しい多重コミュニティ検出手法を提案する。 提案手法は直交非負行列三要素化を用いて,各層の隣接行列を,共通群落とプライベート群落に対応する2つの低ランク行列因子化の和としてモデル化する。 提案アルゴリズムは,合成および実多重化の両方で評価し,最先端技術と比較した。

Networks provide a powerful tool to model complex systems where the different entities in the system are presented by nodes and their interactions by edges. Recently, there has been a growing interest in multiplex networks as they can represent the interactions between a pair of nodes through multiple types of links, each reflecting a distinct type of interaction. One of the important tools in understanding network topology is community detection. Although there are numerous works on community detection in single layer networks, existing work on multiplex community detection mostly focuses on learning a common community structure across layers without taking the heterogeneity of the different layers into account. In this paper, we introduce a new multiplex community detection approach that can identify communities that are common across layers as well as those that are unique to each layer. The proposed algorithm employs Orthogonal Nonnegative Matrix Tri-Factorization to model each layer's adjacency matrix as the sum of two low-rank matrix factorizations, corresponding to the common and private communities, respectively. The proposed algorithm is evaluated on both synthetic and real multiplex networks and compared to state-of-the-art techniques.
翻訳日:2022-05-04 00:10:39 公開日:2022-05-02
# (参考訳) 放射線学品質保証(QA)の再定義 -- 不平等スコア(Aquarius)の制限調査による人工知能(AI)ベースのQA

Re-defining Radiology Quality Assurance (QA) -- Artificial Intelligence (AI)-Based QA by Restricted Investigation of Unequal Scores (AQUARIUS) ( http://arxiv.org/abs/2205.00629v1 )

ライセンス: CC BY 4.0
Axel Wismuller, Larry Stockmaster, Ali Vosoughi(参考訳) ラジオロジー品質保証(qa)プログラムをより良く、より速くするために、緊急に合理化する必要がある。 本稿では, 従来のアプローチに比べて, 人的労力を最大数桁削減する放射線学QAを再定義するための, ユネススコアの制限による人工知能に基づくQUality Assurance(AI)を提案する。 AQUARIUSは通常、放射線学レポートにおけるAIベースの画像解析と自然言語処理(NLP)の自動比較を含む。 通常、不協和性読み出しを持つケースの小さな部分のみ、その後、人間の専門家によってレビューされる。 AQUARIUSの臨床応用を実証するため,1936年1月1日,大大学病院の頭部CT検査で頭蓋内出血(ICH)の臨床的QA調査を行った。 画像取得直後、ICHのスキャンは商用ソフトウェア(イスラエルのテルアビブ、Aidoc)を使って自動的に分析された。 AIによるICH陽性例(ICH-AI+)は、放射線学者の読み書きリストに自動的にフラグ付けされ、フラグ付けは確率50%でランダムにオフにされた。 AQUARIUS と NLP を最終放射線学報告に用い,29 件の専門的神経放射線学検査を行ったところ,ヒトのQA 活動は98.5 %減少し,6 件の報告のない真の ICH+ 症例が報告され,放射線技師の発見率は0.52 % と 2.5 % がフラグ付きおよび非フラグ付き症例であった。 我々は,AIによる画像解析とNLPによる人体鑑定の事前選択を組み合わせることで,放射線学研究の欠落した発見を効果的に識別し,人と機械の相互運用のハイブリッドアプローチによる放射線学QAプログラムを著しく高速化することができると結論付けた。

There is an urgent need for streamlining radiology Quality Assurance (QA) programs to make them better and faster. Here, we present a novel approach, Artificial Intelligence (AI)-Based QUality Assurance by Restricted Investigation of Unequal Scores (AQUARIUS), for re-defining radiology QA, which reduces human effort by up to several orders of magnitude over existing approaches. AQUARIUS typically includes automatic comparison of AI-based image analysis with natural language processing (NLP) on radiology reports. Only the usually small subset of cases with discordant reads is subsequently reviewed by human experts. To demonstrate the clinical applicability of AQUARIUS, we performed a clinical QA study on Intracranial Hemorrhage (ICH) detection in 1936 head CT scans from a large academic hospital. Immediately following image acquisition, scans were automatically analyzed for ICH using a commercially available software (Aidoc, Tel Aviv, Israel). Cases rated positive for ICH by AI (ICH-AI+) were automatically flagged in radiologists' reading worklists, where flagging was randomly switched off with probability 50\%. Using AQUARIUS with NLP on final radiology reports and targeted expert neuroradiology review of only 29 discordantly classified cases reduced the human QA effort by 98.5\%, where we found a total of six non-reported true ICH+ cases, with radiologists' missed ICH detection rates of 0.52\% and 2.5\% for flagged and non-flagged cases, respectively. We conclude that AQUARIUS, by combining AI-based image analysis with NLP-based pre-selection of cases for targeted human expert review, can efficiently identify missed findings in radiology studies and significantly expedite radiology QA programs in a hybrid human-machine interoperability approach.
翻訳日:2022-05-03 23:45:03 公開日:2022-05-02
# (参考訳) ビーム探索復号におけるラベル平滑化の重要長バイアス

The Implicit Length Bias of Label Smoothing on Beam Search Decoding ( http://arxiv.org/abs/2205.00659v1 )

ライセンス: CC BY 4.0
Bowen Liang, Pidong Wang, Yuan Cao(参考訳) ラベルの平滑化はニューラルネットワーク翻訳(NMT)トレーニングに広く応用されている。 ラベル平滑化はモデル学習において望ましい正規化効果を提供するが,本論文ではビーム探索復号法に長さバイアスを導入することを実証する。 解析の結果,ラベル平滑化は出力シーケンスに暗黙的に長さペナルティ項を適用し,短い翻訳にバイアスを生じさせることがわかった。 また,ラベル平滑化に完全最適化されたモデルでは,入力に依存しない固定定数によって翻訳長が暗黙的に上界であることを示す。 本理論は, 推定時に単純な整流関数を適用し, ラベルモースモデル予測から偏りのない分布を復元することで検証する。 この改定法により、WMT英語・フランス語・英語・チェコ語・英語・中国語のタスクは、ビームサイズ4で+0.3BLEU、ビームサイズ200で+2.8BLEUまで改善された。

Label smoothing is ubiquitously applied in Neural Machine Translation (NMT) training. While label smoothing offers a desired regularization effect during model training, in this paper we demonstrate that it nevertheless introduces length biases in the beam search decoding procedure. Our analysis shows that label smoothing implicitly applies a length penalty term to output sequence, causing a bias towards shorter translations. We also show that for a model fully optimized with label smoothing, translation length is implicitly upper bounded by a fixed constant independent of input. We verify our theory by applying a simple rectification function at inference time to restore the unbiased distributions from the label-smoothed model predictions. This rectification method led to consistent quality improvements on WMT English-German, English-French, English-Czech and English-Chinese tasks, up to +0.3 BLEU at beam size 4 and +2.8 BLEU at beam size 200.
翻訳日:2022-05-03 23:24:13 公開日:2022-05-02
# (参考訳) 確率集合をもつ多重ラベル問題における懐疑的二項推論

Skeptical binary inferences in multi-label problems with sets of probabilities ( http://arxiv.org/abs/2205.00662v1 )

ライセンス: CC BY 4.0
Yonatan Carlos Carranza Alarc\'on and S\'ebastien Destercke(参考訳) 本稿では,複数ラベル問題に対する分布的ロバスト,懐疑的推論,あるいはより一般にブールベクトルについて問題を考える。 分布的ロバストによって、可能な確率分布の集合を考えることを意味し、懐疑的により、我々はこの集合内のすべての分布に当てはまる推論のみが妥当であると考えることを理解している。 そのような推論は、考慮された集合が十分に大きいときに部分的な予測を与える。 特にハミング損失の場合、多ラベル問題における共通損失関数について検討し、この設定において懐疑的な推論がいかに可能かを示す。 Our experimental results are organised in three sections; (1) the first one indicates the gain computational obtained from our theoretical results by using synthetical data sets, (2) the second one indicates that our approaches produce relevant cautiousness on those hard-to-predict instances where its precise counterpart fails, and (3) the last one demonstrates experimentally how our approach copes with imperfect information (generated by a downsampling procedure) better than the partial abstention [31] and the rejection rules.

In this paper, we consider the problem of making distributionally robust, skeptical inferences for the multi-label problem, or more generally for Boolean vectors. By distributionally robust, we mean that we consider a set of possible probability distributions, and by skeptical we understand that we consider as valid only those inferences that are true for every distribution within this set. Such inferences will provide partial predictions whenever the considered set is sufficiently big. We study in particular the Hamming loss case, a common loss function in multi-label problems, showing how skeptical inferences can be made in this setting. Our experimental results are organised in three sections; (1) the first one indicates the gain computational obtained from our theoretical results by using synthetical data sets, (2) the second one indicates that our approaches produce relevant cautiousness on those hard-to-predict instances where its precise counterpart fails, and (3) the last one demonstrates experimentally how our approach copes with imperfect information (generated by a downsampling procedure) better than the partial abstention [31] and the rejection rules.
翻訳日:2022-05-03 23:15:33 公開日:2022-05-02
# (参考訳) スタイルガイド付きコンパチブル服の試作

An Application to Generate Style Guided Compatible Outfit ( http://arxiv.org/abs/2205.00663v1 )

ライセンス: CC BY 4.0
Debopriyo Banerjee, Harsh Maheshwari, Lucky Dhakad1, Arnab Bhattacharya1, Niloy Ganguly, Muthusamy Chelliah and Suyash Agarwal1(参考訳) ファッションレコメンデーション(ファッションレコメンデーション)は、特にショップ・ザ・ルック、コンテクストウェア、パーソナライズド衣料品作成などの分野において、驚くべき成長を遂げている。 この分野での作業の大部分は、ライフスタイルアイテム間の補完的関係の概念をよりよく理解することに焦点を当てている。 最近では、スタイルがファッションにおいて、特に互換性の学習と服装の創造の理解において重要な役割を果たすことに気付いた作品もある。 本稿では,新しいスタイルエンコーダネットワークを用いて,スタイルやテーマによってガイドされた衣装を創出することを目的とした方法論のエンドツーエンド設計を提案する。 様々な実験を通して,本手法の様々な側面を広範囲に解析する。 また、アンカーアイテムやスタイルに基づいた衣装作成における作業の能力を示すためのデモapiも提供します。

Fashion recommendation has witnessed a phenomenal growth of research, particularly in the domains of shop-the-look, contextaware outfit creation, personalizing outfit creation etc. Majority of the work in this area focuses on better understanding of the notion of complimentary relationship between lifestyle items. Quite recently, some works have realised that style plays a vital role in fashion, especially in the understanding of compatibility learning and outfit creation. In this paper, we would like to present the end-to-end design of a methodology in which we aim to generate outfits guided by styles or themes using a novel style encoder network. We present an extensive analysis of different aspects of our method through various experiments. We also provide a demonstration api to showcase the ability of our work in generating outfits based on an anchor item and styles.
翻訳日:2022-05-03 23:13:33 公開日:2022-05-02
# (参考訳) ノイズ予測から真のラベルへ:生成モデルによるノイズ予測校正

From Noisy Prediction to True Label: Noisy Prediction Calibration via Generative Model ( http://arxiv.org/abs/2205.00690v1 )

ライセンス: CC BY 4.0
HeeSun Bae, Seungjae Shin, JoonHo Jang, Byeonghu Na, Kyungwoo Song and Il-Chul Moon(参考訳) ノイズラベルは機械学習社会では避けられないが問題である。 分類器を間違ったラベルに過度に適合させるように訓練することで、分類器の一般化能力を損なう。 ノイズラベルの既存の手法は、分類器の訓練手順の変更に焦点を当てている。 これは2つの問題を引き起こす。 まず、これらの方法は事前訓練された分類器には適用できない。 第2に、分類器を訓練し、ノイズラベルからすべての悪影響を同時に取り除くことは容易ではない。 これらの問題から,ノイズラベルを用いた学習における雑音予測キャリブレーション(npc)という新しい手法を提案する。 生成モデルによる新しいタイプの遷移行列の導入と推定により、npcは事前学習された分類器から真ラベルへのノイズ予測を後処理方式として補正する。 我々は npc が遷移行列に基づく手法と理論的に一致することを証明する。 しかし、NPCは分類器学習に関わらず、真のラベルを推定するより正確な経路を提供する。 また、NPCは、トレーニングインスタンスとその予測が利用可能であれば、ノイズラベルメソッドで訓練された任意の分類器に適用できる。 我々の手法であるNPCは、合成および実世界のデータセットのベースラインモデルの分類性能を向上させる。

Noisy labels are inevitable yet problematic in machine learning society. It ruins the generalization power of a classifier by making the classifier be trained to be overfitted to wrong labels. Existing methods on noisy label have focused on modifying classifier training procedure. It results in two possible problems. First, these methods are not applicable to a pre-trained classifier without further access into training. Second, it is not easy to train a classifier and remove all of negative effects from noisy labels simultaneously. From these problems, we suggests a new branch of approach, Noisy Prediction Calibration (NPC) in learning with noisy labels. Through the introduction and estimation of a new type of transition matrix via generative model, NPC corrects the noisy prediction from the pre-trained classifier to the true label as a post-processing scheme. We prove that NPC theoretically aligns with the transition matrix based methods. Yet, NPC provides more accurate pathway to estimate true label, even without involvement in classifier learning. Also, NPC is applicable to any classifier trained with noisy label methods, if training instances and its predictions are available. Our method, NPC, boosts the classification performances of all baseline models on both synthetic and real-world datasets.
翻訳日:2022-05-03 23:05:43 公開日:2022-05-02
# (参考訳) 音声言語理解におけるASRロバスト性向上のためのコントラスト学習

Contrastive Learning for Improving ASR Robustness in Spoken Language Understanding ( http://arxiv.org/abs/2205.00693v1 )

ライセンス: CC BY 4.0
Ya-Hsin Chang and Yun-Nung Chen(参考訳) 音声言語理解(SLU)は、機械がより優れた対話のために人間の発話を理解するために不可欠なタスクである。 しかしながら、自動音声認識器(ASR)の誤差は、通常理解性能を損なう。 現実には、ASRシステムはターゲットシナリオの調整が簡単ではないかもしれない。 そこで本論文では,比較対象を用いたASR誤りに対する頑健な発話表現に着目し,教師付きコントラスト学習とモデル微調整における自己蒸留を組み合わせた一般化能力を強化する。 3つのベンチマークデータセットの実験により,提案手法の有効性が示された。

Spoken language understanding (SLU) is an essential task for machines to understand human speech for better interactions. However, errors from the automatic speech recognizer (ASR) usually hurt the understanding performance. In reality, ASR systems may not be easy to adjust for the target scenarios. Therefore, this paper focuses on learning utterance representations that are robust to ASR errors using a contrastive objective, and further strengthens the generalization ability by combining supervised contrastive learning and self-distillation in model fine-tuning. Experiments on three benchmark datasets demonstrate the effectiveness of our proposed approach.
翻訳日:2022-05-03 22:34:32 公開日:2022-05-02
# (参考訳) デジタル図書館における教師なし情報抽出ワークフローに関する図書館の視点

A Library Perspective on Nearly-Unsupervised Information Extraction Workflows in Digital Libraries ( http://arxiv.org/abs/2205.00716v1 )

ライセンス: CC BY 4.0
Hermann Kroll and Jan Pirklbauer and Florian Pl\"otzky and Wolf-Tilo Balke(参考訳) 情報抽出は、デジタルライブラリの新規かつ効果的なアクセスパスをサポートすることができる。 それでも、信頼できる抽出ワークフローの設計は、実際にコストがかかる可能性がある。 一方、適切な抽出方法は、ドメイン固有のトレーニングデータに依存する。 一方,教師なしかつオープンな抽出方法は,通常,非カノニカル化抽出結果を生成する。 本稿では,デジタルライブラリがこのような抽出をどのように扱えるのか,その品質が実際に十分なのか,という問題に取り組む。 我々は、百科事典(wikipedia)、薬学、政治科学の分野におけるケーススタディで分析し、教師なしの抽出ワークフローにフォーカスする。 機会と限界を報告します 最後に,教師なし抽出ワークフローのベストプラクティスについて論じる。

Information extraction can support novel and effective access paths for digital libraries. Nevertheless, designing reliable extraction workflows can be cost-intensive in practice. On the one hand, suitable extraction methods rely on domain-specific training data. On the other hand, unsupervised and open extraction methods usually produce not-canonicalized extraction results. This paper tackles the question how digital libraries can handle such extractions and if their quality is sufficient in practice. We focus on unsupervised extraction workflows by analyzing them in case studies in the domains of encyclopedias (Wikipedia), pharmacy and political sciences. We report on opportunities and limitations. Finally we discuss best practices for unsupervised extraction workflows.
翻訳日:2022-05-03 22:21:47 公開日:2022-05-02
# (参考訳) Logiformer: 解釈可能な論理推論のための2分岐グラフトランスネットワーク

Logiformer: A Two-Branch Graph Transformer Network for Interpretable Logical Reasoning ( http://arxiv.org/abs/2205.00731v1 )

ライセンス: CC BY 4.0
Fangzhi Xu, Qika Lin, Jun Liu, Yudai Pan, Lingling Zhang(参考訳) 機械読解は、テキスト理解のモデルの可能性を探究するため、幅広い関心を喚起している。 さらに、機械に推論能力を持たせるため、論理推論の難易度の高いタスクを提案する。 論理推論に関する以前の研究は、異なる側面から論理単位を抽出するいくつかの戦略を提案している。 しかし、論理単位間の長距離依存をモデル化することは依然として困難である。 また、テキストの論理構造を解明し、離散論理を連続的なテキスト埋め込みに融合させることも要求されている。 上記の問題に対処するために,テキストの論理的推論に2分岐グラフトランスフォーマネットワークを利用するエンドツーエンドモデルLogiformerを提案する。 まず,テキストを2つの論理単位に分割するための異なる抽出戦略を導入し,それぞれ論理グラフと構文グラフを構築した。 論理グラフは論理分岐の因果関係をモデル化し、構文グラフは構文分岐の共起関係をキャプチャする。 次に、遠距離依存性をモデル化するために、各グラフからのノードシーケンスを完全連結グラフトランスフォーマー構造に供給する。 隣接する2つの行列はグラフ変換器層の注意バイアスと見なされ、離散論理構造を連続的なテキスト埋め込み空間にマッピングする。 第3に、応答予測の前に動的ゲート機構と質問認識自己認識モジュールを導入して特徴を更新する。 推論プロセスは、人間の認知と整合した論理単位を用いることで解釈可能性を提供する。 実験の結果,2つの論理的推論ベンチマークにおいて,最先端の単一モデルよりも優れたモデルが得られた。

Machine reading comprehension has aroused wide concerns, since it explores the potential of model for text understanding. To further equip the machine with the reasoning capability, the challenging task of logical reasoning is proposed. Previous works on logical reasoning have proposed some strategies to extract the logical units from different aspects. However, there still remains a challenge to model the long distance dependency among the logical units. Also, it is demanding to uncover the logical structures of the text and further fuse the discrete logic to the continuous text embedding. To tackle the above issues, we propose an end-to-end model Logiformer which utilizes a two-branch graph transformer network for logical reasoning of text. Firstly, we introduce different extraction strategies to split the text into two sets of logical units, and construct the logical graph and the syntax graph respectively. The logical graph models the causal relations for the logical branch while the syntax graph captures the co-occurrence relations for the syntax branch. Secondly, to model the long distance dependency, the node sequence from each graph is fed into the fully connected graph transformer structures. The two adjacent matrices are viewed as the attention biases for the graph transformer layers, which map the discrete logical structures to the continuous text embedding space. Thirdly, a dynamic gate mechanism and a question-aware self-attention module are introduced before the answer prediction to update the features. The reasoning process provides the interpretability by employing the logical units, which are consistent with human cognition. The experimental results show the superiority of our model, which outperforms the state-of-the-art single model on two logical reasoning benchmarks.
翻訳日:2022-05-03 22:00:13 公開日:2022-05-02
# (参考訳) 中性発話も原因である:社会常識知識による会話的因果感情の促進

Neutral Utterances are Also Causes: Enhancing Conversational Causal Emotion Entailment with Social Commonsense Knowledge ( http://arxiv.org/abs/2205.00759v1 )

ライセンス: CC0 1.0
Jiangnan Li, Fandong Meng, Zheng Lin, Rui Liu, Peng Fu, Yanan Cao, Weiping Wang, Jie Zhou(参考訳) Conversational Causal Emotion Entailmentは、会話から非ニュートラル目標発話に対する因果発話を検出することを目的としている。 本研究では,会話をグラフとして構築し,本来の包含スタイルの暗黙的コンテキストモデリングを克服する。 先行研究に続いて,感情情報をグラフにさらに紹介する。 感情情報は、標的発話と感情が同一である因果発話の検出を著しく促進することができる。 しかし、感情の異なる因果発話、特に中性発話を検出することは依然として困難である。 理由は、モデルが因果的手がかりを推論し、発話間でそれらを渡すことに制限されているからです。 この問題を軽減するために,社会常識知識(CSK)を導入し,知識拡張会話グラフ(KEC)を提案する。 KECはCSKを2つの発話間で伝搬する。 すべてのCSKが発話に感情的に適しているわけではないので、CSKをフィルタリングする感情現実化知識選択戦略を提案する。 KECを処理するために、我々はさらに知識強化非巡回グラフネットワークを構築した。 実験結果から,本手法はベースラインを上回り,ターゲット発話と異なる感情でより多くの原因を推測することがわかった。

Conversational Causal Emotion Entailment aims to detect causal utterances for a non-neutral targeted utterance from a conversation. In this work, we build conversations as graphs to overcome implicit contextual modelling of the original entailment style. Following the previous work, we further introduce the emotion information into graphs. Emotion information can markedly promote the detection of causal utterances whose emotion is the same as the targeted utterance. However, it is still hard to detect causal utterances with different emotions, especially neutral ones. The reason is that models are limited in reasoning causal clues and passing them between utterances. To alleviate this problem, we introduce social commonsense knowledge (CSK) and propose a Knowledge Enhanced Conversation graph (KEC). KEC propagates the CSK between two utterances. As not all CSK is emotionally suitable for utterances, we therefore propose a sentiment-realized knowledge selecting strategy to filter CSK. To process KEC, we further construct the Knowledge Enhanced Directed Acyclic Graph networks. Experimental results show that our method outperforms baselines and infers more causes with different emotions from the targeted utterance.
翻訳日:2022-05-03 21:44:52 公開日:2022-05-02
# (参考訳) ソーシャルロボティクスのためのデータ駆動型感情身体言語生成

Data-driven emotional body language generation for social robotics ( http://arxiv.org/abs/2205.00763v1 )

ライセンス: CC BY 4.0
Mina Marmpena, Fernando Garcia, Angelica Lim, Nikolas Hemion and Thomas Wennekers(参考訳) 社会ロボティクスでは、人間とロボットの相互作用やコラボレーションを改善する能力を持つヒューマノイドロボットは、人間の属性や、おそらくは意識的に予測されるため、エージェントをエンゲージメント、信頼性、社会的な存在として知覚する。 ロボット的な感情的なボディランゲージは、そのコンテキストに信頼性、ニュアンス、および関連性を持つ必要がある。 私たちは、いくつかの手作りのロボットの身体表現から学習し、同様の信頼性と生命に類似した多数の新しい表現を生成できるディープラーニングデータ駆動フレームワークを実装した。 このフレームワークは、条件付き変分オートエンコーダモデルと、モデルの潜在空間の幾何学的性質に基づくサンプリングアプローチを用いて、ターゲットとなる原子価と覚醒のレベルに生成過程を条件付ける。 評価実験の結果, 生成した表現の人間同型とアニマティクスは, 手作業による表現と異なるものではなく, 感情的条件付けは中性正価と低中性覚醒のペアを除いてほとんどのレベルで適切に区別可能であることがわかった。 さらに,実験結果の探索分析により,コンディショニングがロボットの知覚的支配や参加者の注意に影響を及ぼす可能性が示唆された。

In social robotics, endowing humanoid robots with the ability to generate bodily expressions of affect can improve human-robot interaction and collaboration, since humans attribute, and perhaps subconsciously anticipate, such traces to perceive an agent as engaging, trustworthy, and socially present. Robotic emotional body language needs to be believable, nuanced and relevant to the context. We implemented a deep learning data-driven framework that learns from a few hand-designed robotic bodily expressions and can generate numerous new ones of similar believability and lifelikeness. The framework uses the Conditional Variational Autoencoder model and a sampling approach based on the geometric properties of the model's latent space to condition the generative process on targeted levels of valence and arousal. The evaluation study found that the anthropomorphism and animacy of the generated expressions are not perceived differently from the hand-designed ones, and the emotional conditioning was adequately differentiable between most levels except the pairs of neutral-positive valence and low-medium arousal. Furthermore, an exploratory analysis of the results reveals a possible impact of the conditioning on the perceived dominance of the robot, as well as on the participants' attention.
翻訳日:2022-05-03 21:31:30 公開日:2022-05-02
# (参考訳) ニューラルコンストラクションヒューリスティックスに基づく大規模近傍探索

Large Neighborhood Search based on Neural Construction Heuristics ( http://arxiv.org/abs/2205.00772v1 )

ライセンス: CC BY-SA 4.0
Jonas K. Falkner, Daniela Thyssens, Lars Schmidt-Thieme(参考訳) 本稿では,ニューラルネットワークに基づく学習構築ヒューリスティックを補修オペレータとして活用し,時間窓(vrptw)による車両経路問題を解くための大規模地区探索(lns)手法を提案する。 本手法では,グラフニューラルネットワークを用いて問題を符号化し,自己回帰的に解を復号し,監視のためのラベルを必要とせず,構築作業の強化学習によって学習する。 神経修復演算子は、局所探索ルーチン、ヒューリスティック破壊演算子、および少数の集団に適用される選択手順と組み合わせて、洗練されたソリューションアプローチに到達する。 鍵となるアイデアは、部分的に分解された解を再構成するために学習されたモデルを使い、大きな近所を効果的に探索するために破壊的ヒューリスティックス(あるいは確率的政策自体)を介してランダム性を導入することである。

We propose a Large Neighborhood Search (LNS) approach utilizing a learned construction heuristic based on neural networks as repair operator to solve the vehicle routing problem with time windows (VRPTW). Our method uses graph neural networks to encode the problem and auto-regressively decodes a solution and is trained with reinforcement learning on the construction task without requiring any labels for supervision. The neural repair operator is combined with a local search routine, heuristic destruction operators and a selection procedure applied to a small population to arrive at a sophisticated solution approach. The key idea is to use the learned model to re-construct the partially destructed solution and to introduce randomness via the destruction heuristics (or the stochastic policy itself) to effectively explore a large neighborhood.
翻訳日:2022-05-03 20:56:27 公開日:2022-05-02
# (参考訳) BSRA: ハードウェア効率の良い画素アテンションを用いたブロック型超解像加速器

BSRA: Block-based Super Resolution Accelerator with Hardware Efficient Pixel Attention ( http://arxiv.org/abs/2205.00777v1 )

ライセンス: CC BY-SA 4.0
Dun-Hao Yang, and Tian-Sheuan Chang(参考訳) コンボリューションニューラルネットワーク(CNN)をベースとした超解像モデルでは,再構成結果の改善が提案されているが,その大きなモデルサイズと複雑な構造は,そのリアルタイムハードウェア実装を阻害する。 現在のハードウェア設計は普通のネットワークに限られており、低品質と高メモリ帯域幅の要求に悩まされている。 本稿では,25.9Kパラメータと単純な構造しか必要とせず,広く使用されているFSRCNNよりも0.38dB優れた再構成画像が得られる,ハードウェア効率のよいハードウェアアクセラレーションを提案する。 このアクセラレータはフルモデル層融合のためにフルモデルブロックワイズ畳み込みを採用し、モデル入力と出力のみに対する外部メモリアクセスを減らす。 加えて、cnnとpixel attentionは、分散重みを持つpe配列によってよくサポートされている。 最終的な実装は、TSMC 40nm CMOSプロセスで毎秒30フレームのフルHD画像再構成をサポートすることができる。

Increasingly, convolution neural network (CNN) based super resolution models have been proposed for better reconstruction results, but their large model size and complicated structure inhibit their real-time hardware implementation. Current hardware designs are limited to a plain network and suffer from lower quality and high memory bandwidth requirements. This paper proposes a super resolution hardware accelerator with hardware efficient pixel attention that just needs 25.9K parameters and simple structure but achieves 0.38dB better reconstruction images than the widely used FSRCNN. The accelerator adopts full model block wise convolution for full model layer fusion to reduce external memory access to model input and output only. In addition, CNN and pixel attention are well supported by PE arrays with distributed weights. The final implementation can support full HD image reconstruction at 30 frames per second with TSMC 40nm CMOS process.
翻訳日:2022-05-03 20:51:33 公開日:2022-05-02
# (参考訳) オブジェクト検出のためのスパース圧縮スパイクニューラルネットワークアクセラレータ

Sparse Compressed Spiking Neural Network Accelerator for Object Detection ( http://arxiv.org/abs/2205.00778v1 )

ライセンス: CC BY 4.0
Hong-Han Lien and Tian-Sheuan Chang(参考訳) 人間の脳にインスパイアされたスパイキングニューラルネットワーク(SNN)は、最近、バイナリスパイクを伝達する比較的シンプルで低消費電力のハードウェアと、疎いアクティベーションマップによって人気を集めている。 しかし、SNNには余分な時間次元情報が含まれているため、SNNアクセラレータはバッファを多く必要とし、特により難しい高解像度オブジェクト検出タスクのために推論に時間がかかる。 そこで本研究では,低消費電力かつ高並列なモデル実行のためのゲート1対全生成物を用いて,活性化マップと重みの高間隔を生かしたスパース圧縮スパイクニューラルネットワークアクセラレータを提案する。 ニューラルネットワークの実験結果は、ivs 3clsデータセット上で混合(1,3)時間ステップを持つ71.5$\%$マップを示す。 TSMC 28nm CMOSプロセスを搭載したアクセラレータは、500MHzで動作する場合、毎秒1024$\times$576@29フレーム、35.88TOPS/Wエネルギー効率と1.05mJエネルギー消費を実現している。

Spiking neural networks (SNNs), which are inspired by the human brain, have recently gained popularity due to their relatively simple and low-power hardware for transmitting binary spikes and highly sparse activation maps. However, because SNNs contain extra time dimension information, the SNN accelerator will require more buffers and take longer to infer, especially for the more difficult high-resolution object detection task. As a result, this paper proposes a sparse compressed spiking neural network accelerator that takes advantage of the high sparsity of activation maps and weights by utilizing the proposed gated one-to-all product for low power and highly parallel model execution. The experimental result of the neural network shows 71.5$\%$ mAP with mixed (1,3) time steps on the IVS 3cls dataset. The accelerator with the TSMC 28nm CMOS process can achieve 1024$\times$576@29 frames per second processing when running at 500MHz with 35.88TOPS/W energy efficiency and 1.05mJ energy consumption per frame.
翻訳日:2022-05-03 20:45:55 公開日:2022-05-02
# (参考訳) Zebra: アクティベーションマップのゼロブロック正規化によるCNN加速器のメモリ帯域幅削減

Zebra: Memory Bandwidth Reduction for CNN Accelerators With Zero Block Regularization of Activation Maps ( http://arxiv.org/abs/2205.00779v1 )

ライセンス: CC BY-SA 4.0
Hsu-Tung Shih and Tian-Sheuan Chang(参考訳) ローカルバッファと外部DRAMの間のメモリ帯域幅は、特にアクティベーションマップにおいてCNNハードウェアアクセラレーターの高速化ボトルネックとなっている。 メモリ帯域幅を削減するため,アクティベーションマップ(Zebra)のゼロブロック正規化により,重要でないブロックを動的にプルーニングすることを提案する。 この戦略は計算オーバーヘッドが低く、他のプルーニング手法と容易に統合でき、性能が向上する。 実験結果から,Tiny-Imagenet上でのResnet-18のメモリ帯域幅を,ネットワークスライミングと組み合わせて1\%の精度低下と2\%の精度向上で削減できることがわかった。

The large amount of memory bandwidth between local buffer and external DRAM has become the speedup bottleneck of CNN hardware accelerators, especially for activation maps. To reduce memory bandwidth, we propose to learn pruning unimportant blocks dynamically with zero block regularization of activation maps (Zebra). This strategy has low computational overhead and could easily integrate with other pruning methods for better performance. The experimental results show that the proposed method can reduce 70\% of memory bandwidth for Resnet-18 on Tiny-Imagenet within 1\% accuracy drops and 2\% accuracy gain with the combination of Network Slimming.
翻訳日:2022-05-03 20:28:33 公開日:2022-05-02
# (参考訳) 知識グラフ上のマルチホップ推論のためのタイプアウェア埋め込み

Type-aware Embeddings for Multi-Hop Reasoning over Knowledge Graphs ( http://arxiv.org/abs/2205.00782v1 )

ライセンス: CC BY 4.0
Zhiwei Hu, V\'ictor Guti\'errez-Basulto, Zhiliang Xiang, Xiaoli Li, Ru Li, Jeff Z. Pan(参考訳) 実生活知識グラフ(KG)に対するマルチホップ推論は、従来のサブグラフマッチング手法ではノイズや欠落情報を扱うことができないため、非常に難しい問題である。 この問題に対処するため、最近、論理クエリとkgsを共同で低次元空間に埋め込み、回答エンティティを識別する有望なアプローチが導入された。 しかし、既存の提案では、タイプ情報など、KGで本質的に利用可能な重要な意味知識を無視している。 タイプ情報を活用するために,クエリにおけるエンティティと関係表現を強化し,一般化,帰納的,帰納的推論を同時に改善する,新しいTypE対応メッセージパッシング(TEMP)モデルを提案する。 注目すべきは、TEMPはプラグイン・アンド・プレイモデルであり、既存の埋め込みベースのモデルに簡単に組み込んでパフォーマンスを向上させることができることである。 3つの実世界のデータセットに対する大規模な実験は、TEMPの有効性を示している。

Multi-hop reasoning over real-life knowledge graphs (KGs) is a highly challenging problem as traditional subgraph matching methods are not capable to deal with noise and missing information. To address this problem, it has been recently introduced a promising approach based on jointly embedding logical queries and KGs into a low-dimensional space to identify answer entities. However, existing proposals ignore critical semantic knowledge inherently available in KGs, such as type information. To leverage type information, we propose a novel TypE-aware Message Passing (TEMP) model, which enhances the entity and relation representations in queries, and simultaneously improves generalization, deductive and inductive reasoning. Remarkably, TEMP is a plug-and-play model that can be easily incorporated into existing embedding-based models to improve their performance. Extensive experiments on three real-world datasets demonstrate TEMP's effectiveness.
翻訳日:2022-05-03 20:21:10 公開日:2022-05-02
# (参考訳) 知的エージェントの期待と観察の検証について

On verifying expectations and observations of intelligent agents ( http://arxiv.org/abs/2205.00784v1 )

ライセンス: CC BY 4.0
Sourav Chakraborty, Avijeet Ghosh, Sujata Ghosh and Fran\c{c}ois Schwarzentruber(参考訳) パブリック・オブザーバー・ロジック(public observation logic、pol)は、エージェントの期待やエージェントの観察を推論するための動的認識論理の変種である。 エージェントは、目の前の状況に関して、関連するプロトコルによってアクティベートされる特定の期待を持ち、彼らの期待が彼らの観察と一致しない可能性のある世界を排除します。 本研究では,POLのモデルチェック問題の計算複雑性について検討し,そのPSPACE完全性を証明する。 POLの様々な構文的断片についても検討した。 本研究では,POLモデル検査の適用性を実証し,対話システムの異なる特性と特徴を,システムの異なる期待と(マッチング)観察に対して検証する。 最後に,モデル検査アルゴリズムの実装について論じる。

Public observation logic (POL) is a variant of dynamic epistemic logic to reason about agent expectations and agent observations. Agents have certain expectations, regarding the situation at hand, that are actuated by the relevant protocols, and they eliminate possible worlds in which their expectations do not match with their observations. In this work, we investigate the computational complexity of the model checking problem for POL and prove its PSPACE-completeness. We also study various syntactic fragments of POL. We exemplify the applicability of POL model checking in verifying different characteristics and features of an interactive system with respect to the distinct expectations and (matching) observations of the system. Finally, we provide a discussion on the implementation of the model checking algorithms.
翻訳日:2022-05-03 20:04:56 公開日:2022-05-02
# (参考訳) 深層強化学習におけるDeep-Attack

Deep-Attack over the Deep Reinforcement Learning ( http://arxiv.org/abs/2205.00807v1 )

ライセンス: CC0 1.0
Yang Li, Quan Pan, Erik Cambria(参考訳) 近年の敵攻撃は、強化学習をより脆弱なものにしており、攻撃の適切なタイミングを選択するための様々なアプローチが存在する。 ある作業では、値が一定のしきい値以上であれば攻撃される臨界点を選択するために攻撃評価関数を設計しようとする。 このアプローチは、長期的な影響を考慮せずに、攻撃を展開する適切な場所を見つけるのを難しくする。 加えて、攻撃中の評価の適切な指標が欠如している。 また,これらの2つの側面において,攻撃モデルの性能を評価するための新たな指標を提案するとともに,攻撃の有効性とステルス性を考慮した強化学習型攻撃フレームワークを提案する。 実験の結果,提案モデルの有効性と評価基準の妥当性が示された。 さらに, モデルの伝達性, および, その堅牢性について, 対向訓練により検証した。

Recent adversarial attack developments have made reinforcement learning more vulnerable, and different approaches exist to deploy attacks against it, where the key is how to choose the right timing of the attack. Some work tries to design an attack evaluation function to select critical points that will be attacked if the value is greater than a certain threshold. This approach makes it difficult to find the right place to deploy an attack without considering the long-term impact. In addition, there is a lack of appropriate indicators of assessment during attacks. To make the attacks more intelligent as well as to remedy the existing problems, we propose the reinforcement learning-based attacking framework by considering the effectiveness and stealthy spontaneously, while we also propose a new metric to evaluate the performance of the attack model in these two aspects. Experimental results show the effectiveness of our proposed model and the goodness of our proposed evaluation metric. Furthermore, we validate the transferability of the model, and also its robustness under the adversarial training.
翻訳日:2022-05-03 19:15:46 公開日:2022-05-02
# (参考訳) エンティティ検索のためのエンティティ対応トランスフォーマー

Entity-aware Transformers for Entity Search ( http://arxiv.org/abs/2205.00820v1 )

ライセンス: CC BY 4.0
Emma J. Gerritse, Faegheh Hasibi, Arjen P. de Vries(参考訳) BERTのような事前学習された言語モデルは、自然言語処理や情報検索の様々なタスクにおける最先端の成果を達成する上で重要な要素であり、近年の研究では、BERTは知識グラフから得られる情報であるエンティティ関係や特性に関する事実知識を捉えることができると主張している。 BERTベースのエンティティ検索モデルは、知識グラフに格納されたエンティティ情報から恩恵を受けるか? この課題に対処するために、我々はエンティティ埋め込みを事前訓練されたBERTモデルと同じ入力空間にマッピングし、エンティティ埋め込みをBERTモデルに注入する。 このエンティティ強化言語モデルは、エンティティ検索タスクに使用される。 本稿では,エンティティ強化BERTモデルにより,エンティティ指向クエリの有効性が向上し,エンティティ検索タスクに対する新たな最先端結果が確立され,複雑な自然言語クエリや,特定のプロパティを持つエンティティのリストを要求されるクエリが大幅に改善されたことを示す。 さらに、entity-enrichedモデルが提供するエンティティ情報は、特にあまり普及していないエンティティに関連するクエリに役立つことを示します。 最後に、エンティティ強化BERTモデルにより、限られたトレーニングデータに対して微調整が可能であり、そうでなければ、数サンプルの微調整においてBERTの不安定さが既知のため実現不可能であり、エンティティサーチにおけるBERTのデータ効率のトレーニングに寄与することが実証的に観察された。

Pre-trained language models such as BERT have been a key ingredient to achieve state-of-the-art results on a variety of tasks in natural language processing and, more recently, also in information retrieval.Recent research even claims that BERT is able to capture factual knowledge about entity relations and properties, the information that is commonly obtained from knowledge graphs. This paper investigates the following question: Do BERT-based entity retrieval models benefit from additional entity information stored in knowledge graphs? To address this research question, we map entity embeddings into the same input space as a pre-trained BERT model and inject these entity embeddings into the BERT model. This entity-enriched language model is then employed on the entity retrieval task. We show that the entity-enriched BERT model improves effectiveness on entity-oriented queries over a regular BERT model, establishing a new state-of-the-art result for the entity retrieval task, with substantial improvements for complex natural language queries and queries requesting a list of entities with a certain property. Additionally, we show that the entity information provided by our entity-enriched model particularly helps queries related to less popular entities. Last, we observe empirically that the entity-enriched BERT models enable fine-tuning on limited training data, which otherwise would not be feasible due to the known instabilities of BERT in few-sample fine-tuning, thereby contributing to data-efficient training of BERT for entity search.
翻訳日:2022-05-03 19:01:02 公開日:2022-05-02
# (参考訳) 緩やかな輝き, 確率最適化, その他の物語

Gradient Descent, Stochastic Optimization, and Other Tales ( http://arxiv.org/abs/2205.00832v1 )

ライセンス: CC BY 4.0
Jun Lu(参考訳) 本論文の目的は,ブラックボックスオプティマイザと確率オプティマイザの背後にある魔法を解き放つことである。 テクニックの動作方法と理由に関する強固な基盤を構築することを目的としています。 この写本は、戦略の背後にある数学である単純な直観からこの知識を結晶化する。 このチュートリアルは、勾配降下法と確率最適化法の形式的側面と非公式な側面の両方に対処することを避けない。 そうすることで、読者はこれらの技術についてより深く理解し、いつ、どのように、なぜアルゴリズムを適用するのかを理解できるようになる。 勾配降下は最適化を行う最も一般的なアルゴリズムの1つであり、機械学習タスクを最適化する最も一般的な方法である。 その確率的バージョンは近年注目を集めており、ディープニューラルネットワークの最適化には特に当てはまります。 ディープニューラルネットワークでは、計算資源を節約し、サドルポイントから逃れるために、1つのサンプルまたはサンプルのバッチが続く勾配を用いる。 1951年、robbins と monro は、新しいサンプルのバッチで局所勾配を推定する確率的最適化に関する最初の近代的手法である \textit{a stochastic approximation method} を発表した。 そして今や、確率的最適化は、主にニューラルネットワークに適合するバックプロパゲーションアルゴリズムの開発によって、機械学習のコア技術となっている。 この記事の唯一の目的は、勾配降下と確率最適化における概念と数学的ツールの自己完結した紹介を提供することです。

The goal of this paper is to debunk and dispel the magic behind black-box optimizers and stochastic optimizers. It aims to build a solid foundation on how and why the techniques work. This manuscript crystallizes this knowledge by deriving from simple intuitions, the mathematics behind the strategies. This tutorial doesn't shy away from addressing both the formal and informal aspects of gradient descent and stochastic optimization methods. By doing so, it hopes to provide readers with a deeper understanding of these techniques as well as the when, the how and the why of applying these algorithms. Gradient descent is one of the most popular algorithms to perform optimization and by far the most common way to optimize machine learning tasks. Its stochastic version receives attention in recent years, and this is particularly true for optimizing deep neural networks. In deep neural networks, the gradient followed by a single sample or a batch of samples is employed to save computational resources and escape from saddle points. In 1951, Robbins and Monro published \textit{A stochastic approximation method}, one of the first modern treatments on stochastic optimization that estimates local gradients with a new batch of samples. And now, stochastic optimization has become a core technology in machine learning, largely due to the development of the back propagation algorithm in fitting a neural network. The sole aim of this article is to give a self-contained introduction to concepts and mathematical tools in gradient descent and stochastic optimization.
翻訳日:2022-05-03 18:39:03 公開日:2022-05-02
# (参考訳) WeatherBench Probability:ディープラーニングベースラインモデルとともに確率的中距離天気予報のためのベンチマークデータセット

WeatherBench Probability: A benchmark dataset for probabilistic medium-range weather forecasting along with deep learning baseline models ( http://arxiv.org/abs/2205.00865v1 )

ライセンス: CC BY 4.0
Sagar Garg, Stephan Rasp, Nils Thuerey(参考訳) WeatherBenchは、事前処理されたデータ、事前定義された評価指標、および多くのベースラインモデルからなる、地力、温度、降水量の中距離天気予報のためのベンチマークデータセットである。 WeatherBench Probabilityは、ECWMF IFSアンサンブル予測を用いて確立された確率的検証指標(連続的な確率スコア、スプレッドスキル比、ランクヒストグラム)と最先端の運用ベースラインを追加することにより、確率予測にまで拡張する。 さらに,モンテカルロのドロップアウト,パラメトリック予測,カテゴリー予測という,確率分布を識別する3つの異なる確率論的機械学習手法を検証した。 モンテカルロ平原のドロップアウトは不確実性を過小評価している。 パラメトリックモデルとカテゴリーモデルの両方が、同じ品質のかなり信頼できる予測を生成する。 パラメトリックモデルは自由度が低いが、非ガウス分布の予測に関してはカテゴリーモデルはより柔軟である。 どのモデルも運用上のifsモデルのスキルにマッチすることはできません。 このベンチマークによって、他の研究者が確率的アプローチを評価できることを期待しています。

WeatherBench is a benchmark dataset for medium-range weather forecasting of geopotential, temperature and precipitation, consisting of preprocessed data, predefined evaluation metrics and a number of baseline models. WeatherBench Probability extends this to probabilistic forecasting by adding a set of established probabilistic verification metrics (continuous ranked probability score, spread-skill ratio and rank histograms) and a state-of-the-art operational baseline using the ECWMF IFS ensemble forecast. In addition, we test three different probabilistic machine learning methods -- Monte Carlo dropout, parametric prediction and categorical prediction, in which the probability distribution is discretized. We find that plain Monte Carlo dropout severely underestimates uncertainty. The parametric and categorical models both produce fairly reliable forecasts of similar quality. The parametric models have fewer degrees of freedom while the categorical model is more flexible when it comes to predicting non-Gaussian distributions. None of the models are able to match the skill of the operational IFS model. We hope that this benchmark will enable other researchers to evaluate their probabilistic approaches.
翻訳日:2022-05-03 18:37:37 公開日:2022-05-02
# (参考訳) tugebic:トルコ語のバイリンガルコードスイッチングコーパス

TuGeBiC: A Turkish German Bilingual Code-Switching Corpus ( http://arxiv.org/abs/2205.00868v1 )

ライセンス: CC BY 4.0
Jeanine Treffers-Daller and, Ozlem \c{C}etino\u{g}lu(参考訳) 本稿では、トルコ語とドイツ語のバイリンガルからの自発音声の録音の収集、転写、注釈のプロセスと、tugebicと呼ばれるコーパスの編集について述べる。 この研究の参加者は、1990年代前半に録音された時点でドイツやトルコに住んでいた成人のトルコ系ドイツ人バイリンガルであった。 データは手動でトークン化・正規化され、すべての適切な名前(会話で言及された参加者や場所の名前)が偽名に置き換えられた。 トークンレベルの自動言語識別を行い、各言語からの単語の比率を確立することができた。 コーパスは両言語間で大まかにバランスを取っている。 また、コードスイッチ数に関する定量的な情報も提示し、データ中のさまざまなタイプのコードスイッチの例を示す。 その結果得られたコーパスは、研究コミュニティで自由に利用できるようになった。

In this paper we describe the process of collection, transcription, and annotation of recordings of spontaneous speech samples from Turkish-German bilinguals, and the compilation of a corpus called TuGeBiC. Participants in the study were adult Turkish-German bilinguals living in Germany or Turkey at the time of recording in the first half of the 1990s. The data were manually tokenised and normalised, and all proper names (names of participants and places mentioned in the conversations) were replaced with pseudonyms. Token-level automatic language identification was performed, which made it possible to establish the proportions of words from each language. The corpus is roughly balanced between both languages. We also present quantitative information about the number of code-switches, and give examples of different types of code-switching found in the data. The resulting corpus has been made freely available to the research community.
翻訳日:2022-05-03 18:26:51 公開日:2022-05-02
# (参考訳) 領域適応によるFSL法の一般化能について : 内視鏡的腎臓結石分類を事例として

On the generalization capabilities of FSL methods through domain adaptation: a case study in endoscopic kidney stone image classification ( http://arxiv.org/abs/2205.00895v1 )

ライセンス: CC BY 4.0
Mauricio Mendez-Ruiz and Francisco Lopez-Tiro and Jonathan El-Beze and Vincent Estrade and Gilberto Ochoa-Ruiz1 and Jacques Hubert and Andres Mendez-Vazquez and Christian Daul(参考訳) ディープラーニングは、画像分類、オブジェクト検出、セマンティックセグメンテーションなど、コンピュータビジョンのさまざまな領域において、大きな可能性を秘めています。 しかし、繰り返し実証されたように、データセットでトレーニングされたディープラーニングメソッドは、データ分散シフトのため、他のドメインのデータセットや、類似のデータセットにもうまく一般化しない。 本稿では,これらの問題を緩和するために,メタラーニングを用いた少数ショット学習手法を提案する。 その効果を示すために, 異なる内視鏡と異なる取得条件で獲得した腎臓結石試料の2つのデータセットを用いた。 その結果, 5-way 5-shot と 5-way 20-shot では, それぞれ74.38%, 88.52%の精度でドメインシフトを処理できることがわかった。 代わりに、同じデータセットで、従来のディープラーニング(DL)メソッドは45%の精度しか得られない。

Deep learning has shown great promise in diverse areas of computer vision, such as image classification, object detection and semantic segmentation, among many others. However, as it has been repeatedly demonstrated, deep learning methods trained on a dataset do not generalize well to datasets from other domains or even to similar datasets, due to data distribution shifts. In this work, we propose the use of a meta-learning based few-shot learning approach to alleviate these problems. In order to demonstrate its efficacy, we use two datasets of kidney stones samples acquired with different endoscopes and different acquisition conditions. The results show how such methods are indeed capable of handling domain-shifts by attaining an accuracy of 74.38% and 88.52% in the 5-way 5-shot and 5-way 20-shot settings respectively. Instead, in the same dataset, traditional Deep Learning (DL) methods attain only an accuracy of 45%.
翻訳日:2022-05-03 18:10:16 公開日:2022-05-02
# (参考訳) fastgcl:コントラスト型近傍アグリゲーションによるグラフ上の高速な自己教師付き学習

FastGCL: Fast Self-Supervised Learning on Graphs via Contrastive Neighborhood Aggregation ( http://arxiv.org/abs/2205.00905v1 )

ライセンス: CC BY 4.0
Yuansheng Wang, Wangbin Sun, Kun Xu, Zulun Zhu, Liang Chen, Zibin Zheng(参考訳) グラフ・コントラッシブ・ラーニング(GCL)はグラフ自己教師型ラーニングの一般的なアプローチであり、最近非無視的な効果を達成している。 優れた性能を実現するため、既存のgcl手法の大部分はグラフデータ拡張に精通し、適切なコントラストペアを構築する。 しかし、既存の手法では、余分な時間オーバーヘッドを必要とする複雑なグラフデータ拡張に重点を置いており、エンコーダ特性に特有のコントラストスキームの開発にはあまり注意を払っていない。 より優れたコントラスト的スキームは、グラフニューラルネットワークの特性(例えば、近傍集約)に合わせて調整されるべきであり、FastGCLという単純な方法を提案する。 具体的には、重み付けされた近傍情報と非集約型近傍情報をそれぞれ正と負のサンプルとして構築することで、fastgclはグラフトポロジーとノード属性を乱すことなくデータの潜在的な意味情報を識別し、より高速なトレーニングと収束速度をもたらす。 ノード分類およびグラフ分類タスクにおいて、FastGCLは既存の最先端手法と比較して、競争力のある分類性能と重要なトレーニングスピードアップを有することを示した。

Graph contrastive learning (GCL), as a popular approach to graph self-supervised learning, has recently achieved a non-negligible effect. To achieve superior performance, the majority of existing GCL methods elaborate on graph data augmentation to construct appropriate contrastive pairs. However, existing methods place more emphasis on the complex graph data augmentation which requires extra time overhead, and pay less attention to developing contrastive schemes specific to encoder characteristics. We argue that a better contrastive scheme should be tailored to the characteristics of graph neural networks (e.g., neighborhood aggregation) and propose a simple yet effective method named FastGCL. Specifically, by constructing weighted-aggregated and non-aggregated neighborhood information as positive and negative samples respectively, FastGCL identifies the potential semantic information of data without disturbing the graph topology and node attributes, resulting in faster training and convergence speeds. Extensive experiments have been conducted on node classification and graph classification tasks, showing that FastGCL has competitive classification performance and significant training speedup compared to existing state-of-the-art methods.
翻訳日:2022-05-03 17:52:30 公開日:2022-05-02
# (参考訳) CNNとLSTMを用いた音声駆動リップシンクモデル

A Novel Speech-Driven Lip-Sync Model with CNN and LSTM ( http://arxiv.org/abs/2205.00916v1 )

ライセンス: CC BY 4.0
Xiaohong Li, Xiang Wang, Kai Wang, Shiguo Lian(参考訳) 現実的な仮想キャラクタを作成する上では,音声と自然な唇の動きを同時に生成することが最も重要な課題である。 本稿では,一次元畳み込みとLSTMを組み合わせた深層ニューラルネットワークを用いて,可変長音声入力から3次元テンプレート顔モデルの頂点変位を生成する。 3次元唇形状の頂点運動で表される顔の下部の動きは、入力音声と一致している。 異なる音響信号に対してネットワークのロバスト性を高めるために,訓練された音声認識モデルを適用し,音声特徴抽出を行い,速度損失項を適用し,生成した顔アニメーションのジッタを低減する。 中国人の成人が話すマンダリンの一連のビデオを撮影し、そのような公開データの欠如を補うための新しい音声アニメーションデータセットを作成した。 質的・定量的評価は,音声に同期した滑らかで自然な唇運動を生成できることを示す。

Generating synchronized and natural lip movement with speech is one of the most important tasks in creating realistic virtual characters. In this paper, we present a combined deep neural network of one-dimensional convolutions and LSTM to generate vertex displacement of a 3D template face model from variable-length speech input. The motion of the lower part of the face, which is represented by the vertex movement of 3D lip shapes, is consistent with the input speech. In order to enhance the robustness of the network to different sound signals, we adapt a trained speech recognition model to extract speech feature, and a velocity loss term is adopted to reduce the jitter of generated facial animation. We recorded a series of videos of a Chinese adult speaking Mandarin and created a new speech-animation dataset to compensate the lack of such public data. Qualitative and quantitative evaluations indicate that our model is able to generate smooth and natural lip movements synchronized with speech.
翻訳日:2022-05-03 17:39:39 公開日:2022-05-02
# (参考訳) 量子コンピュータにおける時系列解析のウォークスルー

A walk through of time series analysis on quantum computers ( http://arxiv.org/abs/2205.00986v1 )

ライセンス: CC BY 4.0
Ammar Daskin(参考訳) 量子回路上の回転成分のため、変分回路に基づく量子ニューラルネットワークは古典的なフーリエネットワークと等価であると考えられる。 さらに、それらは連続関数のフーリエ係数を予測するのに使うことができる。 時系列データは、時間内の変数の状態を示す。 時系列データの一部も連続関数と見なすことができるので、量子機械学習モデルは時系列データ上で多くのデータ分析タスクをうまく行うことを期待できる。 したがって、時間的データ処理のための新しい量子論理を探求し、量子コンピュータ上のデータ固有の関係を分析することが重要である。 本稿では、数個の量子ゲートを必要とする単純な量子演算子を用いて、古典的データ前処理とARIMAモデルによる予測の量子アナログを経る。 次に,量子コンピュータ上での時間データ解析に使用できる今後の方向性とツール・アルゴリズムについて述べる。

Because of the rotational components on quantum circuits, some quantum neural networks based on variational circuits can be considered equivalent to the classical Fourier networks. In addition, they can be used to predict Fourier coefficients of continuous functions. Time series data indicates a state of a variable in time. Since some time series data can be also considered as continuous functions, we can expect quantum machine learning models to do do many data analysis tasks successfully on time series data. Therefore, it is important to investigate new quantum logics for temporal data processing and analyze intrinsic relationships of data on quantum computers. In this paper, we go through the quantum analogues of classical data preprocessing and forecasting with ARIMA models by using simple quantum operators requiring a few number of quantum gates. Then we discuss future directions and some of the tools/algorithms that can be used for temporal data analysis on quantum computers.
翻訳日:2022-05-03 17:30:43 公開日:2022-05-02
# (参考訳) RANG:物理インフォームドニューラルネットワークのための残差に基づく適応ノード生成手法

RANG: A Residual-based Adaptive Node Generation Method for Physics-Informed Neural Networks ( http://arxiv.org/abs/2205.01051v1 )

ライセンス: CC BY 4.0
Wei Peng, Weien Zhou, Xiaoya Zhang, Wen Yao, Zheliang Liu(参考訳) 物理インフォームドニューラルネットワーク(PINN)を用いた偏微分方程式(PDE)の学習法は、その柔軟性と観測データを組み込むことの容易さから、従来の解法よりも魅力的な方法である。 PINNは様々なPDEを正確に解くのに成功しているが、計算効率の面では依然として改善が必要である。 改善のアイデアのひとつは、トレーニングポイントセットの生成を最適化することです。 PINNのトレーニング効果を改善するために,残差に基づく適応サンプリングと準一様サンプリングをそれぞれ適用した。 両手法の利点を生かし, RBF-FD の変動密度結節分布法に基づく PINN の効率的なトレーニングのためのResidual-based Adaptive Node Generation (RANG) 手法を提案する。 また、記憶機構によりトレーニング安定性をさらに向上させる。 本研究では, ノード生成方式による3つの線形PDEと3つの非線形PDEの実験を行い, 提案手法の精度と効率を一様サンプリング法と比較して数値的に検証した。

Learning solutions of partial differential equations (PDEs) with Physics-Informed Neural Networks(PINNs) is an attractive alternative approach to traditional solvers due to its flexibility and ease of incorporating observed data. Despite the success of PINNs in accurately solving a wide variety of PDEs, the method still requires improvements in terms of computational efficiency. One possible improvement idea is to optimize the generation of training point sets. Residual-based adaptive sampling and quasi-uniform sampling approaches have been each applied to improve the training effects of PINNs, respectively. To benefit from both methods, we propose the Residual-based Adaptive Node Generation (RANG) approach for efficient training of PINNs, which is based on a variable density nodal distribution method for RBF-FD. The method is also enhanced by a memory mechanism to further improve training stability. We conduct experiments on three linear PDEs and three nonlinear PDEs with various node generation methods, through which the accuracy and efficiency of the proposed method compared to the predominant uniform sampling approach is verified numerically.
翻訳日:2022-05-03 17:15:52 公開日:2022-05-02
# LoopStack:軽量なTensor Algebraコンパイラスタック

LoopStack: a Lightweight Tensor Algebra Compiler Stack ( http://arxiv.org/abs/2205.00618v1 )

ライセンス: Link先を確認
Bram Wasti, Jos\'e Pablo Cambronero, Benoit Steiner, Hugh Leather and Aleksandar Zlateski(参考訳) これは、テンソル演算のためのドメイン固有コンパイラスタックで、フロントエンド、looptool、効率的な最適化コードジェネレータloopnestで構成されています。 このスタックは、ニューラルネットワーク全体をコンパイルし、AVX2、AVX512、NEON、NEONfp16命令セットをターゲットとしたコードを生成すると同時に、他の機械学習コンパイラバックエンドから欠落する最適化を組み込むことができます。 ニューラルネットワークの完全な集合と一般的に使用されるネットワークブロックと個々の演算子の両方でスタックを評価し、LoopStackが両方のケースで最先端の機械学習フレームワークのパフォーマンスとよく一致するマシンコードを生成することを示す。 また、大規模なスケジュールのコレクションでは、LoopNestのコンパイルはLLVMよりも桁違いに高速であると同時に、実行時のパフォーマンスが同等または改善されていることを示す。 さらに、LoopStackのメモリフットプリントは非常に小さく、バイナリサイズは245KB、有効コード数は30K行以下なので、モバイルや組み込みデバイスでの使用には最適です。

We present LoopStack, a domain specific compiler stack for tensor operations, composed of a frontend, LoopTool, and an efficient optimizing code generator, LoopNest. This stack enables us to compile entire neural networks and generate code targeting the AVX2, AVX512, NEON, and NEONfp16 instruction sets while incorporating optimizations often missing from other machine learning compiler backends. We evaluate our stack on a collection of full neural networks and commonly used network blocks as well as individual operators, and show that LoopStack generates machine code that matches and frequently exceeds the performance of in state-of-the-art machine learning frameworks in both cases. We also show that for a large collection of schedules LoopNest's compilation is orders of magnitude faster than LLVM, while resulting in equal or improved run time performance. Additionally, LoopStack has a very small memory footprint - a binary size of 245KB, and under 30K lines of effective code makes it ideal for use on mobile and embedded devices.
翻訳日:2022-05-03 17:14:34 公開日:2022-05-02
# (参考訳) 多様性制約付き整数プログラミング手法による組立プルーニング

Ensemble pruning via an integer programming approach with diversity constraints ( http://arxiv.org/abs/2205.01088v1 )

ライセンス: CC BY 4.0
Marcelo Ant\^onio Mendes Bastos, Humberto Brand\~ao C\'esar de Oliveira, Cristiano Arbex Valle(参考訳) アンサンブル学習は、より良い予測性能を得るために複数の分類器を組み合わせる。 実験的な研究により、利用可能な分類器の適切なサブセットを選択するアンサンブルプルーニングは、すべての分類器を使用するよりも同等またはより良い予測につながることが示されている。 本稿では、二項分類問題を考察し、最適分類器サブセットを選択する整数プログラミング(IP)手法を提案する。 異なるデータセットの望ましい基準に適応するフレキシブルな客観的関数を提案する。 アンサンブルにおける最小の多様性レベルを確保するための制約も提案する。 IPがNP-Hardである一般的なケースにもかかわらず、最先端の解決者は、最大60000のデータポイントを持つデータセットの優れたソリューションを迅速に得ることができる。 私たちのアプローチは、文学でもっともよく使われる刈り取り方法と比較すると、競争力のある結果をもたらします。

Ensemble learning combines multiple classifiers in the hope of obtaining better predictive performance. Empirical studies have shown that ensemble pruning, that is, choosing an appropriate subset of the available classifiers, can lead to comparable or better predictions than using all classifiers. In this paper, we consider a binary classification problem and propose an integer programming (IP) approach for selecting optimal classifier subsets. We propose a flexible objective function to adapt to desired criteria of different datasets. We also propose constraints to ensure minimum diversity levels in the ensemble. Despite the general case of IP being NP-Hard, state-of-the-art solvers are able to quickly obtain good solutions for datasets with up to 60000 data points. Our approach yields competitive results when compared to some of the best and most used pruning methods in literature.
翻訳日:2022-05-03 17:12:13 公開日:2022-05-02
# $\beta$-Variational Autoencoderによる超音速流れの低次モデリング

Physics-aware Reduced-order Modeling of Transonic Flow via $\beta$-Variational Autoencoder ( http://arxiv.org/abs/2205.00608v1 )

ライセンス: Link先を確認
Yu-Eop Kang, Sunwoong Yang, Kwanjung Yee(参考訳) オートエンコーダをベースとした低次モデリングは, 非線形特徴を捉える能力から近年注目されている。 しかし、その非解釈潜在変数(LV)は、様々な物理的問題への適用性を著しく損なう。 本研究では,この問題に対処するために,$\beta$-variational autoencoderを用いた物理認識型低次モデリングを提案する。 提案手法はLVのランクと独立性を定量化し,様々な手法を用いて定量的かつ質的に検証する。 そこで,解釈可能な物理的特徴を含むLVの同定に成功した。 また,これらの「物理認識」lvは,データセットの生成要因である物理パラメータ,すなわちマッハ数と攻撃角に対応していることを確認した。 さらに, これらの物理認識型LVが低次モデリングの精度に及ぼす影響について検討し, 物理認識型LVを除外することにより, オフラインステージの計算コストを軽減できる可能性を検証した。

Autoencoder-based reduced-order modeling has recently attracted significant attention, owing to the ability to capture underlying nonlinear features. However, its uninterpretable latent variables (LVs) severely undermine the applicability to various physical problems. This study proposes physics-aware reduced-order modeling using a $\beta$-variational autoencoder to address this issue. The presented approach can quantify the rank and independence of LVs, which is validated both quantitatively and qualitatively using various techniques. Accordingly, LVs containing interpretable physical features were successfully identified. It was also verified that these "physics-aware" LVs correspond to the physical parameters that are the generating factors of the dataset, i.e., the Mach number and angle of attack in this study. Moreover, the effects of these physics-aware LVs on the accuracy of reduced-order modeling were investigated, which verified the potential of this method to alleviate the computational cost of the offline stage by excluding physics-unaware LVs.
翻訳日:2022-05-03 16:38:06 公開日:2022-05-02
# discounted normal-predictorに基づく平滑化オンライン凸最適化

Smoothed Online Convex Optimization Based on Discounted-Normal-Predictor ( http://arxiv.org/abs/2205.00741v1 )

ライセンス: Link先を確認
Lijun Zhang, Wei Jiang, Jinfeng Yi, Tianbao Yang(参考訳) 本稿では,学習者が打球コストだけでなく,切替コストも最小にする必要がある平滑化オンライン凸最適化(soco)のための,ディスカウント正規予測 (kapralov and panigrahy, 2010) と呼ばれるオンライン予測戦略について検討する。 Daniely and Mansour (2019) は、専門家の助言による学習の設定において、切り換えコストがある場合でも、任意の間隔でほぼ最適な後悔境界が得られることを証明した。 これらの結果に触発されて、オンライン勾配降下(OGD)と異なるステップサイズを順次組み合わせたSOCOの簡単なアルゴリズムを開発した。 その単純さにもかかわらず、スイッチングコストで適応的な後悔を最小化できること、すなわち、間隔ごとにスイッチングコストでほぼ最適の後悔を達成できることを実証する。 さらに,ogdの理論的保証を動的後悔に活用することにより,提案手法が各区間の切り替えコストで動的後悔を最小化できることを示す。

In this paper, we investigate an online prediction strategy named as Discounted-Normal-Predictor (Kapralov and Panigrahy, 2010) for smoothed online convex optimization (SOCO), in which the learner needs to minimize not only the hitting cost but also the switching cost. In the setting of learning with expert advice, Daniely and Mansour (2019) demonstrate that Discounted-Normal-Predictor can be utilized to yield nearly optimal regret bounds over any interval, even in the presence of switching costs. Inspired by their results, we develop a simple algorithm for SOCO: Combining online gradient descent (OGD) with different step sizes sequentially by Discounted-Normal-Predictor. Despite its simplicity, we prove that it is able to minimize the adaptive regret with switching cost, i.e., attaining nearly optimal regret with switching cost on every interval. By exploiting the theoretical guarantee of OGD for dynamic regret, we further show that the proposed algorithm can minimize the dynamic regret with switching cost in every interval.
翻訳日:2022-05-03 16:37:49 公開日:2022-05-02
# レートスプリッティング多重アクセスのためのモデルベースディープラーニング受信機設計

Model-based Deep Learning Receiver Design for Rate-Splitting Multiple Access ( http://arxiv.org/abs/2205.00849v1 )

ライセンス: Link先を確認
Rafael Cerna Loli, Onur Dizdar, Bruno Clerckx, Cong Ling(参考訳) 次世代無線通信システムでは効果的かつ適応的な干渉管理が必要である。 この課題に対処するために、送信機におけるマルチアンテナレートスプリッティング(RS)と受信機における逐次干渉キャンセル(SIC)に依存したRSMA(Rate-Splitting Multiple Access)が近年集中的に研究されている。 本研究は,より現実的な条件下での実用的性能,利点,限界を評価するため,従来のSIC受信機の単純な構造と深層学習技術の堅牢性とモデル非依存性を一体化することを目的とした,モデルベース深層学習(MBDL)手法に基づく実用的RSMA受信機の設計を提案する。 mbdl受信機は、アンコードシンボル誤り率(ser)、リンクレベルシミュレーション(lls)によるスループット性能、および平均トレーニングオーバーヘッドの観点から評価される。 また、完全かつ不完全なCSIRを有するSIC受信機との比較を行う。 その結果,SIC受信機に不完全なCSIRを付与することでMBDLの精度が向上し,要求された非線形シンボル検出境界を純粋なデータ駆動方式で生成できることが判明した。

Effective and adaptive interference management is required in next generation wireless communication systems. To address this challenge, Rate-Splitting Multiple Access (RSMA), relying on multi-antenna rate-splitting (RS) at the transmitter and successive interference cancellation (SIC) at the receivers, has been intensively studied in recent years, albeit mostly under the assumption of perfect Channel State Information at the Receiver (CSIR) and ideal capacity-achieving modulation and coding schemes. To assess its practical performance, benefits, and limits under more realistic conditions, this work proposes a novel design for a practical RSMA receiver based on model-based deep learning (MBDL) methods, which aims to unite the simple structure of the conventional SIC receiver and the robustness and model agnosticism of deep learning techniques. The MBDL receiver is evaluated in terms of uncoded Symbol Error Rate (SER), throughput performance through Link-Level Simulations (LLS), and average training overhead. Also, a comparison with the SIC receiver, with perfect and imperfect CSIR, is given. Results reveal that the MBDL outperforms by a significant margin the SIC receiver with imperfect CSIR, due to its ability to generate on demand non-linear symbol detection boundaries in a pure data-driven manner.
翻訳日:2022-05-03 16:36:13 公開日:2022-05-02
# 自己特徴抽出とDense Modulationを用いたモバイルデバイス用軽量画像強調ネットワーク

Lightweight Image Enhancement Network for Mobile Devices Using Self-Feature Extraction and Dense Modulation ( http://arxiv.org/abs/2205.00853v1 )

ライセンス: Link先を確認
Sangwook Baek, Yongsup Park, Youngo Park, Jungmin Lee, and Kwangpyo Choi(参考訳) 畳み込みニューラルネットワーク(CNN)に基づく超解像やディテールエンハンスメントなどの画像強調手法は、優れた性能を達成している。 しかし、畳み込みやパラメータを含むネットワーク内の操作の量は計算能力が高く、デバイス上で要求されるアプリケーションを制限する巨大なメモリリソースを必要とする。 軽量画像強調ネットワークは、忠実性を維持しつつ、低解像度入力画像から詳細、テクスチャ、構造情報を復元する必要がある。 この問題に対処するため,軽量画像強調ネットワークを提案する。 提案するネットワークは、低品質の画像自体から変調パラメータを生成し、ネットワークの特徴を変調する自己特徴抽出モジュールを含む。 また,変調層に適用される連結特徴の密結合を用いた,提案ネットワークの単位ブロックに対して,高密度変調ブロックを提案する。 実験結果は,定量評価と定性評価の両方の観点から,既存手法よりも優れた性能を示した。

Convolutional neural network (CNN) based image enhancement methods such as super-resolution and detail enhancement have achieved remarkable performances. However, amounts of operations including convolution and parameters within the networks cost high computing power and need huge memory resource, which limits the applications with on-device requirements. Lightweight image enhancement network should restore details, texture, and structural information from low-resolution input images while keeping their fidelity. To address these issues, a lightweight image enhancement network is proposed. The proposed network include self-feature extraction module which produces modulation parameters from low-quality image itself, and provides them to modulate the features in the network. Also, dense modulation block is proposed for unit block of the proposed network, which uses dense connections of concatenated features applied in modulation layers. Experimental results demonstrate better performance over existing approaches in terms of both quantitative and qualitative evaluations.
翻訳日:2022-05-03 16:35:48 公開日:2022-05-02
# 動的産業環境における作業安全リスクのモデル化と緩和

Modeling and mitigation of occupational safety risks in dynamic industrial environments ( http://arxiv.org/abs/2205.00894v1 )

ライセンス: Link先を確認
Ashutosh Tewari and Antonio R. Paiva(参考訳) 多くの産業において安全リスクの特定と緩和が最重要である。 ガイドラインやベストプラクティスに加えて、多くの産業は安全管理システム(SMS)をすでに備えており、優れた安全行動を監視し強化している。 しかし、こうしたシステムを通じて得られたデータを分析する分析能力は、様々な作業上の危険によって生じるリスクを堅牢に定量化できる能力に関してはまだ不足している。 さらに、ベストプラクティスや現代のsmsは、多くの産業環境で一般的に見られる、動的に進化する環境や行動特性を説明できない。 本稿では,データ駆動方式で安全性リスクを連続的かつ定量的に評価することで,これらの問題に対処する手法を提案する。 本手法のバックボーンは直感的な階層的確率モデルであり,典型的なSMSで収集されるスパースとノイズの安全データを説明する。 このモデルをオンライン形式で安全データから校正するために、完全にベイズ的アプローチが開発されている。 その後、キャリブレーションされたモデルは、異なる安全リスクによって生じるリスクを特徴付けるために必要な情報を保持する。 さらに、提案されたモデルは、リソース制約のある産業環境でしばしば発生するリスク軽減を目的としたリソース割り当て問題の解決など、自動意思決定に利用することができる。 この手法はシミュレーションテストベッド上で厳密に検証され,その拡張性は石油化学プラントの大規模保守プロジェクトからの実データで実証される。

Identifying and mitigating safety risks is paramount in a number of industries. In addition to guidelines and best practices, many industries already have safety management systems (SMSs) designed to monitor and reinforce good safety behaviors. The analytic capabilities to analyze the data acquired through such systems, however, are still lacking in terms of their ability to robustly quantify risks posed by various occupational hazards. Moreover, best practices and modern SMSs are unable to account for dynamically evolving environments/behavioral characteristics commonly found in many industrial settings. This article proposes a method to address these issues by enabling continuous and quantitative assessment of safety risks in a data-driven manner. The backbone of our method is an intuitive hierarchical probabilistic model that explains sparse and noisy safety data collected by a typical SMS. A fully Bayesian approach is developed to calibrate this model from safety data in an online fashion. Thereafter, the calibrated model holds necessary information that serves to characterize risk posed by different safety hazards. Additionally, the proposed model can be leveraged for automated decision making, for instance solving resource allocation problems -- targeted towards risk mitigation -- that are often encountered in resource-constrained industrial environments. The methodology is rigorously validated on a simulated test-bed and its scalability is demonstrated on real data from large maintenance projects at a petrochemical plant.
翻訳日:2022-05-03 16:35:36 公開日:2022-05-02
# 教師付き学習による高速連続・整数L字ヒューリスティックス

Fast Continuous and Integer L-shaped Heuristics Through Supervised Learning ( http://arxiv.org/abs/2205.00897v1 )

ライセンス: Link先を確認
Eric Larsen, Emma Frejinger, Bernard Gendron and Andrea Lodi(参考訳) そこで本研究では, ml から利用可能な汎用近似器を応用した nexus of operations research and machine learning (ml) において, 混合整数線形2段階確率プログラムの解を高速化する手法を提案する。 我々は,第2段階が高度に要求される問題を解決することを目指している。 我々の中核となる考え方は、高速かつ高精度に教師付きML予測をすることで、第1ステージソリューションの精度を低下させながら、オンラインソリューションの時間を大幅に短縮することである。 このMLへの事前投資は、例えば、艦隊管理、ルーティング、コンテナヤード管理に関連する輸送計画において、同様の問題が繰り返し解決された場合に正当化される。 数値計算の結果は、整数と連続L字切断を半々的に扱う問題クラスに焦点をあてる。 文献で利用可能な確率的サーバ位置(SSLP)と確率的マルチクナップサック(SMKP)問題から導かれる問題の標準化されたファミリに、我々の広範な経験分析を基礎としている。 提案手法は,最先端の正解法に要する時間の9%以下でSSLPの最も難しいインスタンスを解くことができ,SMKPの場合,同じ数値が20%である。 平均最適ギャップは、ほとんどの場合0.1%未満である。

We propose a methodology at the nexus of operations research and machine learning (ML) leveraging generic approximators available from ML to accelerate the solution of mixed-integer linear two-stage stochastic programs. We aim at solving problems where the second stage is highly demanding. Our core idea is to gain large reductions in online solution time while incurring small reductions in first-stage solution accuracy by substituting the exact second-stage solutions with fast, yet accurate supervised ML predictions. This upfront investment in ML would be justified when similar problems are solved repeatedly over time, for example, in transport planning related to fleet management, routing and container yard management. Our numerical results focus on the problem class seminally addressed with the integer and continuous L-shaped cuts. Our extensive empirical analysis is grounded in standardized families of problems derived from stochastic server location (SSLP) and stochastic multi knapsack (SMKP) problems available in the literature. The proposed method can solve the hardest instances of SSLP in less than 9% of the time it takes the state-of-the-art exact method, and in the case of SMKP the same figure is 20%. Average optimality gaps are in most cases less than 0.1%.
翻訳日:2022-05-03 16:35:14 公開日:2022-05-02
# (参考訳) BERTops:トポロジカルレンズによるBERT表現の研究

BERTops: Studying BERT Representations under a Topological Lens ( http://arxiv.org/abs/2205.00953v1 )

ライセンス: CC BY 4.0
Jatin Chauhan, Manohar Kaul(参考訳) BERTのような大規模変圧器モデルの高次元隠蔽表現の様々な特性を効果的に理解し、分析し、学習するためのスコアリング関数を提案することは難しい課題である。 本研究では,永続ホモロジー(PH)を用いたBERT隠れ表現のトポロジ的特徴を研究することにより,新しい方向を探索する。 そこで我々は,「パーシステンススコアリング機能(PSF)」という新しいスコアリング機能を提案する。 (i)高次元の隠れ表現のホモロジーを正確に捉え、幅広いデータセットのテストセット精度とよく相関し、既存のスコア指標を上回っています。 (ii)定性的および量的視点の両方から、微調整後の「クラスごと」レベルの興味深い特性を捉える。 (iii) はベースライン関数と比較して摂動に対してより安定であり、非常にロバストなプロキシとなっている。 (iv)最後は、ブラックボックスおよびホワイトボックスの敵対的攻撃方法の幅広いカテゴリの攻撃成功率の予測役としても機能する。 BERT に関連する様々な NLP タスクにおける PSF の実用性について検討した。

Proposing scoring functions to effectively understand, analyze and learn various properties of high dimensional hidden representations of large-scale transformer models like BERT can be a challenging task. In this work, we explore a new direction by studying the topological features of BERT hidden representations using persistent homology (PH). We propose a novel scoring function named "persistence scoring function (PSF)" which: (i) accurately captures the homology of the high-dimensional hidden representations and correlates well with the test set accuracy of a wide range of datasets and outperforms existing scoring metrics, (ii) captures interesting post fine-tuning "per-class" level properties from both qualitative and quantitative viewpoints, (iii) is more stable to perturbations as compared to the baseline functions, which makes it a very robust proxy, and (iv) finally, also serves as a predictor of the attack success rates for a wide category of black-box and white-box adversarial attack methods. Our extensive correlation experiments demonstrate the practical utility of PSF on various NLP tasks relevant to BERT.
翻訳日:2022-05-03 16:29:14 公開日:2022-05-02
# 深層強化学習における探索:調査

Exploration in Deep Reinforcement Learning: A Survey ( http://arxiv.org/abs/2205.00824v1 )

ライセンス: Link先を確認
Pawel Ladosz, Lilian Weng, Minwoo Kim, Hyondong Oh(参考訳) 本稿では,深層強化学習における探索手法についてレビューする。 スパース報酬問題の解決には探索技術が重要である。 わずかな報酬問題では、報酬は稀であり、エージェントがランダムに振る舞うことで報酬を見つけられないことを意味する。 このようなシナリオでは、強化学習が報酬や行動アソシエーションを学ぶことは困難である。 そのため、より高度な探査方法を考案する必要がある。 本総説では, 既往来の探索手法の概要を概観し, 報奨行動, 多様な行動, 目標に基づく手法, 確率的手法, 模倣的手法, 安全な探査方法, ランダムな手法の3つに分類する。 次に、未解決の課題を議論し、今後の研究の方向性を示す。 最後に、異なるカテゴリのアプローチは複雑さ、計算労力、全体的なパフォーマンスの観点から比較される。

This paper reviews exploration techniques in deep reinforcement learning. Exploration techniques are of primary importance when solving sparse reward problems. In sparse reward problems, the reward is rare, which means that the agent will not find the reward often by acting randomly. In such a scenario, it is challenging for reinforcement learning to learn rewards and actions association. Thus more sophisticated exploration methods need to be devised. This review provides a comprehensive overview of existing exploration approaches, which are categorized based on the key contributions as follows reward novel states, reward diverse behaviours, goal-based methods, probabilistic methods, imitation-based methods, safe exploration and random-based methods. Then, the unsolved challenges are discussed to provide valuable future research directions. Finally, the approaches of different categories are compared in terms of complexity, computational effort and overall performance.
翻訳日:2022-05-03 16:10:15 公開日:2022-05-02
# 深層学習のための不確実性ツールキットに関する研究

A Survey on Uncertainty Toolkits for Deep Learning ( http://arxiv.org/abs/2205.01040v1 )

ライセンス: Link先を確認
Maximilian Pintz, Joachim Sicking, Maximilian Poretschkin, Maram Akila(参考訳) ディープラーニング(dl)の成功は、tensorflowやpytorchといった統一的なフレームワークの開発を、その見返りとして作り上げたのと同じくらい促進した。 共通のビルディングブロックを持つことで、例えばモデルや概念の交換が容易になり、開発を複製しやすくする。 それでもdlモデルの堅牢で信頼性の高い評価や評価は、しばしば困難であることが証明されている。 これは、最近「信頼できるML」の分野で頂点に達した安全関連性の増加と矛盾している。 我々は、特に、ツールキット、すなわち小型で専門的なフレームワークデリバティブの観点からの評価と保護の方法論のさらなる統一が、信頼性の問題や再現性に肯定的な影響を及ぼすと考えている。 この目的のために, UE がモデル信頼性評価の基盤となるため, DL における不確実性推定(UE)のためのツールキットに関する最初の調査を行う。 モデリングと評価能力に関する11のツールキットを調査し,pyro,tensorflow確率,不確かさの定量化360という,最も有望な3つのツールキットについて詳細な比較を行った。 最初の2つは、それぞれのフレームワークに大きな柔軟性とシームレスな統合を提供するが、最後の2つは、より大きな方法論的スコープを持っている。

The success of deep learning (DL) fostered the creation of unifying frameworks such as tensorflow or pytorch as much as it was driven by their creation in return. Having common building blocks facilitates the exchange of, e.g., models or concepts and makes developments easier replicable. Nonetheless, robust and reliable evaluation and assessment of DL models has often proven challenging. This is at odds with their increasing safety relevance, which recently culminated in the field of "trustworthy ML". We believe that, among others, further unification of evaluation and safeguarding methodologies in terms of toolkits, i.e., small and specialized framework derivatives, might positively impact problems of trustworthiness as well as reproducibility. To this end, we present the first survey on toolkits for uncertainty estimation (UE) in DL, as UE forms a cornerstone in assessing model reliability. We investigate 11 toolkits with respect to modeling and evaluation capabilities, providing an in-depth comparison for the three most promising ones, namely Pyro, Tensorflow Probability, and Uncertainty Quantification 360. While the first two provide a large degree of flexibility and seamless integration into their respective framework, the last one has the larger methodological scope.
翻訳日:2022-05-03 16:10:00 公開日:2022-05-02
# AIアートに多様性を見出す

Seeding Diversity into AI Art ( http://arxiv.org/abs/2205.00804v1 )

ライセンス: Link先を確認
Marvin Zammit, Antonios Liapis and Georgios N. Yannakakis(参考訳) 本稿では,視覚コーパスや意味コーパスによる生成的芸術は,創造的と考えるために必要な基準を欠いていることを論じる。 文献で特定されたいくつかの問題のうち、単一の画像を生成するgans(generative adversarial network)には、その製品が以前作成されたものとどのように異なるかという新しい概念が欠けていることに焦点が当てられている。 進化的アルゴリズムの新規性保存機構をGANの力と組み合わせたアルゴリズムが、創造的プロセスを善で斬新な出力へと意図的に導くことができると想定する。 本稿では,OpenAIのCLIPモデルを用いたセマンティックプロンプトに基づく画像生成の最近の進歩を利用して,進化的分岐探索の短いサイクルでGANの反復過程を中断する。 進化の結果は、GANの反復過程を継続するために使用され、我々はこの介入がより新しい出力をもたらすと仮定する。 局所的な競争を伴う新規性探索と品質多様性の進化的アルゴリズムを用いて、セマンティックプロンプトに従属する形で品質を維持しながら、視覚的多様性を向上できる仮説を検証し、視覚的多様性の概念がアルゴリズムのプロセスと製品の両方にどのように影響するかを考察する。 結果は、視覚多様性の簡易な尺度でさえ、GANによって引き起こされる同様の画像へのドリフトに対抗するのに役立つことを示している。 この最初の実験は、より高い意図とよりニュアンスなドライブを導入するための新しい方向を開く。

This paper argues that generative art driven by conformance to a visual and/or semantic corpus lacks the necessary criteria to be considered creative. Among several issues identified in the literature, we focus on the fact that generative adversarial networks (GANs) that create a single image, in a vacuum, lack a concept of novelty regarding how their product differs from previously created ones. We envision that an algorithm that combines the novelty preservation mechanisms in evolutionary algorithms with the power of GANs can deliberately guide its creative process towards output that is both good and novel. In this paper, we use recent advances in image generation based on semantic prompts using OpenAI's CLIP model, interrupting the GAN's iterative process with short cycles of evolutionary divergent search. The results of evolution are then used to continue the GAN's iterative process; we hypothesise that this intervention will lead to more novel outputs. Testing our hypothesis using novelty search with local competition, a quality-diversity evolutionary algorithm that can increase visual diversity while maintaining quality in the form of adherence to the semantic prompt, we explore how different notions of visual diversity can affect both the process and the product of the algorithm. Results show that even a simplistic measure of visual diversity can help counter a drift towards similar images caused by the GAN. This first experiment opens a new direction for introducing higher intentionality and a more nuanced drive for GANs.
翻訳日:2022-05-03 16:07:27 公開日:2022-05-02
# Affective Normalization を用いた自動意思決定における公正性の新たなアプローチ

A Novel Approach to Fairness in Automated Decision-Making using Affective Normalization ( http://arxiv.org/abs/2205.00819v1 )

ライセンス: Link先を確認
Jesse Hoey and Gabrielle Chan(参考訳) 採用する人に関する決定には、2つのコンポーネントが含まれる。 まず、合理的な要素、すなわち、彼らは良い教育を受けており、はっきりと話します。 第二に、人種や性別の視覚的特徴のような可観測性に基づいて、おそらくステレオタイプによって偏りのある情緒成分である。 本稿では,感情的,社会的に偏った成分を計測し,その除去を可能にする方法を提案する。 つまり、意思決定のプロセスを考えると、これらの感情的測定は決定における感情的バイアスを排除し、メソッド自体によって定義されたカテゴリの集合を公平にする。 そこで本稿では,(1)公正性を考慮したカテゴリーの定義,(2)小グループへの無限回帰,(3)基本的人権や事前情報に基づく公平分布の確保,の3つの重要な課題を解決できると考えられる。 本論文の主な考え方は, 感情的コヒーレンスを用いて公平性バイアスを計測し, 結果マッピングの正規化に利用できることである。 本研究の目的は,統計的パリティを超えたバイアスの独立尺度として感情的コヒーレンスを用いた公平性問題を扱う新しい方法を明らかにすることである。

Any decision, such as one about who to hire, involves two components. First, a rational component, i.e., they have a good education, they speak clearly. Second, an affective component, based on observables such as visual features of race and gender, and possibly biased by stereotypes. Here we propose a method for measuring the affective, socially biased, component, thus enabling its removal. That is, given a decision-making process, these affective measurements remove the affective bias in the decision, rendering it fair across a set of categories defined by the method itself. We thus propose that this may solve three key problems in intersectional fairness: (1) the definition of categories over which fairness is a consideration; (2) an infinite regress into smaller and smaller groups; and (3) ensuring a fair distribution based on basic human rights or other prior information. The primary idea in this paper is that fairness biases can be measured using affective coherence, and that this can be used to normalize outcome mappings. We aim for this conceptual work to expose a novel method for handling fairness problems that uses emotional coherence as an independent measure of bias that goes beyond statistical parity.
翻訳日:2022-05-03 16:07:01 公開日:2022-05-02
# 推薦のための知識グラフコントラスト学習

Knowledge Graph Contrastive Learning for Recommendation ( http://arxiv.org/abs/2205.00976v1 )

ライセンス: Link先を確認
Yuhao Yang, Chao Huang, Lianghao Xia, Chenliang Li(参考訳) 知識グラフ(KG)は、推奨品質を改善するために有用なサイド情報として利用されてきた。 これらのレコメンダシステムでは、ナレッジグラフ情報は、しばしばアイテム間の実りある事実と固有の意味的関連を含んでいる。 しかし、そのような手法の成功は、高品質の知識グラフに依存しており、2つの課題で品質表現を学ばない可能性がある。 一 実体の長期分布は、KGの商品表示のための疎い監督信号をもたらす。 二 現実世界の知識グラフは、しばしば騒々しく、アイテムとエンティティ間のトピック非関連な接続を含んでいる。 このようなKG間隔とノイズにより、アイテム間の依存関係は、その真の特徴を反映することから逸脱し、ノイズ効果を著しく増幅し、ユーザの好みの正確な表現を妨げる。 この研究ギャップを埋めるために、知識グラフ強化レコメンデータシステムのための情報ノイズを軽減する一般的な知識グラフ比較学習フレームワーク(KGCL)を設計する。 具体的には,情報集約におけるkgノイズを抑制し,項目に対するより堅牢な知識認識表現を導出するための知識グラフ拡張スキーマを提案する。 さらに,kg加重プロセスから追加の監督信号を活用して,クロスビューのコントラスト学習パラダイムを導いており,勾配降下における非偏りのあるユーザ・テーマインタラクションにおいて,さらに大きな役割を担っている。 3つの公開データセットに対する大規模な実験は、最先端技術よりもKGCLが一貫した優位性を示している。 KGCLはまた、疎いユーザ-イテムインタラクション、ロングテール、ノイズの多いKGエンティティを含むレコメンデーションシナリオで強力なパフォーマンスを達成する。 実装コードはhttps://github.com/yuh-yang/kgcl-sigir22で利用可能です。

Knowledge Graphs (KGs) have been utilized as useful side information to improve recommendation quality. In those recommender systems, knowledge graph information often contains fruitful facts and inherent semantic relatedness among items. However, the success of such methods relies on the high quality knowledge graphs, and may not learn quality representations with two challenges: i) The long-tail distribution of entities results in sparse supervision signals for KG-enhanced item representation; ii) Real-world knowledge graphs are often noisy and contain topic-irrelevant connections between items and entities. Such KG sparsity and noise make the item-entity dependent relations deviate from reflecting their true characteristics, which significantly amplifies the noise effect and hinders the accurate representation of user's preference. To fill this research gap, we design a general Knowledge Graph Contrastive Learning framework (KGCL) that alleviates the information noise for knowledge graph-enhanced recommender systems. Specifically, we propose a knowledge graph augmentation schema to suppress KG noise in information aggregation, and derive more robust knowledge-aware representations for items. In addition, we exploit additional supervision signals from the KG augmentation process to guide a cross-view contrastive learning paradigm, giving a greater role to unbiased user-item interactions in gradient descent and further suppressing the noise. Extensive experiments on three public datasets demonstrate the consistent superiority of our KGCL over state-of-the-art techniques. KGCL also achieves strong performance in recommendation scenarios with sparse user-item interactions, long-tail and noisy KG entities. Our implementation codes are available at https://github.com/yuh-yang/KGCL-SIGIR22
翻訳日:2022-05-03 16:06:26 公開日:2022-05-02
# CenterCLIP: 効率的なテキストビデオ検索のためのトークンクラスタリング

CenterCLIP: Token Clustering for Efficient Text-Video Retrieval ( http://arxiv.org/abs/2205.00823v1 )

ライセンス: Link先を確認
Shuai Zhao and Linchao Zhu and Xiaohan Wang and Yi Yang(参考訳) 近年,CLIPのような大規模事前学習手法は,テキストビデオ検索などのマルチモーダル研究において大きな進歩を遂げている。 CLIPでは、トランスフォーマーは複雑なマルチモーダル関係をモデル化するのに不可欠である。 しかし、CLIPの視覚変換では、ビデオ内の連続的および類似したフレームの冗長性のため、離散的な視覚トークンシーケンスを生成する重要な視覚トークン化プロセスが多くの均一なトークンを生成する。 これにより計算コストが大幅に増加し、Webアプリケーションにおけるビデオ検索モデルの展開を妨げる。 本稿では,冗長なビデオトークンの数を減らすために,最も代表的なトークンを見つけて不要なトークンをドロップするマルチセグメントトークンクラスタリングアルゴリズムを設計する。 フレーム冗長性は、主に連続するフレームで発生するため、動画を複数のセグメントに分割し、セグメントレベルのクラスタリングを行う。 各セグメントのセンタートークンは後に新しいシーケンスに結合されるが、元の空間-時間関係はよく維持される。 2つのクラスタリングアルゴリズムをインスタンス化し、決定論的メドロイドと反復的分割群を高次元空間で効率的に見つける。 このトークンクラスタリングと中心選択により、冗長な視覚トークンを除去することで計算コストを削減できる。 本手法は,映像表現とテキスト表現のセグメントレベルの意味的アライメントをさらに強化し,セグメント内フレームからトークンの時空間的相互作用を強制する。 提案手法はCenterCLIPと呼ばれ,一般的なテキストビデオベンチマークにおいて,既存の最先端技術よりも大きなマージンで,トレーニングメモリコストを35倍に削減し,ベストケースでは推論速度を14倍に向上させる。 コードは \href{{https://github.com/mzhaoshuai/CenterCLIP}}{{https://github.com/mzhaoshuai/CenterCLIP}} で公開されている。

Recently, large-scale pre-training methods like CLIP have made great progress in multi-modal research such as text-video retrieval. In CLIP, transformers are vital for modeling complex multi-modal relations. However, in the vision transformer of CLIP, the essential visual tokenization process, which produces discrete visual token sequences, generates many homogeneous tokens due to the redundancy nature of consecutive and similar frames in videos. This significantly increases computation costs and hinders the deployment of video retrieval models in web applications. In this paper, to reduce the number of redundant video tokens, we design a multi-segment token clustering algorithm to find the most representative tokens and drop the non-essential ones. As the frame redundancy occurs mostly in consecutive frames, we divide videos into multiple segments and conduct segment-level clustering. Center tokens from each segment are later concatenated into a new sequence, while their original spatial-temporal relations are well maintained. We instantiate two clustering algorithms to efficiently find deterministic medoids and iteratively partition groups in high dimensional space. Through this token clustering and center selection procedure, we successfully reduce computation costs by removing redundant visual tokens. This method further enhances segment-level semantic alignment between video and text representations, enforcing the spatio-temporal interactions of tokens from within-segment frames. Our method, coined as CenterCLIP, surpasses existing state-of-the-art by a large margin on typical text-video benchmarks, while reducing the training memory cost by 35\% and accelerating the inference speed by 14\% at the best case. The code is available at \href{{https://github.com/mzhaoshuai/CenterCLIP}}{{https://github.com/mzhaoshuai/CenterCLIP}}.
翻訳日:2022-05-03 16:04:05 公開日:2022-05-02
# 不完全ガンマカーネル:局所最適射影作用素の一般化

Incomplete Gamma Kernels: Generalizing Locally Optimal Projection Operators ( http://arxiv.org/abs/2205.01087v1 )

ライセンス: Link先を確認
Patrick Stotko, Michael Weinmann, Reinhard Klein(参考訳) 局所最適射影(LOP)作用素の一般化である不完全ガンマ核を提案する。 特に,LOP演算子でノイズの多い点雲の表面再構成に使用される古典的局所化 $ L_1 $ estimator と,新しいカーネルによる共通平均シフトフレームワークとの関係を明らかにする。 さらに、この結果を不完全なガンマ関数上に構築されたカーネル群全体に一般化し、それぞれがローカライズされた$ l_p $ estimatorを表す。 分布、平均シフトおよび厳密な正定性などの他の側面に関するカーネルファミリーの様々な性質を導出することにより、演算子の射影挙動のより深い理解を得る。 これらの理論的な知見から、改良された重み付きlop(wlop)密度重み付けスキームとより正確な連続lop(clop)カーネル近似から新しいロバスト損失関数セットの定義まで、いくつかの応用例を示す。 これらの不完全なガンマ損失は、ガウスとロップの損失を特別な場合とし、通常のフィルタリングのような再構成タスクに適用することができる。 本研究は,各応用の効果を定量的・定性的な実験で示し,改良の効果を強調する。

We present incomplete gamma kernels, a generalization of Locally Optimal Projection (LOP) operators. In particular, we reveal the relation of the classical localized $ L_1 $ estimator, used in the LOP operator for surface reconstruction from noisy point clouds, to the common Mean Shift framework via a novel kernel. Furthermore, we generalize this result to a whole family of kernels that are built upon the incomplete gamma function and each represents a localized $ L_p $ estimator. By deriving various properties of the kernel family concerning distributional, Mean Shift induced, and other aspects such as strict positive definiteness, we obtain a deeper understanding of the operator's projection behavior. From these theoretical insights, we illustrate several applications ranging from an improved Weighted LOP (WLOP) density weighting scheme and a more accurate Continuous LOP (CLOP) kernel approximation to the definition of a novel set of robust loss functions. These incomplete gamma losses include the Gaussian and LOP loss as special cases and can be applied for reconstruction tasks such as normal filtering. We demonstrate the effects of each application in a range of quantitative and qualitative experiments that highlight the benefits induced by our modifications.
翻訳日:2022-05-03 16:03:37 公開日:2022-05-02
# 超冗長性:ブール式最小化複雑性解析のためのツール

Superredundancy: A tool for Boolean formula minimization complexity analysis ( http://arxiv.org/abs/2205.00762v1 )

ライセンス: Link先を確認
Paolo Liberatore(参考訳) 超冗長節 (superredundant clause) は公式の解法閉鎖において冗長な節である。 逆の超冗長性の概念は、与えられたものと同値であるすべての最小のCNF式における節のメンバシップを保証する。 これにより、サイズを最小化するときにいくつかの節が固定される式を構築することができる。 例えば、最小公式サイズの問題の複雑性のハードネスの証明がある。 変数を忘れたり、公式を修正したりする際のサイズ証明もある。 ほとんどの節は、新しい変数に分割することで超不規則にすることができる。

A superredundant clause is a clause that is redundant in the resolution closure of a formula. The converse concept of superirredundancy ensures membership of the clause in all minimal CNF formulae that are equivalent to the given one. This allows for building formulae where some clauses are fixed when minimizing size. An example are proofs of complexity hardness of the problems of minimal formula size. Others are proofs of size when forgetting variables or revising a formula. Most clauses can be made superirredundant by splitting them over a new variable.
翻訳日:2022-05-03 16:02:27 公開日:2022-05-02
# HarmoF0: ピッチ推定のための対数スケール拡張畳み込み

HarmoF0: Logarithmic Scale Dilated Convolution For Pitch Estimation ( http://arxiv.org/abs/2205.01019v1 )

ライセンス: Link先を確認
Weixing Wei, Peilin Li, Yi Yu, Wei Li(参考訳) 音、特に音楽は、周波数次元に散在する様々な調和成分を含む。 通常の畳み込みニューラルネットワークではこれらのオーバートンを観測することは困難である。 本稿では,多重レート拡張因果畳み込み法(MRDC-Conv)を導入し,対数スケールスペクトログラムの高調波構造を効率的に捉える。 この高調波はピッチ推定に役立ち、多くの音処理応用において重要である。 ピッチ推定においてMRDC-Convと他の拡張畳み込みを評価するために,完全畳み込みネットワークであるHarmoF0を提案する。 その結果、このモデルはDeepF0より優れ、3つのデータセットで最先端のパフォーマンスが得られ、同時に90%以上のパラメータが減少することがわかった。 また、ノイズ耐性が強く、オクターブ誤差が少ないことも判明した。

Sounds, especially music, contain various harmonic components scattered in the frequency dimension. It is difficult for normal convolutional neural networks to observe these overtones. This paper introduces a multiple rates dilated causal convolution (MRDC-Conv) method to capture the harmonic structure in logarithmic scale spectrograms efficiently. The harmonic is helpful for pitch estimation, which is important for many sound processing applications. We propose HarmoF0, a fully convolutional network, to evaluate the MRDC-Conv and other dilated convolutions in pitch estimation. The results show that this model outperforms the DeepF0, yields state-of-the-art performance in three datasets, and simultaneously reduces more than 90% parameters. We also find that it has stronger noise resistance and fewer octave errors.
翻訳日:2022-05-03 16:01:36 公開日:2022-05-02
# (参考訳) オープンドメイン会話型aiの最先端:調査

State-of-the-art in Open-domain Conversational AI: A Survey ( http://arxiv.org/abs/2205.00965v1 )

ライセンス: CC BY 4.0
Tosin Adewumi, Foteini Liwicki and Marcus Liwicki(参考訳) 我々は,SoTAのオープンドメイン会話型AIモデルについて,今後の研究を刺激する上で有効な課題を提示する目的で調査する。 さらに,問題を取り巻く倫理的議論をガイドするために,対話型AIの性別に関する統計情報を提供する。 オープンドメインの会話型AIには、明快な応答や、比喩的な言語によって引き起こされたパフォーマンス劣化など、いくつかの課題があることが知られている。 まず、会話型AIに関心のあるトピックについて議論することで背景を提供する。 次に,本研究を構成する2つの調査に適用される手法について考察する。 最初の調査は、最近のsoma open-domain conversational aiモデルの検索、2つ目は、性別を評価するための100の会話型aiの検索である。 調査の結果、最近のSoTAの会話型AIの進歩が示されているが、解決すべき課題はまだ持続的であり、女性の性別は会話型AIの男性よりも一般的である。 主な特徴の1つは、対話型AIのハイブリッドモデルが、どの単一のアーキテクチャよりも多くのアドバンテージを提供することである。 この調査の主な貢献は 1)SoTAオープンドメイン会話型AIにおける課題の特定 2)低リソース言語のためのオープンドメイン対話型AIに関する異例の議論 3)対話型AIのジェンダーを取り巻く倫理に関する議論。

We survey SoTA open-domain conversational AI models with the purpose of presenting the prevailing challenges that still exist to spur future research. In addition, we provide statistics on the gender of conversational AI in order to guide the ethics discussion surrounding the issue. Open-domain conversational AI are known to have several challenges, including bland responses and performance degradation when prompted with figurative language, among others. First, we provide some background by discussing some topics of interest in conversational AI. We then discuss the method applied to the two investigations carried out that make up this study. The first investigation involves a search for recent SoTA open-domain conversational AI models while the second involves the search for 100 conversational AI to assess their gender. Results of the survey show that progress has been made with recent SoTA conversational AI, but there are still persistent challenges that need to be solved, and the female gender is more common than the male for conversational AI. One main take-away is that hybrid models of conversational AI offer more advantages than any single architecture. The key contributions of this survey are 1) the identification of prevailing challenges in SoTA open-domain conversational AI, 2) the unusual discussion about open-domain conversational AI for low-resource languages, and 3) the discussion about the ethics surrounding the gender of conversational AI.
翻訳日:2022-05-03 15:59:02 公開日:2022-05-02
# memseg:差分と共通性を用いた半教師付き画像表面欠陥検出法

MemSeg: A semi-supervised method for image surface defect detection using differences and commonalities ( http://arxiv.org/abs/2205.00908v1 )

ライセンス: Link先を確認
Minghui Yang, Peng Wu, Jing Liu, Hui Feng(参考訳) 本稿では,産業製品の表面欠陥を検出するために,エンド・ツー・エンドのメモリベースセグメンテーションネットワーク(MemSeg)を提案する。 相違点や共通点の観点から、同一生産ライン内の製品のクラス内ばらつきが小さいことを考慮すると、memsegはネットワークの学習を支援するために、人工的にシミュレートされた異常サンプルとメモリサンプルを導入する。 トレーニング段階では、memsegは正常な画像とシミュレーションされた異常画像の潜在的な違いを明示的に学習し、ロバストな分類超平面を得る。 同時に、人間の記憶機構にインスパイアされたmemsegは、通常のサンプルの一般的なパターンを保存するためにメモリプールを使用する。 メモリプール内の入力サンプルとメモリサンプルの類似性と相違を比較して、異常領域の効果的な推測を行うことにより、推論フェーズにおいて、memsegは、入力画像の異常領域をエンドツーエンドで直接決定する。 実験的な検証により、MemSegはMVTec ADデータセット上で、画像レベルとピクセルレベルでそれぞれ99.56%と98.84%のスコアでSOTA(State-of-the-art)パフォーマンスを達成する。 加えて、MemSegは、産業シナリオにおけるリアルタイム要件を満たす、エンドツーエンドで単純なネットワーク構造から恩恵を受ける推論速度において、大きな優位性を持っている。

Under the semi-supervised framework, we propose an end-to-end memory-based segmentation network (MemSeg) to detect surface defects on industrial products. Considering the small intra-class variance of products in the same production line, from the perspective of differences and commonalities, MemSeg introduces artificially simulated abnormal samples and memory samples to assist the learning of the network. In the training phase, MemSeg explicitly learns the potential differences between normal and simulated abnormal images to obtain a robust classification hyperplane. At the same time, inspired by the mechanism of human memory, MemSeg uses a memory pool to store the general patterns of normal samples. By comparing the similarities and differences between input samples and memory samples in the memory pool to give effective guesses about abnormal regions; In the inference phase, MemSeg directly determines the abnormal regions of the input image in an end-to-end manner. Through experimental validation, MemSeg achieves the state-of-the-art (SOTA) performance on MVTec AD datasets with AUC scores of 99.56% and 98.84% at the image-level and pixel-level, respectively. In addition, MemSeg also has a significant advantage in inference speed benefiting from the end-to-end and straightforward network structure, which better meets the real-time requirement in industrial scenarios.
翻訳日:2022-05-03 15:38:20 公開日:2022-05-02
# Answer-Me:マルチタスクオープン語彙ビジュアル質問回答

Answer-Me: Multi-Task Open-Vocabulary Visual Question Answering ( http://arxiv.org/abs/2205.00949v1 )

ライセンス: Link先を確認
AJ Piergiovanni, Wei Li, Weicheng Kuo, Mohammad Saffar, Fred Bertsch and Anelia Angelova(参考訳) 本研究では,様々な質問応答タスクを統一するタスク認識型マルチタスクフレームワークである answer-me を提案する。 コントラストやジェネレーティブなキャプショントレーニングを用いた従来の作品とは対照的に,マルチタスクである視覚言語統合モデルを事前学習する,新しいシンプルなレシピを提案する。 事前トレーニングはノイズの多い画像キャプションデータのみを使用し、強固な言語エンコーダとデコーダの両方でエンドツーエンドでアーキテクチャ全体を使用するように定式化されている。 以上の結果から, 最先端性能, ゼロショット一般化, 忘れやすい頑健性, および様々な質問応答タスクにおける競合シングルタスクの結果が得られた。 マルチタスク混合トレーニングは,さまざまな質問意図のタスクから学習し,ゼロショット視覚言語タスクを含む,よりよい一般化を行う。 vqa2.0,snli-ve,nlvr2,gqa,vizwizなど,さまざまなデータセットやタスクをまたいで,課題の多いマルチタスクとオープンボキャブラリー設定で実験を行う。 我々は,提案手法が未発見のタスクに一般化できること,さらに多様な混合が既知のタスクと新規タスクの両方において高い精度をもたらすことを観察する。

We present Answer-Me, a task-aware multi-task framework which unifies a variety of question answering tasks, such as, visual question answering, visual entailment, visual reasoning. In contrast to previous works using contrastive or generative captioning training, we propose a novel and simple recipe to pre-train a vision-language joint model, which is multi-task as well. The pre-training uses only noisy image captioning data, and is formulated to use the entire architecture end-to-end with both a strong language encoder and decoder. Our results show state-of-the-art performance, zero-shot generalization, robustness to forgetting, and competitive single-task results across a variety of question answering tasks. Our multi-task mixture training learns from tasks of various question intents and thus generalizes better, including on zero-shot vision-language tasks. We conduct experiments in the challenging multi-task and open-vocabulary settings and across a variety of datasets and tasks, such as VQA2.0, SNLI-VE, NLVR2, GQA, VizWiz. We observe that the proposed approach is able to generalize to unseen tasks and that more diverse mixtures lead to higher accuracy in both known and novel tasks.
翻訳日:2022-05-03 15:37:51 公開日:2022-05-02
# RGB画像を用いたLeaf Tar Spot検出

Leaf Tar Spot Detection Using RGB Images ( http://arxiv.org/abs/2205.00952v1 )

ライセンス: Link先を確認
Sriram Baireddy and Da-Young Lee and Carlos Gongora-Canul and Christian D. Cruz and Edward J. Delp(参考訳) タルスポット病(Tar spot disease)は、トウモロコシの葉に胞子を含む一連の黒い丸い斑点として現れる真菌病である。 タースポットは、収穫量を減らすという点で、影響のある病気であることが証明されている。 病気の進行を定量化するために、専門家は通常、植物の葉を視覚的に表現する必要がある。 このプロセスは非常に時間がかかり、高スループット表現型システムに組み込むのは難しい。 ディープニューラルネットワークは、十分な基礎的真理で、素早く自動化されたタールスポット検出を提供することができる。 しかし、イメージにタールスポットを手動でラベル付けして根拠となることも面倒で時間がかかります。 本稿では,まず,自動画像解析ツールを用いて,Mask R-CNNのトレーニングに使用される真実画像を生成する手法について述べる。 葉面のクローズアップ画像におけるタールスポット検出にマスクr-cnnを効果的に使用できることを示す。 また,このマスクr-cnnを用いて全葉のフィールド内画像を用いて,本疾患に感染した葉のタールスポット数と面積を把握できることを示した。

Tar spot disease is a fungal disease that appears as a series of black circular spots containing spores on corn leaves. Tar spot has proven to be an impactful disease in terms of reducing crop yield. To quantify disease progression, experts usually have to visually phenotype leaves from the plant. This process is very time-consuming and is difficult to incorporate in any high-throughput phenotyping system. Deep neural networks could provide quick, automated tar spot detection with sufficient ground truth. However, manually labeling tar spots in images to serve as ground truth is also tedious and time-consuming. In this paper we first describe an approach that uses automated image analysis tools to generate ground truth images that are then used for training a Mask R-CNN. We show that a Mask R-CNN can be used effectively to detect tar spots in close-up images of leaf surfaces. We additionally show that the Mask R-CNN can also be used for in-field images of whole leaves to capture the number of tar spots and area of the leaf infected by the disease.
翻訳日:2022-05-03 15:37:26 公開日:2022-05-02
# 単眼3次元指紋再構成とアンウォープ

Monocular 3D Fingerprint Reconstruction and Unwarping ( http://arxiv.org/abs/2205.00967v1 )

ライセンス: Link先を確認
Zhe Cui, Jianjiang Feng, Jie Zhou(参考訳) 接触型指紋取得技術と比較して、接触非接触取得は皮膚の歪みが少なく、指紋面積が大きく、衛生的獲得の利点がある。 しかし、遠近的歪みは、リッジ方向、周波数、および最小位置を変化させ、劣化した認識精度をもたらす非接触指紋認識における課題である。 本研究では,1つの画像から3次元指の形状を再構成し,視点歪みを抑制するための学習ベース形状を提案する。 接触のない指紋データベース実験の結果,提案手法は3次元再構成精度が高いことがわかった。 接触非接触及び接触非接触マッチングにおけるマッチング実験により,提案手法がマッチング精度を向上させることを証明した。

Compared with contact-based fingerprint acquisition techniques, contactless acquisition has the advantages of less skin distortion, larger fingerprint area, and hygienic acquisition. However, perspective distortion is a challenge in contactless fingerprint recognition, which changes ridge orientation, frequency, and minutiae location, and thus causes degraded recognition accuracy. We propose a learning based shape from texture algorithm to reconstruct a 3D finger shape from a single image and unwarp the raw image to suppress perspective distortion. Experimental results on contactless fingerprint databases show that the proposed method has high 3D reconstruction accuracy. Matching experiments on contactless-contact and contactless-contactless matching prove that the proposed method improves matching accuracy.
翻訳日:2022-05-03 15:37:07 公開日:2022-05-02
# スパースグラフトラッカを用いたオンラインマルチオブジェクトトラッキングにおける検出回復

Detection Recovery in Online Multi-Object Tracking with Sparse Graph Tracker ( http://arxiv.org/abs/2205.00968v1 )

ライセンス: Link先を確認
Jeongseok Hyun, Myunggu Kang, Dongyoon Wee, Dit-Yan Yeung(参考訳) 共同物体検出とオンラインマルチオブジェクト追跡(JDT)手法が最近提案され, ワンショットトラッキングが実現されている。 しかし、既存の研究は検出自体の重要性を見落としており、オクルージョンや動きのぼやけに直面すると検出を見逃してしまうことが多い。 欠落検出は検出性能だけでなく、トラックレットの不整合によるトラッキング性能にも影響を及ぼす。 そこで我々は,グラフニューラルネットワーク(GNN)のエッジ特徴によるオブジェクトレベルの時空間一貫性を学習することにより,連続フレームの検出候補を関連づけつつ,誤り検出を復元する新しいJDTモデルを提案する。 提案モデルであるSparse Graph Tracker (SGT) は,画像データをグラフに変換し,ノードが上位$K$のスコア付き検出候補であり,エッジが位置差や視覚的類似性など,異なるタイミングでノード間の関係を示す。 2つのノードはユークリッド空間または特徴空間に近く、疎連結グラフを生成するときに連結である。 動き予測や再同定(ReID)がなければ、2つの接続されたノードが同じオブジェクトを参照する確率を表すエッジスコアを予測してアソシエーションを行う。 オンライン環境下では,MOT17/20 と MOT16/20 のベンチマークをそれぞれ AP と MOTA のそれぞれで達成している。 特に、SGTは、部分閉塞症例が支配的な混雑したデータセットMOT20のSOTAを上回り、部分閉塞に対する検出回復の有効性を示す。 コードはhttps://github.com/hyunjs/sgtでリリースされる。

Joint object detection and online multi-object tracking (JDT) methods have been proposed recently to achieve one-shot tracking. Yet, existing works overlook the importance of detection itself and often result in missed detections when confronted by occlusions or motion blurs. The missed detections affect not only detection performance but also tracking performance due to inconsistent tracklets. Hence, we propose a new JDT model that recovers the missed detections while associating the detection candidates of consecutive frames by learning object-level spatio-temporal consistency through edge features in a Graph Neural Network (GNN). Our proposed model Sparse Graph Tracker (SGT) converts video data into a graph, where the nodes are top-$K$ scored detection candidates, and the edges are relations between the nodes at different times, such as position difference and visual similarity. Two nodes are connected if they are close in either a Euclidean or feature space, generating a sparsely connected graph. Without motion prediction or Re-Identification (ReID), the association is performed by predicting an edge score representing the probability that two connected nodes refer to the same object. Under the online setting, our SGT achieves state-of-the-art (SOTA) on the MOT17/20 Detection and MOT16/20 benchmarks in terms of AP and MOTA, respectively. Especially, SGT surpasses the previous SOTA on the crowded dataset MOT20 where partial occlusion cases are dominant, showing the effectiveness of detection recovery against partial occlusion. Code will be released at https://github.com/HYUNJS/SGT.
翻訳日:2022-05-03 15:36:54 公開日:2022-05-02
# (参考訳) 漸進的変化のオンライン検出のための変化動的モデル

A Change Dynamic Model for the Online Detection of Gradual Change ( http://arxiv.org/abs/2205.01054v1 )

ライセンス: CC BY 4.0
Chris Browne(参考訳) 変化検出の古典文学では、確率過程の統計的性質の変化は変化点を通じて起こると仮定され、完全および全過程遷移の瞬時モーメントを示す。 対照的に、多くの現実世界のプロセスは徐々に変化する。 この観測を念頭に、階層モデルで古典的な変化点を識別するオンラインな変化検出のための新しい変化力学モデルを導入する。 実データと合成データの両方において、このモデルにより、従来の変更点モデルが許容する段階変化のより高速かつ正確な識別が可能になり、この段階変化の検出がアラームの信頼性にどのように影響するかを実証的に調査することができる。

In the classic literature of change-detection, changes in the statistical properties of a stochastic process are assumed to occur via change-points, which demark instantaneous moments of complete and total process transition. In contrast many real world processes undergo such changes gradually. With this observation in mind, we introduce a novel change-dynamic model for the online detection of gradual change, in which classical change-points are identified in a hierarchal model. On both real and synthetic data we find that this model can allow for faster and more accurate identification of gradual change than traditional change-point models allow, and investigate empirically how delay in detection of this gradual change relates to alarm confidence.
翻訳日:2022-05-03 15:30:40 公開日:2022-05-02
# ジャムかクリームか? SCONESを用いたニューラルネットワーク翻訳におけるあいまいさのモデル化

Jam or Cream First? Modeling Ambiguity in Neural Machine Translation with SCONES ( http://arxiv.org/abs/2205.00704v1 )

ライセンス: Link先を確認
Felix Stahlberg and Shankar Kumar(参考訳) ニューラルマシン翻訳のsoftmax層は、相互に排他的なトークン上の分布をモデル化するように設計されている。 しかし、機械翻訳は本質的に不確かであり、同じ原文が複数の意味的に等価な翻訳を持つことがある。 そこで本研究では,ソフトマックスアクティベーションを,あいまいさをより効果的にモデル化できるマルチラベル分類層に置き換えることを提案する。 我々は損失関数を非排他的シーケンス(scones)に対する単一ラベルコントラスト目的と呼ぶ。 SCONES損失関数を用いて,マルチラベル出力層を単一参照トレーニングデータ上でトレーニング可能であることを示す。 SCONESは6つの翻訳方向、特に中オープンソースの言語ペアと小さなビームサイズでBLEUスコアが一貫した値を得る。 より小さなビームサイズを使用することで、推論を3.9倍スピードアップし、softmaxで得られるbleuスコアと一致または改善することができる。 さらに、SCONESは、適切な翻訳に最も高い確率を割り当てるNMTモデルを訓練するために使用することができ、「ビーム検索の呪い」を軽減できることを示す。 不確かさのレベルが異なる合成言語対に関するさらなる実験は、スコーネの改良が曖昧さの扱いの改善に寄与していることを示唆している。

The softmax layer in neural machine translation is designed to model the distribution over mutually exclusive tokens. Machine translation, however, is intrinsically uncertain: the same source sentence can have multiple semantically equivalent translations. Therefore, we propose to replace the softmax activation with a multi-label classification layer that can model ambiguity more effectively. We call our loss function Single-label Contrastive Objective for Non-Exclusive Sequences (SCONES). We show that the multi-label output layer can still be trained on single reference training data using the SCONES loss function. SCONES yields consistent BLEU score gains across six translation directions, particularly for medium-resource language pairs and small beam sizes. By using smaller beam sizes we can speed up inference by a factor of 3.9x and still match or improve the BLEU score obtained using softmax. Furthermore, we demonstrate that SCONES can be used to train NMT models that assign the highest probability to adequate translations, thus mitigating the "beam search curse". Additional experiments on synthetic language pairs with varying levels of uncertainty suggest that the improvements from SCONES can be attributed to better handling of ambiguity.
翻訳日:2022-05-03 15:29:01 公開日:2022-05-02
# cosplay: パーソナライズされた対話生成のためのコンセプトセット

COSPLAY: Concept Set Guided Personalized Dialogue Generation Across Both Party Personas ( http://arxiv.org/abs/2205.00872v1 )

ライセンス: Link先を確認
Chen Xu, Piji Li, Wei Wang, Haoran Yang, Siyun Wang, and Chuangbai Xiao(参考訳) 一貫したペルソナの維持は、人間のような会話モデルを構築する上で不可欠である。 しかし、パートナーへの注意の欠如により、モデルはよりエゴセントリックなものとなり、トピックを強引にツイストしたり、会話を自分の興味に引き寄せたり、パートナーに好奇心をほとんど持たずにペルソナをぶつけたりするなど、あらゆる手段でペルソナを示す傾向にある。 本研究では,両者を「チーム」とみなすCOSPLAY(Concept Set Guided PersonaLized dialogue generation)を提案する。 具体的には,まず,自己対人,パートナーペルソナ,相互対話を概念セットで表現する。 次に,集合代数,集合展開,集合距離などの処理を行うための知識エンハンス操作の組を持つ概念集合フレームワークを提案する。 これらの操作を媒介として モデルを訓練し 1)両党のペルソナの概念 2 両者の概念的関係、及び 3)今後の対話との関連性。 大規模な公開データセットであるPersona-Chatの大規模な実験により、我々のモデルは、自己中心的でない、より人間らしく、より高品質な応答を自動評価と人的評価の両方で生成する、最先端のベースラインよりも優れています。

Maintaining a consistent persona is essential for building a human-like conversational model. However, the lack of attention to the partner makes the model more egocentric: they tend to show their persona by all means such as twisting the topic stiffly, pulling the conversation to their own interests regardless, and rambling their persona with little curiosity to the partner. In this work, we propose COSPLAY(COncept Set guided PersonaLized dialogue generation Across both partY personas) that considers both parties as a "team": expressing self-persona while keeping curiosity toward the partner, leading responses around mutual personas, and finding the common ground. Specifically, we first represent self-persona, partner persona and mutual dialogue all in the concept sets. Then, we propose the Concept Set framework with a suite of knowledge-enhanced operations to process them such as set algebras, set expansion, and set distance. Based on these operations as medium, we train the model by utilizing 1) concepts of both party personas, 2) concept relationship between them, and 3) their relationship to the future dialogue. Extensive experiments on a large public dataset, Persona-Chat, demonstrate that our model outperforms state-of-the-art baselines for generating less egocentric, more human-like, and higher quality responses in both automatic and human evaluations.
翻訳日:2022-05-03 15:28:42 公開日:2022-05-02
# ニューラルマシン翻訳のための品質認識復号

Quality-Aware Decoding for Neural Machine Translation ( http://arxiv.org/abs/2205.00978v1 )

ライセンス: Link先を確認
Patrick Fernandes, Ant\'onio Farinhas, Ricardo Rei, Jos\'e G. C. de Souza, Perez Ogayo, Graham Neubig, Andr\'e F. T. Martins(参考訳) 近年の機械翻訳の品質評価と評価の進歩にもかかわらず、ニューラルマシン翻訳(NMT)の復号化はほとんど不可能であり、ビームサーチにより近似されたモデル(MAP復号)に基づいて最も確率の高い翻訳を見つけることに集中している。 本稿では,N$-bestリグレードや最小ベイズリスクデコーディングといった様々な推論手法を用いて,参照フリーおよび参照ベースMT評価における最近のブレークスルーを活用することにより,これらの2つの研究をまとめ,NMTの品質認識デコーディングを提案する。 4つのデータセットと2つのモデルクラスにまたがる様々な候補生成手法とランク付け手法を広範囲に比較した結果、品質認識復号法は、最先端自動メトリクス(COMET、BLEURT)と人的評価の両方でMAPベースの復号法より一貫して優れていることがわかった。 私たちのコードはhttps://github.com/deep-spin/qaware-decodeで利用可能です。

Despite the progress in machine translation quality estimation and evaluation in the last years, decoding in neural machine translation (NMT) is mostly oblivious to this and centers around finding the most probable translation according to the model (MAP decoding), approximated with beam search. In this paper, we bring together these two lines of research and propose quality-aware decoding for NMT, by leveraging recent breakthroughs in reference-free and reference-based MT evaluation through various inference methods like $N$-best reranking and minimum Bayes risk decoding. We perform an extensive comparison of various possible candidate generation and ranking methods across four datasets and two model classes and find that quality-aware decoding consistently outperforms MAP-based decoding according both to state-of-the-art automatic metrics (COMET and BLEURT) and to human assessments. Our code is available at https://github.com/deep-spin/qaware-decode.
翻訳日:2022-05-03 15:28:16 公開日:2022-05-02
# ペーパーリビューア・アサインメントはどのような要因を考慮すべきか? コンファレンスピーアレビューにおける課題と理念に関するコミュニティの展望

What Factors Should Paper-Reviewer Assignments Rely On? Community Perspectives on Issues and Ideals in Conference Peer-Review ( http://arxiv.org/abs/2205.01005v1 )

ライセンス: Link先を確認
Terne Sasha Thorn Jakobsen and Anna Rogers(参考訳) 科学的進歩と個々の研究者のキャリアは、ピアレビューの品質に依存しており、結果として、ペーパーリビューアマッチングに依存する。 驚いたことに、この問題は主に、異なるステークホルダー(エリアチェア、レビュアー、著者)が考慮に値する経験を蓄積した問題ではなく、自動化されたレコメンデーションの問題として扱われてきた。 本稿では,nlpコミュニティにおける第1次調査の結果について,紙レビュー者マッチングシステムにおいて考慮すべき要因の共通点と展望を明らかにする。 本研究は,今後のnlpカンファレンスの改善に有効な推奨事項と,解釈可能なピアレビュー課題に対するデシデラタを提案する。

Both scientific progress and individual researcher careers depend on the quality of peer review, which in turn depends on paper-reviewer matching. Surprisingly, this problem has been mostly approached as an automated recommendation problem rather than as a matter where different stakeholders (area chairs, reviewers, authors) have accumulated experience worth taking into account. We present the results of the first survey of the NLP community, identifying common issues and perspectives on what factors should be considered by paper-reviewer matching systems. This study contributes actionable recommendations for improving future NLP conferences, and desiderata for interpretable peer review assignments.
翻訳日:2022-05-03 15:27:57 公開日:2022-05-02
# AI駆動型コンテキスト広告:技術レポートと含意分析

AI-Driven Contextual Advertising: A Technology Report and Implication Analysis ( http://arxiv.org/abs/2205.00911v1 )

ライセンス: Link先を確認
Emil H\"aglund and Johanna Bj\"orklund(参考訳) プログラム広告はデジタル広告空間の自動オークションである。 ユーザーがウェブページをリクエストするたびに、ページのプレースホルダーに最も入札率の高い広告主の広告が表示される。 入札は典型的にはユーザに関する情報に基づいており、周辺メディアのコンテキストに関する情報も増えていく。 コンテキスト広告への関心の高まりは、法的および倫理的な観点から問題となる、個人データへの現在の依存に対する反感の一因となっている。 この移行は人工知能(AI)の発展によってさらに加速され、コンテキストのより深いセマンティックな理解と、拡張によってより効果的な広告配置が可能になる。 本稿では,先行研究で示された文脈要因を特定し,広告の受信方法に肯定的な影響を与えることから始める。 続いて、文脈広告におけるAIの応用について議論し、メディアコンテキストに関する高レベルの情報を抽出し、入札戦略を最適化するなど、価値を付加する。 しかし、これらの新しいプラクティスは、不公平な広告配信とコンテキストの操作的利用につながる可能性がある。 これらとその他の懸念を消費者、出版社、広告主に含意分析でまとめる。

Programmatic advertising consists in automated auctioning of digital ad space. Every time a user requests a web page, placeholders on the page are populated with ads from the highest-bidding advertisers. The bids are typically based on information about the user, and to an increasing extent, on information about the surrounding media context. The growing interest in contextual advertising is in part a counterreaction to the current dependency on personal data, which is problematic from legal and ethical standpoints. The transition is further accelerated by developments in Artificial Intelligence (AI), which allow for a deeper semantic understanding of context and, by extension, more effective ad placement. In this article, we begin by identifying context factors that have been shown in previous research to positively influence how ads are received. We then continue to discuss applications of AI in contextual advertising, where it adds value by, e.g., extracting high-level information about media context and optimising bidding strategies. However, left unchecked, these new practices can lead to unfair ad delivery and manipulative use of context. We summarize these and other concerns for consumers, publishers and advertisers in an implication analysis.
翻訳日:2022-05-03 15:25:31 公開日:2022-05-02
# DFC:高速かつ効果的なトラクトグラフィ解析のための自己教師型深層学習による解剖学的インフォームドファイバクラスタリング

DFC: Anatomically Informed Fiber Clustering with Self-supervised Deep Learning for Fast and Effective Tractography Parcellation ( http://arxiv.org/abs/2205.00627v1 )

ライセンス: Link先を確認
Yuqian Chen, Chaoyi Zhang, Tengfei Xue, Yang Song, Nikos Makris, Yogesh Rathi, Weidong Cai, Fan Zhang, Lauren J. O'Donnell(参考訳) ホワイトマターファイバクラスタリング(wmfc)は、解剖学データを解剖学的に有意義なファイババンドルに分離する。 広く使われているWMFCアプローチは、古典的な機械学習技術を用いて優れた性能を示しているが、近年のディープラーニングの進歩は、高速で効果的なWMFCに向けた有望な方向性を明らかにしている。 本研究では,wmfcのための新しい深層学習フレームワークであるdeep fiber clustering (dfc)を提案する。 これにより、ファイバ表現学習が加速され、wmfcにおける既知の課題、すなわち、ファイバに沿った点順序に対するクラスタリング結果の感度が処理される。 入力ファイバをポイントクラウドとして表現し,灰色物質パルセレーションから追加の入力情報ソースを取り込み可能な,新たなネットワークアーキテクチャを設計した。 したがって、dfcは白質繊維の幾何構造と灰色物質の解剖学的パーセレーションを組み合わせて、繊維クラスターの解剖学的コヒーレンスを改善する。 さらに、DFCは、クラスタ割り当て確率の低い繊維を拒絶することにより、自然な方法で外部除去を行う。 独立に取得した3つのコホート(対象220件のデータを含む)上でDFCを評価し,いくつかの最先端WMFCアルゴリズムと比較した。 実験結果は,クラスタコンパクト性,一般化能力,解剖学的コヒーレンス,計算効率において,dfcの優れた性能を示す。 さらに、DFCは50k繊維で約1.5分で脳のトラクトグラフィー全体を解析し、大規模データ解析のための高速で効率的なツールを提供する。

White matter fiber clustering (WMFC) parcellates tractography data into anatomically meaningful fiber bundles, usually in an unsupervised manner without the need of labeled ground truth data. While widely used WMFC approaches have shown good performance using classical machine learning techniques, recent advances in deep learning reveal a promising direction towards fast and effective WMFC. In this work, we propose a novel deep learning framework for WMFC, Deep Fiber Clustering (DFC), which solves the unsupervised clustering problem as a self-supervised learning task with a domain-specific pretext task to predict pairwise fiber distances. This accelerates the fiber representation learning to handle a known challenge in WMFC, i.e., the sensitivity of clustering results to the point ordering along fibers. We design a novel network architecture that represents input fibers as point clouds and allows the incorporation of additional sources of input information from gray matter parcellation. Thus DFC makes use of the combined white matter fiber geometry and gray matter anatomical parcellation to improve anatomical coherence of fiber clusters. In addition, DFC conducts outlier removal in a natural way by rejecting fibers with low cluster assignment probabilities. We evaluate DFC on three independently acquired cohorts (including data from 220 subjects) and compare it to several state-of-the-art WMFC algorithms. Experimental results demonstrate superior performance of DFC in terms of cluster compactness, generalization ability, anatomical coherence, and computational efficiency. In addition, DFC parcellates whole brain tractography with 50k fibers in about 1.5 minutes, providing a fast and efficient tool for large data analysis.
翻訳日:2022-05-03 15:18:05 公開日:2022-05-02
# 新しいプロトタイプベース解釈解を用いた古典的多クラス線形判別法の再検討

Revisiting Classical Multiclass Linear Discriminant Analysis with a Novel Prototype-based Interpretable Solution ( http://arxiv.org/abs/2205.00668v1 )

ライセンス: Link先を確認
Sayed Kamaledin Ghiasi-Shirazi(参考訳) 線形判別分析(LDA)は特徴抽出と次元減少の基本的な方法である。 多くの変種があるにもかかわらず、古典的なLDAは、パターン認識に関する人間の知識のキーストーンであるため、その重要性がある。 C$クラスタを含むデータセットの場合、LDAの古典的なソリューションは、最大$C-1$の機能を抽出する。 本稿では,LDA++と呼ばれる古典的LDAに対して,それぞれが1つのクラスタとの類似度を測定するものとして解釈可能な,$C$の機能を実現する新しいソリューションを提案する。 この新しい解は、次元の縮小と多クラス分類を橋渡しする。 具体的には、いくつかの穏やかな条件下では、ホモシダスティックガウスデータに対する線形多クラス分類器の最適重みがLDAの最適解であることを示す。 さらに、この新しい解釈可能な解法は、LDAとそのPCAとの関係に関するいくつかの新しい事実を明らかにする。 ケースを網羅する新しい手法の完全な数値解を提供する。 1)散乱行列を明示的に構築することができる場合 2)散布行列の構築は不可能であり、 3) カーネル拡張。 コードはhttps://github.com/k-ghiasi/lda-plus-plusで入手できる。

Linear discriminant analysis (LDA) is a fundamental method for feature extraction and dimensionality reduction. Despite having many variants, classical LDA has its importance, as it is a keystone in human knowledge about pattern recognition. For a dataset containing $C$ clusters, the classical solution to LDA extracts at most $C-1$ features. In this paper, we introduce a novel solution to classical LDA, called LDA++, that yields $C$ features, each one interpretable as measuring similarity to one cluster. This novel solution bridges between dimensionality reduction and multiclass classification. Specifically, we prove that, under some mild conditions, the optimal weights of a linear multiclass classifier for homoscedastic Gaussian data also make an optimal solution to LDA. In addition, this novel interpretable solution reveals some new facts about LDA and its relation with PCA. We provide a complete numerical solution for our novel method, covering the cases 1) when the scatter matrices can be constructed explicitly, 2) when constructing the scatter matrices is infeasible, and 3) the kernel extension. The code is available at https://github.com/k-ghiasi/LDA-plus-plus.
翻訳日:2022-05-03 15:15:43 公開日:2022-05-02
# 自己教師付きライダーシーンバックボーンによる3次元物体検出

3D Object Detection with a Self-supervised Lidar Scene Flow Backbone ( http://arxiv.org/abs/2205.00705v1 )

ライセンス: Link先を確認
Eme\c{c} Er\c{c}elik, Ekim Yurtsever, Mingyu Liu, Zhijie Yang, Hanzhen Zhang, P{\i}nar Top\c{c}am, Maximilian Listl, Y{\i}lmaz Kaan \c{C}ayl{\i}, Alois Knoll(参考訳) 最先端の3d検出手法は教師あり学習と大規模ラベル付きデータセットに依存している。 しかし、lidarデータのアノテーションはリソース消費であり、教師付き学習のみに依存するため、トレーニングされたモデルの適用性が制限される。 このような背景から,下流3次元視覚タスクのための汎用クラウドバックボーンモデルを学習するために,自己指導型トレーニング戦略を提案する。 3dシーンフローは、ラベル付きデータ要求を取り除くサイクル一貫性を使って、自己教師付き学習で推定できる。 さらに、交通シナリオにおけるオブジェクトの認識は、時空間におけるスパースデータの理解に大きく依存している。 我々の主な貢献は学習の流れと動きの表現を利用しており、主にシーンフローと検出タスクの関係に焦点を当てた自己教師付きバックボーンと3D検出ヘッドを組み合わせている。 このように、自己監督型シーンフロートレーニングは、バックボーン内の点運動特徴を構築し、3D検出ヘッドで使用する異なる動きパターンに基づいて物体を識別する。 kittiおよびnuscenesベンチマーク実験では,自己教師付き事前学習により3次元検出性能が著しく向上した。

State-of-the-art 3D detection methods rely on supervised learning and large labelled datasets. However, annotating lidar data is resource-consuming, and depending only on supervised learning limits the applicability of trained models. Against this backdrop, here we propose using a self-supervised training strategy to learn a general point cloud backbone model for downstream 3D vision tasks. 3D scene flow can be estimated with self-supervised learning using cycle consistency, which removes labelled data requirements. Moreover, the perception of objects in the traffic scenarios heavily relies on making sense of the sparse data in the spatio-temporal context. Our main contribution leverages learned flow and motion representations and combines a self-supervised backbone with a 3D detection head focusing mainly on the relation between the scene flow and detection tasks. In this way, self-supervised scene flow training constructs point motion features in the backbone, which help distinguish objects based on their different motion patterns used with a 3D detection head. Experiments on KITTI and nuScenes benchmarks show that the proposed self-supervised pre-training increases 3D detection performance significantly.
翻訳日:2022-05-03 15:15:29 公開日:2022-05-02
# デュアルネットワークを用いたモノクロ映像からの3次元マルチパーソンポーズ推定

Dual networks based 3D Multi-Person Pose Estimation from Monocular Video ( http://arxiv.org/abs/2205.00748v1 )

ライセンス: Link先を確認
Yu Cheng, Bo Wang, Robby T. Tan(参考訳) 我々は,その強みを生かすために,トップダウンアプローチとボトムアップアプローチの統合を提案する。 私たちのトップダウンネットワークは、画像パッチの1つではなく、すべての人から人間の関節を推定します。 我々のボトムアップネットワークは、人検出に基づく正規化ヒートマップを組み込んでおり、スケールの変動に対処する上でネットワークをより堅牢にします。 最後に、トップダウンネットワークとボトムアップネットワークから推定される3Dポーズが、最終3Dポーズのために統合ネットワークに送られます。 トレーニングデータとテストデータの共通的なギャップに対処するために,推定3次元ポーズを高次時間制約,再投影損失,骨長規則化を用いて精錬することにより,テスト時間中の最適化を行う。 また、自然な2人インタラクションを強制する2人のポーズ判別器も導入する。 最後に, 半教師あり法を適用し, 3次元地中データ不足を克服した。

We propose the integration of top-down and bottom-up approaches to exploit their strengths. Our top-down network estimates human joints from all persons instead of one in an image patch, making it robust to possible erroneous bounding boxes. Our bottom-up network incorporates human-detection based normalized heatmaps, allowing the network to be more robust in handling scale variations. Finally, the estimated 3D poses from the top-down and bottom-up networks are fed into our integration network for final 3D poses. To address the common gaps between training and testing data, we do optimization during the test time, by refining the estimated 3D human poses using high-order temporal constraint, re-projection loss, and bone length regularization. We also introduce a two-person pose discriminator that enforces natural two-person interactions. Finally, we apply a semi-supervised method to overcome the 3D ground-truth data scarcity.
翻訳日:2022-05-03 15:15:11 公開日:2022-05-02
# ガイド付き残像を用いたディープフェイクフェイスフォージェストの展示

Exposing Deepfake Face Forgeries with Guided Residuals ( http://arxiv.org/abs/2205.00753v1 )

ライセンス: Link先を確認
Zhiqing Guo, Gaobo Yang, Jiyou Chen and Xingming Sun(参考訳) 残留ドメイン機能は、関係のないコンテンツ機能を抑制し、キー操作トレースを保存するため、ディープフェイク検出に非常に有用である。 しかし、不適切な残差予測は検出精度に副作用をもたらす。 さらに、残差領域機能は圧縮などの画像操作によって簡単に影響を受ける。 既存のほとんどの研究は空間領域の特徴または残留領域の特徴を利用するが、2種類の特徴が相互に相関していることを無視している。 本稿では,Deepfake が生成した顔画像を明らかにするために,空間領域と残留領域の特徴を相互に融合したガイド付き残差ネットワーク GRnet を提案する。 既存の予測に基づく残差抽出法とは異なり,コンテンツ特徴を直接除去し,操作トレースを保存するマニピュレーショントレース抽出器(mte)を提案する。 MTEは、不適切な予測による潜在的なバイアスを避けるための、きめ細かい方法である。 さらに、特徴チャネルマップを選択的に強調し、2つのストリームの重みを適応的に割り当てるように注意融合機構(AFM)が設計されている。 実験結果から,提案するgrnetは,hff,faceforensics++,dfdc,celeb-dfを含む4つのパブリックフェイクフェースデータセットにおける最先端の成果よりも優れた性能を実現していることが示された。 特に、GRnetはHFFデータセットの平均精度97.72%に達し、これは既存の研究よりも少なくとも5.25%高い。

Residual-domain feature is very useful for Deepfake detection because it suppresses irrelevant content features and preserves key manipulation traces. However, inappropriate residual prediction will bring side effects on detection accuracy. In addition, residual-domain features are easily affected by image operations such as compression. Most existing works exploit either spatial-domain features or residual-domain features, while neglecting that two types of features are mutually correlated. In this paper, we propose a guided residuals network, namely GRnet, which fuses spatial-domain and residual-domain features in a mutually reinforcing way, to expose face images generated by Deepfake. Different from existing prediction based residual extraction methods, we propose a manipulation trace extractor (MTE) to directly remove the content features and preserve manipulation traces. MTE is a fine-grained method that can avoid the potential bias caused by inappropriate prediction. Moreover, an attention fusion mechanism (AFM) is designed to selectively emphasize feature channel maps and adaptively allocate the weights for two streams. The experimental results show that the proposed GRnet achieves better performances than the state-of-the-art works on four public fake face datasets including HFF, FaceForensics++, DFDC and Celeb-DF. Especially, GRnet achieves an average accuracy of 97.72% on the HFF dataset, which is at least 5.25% higher than the existing works.
翻訳日:2022-05-03 15:14:57 公開日:2022-05-02
# Sibling Context と Surface Priors を用いた Point Cloud Compression

Point Cloud Compression with Sibling Context and Surface Priors ( http://arxiv.org/abs/2205.00760v1 )

ライセンス: Link先を確認
Zhili Chen, Zian Qian, Sukai Wang, Qifeng Chen(参考訳) 本稿では,大規模ポイントクラウド圧縮のためのoctreeベースの新しいマルチレベルフレームワークを提案する。 このフレームワークでは,兄弟姉妹の子供,祖先,隣人のコンテキストを用いてoctree内の階層的依存関係を探索し,各非リーフoctreeノードの占有情報をビットストリームにエンコードする,新しいエントロピーモデルを提案する。 さらに,二次曲面をボクセルに基づく幾何対応加群に局所的に適合させ,エントロピー符号化における幾何学的事前性を与える。 これらの強力なプリエントは、octreeをよりコンパクトなビットストリームにエントロピーフレームワークをエントロピー化する。 復号段階では, 2段階のヒューリスティック戦略を適用して, より良い復元精度で点雲を復元する。 定量的評価の結果,kittiオドメトリーとnuscenesデータセットでは,ビットレートが11-16%,12-14%向上した。

We present a novel octree-based multi-level framework for large-scale point cloud compression, which can organize sparse and unstructured point clouds in a memory-efficient way. In this framework, we propose a new entropy model that explores the hierarchical dependency in an octree using the context of siblings' children, ancestors, and neighbors to encode the occupancy information of each non-leaf octree node into a bitstream. Moreover, we locally fit quadratic surfaces with a voxel-based geometry-aware module to provide geometric priors in entropy encoding. These strong priors empower our entropy framework to encode the octree into a more compact bitstream. In the decoding stage, we apply a two-step heuristic strategy to restore point clouds with better reconstruction quality. The quantitative evaluation shows that our method outperforms state-of-the-art baselines with a bitrate improvement of 11-16% and 12-14% on the KITTI Odometry and nuScenes datasets, respectively.
翻訳日:2022-05-03 15:14:33 公開日:2022-05-02
# AI対応顔偽造のグラディエント演算子再考

Rethinking Gradient Operator for Exposing AI-enabled Face Forgeries ( http://arxiv.org/abs/2205.00767v1 )

ライセンス: Link先を確認
Zhiqing Guo, Gaobo Yang, Dengyong Zhang and Ming Xia(参考訳) 画像法医学では、畳み込みニューラルネットワーク(CNN)は微妙な修正トレースではなく、コンテンツの特徴を学習する傾向がある。 既存の手法では、予測されたピクセル値から元のピクセル値を差し引いてcnnに操作トレースに注意を向けさせることで、上記の課題を主に解決している。 しかし、複雑な学習メカニズムのため、これらの手法は不要な性能損失をもたらす可能性がある。 本研究では,顔偽造を暴露する際の勾配演算子の利点を再考し,勾配演算子とCNN,すなわちテンソル前処理(TP)と操作トレースアテンション(MTA)モジュールを組み合わせた2つのプラグ・アンド・プレイモジュールを設計する。 具体的には、tpモジュールは、グラデーション演算子によってネットワーク内の各チャネルの特徴テンソルを洗練し、操作トレースを強調し、特徴表現を改善する。 さらに、MTAモジュールはチャネルと操作トレースという2つの次元を考慮し、ネットワークに操作トレースの分布を学習させる。 これら2つのモジュールは、エンドツーエンドのトレーニングのためにCNNにシームレスに統合できる。 実験の結果,提案ネットワークは5つの公開データセットにおける先行研究よりも優れた結果が得られることがわかった。 特にTPモジュールは、単純なテンソルリファインメントのみで既存の前処理モジュールに比べて、少なくとも4.60%精度が大幅に向上する。 コードはhttps://github.com/EricGzq/GocNet-pytorch.comで公開されている。

For image forensics, convolutional neural networks (CNNs) tend to learn content features rather than subtle manipulation traces, which limits forensic performance. Existing methods predominantly solve the above challenges by following a general pipeline, that is, subtracting the original pixel value from the predicted pixel value to make CNNs pay attention to the manipulation traces. However, due to the complicated learning mechanism, these methods may bring some unnecessary performance losses. In this work, we rethink the advantages of gradient operator in exposing face forgery, and design two plug-and-play modules by combining gradient operator with CNNs, namely tensor pre-processing (TP) and manipulation trace attention (MTA) module. Specifically, TP module refines the feature tensor of each channel in the network by gradient operator to highlight the manipulation traces and improve the feature representation. Moreover, MTA module considers two dimensions, namely channel and manipulation traces, to force the network to learn the distribution of manipulation traces. These two modules can be seamlessly integrated into CNNs for end-to-end training. Experiments show that the proposed network achieves better results than prior works on five public datasets. Especially, TP module greatly improves the accuracy by at least 4.60% compared with the existing pre-processing module only via simple tensor refinement. The code is available at: https://github.com/EricGzq/GocNet-pytorch.
翻訳日:2022-05-03 15:14:16 公開日:2022-05-02
# APP-Net: 効率的なポイントクラウド分類のための補助ポイントベースのプッシュとプル操作

APP-Net: Auxiliary-point-based Push and Pull Operations for Efficient Point Cloud Classification ( http://arxiv.org/abs/2205.00847v1 )

ライセンス: Link先を確認
Tao Lu, Chunxu Liu, Youxin Chen, Gangshan Wu, Limin Wang(参考訳) ポイントクラウドベースの3d分類タスクでは、隣接するポイントから機能を集約する。 以前の作品では、各点はしばしば複数の中心点によって隣接点として選択される。 したがって、各ソースポイントはメモリ消費の高い計算に複数回参加する必要がある。 一方、高い精度を追求するために、これらの手法は複雑な局所アグリゲータに依存して微細な幾何学表現を抽出し、ネットワークを遅くする。 これらの問題に対処するため,我々はAPPと呼ばれる線形複雑性の局所アグリゲータを提案する。 具体的には、ソースポイントと集約センタ間の特徴を交換するアンカーとして補助コンテナを導入する。 各ソースポイントは機能を1つの補助コンテナにプッシュし、各センターポイントは1つの補助コンテナから機能を引き出す。 これにより、各ソースポイントの再計算が回避される。 局所構造の学習を容易にするために,オンライン正規推定モジュールを用いて説明可能な幾何学的情報を提供し,アプリケーションのモデリング能力を向上させる。 構築されたネットワークは従来のすべてのベースラインよりも効率が良く、明確なマージンを持つが、メモリは少ない。 合成データセットと実データセットの両方の実験では、APP-Netが他のネットワークと同等の精度に達することが確認されている。 APP-Netを再現するために、完全なコードを公開します。

Point-cloud-based 3D classification task involves aggregating features from neighbor points. In previous works, each source point is often selected as a neighbor by multiple center points. Thus each source point has to participate in calculation multiple times with high memory consumption. Meanwhile, to pursue higher accuracy, these methods rely on a complex local aggregator to extract fine geometric representation, which slows down the network. To address these issues, we propose a new local aggregator of linear complexity, coined as APP. Specifically, we introduce an auxiliary container as an anchor to exchange features between the source point and the aggregating center. Each source point pushes its feature to only one auxiliary container, and each center point pulls features from only one auxiliary container. This avoids the re-computation of each source point. To facilitate the learning of the local structure, we use an online normal estimation module to provide the explainable geometric information to enhance our APP modeling capability. The constructed network is more efficient than all the previous baselines with a clear margin while only occupying a low memory. Experiments on both synthetic and real datasets verify that APP-Net reaches comparable accuracies with other networks. We will release the complete code to help others reproduce the APP-Net.
翻訳日:2022-05-03 15:13:53 公開日:2022-05-02
# 単眼カラー画像からの安定駆動接触再構成

Stability-driven Contact Reconstruction From Monocular Color Images ( http://arxiv.org/abs/2205.00848v1 )

ライセンス: Link先を確認
Zimeng Zhao, Binghui Zuo, Wei Xie, Yangang Wang(参考訳) 物理的接触は、手動状態再構築のための追加の制約と、相互作用の可利用性に関するさらなる理解の基盤を提供する。 単眼画像から重度の閉塞領域を推定することは大きな課題となる。 既存の手法では、接触ラベル付きデータセットから距離閾値または事前に駆動される手動接触を最適化する。 しかし,これらの屋内データセットに係わる対象や対象の数が限られているため,学習された接触パターンの一般化は困難であった。 私たちの重要なアイデアは、単眼画像から直接接触パターンを再構成し、シミュレーションの物理的安定性基準を利用してそれを最適化することです。 この基準は、物理エンジンが計算した力と接触分布によって定義され、既存のソリューションと比較して、我々のフレームワークはよりパーソナライズされた手や多様な物体形状に適応することができる。 さらに、追加の物理的属性を持つインタラクションデータセットを作成し、メソッドのsim-to-real一貫性を検証する。 包括的評価により,提案手法により手指接触の精度と安定性を両立させることができる。

Physical contact provides additional constraints for hand-object state reconstruction as well as a basis for further understanding of interaction affordances. Estimating these severely occluded regions from monocular images presents a considerable challenge. Existing methods optimize the hand-object contact driven by distance threshold or prior from contact-labeled datasets. However, due to the number of subjects and objects involved in these indoor datasets being limited, the learned contact patterns could not be generalized easily. Our key idea is to reconstruct the contact pattern directly from monocular images, and then utilize the physical stability criterion in the simulation to optimize it. This criterion is defined by the resultant forces and contact distribution computed by the physics engine.Compared to existing solutions, our framework can be adapted to more personalized hands and diverse object shapes. Furthermore, an interaction dataset with extra physical attributes is created to verify the sim-to-real consistency of our methods. Through comprehensive evaluations, hand-object contact can be reconstructed with both accuracy and stability by the proposed framework.
翻訳日:2022-05-03 15:13:34 公開日:2022-05-02
# 夜間セマンティックセグメンテーションにおける教師なしドメイン適応のためのクロスドメイン相関蒸留

Cross-Domain Correlation Distillation for Unsupervised Domain Adaptation in Nighttime Semantic Segmentation ( http://arxiv.org/abs/2205.00858v1 )

ライセンス: Link先を確認
Huan Gao, Jichang Guo, Guoli Wang, Qian Zhang(参考訳) 夜間セマンティックセグメンテーションの性能は、照明不足と画素単位のアノテーションの欠如によって制限され、自動運転におけるその適用を著しく制限する。 既存の作品(例えば、トワイライトを中間目標領域として使用して昼間から夜間に適応させるなど)は、カメラ機器によって引き起こされるデータセットと都市スタイルとの違いに対処できない可能性がある。 これら2つのドメインシフト,すなわち,データセットの照度と固有の差異に直面して,CCDistillと呼ばれるクロスドメイン相関蒸留による新しいドメイン適応フレームワークを提案する。 夜間画像のラベルの欠如を補うため、2つの画像間の照明のばらつきや固有差を徹底的に検討する。 具体的には,特徴に含まれる内容や様式の知識を抽出し,画像間の固有性や照明性の違いの程度を計算する。 ドメイン適応は、同じ種類の差分の不変性を用いて達成される。 Dark Zurich と ACDC の大規模な実験により,CCDistill が夜間セマンティックセグメンテーションの最先端性能を達成することが示された。 特に,提案手法は1段階のドメイン適応ネットワークであり,推論時間に影響しない。 私たちの実装はhttps://github.com/ghuan99/ccdistillで利用可能です。

The performance of nighttime semantic segmentation is restricted by the poor illumination and a lack of pixel-wise annotation, which severely limit its application in autonomous driving. Existing works, e.g., using the twilight as the intermediate target domain to perform the adaptation from daytime to nighttime, may fail to cope with the inherent difference between datasets caused by the camera equipment and the urban style. Faced with these two types of domain shifts, i.e., the illumination and the inherent difference of the datasets, we propose a novel domain adaptation framework via cross-domain correlation distillation, called CCDistill. The invariance of illumination or inherent difference between two images is fully explored so as to make up for the lack of labels for nighttime images. Specifically, we extract the content and style knowledge contained in features, calculate the degree of inherent or illumination difference between two images. The domain adaptation is achieved using the invariance of the same kind of difference. Extensive experiments on Dark Zurich and ACDC demonstrate that CCDistill achieves the state-of-the-art performance for nighttime semantic segmentation. Notably, our method is a one-stage domain adaptation network which can avoid affecting the inference time. Our implementation is available at https://github.com/ghuan99/CCDistill.
翻訳日:2022-05-03 15:13:18 公開日:2022-05-02
# (参考訳) OPT: 事前学習型トランスフォーマー言語モデル

OPT: Open Pre-trained Transformer Language Models ( http://arxiv.org/abs/2205.01068v1 )

ライセンス: CC BY 4.0
Susan Zhang, Stephen Roller, Naman Goyal, Mikel Artetxe, Moya Chen, Shuohui Chen, Christopher Dewan, Mona Diab, Xian Li, Xi Victoria Lin, Todor Mihaylov, Myle Ott, Sam Shleifer, Kurt Shuster, Daniel Simig, Punit Singh Koura, Anjali Sridhar, Tianlu Wang, Luke Zettlemoyer(参考訳) 数十万日にわたって訓練されている大規模な言語モデルは、ゼロショットと少数ショットの学習に顕著な能力を示している。 計算コストを考えると、これらのモデルは大金なしで複製することは困難である。 APIを通じて利用できる少数の人にとっては、完全なモデルウェイトへのアクセスは許可されていないため、研究は困難である。 我々は,125mから175bのパラメータを持つデコーダ専用プリトレーニングトランスのスイートであるopen pre-trained transformers (opt)を提案する。 OPT-175BはGPT-3と同等であり, 炭素フットプリントの1/7しか必要としない。 また、私たちが直面したインフラストラクチャの課題の詳細と、リリースしたすべてのモデルを試すためのコードもリリースしています。

Large language models, which are often trained for hundreds of thousands of compute days, have shown remarkable capabilities for zero- and few-shot learning. Given their computational cost, these models are difficult to replicate without significant capital. For the few that are available through APIs, no access is granted to the full model weights, making them difficult to study. We present Open Pre-trained Transformers (OPT), a suite of decoder-only pre-trained transformers ranging from 125M to 175B parameters, which we aim to fully and responsibly share with interested researchers. We show that OPT-175B is comparable to GPT-3, while requiring only 1/7th the carbon footprint to develop. We are also releasing our logbook detailing the infrastructure challenges we faced, along with code for experimenting with all of the released models.
翻訳日:2022-05-03 15:12:11 公開日:2022-05-02
# 変動推論による市場変動予測

Forecasting Market Changes using Variational Inference ( http://arxiv.org/abs/2205.00605v1 )

ライセンス: Link先を確認
Udai Nagpal, Krishan Nagpal(参考訳) 様々なアプローチが検討されてきたが、株価や同様の市場データの短期的な市場変化の予測は非常に困難である。 本稿では、変動推論(VI)を用いたポートフォリオと同様に、株式指標の短期市場変化を予測するアプローチを提案する。 VIは、複雑な確率密度を推定するために最適化技術を使用する機械学習アプローチである。 提案手法では,説明変数のクラスタを特定し,クラスタ固有の線形回帰に基づいて市場変化を予測する。 提案されたアプローチは、変更の期待値とは別に、予測の信頼度レベルやポートフォリオのvar(リスクに対する価値)のようなリスク対策を見積もるためにも使用できる。 提案されたアプローチのもう1つの利点は明確なモデル解釈であり、説明変数(またはマーケットレジーム)のクラスターが、将来の変化が類似した関係に従うものとして識別される。 このようなクラスタに関する知識は、ポートフォリオのパフォーマンスに関する有用な洞察を提供し、異なる市場体制における変数の相対的重要性を特定することができる。 株式・債券指標の図示的な例は、2020年初頭のコビッド関連ボラティリティとその後の良質な市場状況におけるアプローチの予測を示すと考えられる。 ポートフォリオを考えると,提案手法は,いくつかの説明変数がなくても,正常市場と揮発市場の両方で有用な予測を提供する。 さらに、予測された見積もりと分布は市場の状況の変化に迅速に適応するため、従来のアプローチと比較してVaRのようなリスク対策のリアルタイムな見積もりを得るのにも有用である。

Though various approaches have been considered, forecasting near-term market changes of equities and similar market data remains quite difficult. In this paper we introduce an approach to forecast near-term market changes for equity indices as well as portfolios using variational inference (VI). VI is a machine learning approach which uses optimization techniques to estimate complex probability densities. In the proposed approach, clusters of explanatory variables are identified and market changes are forecast based on cluster-specific linear regression. Apart from the expected value of changes, the proposed approach can also be used to obtain the distribution of possible outcomes, which can be used to estimate confidence levels of forecasts and risk measures such as VaR (Value at Risk) for the portfolio. Another advantage of the proposed approach is the clear model interpretation, as clusters of explanatory variables (or market regimes) are identified for which the future changes follow similar relationships. Knowledge about such clusters can provide useful insights about portfolio performance and identify the relative importance of variables in different market regimes. Illustrative examples of equity and bond indices are considered to demonstrate forecasts of the proposed approach during Covid-related volatility in early 2020 and subsequent benign market conditions. For the portfolios considered, it is shown that the proposed approach provides useful forecasts in both normal and volatile markets even with only a few explanatory variables. Additionally the predicted estimate and distribution adapt quickly to changing market conditions and thus may also be useful in obtaining better real-time estimates of risk measures such as VaR compared to traditional approaches.
翻訳日:2022-05-03 14:34:19 公開日:2022-05-02
# 連続時間ネットワークにおける関係事象に対する多変量コミュニティホークスモデル

The Multivariate Community Hawkes Model for Dependent Relational Events in Continuous-time Networks ( http://arxiv.org/abs/2205.00639v1 )

ライセンス: Link先を確認
Hadeel Soliman, Lingfei Zhao, Zhipeng Huang, Subhadeep Paul, Kevin S. Xu(参考訳) 確率ブロックモデル(sbm)はネットワークデータに対して最も広く使われている生成モデルの一つである。 多くの連続時間動的ネットワークモデルは、SBMと同じ仮定に基づいて構築されている: 全てのノード間のエッジやイベントは、ブロックやコミュニティのメンバーシップによって条件的に独立しているため、実際のネットワークでよく見られる三角形のような高次のモチーフを再現することができない。 多変量コミュニティホークス(MULCH)モデルを提案する。これは、構造化多変量ホークスプロセスを用いてノードペア間の依存性を導入する、連続時間ネットワークのための非常に柔軟なコミュニティベースモデルである。 スペクトルクラスタリングと確率に基づく局所改善手法を用いてモデルに適合する。 提案したMULCHモデルは,予測タスクと生成タスクの両方において,既存のモデルよりもはるかに正確であることがわかった。

The stochastic block model (SBM) is one of the most widely used generative models for network data. Many continuous-time dynamic network models are built upon the same assumption as the SBM: edges or events between all pairs of nodes are conditionally independent given the block or community memberships, which prevents them from reproducing higher-order motifs such as triangles that are commonly observed in real networks. We propose the multivariate community Hawkes (MULCH) model, an extremely flexible community-based model for continuous-time networks that introduces dependence between node pairs using structured multivariate Hawkes processes. We fit the model using a spectral clustering and likelihood-based local refinement procedure. We find that our proposed MULCH model is far more accurate than existing models both for predictive and generative tasks.
翻訳日:2022-05-03 14:33:51 公開日:2022-05-02
# VICE:概念埋め込みのための変分推論

VICE: Variational Inference for Concept Embeddings ( http://arxiv.org/abs/2205.00756v1 )

ライセンス: Link先を確認
Lukas Muttenthaler and Charles Y. Zheng and Patrick McClure and Robert A. Vandermeulen and Martin N. Hebart and Francisco Pereira(参考訳) 本稿では, ランダムな3重項タスクにおいて, 人間の行動から物体概念を埋め込み学習するためのベイズ的手法である, 概念埋め込みのための変分推論(VICE)を提案する。 変動推論を用いて,各埋め込み値に対する不確かさを推定した,ばらばらで非負の解を求める。 これらの推定値を利用して、再現可能な埋め込みを生成しながら、データを説明する次元を自動的に選択する。 本稿では,VICEのためのPAC学習バウンダリを導入し,一般化性能を推定したり,異なる実験設計のための十分なサンプルサイズを決定する。 3倍のタスクで人間の行動を予測することで、その前任者のスポスをライバルあるいは上回っている。 VICEオブジェクト表現は、より再現性が高く、異なるランダム初期化に対して一貫性がある。

In this paper, we introduce Variational Inference for Concept Embeddings (VICE), an approximate Bayesian method for learning object concept embeddings from human behavior in an odd-one-out triplet task. We use variational inference to obtain a sparse, non-negative solution with uncertainty estimates about each embedding value. We exploit these estimates to automatically select the dimensions that explain the data while yielding reproducible embeddings. We introduce a PAC learning bound for VICE that can be used to estimate generalization performance or determine a sufficient sample size for different experimental designs. VICE rivals or outperforms its predecessor, SPoSE, at predicting human behavior in a triplet task. VICE object representations are substantially more reproducible and consistent across different random initializations.
翻訳日:2022-05-03 14:33:39 公開日:2022-05-02
# dual_merged cyclewganを用いた光コヒーレンス断層画像の教師なしデニュージング

Unsupervised Denoising of Optical Coherence Tomography Images with Dual_Merged CycleWGAN ( http://arxiv.org/abs/2205.00698v1 )

ライセンス: Link先を確認
Jie Du, Xujian Yang, Kecheng Jin, Xuanzheng Qi, Hu Chen(参考訳) nosieは低品質光コヒーレンス断層撮影(oct)の重要な原因である。 畳み込みニューラルネットワーク(CNN)に基づくニューラルネットワークモデルは、画像の雑音化において優れた性能を示した。 しかし、多くのニューラルネットワークアルゴリズムが大量のラベル付きデータを必要とするため、oct画像のノイズ処理は依然として大きな課題に直面している。 さらに、これらのCNNベースのアルゴリズムには多くのパラメータと優れたチューニング技術が必要である。 そこで本研究では, 網膜オクタ画像デノイジングのためのデュアルマージド・サイクルwganと呼ばれる, ラベルなしトレーディングデータが少なく, 優れた性能を持つ新しい循環整合型生成逆向ネットを提案する。 本モデルでは,良好なトレーニング安定性と優れた性能を実現するために,2つのサイクルガンネットワーク,descriminatorとwasserstein損失からなる。 2つのサイクロンganネットワーク間の画像マージ技術を用いて,より詳細な情報を得て,より優れたトレーニング効果を得ることができた。 提案ネットワークの有効性と汎用性は,アブレーション実験と比較実験により実証された。 他の最先端手法と比較すると,教師なし手法は最良主観的視覚効果と高い評価対象指標を得る。

Nosie is an important cause of low quality Optical coherence tomography (OCT) image. The neural network model based on Convolutional neural networks(CNNs) has demonstrated its excellent performance in image denoising. However, OCT image denoising still faces great challenges because many previous neural network algorithms required a large number of labeled data, which might cost much time or is expensive. Besides, these CNN-based algorithms need numerous parameters and good tuning techniques, which is hardware resources consuming. To solved above problems, We proposed a new Cycle-Consistent Generative Adversarial Nets called Dual-Merged Cycle-WGAN for retinal OCT image denoiseing, which has remarkable performance with less unlabeled traning data. Our model consists of two Cycle-GAN networks with imporved generator, descriminator and wasserstein loss to achieve good training stability and better performance. Using image merge technique between two Cycle-GAN networks, our model could obtain more detailed information and hence better training effect. The effectiveness and generality of our proposed network has been proved via ablation experiments and comparative experiments. Compared with other state-of-the-art methods, our unsupervised method obtains best subjective visual effect and higher evaluation objective indicators.
翻訳日:2022-05-03 14:31:51 公開日:2022-05-02
# 未知数のクラスタによるオンラインクラスタリングのためのガウスニューロンの再検討

Revisiting Gaussian Neurons for Online Clustering with Unknown Number of Clusters ( http://arxiv.org/abs/2205.00920v1 )

ライセンス: Link先を確認
Ole Christian Eidheim(参考訳) 最近のニューラルネットワークの成功にもかかわらず、破滅的な忘れや逆境攻撃のようなバックプロパゲーション訓練モデルの弱点を解決するには、より生物学的に妥当な学習方法が必要である。 クラスタ数を固定するのではなく,クラスタ数を最大に制限してオンラインクラスタリングを行う,新たなローカル学習ルールが提案されている。 直交重みや出力活性化の制約を用いる代わりに、活性化スパーシティは、複数のニューロン中心が入力領域内の同じ位置を占有できないよう、外側ガウスニューロンの相互反発によって達成される。 また、データサンプルを手段とばらつきで表現できる場合に、ガウスニューロンの幅を調整するための更新方法も提示する。 アルゴリズムはMNISTとCIFAR-10データセットに応用され、様々なサイズのピクセルパッチの入力パターンをキャプチャするフィルタを生成する。 実験の結果,多数のトレーニングサンプルにおける学習パラメータの安定性が示された。

Despite the recent success of artificial neural networks, more biologically plausible learning methods may be needed to resolve the weaknesses of backpropagation trained models such as catastrophic forgetting and adversarial attacks. A novel local learning rule is presented that performs online clustering with a maximum limit of the number of cluster to be found rather than a fixed cluster count. Instead of using orthogonal weight or output activation constraints, activation sparsity is achieved by mutual repulsion of lateral Gaussian neurons ensuring that multiple neuron centers cannot occupy the same location in the input domain. An update method is also presented for adjusting the widths of the Gaussian neurons in cases where the data samples can be represented by means and variances. The algorithms were applied on the MNIST and CIFAR-10 datasets to create filters capturing the input patterns of pixel patches of various sizes. The experimental results demonstrate stability in the learned parameters across a large number of training samples.
翻訳日:2022-05-03 14:31:28 公開日:2022-05-02
# POLITICS:イデオロギー予測とスタンス検出のための同一記事比較による事前学習

POLITICS: Pretraining with Same-story Article Comparison for Ideology Prediction and Stance Detection ( http://arxiv.org/abs/2205.00619v1 )

ライセンス: Link先を確認
Yujian Liu, Xinliang Frederick Zhang, David Wegsman, Nick Beauchamp, Lu Wang(参考訳) イデオロギーは政治科学研究の核心にある。 しかし、様々なジャンルのテキストにまたがるイデオロギーを特徴付け、予測するための汎用ツールはまだ存在しない。 そこで本研究では,異なるイデオロギーのメディアによって書かれた同一記事の記事の比較に依存する新しいイデオロギー駆動事前学習目標を用いて,事前学習された言語モデルについて検討する。 我々はさらに360万以上の政治ニュース記事からなる大規模データセットを事前学習のために収集する。 我々のモデルPOLITICSは、イデオロギー予測と姿勢検出タスクにおける強力なベースラインと過去の最先端モデルよりも優れている。 さらに分析したところ、POLITICSは特に長文や正式なテキストを理解するのが得意であり、また数ショットの学習シナリオにおいても堅牢であることがわかった。

Ideology is at the core of political science research. Yet, there still does not exist general-purpose tools to characterize and predict ideology across different genres of text. To this end, we study Pretrained Language Models using novel ideology-driven pretraining objectives that rely on the comparison of articles on the same story written by media of different ideologies. We further collect a large-scale dataset, consisting of more than 3.6M political news articles, for pretraining. Our model POLITICS outperforms strong baselines and the previous state-of-the-art models on ideology prediction and stance detection tasks. Further analyses show that POLITICS is especially good at understanding long or formally written texts, and is also robust in few-shot learning scenarios.
翻訳日:2022-05-03 14:26:19 公開日:2022-05-02
# バッチ内インスタンスの摂動と補間によるロバスト微調整

Robust Fine-tuning via Perturbation and Interpolation from In-batch Instances ( http://arxiv.org/abs/2205.00633v1 )

ライセンス: Link先を確認
Shoujie Tong, Qingxiu Dong, Damai Dai, Yifan song, Tianyu Liu, Baobao Chang, Zhifang Sui(参考訳) 下流タスクの微調整事前学習言語モデル(plm)は、自然言語処理において一般的である。 しかしながら、ほとんどのPLMは脆弱であり、例えば、敵対的攻撃や不均衡なデータの下では脆く、特に安全なシナリオにおいて、下流タスクへのPLMの適用を妨げる。 本稿では,plmをより強固にするために,match-tuningと呼ばれる簡易かつ効果的な微調整法を提案する。 バッチ内の各インスタンスに対して、同じバッチ内の他のインスタンスがそれを処理します。 具体的に言うと、他のラベルのインスタンスを摂動として、マッチチューニングにより、トレーニング開始時のノイズに対してより堅牢になる。 終盤に近づいている間に、Match-Tuningは、より良い一般化のために同じラベルを持つインスタンス間の補間をより重視する。 GLUEベンチマークにおける様々なタスクに関する大規模な実験により、Match-Tuningはバニラの微調整を1.64ドルのスコアで一貫して上回っていることが示されている。 さらに、マッチチューニングは、敵の攻撃やデータの不均衡に対して顕著な堅牢性を示す。

Fine-tuning pretrained language models (PLMs) on downstream tasks has become common practice in natural language processing. However, most of the PLMs are vulnerable, e.g., they are brittle under adversarial attacks or imbalanced data, which hinders the application of the PLMs on some downstream tasks, especially in safe-critical scenarios. In this paper, we propose a simple yet effective fine-tuning method called Match-Tuning to force the PLMs to be more robust. For each instance in a batch, we involve other instances in the same batch to interact with it. To be specific, regarding the instances with other labels as a perturbation, Match-Tuning makes the model more robust to noise at the beginning of training. While nearing the end, Match-Tuning focuses more on performing an interpolation among the instances with the same label for better generalization. Extensive experiments on various tasks in GLUE benchmark show that Match-Tuning consistently outperforms the vanilla fine-tuning by $1.64$ scores. Moreover, Match-Tuning exhibits remarkable robustness to adversarial attacks and data imbalance.
翻訳日:2022-05-03 14:26:05 公開日:2022-05-02
# 単語ランク-周波数関係の2つのパラメータ式

A Two Parameters Equation for Word Rank-Frequency Relation ( http://arxiv.org/abs/2205.00638v1 )

ライセンス: Link先を確認
Chenchen Ding(参考訳) f (\cdot)$ を単語の絶対周波数とし、$r$ を頻度の順に単語のランクとすると、次の関数はランク周波数関係 \[ f (r;s,t) = \left(\frac{r_{\tt max}}{r}\right)^{1-s} \left(\frac{r_{\tt max}+t \cdot r_{\ttt exp}}{r+t \cdot r_{\tt exp}}\right)^{1+(1+t)s} \] ここで $r_{\t max}$ と $r_{\ttt exp}$ はそれぞれランクの最大値であり、$s>0$ と $t>0$ はデータから推定されるパラメータである。 well-behavedデータには$s<1$と$s \cdot t < 1$があるべきです。

Let $f (\cdot)$ be the absolute frequency of words and $r$ be the rank of words in decreasing order of frequency, then the following function can fit the rank-frequency relation \[ f (r;s,t) = \left(\frac{r_{\tt max}}{r}\right)^{1-s} \left(\frac{r_{\tt max}+t \cdot r_{\tt exp}}{r+t \cdot r_{\tt exp}}\right)^{1+(1+t)s} \] where $r_{\tt max}$ and $r_{\tt exp}$ are the maximum and the expectation of the rank, respectively; $s>0$ and $t>0$ are parameters estimated from data. On well-behaved data, there should be $s<1$ and $s \cdot t < 1$.
翻訳日:2022-05-03 14:25:46 公開日:2022-05-02
# 教師なし文表現の偏差コントラスト学習

Debiased Contrastive Learning of Unsupervised Sentence Representations ( http://arxiv.org/abs/2205.00656v1 )

ライセンス: Link先を確認
Kun Zhou, Beichen Zhang, Wayne Xin Zhao and Ji-Rong Wen(参考訳) 近年,ハイクオリティな文表現を導出する事前学習型言語モデル(plm)の改善にコントラスト学習が有効であることが示されている。 これは、表現空間全体の一様性に対して無関係な負を押しつぶしながらアライメントを強化するために、近い正の例を引き出すことを目的としている。 しかし、以前の研究は主にランダムにトレーニングデータからバッチ内陰性またはサンプルを採用する。 このような方法は、不適切な負(例えば偽陰性や異方性表現)が文表現の学習に使用されるサンプリングバイアスを引き起こし、表現空間の均一性を損なう。 そこで我々は,これらの不適切な否定の影響を軽減するために,新しいフレームワーク \textbf{dclr} (\underline{d}ebiased \underline{c}ontrastive \underline{l}earning of unsupervised sentence \underline{r}epresentations)を提案する。 DCLRでは、偽陰性を罰し、雑音に基づく陰性を生成し、表現空間の均一性を保証するインスタンス重み付け法を設計する。 7つの意味的テキスト類似性タスクの実験は、我々のアプローチが競合ベースラインよりも効果的であることを示している。 コードとデータはリンクで公開されている。 \textcolor{blue}{\url{https://github.com/RUCAIBox/DCLR}}。

Recently, contrastive learning has been shown to be effective in improving pre-trained language models (PLM) to derive high-quality sentence representations. It aims to pull close positive examples to enhance the alignment while push apart irrelevant negatives for the uniformity of the whole representation space. However, previous works mostly adopt in-batch negatives or sample from training data at random. Such a way may cause the sampling bias that improper negatives (e.g. false negatives and anisotropy representations) are used to learn sentence representations, which will hurt the uniformity of the representation space. To address it, we present a new framework \textbf{DCLR} (\underline{D}ebiased \underline{C}ontrastive \underline{L}earning of unsupervised sentence \underline{R}epresentations) to alleviate the influence of these improper negatives. In DCLR, we design an instance weighting method to punish false negatives and generate noise-based negatives to guarantee the uniformity of the representation space. Experiments on seven semantic textual similarity tasks show that our approach is more effective than competitive baselines. Our code and data are publicly available at the link: \textcolor{blue}{\url{https://github.com/RUCAIBox/DCLR}}.
翻訳日:2022-05-03 14:25:10 公開日:2022-05-02
# (参考訳) Wav2Seq:擬似言語を用いた音声テキストエンコーダ・デコーダモデルの事前学習

Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo Languages ( http://arxiv.org/abs/2205.01086v1 )

ライセンス: CC BY 4.0
Felix Wu, Kwangyoun Kim, Shinji Watanabe, Kyu Han, Ryan McDonald, Kilian Q. Weinberger, Yoav Artzi(参考訳) 音声データのためのエンコーダ・デコーダモデルの両方の部分を事前学習する最初の自己教師付き手法であるwav2seqを提案する。 我々は、コンパクトな離散表現として擬似言語を誘導し、音声入力を擬似サブワードシーケンスに変換する自己教師付き擬似音声認識タスクを定式化する。 このプロセスは単独で、または低コストの第2段階事前訓練として適用することができる。 我々は、音声認識(ASR)、名前付きエンティティ認識、音声からテキストへの翻訳を実験した。 提案手法は,学習に付加的なテキストデータを用いた場合であっても,音声からテキストへの変換に20の言語対で一貫した改善が得られた。 最後に、ASRでは、エンコーダ-デコーダ手法がネットワークのすべての部分の事前学習の恩恵を受け、高度に最適化された最近の手法に匹敵する性能を示す。

We introduce Wav2Seq, the first self-supervised approach to pre-train both parts of encoder-decoder models for speech data. We induce a pseudo language as a compact discrete representation, and formulate a self-supervised pseudo speech recognition task -- transcribing audio inputs into pseudo subword sequences. This process stands on its own, or can be applied as low-cost second-stage pre-training. We experiment with automatic speech recognition (ASR), spoken named entity recognition, and speech-to-text translation. We set new state-of-the-art results for end-to-end spoken named entity recognition, and show consistent improvements on 20 language pairs for speech-to-text translation, even when competing methods use additional text data for training. Finally, on ASR, our approach enables encoder-decoder methods to benefit from pre-training for all parts of the network, and shows comparable performance to highly optimized recent methods.
翻訳日:2022-05-03 14:22:55 公開日:2022-05-02
# マルチパスストリーミング帯域のためのシャープメモリ-レグレットトレードオフ

A Sharp Memory-Regret Trade-Off for Multi-Pass Streaming Bandits ( http://arxiv.org/abs/2205.00984v1 )

ライセンス: Link先を確認
Arpit Agarwal, Sanjeev Khanna, Prathamesh Patil(参考訳) 確率的k$武装のバンディット問題は、オンライン広告から臨床試験まで様々な分野に応用されているため、広く研究されている。 しかし実際には、アームの数がとても多くなり、同時に処理するためのメモリの要求が大きくなる。 本稿では,アームをストリームに表示するストリーミング環境について考察し,アルゴリズムは限られたメモリを用いてこれらのアームを処理する。 ここでの目標は、後悔を最小化するだけでなく、最小限のメモリでそれを行うことです。 この問題の以前のアルゴリズムは、2つの設定のうちの1つで動作する:$\Omega(\log \log T)$pass over the stream(Rathod, 2021; Chaudhuri and Kalyanakrishnan, 2020; Liau et al., 2018)または1つのパス(Maiti et al., 2021)。 本稿では,任意の$B \geq 1$に対して,ストリームを渡れば$B$が許される場合のメモリと後悔のトレードオフについて検討し,任意の$B$-passアルゴリズムに対して,厳密な後悔の上限と低い境界を確立する。 o(1)$ メモリは$\widetilde\theta\big(t^{\frac{1}{2} + \frac{1}{2^{b+2}-2}}\big)$ パスで後悔し、$o(k)$ の任意の量へのメモリ増加は、$\omega(k)$ メモリを使用しない限り、この後悔を減少させる効果はほとんどない。 我々の主な技術的貢献は、情報理論技術の使用とラウンド・エライズからのアイデアを必要とする低い境界であり、*残留問題*がその後のパスよりも挑戦的であることを示します。

The stochastic $K$-armed bandit problem has been studied extensively due to its applications in various domains ranging from online advertising to clinical trials. In practice however, the number of arms can be very large resulting in large memory requirements for simultaneously processing them. In this paper we consider a streaming setting where the arms are presented in a stream and the algorithm uses limited memory to process these arms. Here, the goal is not only to minimize regret, but also to do so in minimal memory. Previous algorithms for this problem operate in one of the two settings: they either use $\Omega(\log \log T)$ passes over the stream (Rathod, 2021; Chaudhuri and Kalyanakrishnan, 2020; Liau et al., 2018), or just a single pass (Maiti et al., 2021). In this paper we study the trade-off between memory and regret when $B$ passes over the stream are allowed, for any $B \geq 1$, and establish tight regret upper and lower bounds for any $B$-pass algorithm. Our results uncover a surprising *sharp transition phenomenon*: $O(1)$ memory is sufficient to achieve $\widetilde\Theta\Big(T^{\frac{1}{2} + \frac{1}{2^{B+2}-2}}\Big)$ regret in $B$ passes, and increasing the memory to any quantity that is $o(K)$ has almost no impact on further reducing this regret, unless we use $\Omega(K)$ memory. Our main technical contribution is our lower bound which requires the use of information-theoretic techniques as well as ideas from round elimination to show that the *residual problem* remains challenging over subsequent passes.
翻訳日:2022-05-03 13:59:47 公開日:2022-05-02
# 励起からCNNを理解する

Understanding CNNs from excitations ( http://arxiv.org/abs/2205.00932v1 )

ライセンス: Link先を確認
Zijian Ying, Qianmu Li, Zhichao Lian(参考訳) 本稿では,高レベルのセマンティクスと詳細な空間情報との関係を明らかにするために,PANEと呼ばれるニューラルネットワークに対する新しい認知的アプローチを提案する。 PANE の指導のもと,CNN のようなモデルに対して IOM という新しい唾液マップ表現法を提案する。 我々は,8つの最先端のサリエンシーマップ表現法との比較を行った。 実験の結果,IOMはベースラインよりもはるかに優れていた。 この論文は、ディープニューラルネットワークを理解するための新しい視点をもたらすかもしれない。

For instance-level explanation, in order to reveal the relations between high-level semantics and detailed spatial information, this paper proposes a novel cognitive approach to neural networks, which named PANE. Under the guidance of PANE, a novel saliency map representation method, named IOM, is proposed for CNN-like models. We make the comparison with eight state-of-the-art saliency map representation methods. The experimental results show that IOM far outperforms baselines. The work of this paper may bring a new perspective to understand deep neural networks.
翻訳日:2022-05-03 13:56:39 公開日:2022-05-02
# サッカー映像の要約生成のための多段深層構造

A Multi-stage deep architecture for summary generation of soccer videos ( http://arxiv.org/abs/2205.00694v1 )

ライセンス: Link先を確認
Melissa Sanabria, Fr\'ed\'eric Precioso, Pierre-Alexandre Mattei, and Thomas Menguy(参考訳) ビデオコンテンツは、科学と商業の両方において、ますます増え続ける分野に存在している。 スポーツ、特にサッカーは、ゲームの人気の高さと新しい市場の出現により、ビデオ分析分野に最も投資している産業の1つである。 サッカーの試合におけるこれまでの最先端の手法は、手作りのヒューリスティックに頼って一般化が不十分な要約を生成するが、これらの研究は、複数のモダリティがゲームの最高のアクションを検出するのに役立つことを証明している。 一方、一般化可能性の高い機械学習モデルは、汎用ビデオの要約の分野に入り、いくつかのディープラーニングアプローチを提供している。 しかし、そのほとんどがスポーツ全試合ビデオに適さないコンテンツの特質を生かしている。 サッカーにおける知識抽出を自動化するための主要なソースはビデオコンテンツであるが、スポーツ分析において、このイベントデータがより豊かなコンテキスト情報を提供し、より少ない処理を必要とするため、現場で発生したすべてのイベントを記録するデータは、近年非常に重要になっている。 本稿では,音声とイベントメタデータを併用したサッカーの試合サマリーを生成する手法を提案する。 その結果,提案手法はマッチの動作を検知し,どのアクションが要約に属するべきかを識別し,類似するが,最終エディタに異なるオプションを提供するための関連のある複数の候補要約を提案する。 さらに,異なる放送会社のデータセット間で知識を伝達し,異なるコンペを行い,異なる条件で獲得し,異なる長さの要約に対応するため,作業の一般化能力を示す。

Video content is present in an ever-increasing number of fields, both scientific and commercial. Sports, particularly soccer, is one of the industries that has invested the most in the field of video analytics, due to the massive popularity of the game and the emergence of new markets. Previous state-of-the-art methods on soccer matches video summarization rely on handcrafted heuristics to generate summaries which are poorly generalizable, but these works have yet proven that multiple modalities help detect the best actions of the game. On the other hand, machine learning models with higher generalization potential have entered the field of summarization of general-purpose videos, offering several deep learning approaches. However, most of them exploit content specificities that are not appropriate for sport whole-match videos. Although video content has been for many years the main source for automatizing knowledge extraction in soccer, the data that records all the events happening on the field has become lately very important in sports analytics, since this event data provides richer context information and requires less processing. We propose a method to generate the summary of a soccer match exploiting both the audio and the event metadata. The results show that our method can detect the actions of the match, identify which of these actions should belong to the summary and then propose multiple candidate summaries which are similar enough but with relevant variability to provide different options to the final editor. Furthermore, we show the generalization capability of our work since it can transfer knowledge between datasets from different broadcasting companies, different competitions, acquired in different conditions, and corresponding to summaries of different lengths
翻訳日:2022-05-03 13:56:32 公開日:2022-05-02
# CNNを用いたVRにおける非拘束切削の評価

Assessing unconstrained surgical cuttings in VR using CNNs ( http://arxiv.org/abs/2205.00934v1 )

ライセンス: Link先を確認
Ilias Chrysovergis, Manos Kamarianakis, Mike Kentros, Dimitris Angelis, Antonis Protopsaltis, George Papagiannakis(参考訳) 我々は,データ拡張技術を用いて作成したデータセットに基づいて訓練された非拘束的外科的切削を評価するのに適した畳み込みニューラルネットワーク(CNN)を提案する。

We present a Convolutional Neural Network (CNN) suitable to assess unconstrained surgical cuttings, trained on a dataset created with a data augmentation technique.
翻訳日:2022-05-03 13:56:06 公開日:2022-05-02
# ニューラルネットワークテストの優先順位付けとアクティブラーニングのための単純な手法(再現性の検討)

Simple Techniques Work Surprisingly Well for Neural Network Test Prioritization and Active Learning (Replicability Study) ( http://arxiv.org/abs/2205.00664v1 )

ライセンス: Link先を確認
Michael Weiss and Paolo Tonella(参考訳) ディープニューラルネットワーク(DNN)のためのTIP(Test Input Prioritizers)は、一般的に非常に大規模なテストデータセットを効率的に処理し、計算とラベリングコストを節約する重要なテクニックである。 これは大規模にデプロイされたシステムでは特に当てはまり、本番環境で観測された入力が記録され、システムの次期バージョンに対する潜在的なテストやトレーニングデータとして機能する。 fengら。 al.は、非常に高速でシンプルなTIPであるDeepGiniを提案し、ニューロンやサプライズカバレッジのようなより精巧な技術よりも優れていることを示した。 大規模研究(4つのケーススタディ、8つのテストデータセット、32'200のトレーニングモデル)において、これらの発見を検証する。 しかし、予測ソフトマックス確率や予測ソフトマックス確率のエントロピーのような不確実量化の分野から得られる他の同等あるいはより単純な基底線は、DeepGiniと同等に機能する。

Test Input Prioritizers (TIP) for Deep Neural Networks (DNN) are an important technique to handle the typically very large test datasets efficiently, saving computation and labeling costs. This is particularly true for large-scale, deployed systems, where inputs observed in production are recorded to serve as potential test or training data for the next versions of the system. Feng et. al. propose DeepGini, a very fast and simple TIP, and show that it outperforms more elaborate techniques such as neuron- and surprise coverage. In a large-scale study (4 case studies, 8 test datasets, 32'200 trained models) we verify their findings. However, we also find that other comparable or even simpler baselines from the field of uncertainty quantification, such as the predicted softmax likelihood or the entropy of the predicted softmax likelihoods perform equally well as DeepGini.
翻訳日:2022-05-03 13:53:29 公開日:2022-05-02
# (参考訳) ComPhy: ビデオからのオブジェクトとイベントの合成物理推論

ComPhy: Compositional Physical Reasoning of Objects and Events from Videos ( http://arxiv.org/abs/2205.01089v1 )

ライセンス: CC0 1.0
Zhenfang Chen, Kexin Yi, Yunzhu Li, Mingyu Ding, Antonio Torralba, Joshua B. Tenenbaum, Chuang Gan(参考訳) 自然界における物体の運動は、複雑な相互作用とその性質によって制御される。 形状や材料などのいくつかの特性は、物体の視覚的外観によって識別できるが、質量や電荷などの性質は直接見えるものではない。 可視性と隠れた性質の間の構成性は、AIモデルが物理的世界から推論する上で、ユニークな課題となる。 ビデオ推論に関する既存の研究は、主に物体の外観、動き、接触相互作用などの視覚的に観察可能な要素に焦点を当てている。 本稿では,合成的物理的推論(comphy)データセットを導入することで,視覚的な外観から直接観測できない隠れた物理的特性を推測することの重要性を強調する。 特定のオブジェクトセットに対して、ComPhyには、異なる初期条件の下で動き、相互作用するビデオがほとんどない。 このモデルは、質量や電荷などの構成的隠れた特性を解き放つ能力に基づいて評価され、この知識を使ってビデオの1つに投稿された一連の質問に答える。 ComPhyのいくつかの最先端ビデオ推論モデルの評価結果は、これらの隠された特性を捕捉できないため、不満足な性能を示す。 さらに,視覚知覚,物理特性学習,動的予測,記号実行を統合されたフレームワークに組み合わせた,構成物理学学習(CPL)と呼ばれるオラクルのニューラルシンボリックフレームワークを提案する。 CPLは、相互作用からオブジェクトの物理的特性を効果的に識別し、そのダイナミクスを予測して質問に答える。

Objects' motions in nature are governed by complex interactions and their properties. While some properties, such as shape and material, can be identified via the object's visual appearances, others like mass and electric charge are not directly visible. The compositionality between the visible and hidden properties poses unique challenges for AI models to reason from the physical world, whereas humans can effortlessly infer them with limited observations. Existing studies on video reasoning mainly focus on visually observable elements such as object appearance, movement, and contact interaction. In this paper, we take an initial step to highlight the importance of inferring the hidden physical properties not directly observable from visual appearances, by introducing the Compositional Physical Reasoning (ComPhy) dataset. For a given set of objects, ComPhy includes few videos of them moving and interacting under different initial conditions. The model is evaluated based on its capability to unravel the compositional hidden properties, such as mass and charge, and use this knowledge to answer a set of questions posted on one of the videos. Evaluation results of several state-of-the-art video reasoning models on ComPhy show unsatisfactory performance as they fail to capture these hidden properties. We further propose an oracle neural-symbolic framework named Compositional Physics Learner (CPL), combining visual perception, physical property learning, dynamic prediction, and symbolic execution into a unified framework. CPL can effectively identify objects' physical properties from their interactions and predict their dynamics to answer questions.
翻訳日:2022-05-03 13:50:39 公開日:2022-05-02
# FedDKD: 分散知識蒸留によるフェデレーション学習

FedDKD: Federated Learning with Decentralized Knowledge Distillation ( http://arxiv.org/abs/2205.00706v1 )

ライセンス: Link先を確認
Xinjia Li, Boyu Chen and Wenlian Lu(参考訳) ニューラルネットワークにおける連合学習の性能は、一般にデータ分布の不均一性に影響される。 優れたグローバルモデルでは、既存のほとんどのフェデレーション学習アルゴリズムのように、局所モデルの重み付けされた平均値を取ることで、ニューラルネットワークマップの空間における局所モデルとの整合性を保証することはできない。 本稿では,分散知識蒸留(FedDKD)のプロセス(すなわちサーバ上のデータを持たない)を備えた,フェデレート学習の新たな枠組みを提案する。 feddkdは、分散知識蒸留(decentralized knowledge distillation, dkd)のモジュールを導入し、ローカルモデルの知識を蒸留して、損失関数で定義された発散のメトリックに基づいて、ニューラルネットワークマップ平均に近づくことにより、大域モデルを訓練する。 様々な異種データセットに関する数値実験により、FedDKDはいくつかのDKDステップ、特に非常に異種データセットにおいて、より効率的なコミュニケーションとトレーニングにより最先端の手法よりも優れることが明らかになった。

The performance of federated learning in neural networks is generally influenced by the heterogeneity of the data distribution. For a well-performing global model, taking a weighted average of the local models, as done by most existing federated learning algorithms, may not guarantee consistency with local models in the space of neural network maps. In this paper, we propose a novel framework of federated learning equipped with the process of decentralized knowledge distillation (FedDKD) (i.e., without data on the server). The FedDKD introduces a module of decentralized knowledge distillation (DKD) to distill the knowledge of the local models to train the global model by approaching the neural network map average based on the metric of divergence defined in the loss function, other than only averaging parameters as done in literature. Numeric experiments on various heterogeneous datasets reveal that FedDKD outperforms the state-of-the-art methods with more efficient communication and training in a few DKD steps, especially on some extremely heterogeneous datasets.
翻訳日:2022-05-03 13:27:33 公開日:2022-05-02
# DeepGraviLens: 重力レンズデータの分類のためのマルチモーダルアーキテクチャ

DeepGraviLens: a Multi-Modal Architecture for Classifying Gravitational Lensing Data ( http://arxiv.org/abs/2205.00701v1 )

ライセンス: Link先を確認
Nicol\`o Oreste Pinciroli Vago, Piero Fraternali(参考訳) 重力レンズ(Gravitational Lensing)は、巨大な物体によって生じる相対論的効果で、周囲の時空を曲げる。 これは天体物理学において深く研究されたトピックであり、理論的相対論的な結果の検証と、それ以外は見えないようなかすかな天体の研究を可能にする。 近年,輝度変動時系列画像を用いたデータセットにおけるレンズ効果の検出により,重力レンズ現象の分析を支援する機械学習手法が提案されている。 しかし、最先端のアプローチでは画像のみを考慮し、時系列データを無視するか、最も難しいデータセットで比較的低い精度を達成する。 本稿では1つの非レンズ系と3つのレンズ系に属する時空間データを分類する新しいマルチモーダルネットワークであるDeepGraviLensを紹介する。 検討されたデータセットによって、アート精度の現在の状態を$\approx$19%から$\approx$43%に越えている。 このような改良により、次の天体物理調査におけるレンズ天体の分析が加速され、例えばベラ・C・ルービン天文台から収集されたペタバイトのデータを利用することができる。

Gravitational lensing is the relativistic effect generated by massive bodies, which bend the space-time surrounding them. It is a deeply investigated topic in astrophysics and allows validating theoretical relativistic results and studying faint astrophysical objects that would not be visible otherwise. In recent years Machine Learning methods have been applied to support the analysis of the gravitational lensing phenomena by detecting lensing effects in data sets consisting of images associated with brightness variation time series. However, the state-of-art approaches either consider only images and neglect time-series data or achieve relatively low accuracy on the most difficult data sets. This paper introduces DeepGraviLens, a novel multi-modal network that classifies spatio-temporal data belonging to one non-lensed system type and three lensed system types. It surpasses the current state of the art accuracy results by $\approx$ 19% to $\approx$ 43%, depending on the considered data set. Such an improvement will enable the acceleration of the analysis of lensed objects in upcoming astrophysical surveys, which will exploit the petabytes of data collected, e.g., from the Vera C. Rubin Observatory.
翻訳日:2022-05-03 13:27:12 公開日:2022-05-02
# 意味的インフォームドスラング解釈

Semantically Informed Slang Interpretation ( http://arxiv.org/abs/2205.00616v1 )

ライセンス: Link先を確認
Zhewei Sun, Richard Zemel, Yang Xu(参考訳) スラング(英語: Slang)は、自然言語処理システムでは解釈が難しい言葉を柔軟かつ拡張した非公式言語の一形態である。 既存のスラング解釈へのアプローチは文脈に依存する傾向があるが、スラング語の使用に共通する意味拡張を無視している。 本稿では,クエリスラングの候補解釈の文脈的・意味的適合性を考慮したssi(semantically informed slang interpretation)フレームワークを提案する。 我々は,2つの大規模オンラインスラング辞書について厳密な評価を行い,本手法がスラング解釈の最先端の精度を英語で達成するだけでなく,訓練データ不足のゼロショットと少数ショットのシナリオでも実現可能であることを示す。 さらに,スラングの機械翻訳を英語から他言語に拡張するために,同じ枠組みが適用可能であることを示す。 私たちの仕事は、非公式言語の自動解釈と翻訳の機会を生み出します。

Slang is a predominant form of informal language making flexible and extended use of words that is notoriously hard for natural language processing systems to interpret. Existing approaches to slang interpretation tend to rely on context but ignore semantic extensions common in slang word usage. We propose a semantically informed slang interpretation (SSI) framework that considers jointly the contextual and semantic appropriateness of a candidate interpretation for a query slang. We perform rigorous evaluation on two large-scale online slang dictionaries and show that our approach not only achieves state-of-the-art accuracy for slang interpretation in English, but also does so in zero-shot and few-shot scenarios where training data is sparse. Furthermore, we show how the same framework can be applied to enhancing machine translation of slang from English to other languages. Our work creates opportunities for the automated interpretation and translation of informal language.
翻訳日:2022-05-03 13:26:06 公開日:2022-05-02
# MUTR3D:3D-to-2Dクエリによるマルチカメラ追跡フレームワーク

MUTR3D: A Multi-camera Tracking Framework via 3D-to-2D Queries ( http://arxiv.org/abs/2205.00613v1 )

ライセンス: Link先を確認
Tianyuan Zhang, Xuanyao Chen, Yue Wang, Yilun Wang, Hang Zhao(参考訳) 複数のカメラからの正確な3Dトラッキングは、視覚ベースの自動運転システムにおいて重要な要素である。 複雑なシーンで複数のカメラで3d動的オブジェクトをモデリングする。 この問題は、深さ推定、視覚的閉塞、外見の曖昧さなどによって本質的に困難である。 さらに、オブジェクトは時間とカメラ間で一貫して関連付けられません。 そこで我々は, MUTR3D と呼ばれるエンドツーエンドの textbf{MU}lti-camera \textbf{TR}acking フレームワークを提案する。 以前の作品とは対照的に、mutr3dはオブジェクトの空間的および外観的類似性に明示的に依存していない。 代わりに、複数のカメラと複数のフレームに現れる各オブジェクトの空間的および外観的コヒーレントトラックをモデル化する \textit{3d track query} を導入する。 カメラ変換を用いて3Dトラッカーを2D画像に関連づける。 各トラッカーは、カメラ画像から得られた特徴に応じてさらに洗練される。 MUTR3Dは、予測された追跡結果と地上の真実との差を測定するために、セットツーセットの損失を使用する。 したがって、非最大抑圧や/またはバウンディングボックスアソシエーションのような後処理は不要である。 MUTR3DはnuScenesデータセット上で5.3 AMOTAによる最先端の手法より優れている。 コードは \url{https://github.com/a1600012888/mutr3d} で利用可能である。

Accurate and consistent 3D tracking from multiple cameras is a key component in a vision-based autonomous driving system. It involves modeling 3D dynamic objects in complex scenes across multiple cameras. This problem is inherently challenging due to depth estimation, visual occlusions, appearance ambiguity, etc. Moreover, objects are not consistently associated across time and cameras. To address that, we propose an end-to-end \textbf{MU}lti-camera \textbf{TR}acking framework called MUTR3D. In contrast to prior works, MUTR3D does not explicitly rely on the spatial and appearance similarity of objects. Instead, our method introduces \textit{3D track query} to model spatial and appearance coherent track for each object that appears in multiple cameras and multiple frames. We use camera transformations to link 3D trackers with their observations in 2D images. Each tracker is further refined according to the features that are obtained from camera images. MUTR3D uses a set-to-set loss to measure the difference between the predicted tracking results and the ground truths. Therefore, it does not require any post-processing such as non-maximum suppression and/or bounding box association. MUTR3D outperforms state-of-the-art methods by 5.3 AMOTA on the nuScenes dataset. Code is available at: \url{https://github.com/a1600012888/MUTR3D}.
翻訳日:2022-05-03 13:24:03 公開日:2022-05-02
# 3次元点雲のための等変ニューラルネットワークの設計

Design equivariant neural networks for 3D point cloud ( http://arxiv.org/abs/2205.00630v1 )

ライセンス: Link先を確認
Thuan N.A. Trang, Thieu N. Vo, Khuong D. Nguyen(参考訳) 本研究は,3次元点雲に対する既存のニューラルネットワークの一般化とロバスト性の向上を目的として,一般群変換の下での群同分散を誘導する。 ポイントクラウドの同変モデルを設計する際の大きな課題は、モデルのパフォーマンスと複雑さをトレードオフする方法である。 既存の同変モデルは実装に複雑すぎるか、非常に複雑である。 本研究の目的は、3次元点雲に対するSOTAモデルに群同変性を導入する一般的な手順を構築することである。 我々の手順で構築された群同変モデルは実装が簡単であり、既存のモデルと比べて複雑さが小さく、元のSOTAバックボーンの強度を保っている。 対象分類実験の結果から,本手法は性能および複雑性において他の群同変モデルよりも優れていることが示された。 さらに,本手法はセマンティックセグメンテーションモデルのmIoUの改善にも有効である。 総じて、有限回転同値と増倍の組み合わせにより、我々のモデルは、より安い複雑さとGPUメモリで既存のフルSO(3)$-equivarianceモデルより優れている。 提案手法は汎用的であり, 群同変ニューラルネットワークに対する基礎的アプローチを形成する。 将来、他のSOTAモデルにも容易に対応できると考えています。

This work seeks to improve the generalization and robustness of existing neural networks for 3D point clouds by inducing group equivariance under general group transformations. The main challenge when designing equivariant models for point clouds is how to trade-off the performance of the model and the complexity. Existing equivariant models are either too complicate to implement or very high complexity. The main aim of this study is to build a general procedure to introduce group equivariant property to SOTA models for 3D point clouds. The group equivariant models built form our procedure are simple to implement, less complexity in comparison with the existing ones, and they preserve the strengths of the original SOTA backbone. From the results of the experiments on object classification, it is shown that our methods are superior to other group equivariant models in performance and complexity. Moreover, our method also helps to improve the mIoU of semantic segmentation models. Overall, by using a combination of only-finite-rotation equivariance and augmentation, our models can outperform existing full $SO(3)$-equivariance models with much cheaper complexity and GPU memory. The proposed procedure is general and forms a fundamental approach to group equivariant neural networks. We believe that it can be easily adapted to other SOTA models in the future.
翻訳日:2022-05-03 13:23:45 公開日:2022-05-02
# 特徴分離による対人訓練の強化

Enhancing Adversarial Training with Feature Separability ( http://arxiv.org/abs/2205.00637v1 )

ライセンス: Link先を確認
Yaxin Li, Xiaorui Liu, Han Xu, Wentao Wang, Jiliang Tang(参考訳) ディープニューラルネットワーク(DNN)は敵の攻撃に対して脆弱である。 対策として, min-max最適化問題に基づく強靭性向上を目標とし, 最も効果的な防衛戦略の1つであることが示されている。 しかし, 本研究では, 自然学習と比較して, 対人訓練はクリーン・対人訓練のいずれにおいても, より優れた特徴表現を学習できないことが判明した。 具体的には,(1)クラス内特徴の類似度が低いこと,(2)クラス間特徴のばらつきが低いこと,の2つの特徴の欠点を考察した。 これらの欠点を克服するため,我々は,提案する特徴分離性(atfs)を伴う敵対的訓練により,クラス内特徴の類似性を高め,クラス間特徴分散を増大させる新しい概念であるadversarial training graph(atg)を提案する。 包括的な実験を通じて、提案したATFSフレームワークがクリーンかつロバストなパフォーマンスを著しく改善することを示した。

Deep Neural Network (DNN) are vulnerable to adversarial attacks. As a countermeasure, adversarial training aims to achieve robustness based on the min-max optimization problem and it has shown to be one of the most effective defense strategies. However, in this work, we found that compared with natural training, adversarial training fails to learn better feature representations for either clean or adversarial samples, which can be one reason why adversarial training tends to have severe overfitting issues and less satisfied generalize performance. Specifically, we observe two major shortcomings of the features learned by existing adversarial training methods:(1) low intra-class feature similarity; and (2) conservative inter-classes feature variance. To overcome these shortcomings, we introduce a new concept of adversarial training graph (ATG) with which the proposed adversarial training with feature separability (ATFS) enables to coherently boost the intra-class feature similarity and increase inter-class feature variance. Through comprehensive experiments, we demonstrate that the proposed ATFS framework significantly improves both clean and robust performance.
翻訳日:2022-05-03 13:23:27 公開日:2022-05-02
# カラーマッピングによる深層映像の高調波化

Deep Video Harmonization with Color Mapping Consistency ( http://arxiv.org/abs/2205.00687v1 )

ライセンス: Link先を確認
Xinyuan Lu, Shengyuan Huang, Li Niu, Wenyan Cong, Liqing Zhang(参考訳) video harmonizationは、複合ビデオの前景を調整して、背景と互換性を持たせることを目的としている。 これまでのところ、ビデオハーモニゼーションは限定的であり、ビデオハーモニゼーションのためのパブリックデータセットはない。 本研究では,合成合成ビデオを作成するために,実映像の前景を調整することで,新しいビデオ調和データセットHYouTubeを構築する。 さらに,映像調和タスクにおける時間的一貫性について考察する。 空間対応を確立する従来の手法とは異なり、隣接するフレームのカラーマッピングを活用して現在のフレームを洗練させる、カラーマッピング一貫性の仮定に基づく新しいフレームワークを設計する。 HYouTubeデータセットの大規模な実験により、提案フレームワークの有効性が証明された。 データセットとコードはhttps://github.com/bcmi/Video-Harmonization-Dataset-HYouTube.comから入手可能です。

Video harmonization aims to adjust the foreground of a composite video to make it compatible with the background. So far, video harmonization has only received limited attention and there is no public dataset for video harmonization. In this work, we construct a new video harmonization dataset HYouTube by adjusting the foreground of real videos to create synthetic composite videos. Moreover, we consider the temporal consistency in video harmonization task. Unlike previous works which establish the spatial correspondence, we design a novel framework based on the assumption of color mapping consistency, which leverages the color mapping of neighboring frames to refine the current frame. Extensive experiments on our HYouTube dataset prove the effectiveness of our proposed framework. Our dataset and code are available at https://github.com/bcmi/Video-Harmonization-Dataset-HYouTube.
翻訳日:2022-05-03 13:23:07 公開日:2022-05-02
# 3Dポイントクラウド理解のためのオープンセット半教師付き学習

Open-Set Semi-Supervised Learning for 3D Point Cloud Understanding ( http://arxiv.org/abs/2205.01006v1 )

ライセンス: Link先を確認
Xian Shi, Xun Xu, Wanyue Zhang, Xiatian Zhu, Chuan Sheng Foo, Kui Jia(参考訳) 3d point cloudの意味理解は、大量の注釈付きデータを持つ学習モデルに依存している。 これにより、3Dポイントクラウドのための半教師付き学習(SSL)への関心が高まっている。 sslでは、ラベルのないデータはラベル付きのものと同じ分布から引き出されると一般的に仮定されるが、現実の環境では、この仮定が当てはまることは稀である。 ラベルなしデータ(OOD)を盲目的に使用すると、SSLのパフォーマンスが損なわれる可能性がある。 本研究では,ラベルなしデータをサンプル重み付けにより選択的に活用し,ラベルなしデータのみを優先する手法を提案する。 重みを推定するために,保留検証セットのメタ目的とトレーニングセットのタスク目的を反復的に最適化する2レベル最適化フレームワークを採用する。 さらに,効率的な二段階最適化の不安定さに直面し,トレーニング安定性を高めるための3つの正規化手法を提案する。 3次元点クラウド分類と分割タスクに関する広範な実験により,提案手法の有効性が検証された。 また,より効率的な訓練戦略の実現可能性を示す。

Semantic understanding of 3D point cloud relies on learning models with massively annotated data, which, in many cases, are expensive or difficult to collect. This has led to an emerging research interest in semi-supervised learning (SSL) for 3D point cloud. It is commonly assumed in SSL that the unlabeled data are drawn from the same distribution as that of the labeled ones; This assumption, however, rarely holds true in realistic environments. Blindly using out-of-distribution (OOD) unlabeled data could harm SSL performance. In this work, we propose to selectively utilize unlabeled data through sample weighting, so that only conducive unlabeled data would be prioritized. To estimate the weights, we adopt a bi-level optimization framework which iteratively optimizes a metaobjective on a held-out validation set and a task-objective on a training set. Faced with the instability of efficient bi-level optimizers, we further propose three regularization techniques to enhance the training stability. Extensive experiments on 3D point cloud classification and segmentation tasks verify the effectiveness of our proposed method. We also demonstrate the feasibility of a more efficient training strategy.
翻訳日:2022-05-03 13:22:54 公開日:2022-05-02
# 知識グラフ補完のための逆データ拡張による正非ラベル学習

Positive-Unlabeled Learning with Adversarial Data Augmentation for Knowledge Graph Completion ( http://arxiv.org/abs/2205.00904v1 )

ライセンス: Link先を確認
Zhenwei Tang, Shichao Pei, Zhao Zhang, Yongchun Zhu, Fuzhen Zhuang, Robert Hoehndorf, Xiangliang Zhang(参考訳) ほとんどの現実世界の知識グラフ(KG)は完全で包括的ではない。 この問題は、与えられたKG、すなわち知識グラフ完備化(KGC)を完遂する最も確実な欠落事実を予測する努力を動機付けている。 しかし、既存のKGC法には2つの大きな問題がある。 1)偽陰性問題、すなわち負のトレーニングインスタンスをサンプリングする候補には、潜在的な事実が含まれる。 2)データスパーシティの問題、すなわち真事実は、可能なすべての事実のほんの一部しか説明できない。 そこで本稿では,KGC に対する逆データ拡張 (PUDA) を用いた正の非ラベル学習を提案する。 特にPUDAは、偽陰性問題に対処するために、KGCタスクの正の未ラベルリスク推定器を調整している。 さらに、このデータ分散問題に対処するため、PUDAは、正の未ラベルのミニマックスゲームの下で、敵対的トレーニングと正の未ラベル学習を統合することにより、データ拡張戦略を実現する。 広範な実験結果は、その効果と互換性を示している。

Most real-world knowledge graphs (KG) are far from complete and comprehensive. This problem has motivated efforts in predicting the most plausible missing facts to complete a given KG, i.e., knowledge graph completion (KGC). However, existing KGC methods suffer from two main issues, 1) the false negative issue, i.e., the candidates for sampling negative training instances include potential true facts; and 2) the data sparsity issue, i.e., true facts account for only a tiny part of all possible facts. To this end, we propose positive-unlabeled learning with adversarial data augmentation (PUDA) for KGC. In particular, PUDA tailors positive-unlabeled risk estimator for the KGC task to deal with the false negative issue. Furthermore, to address the data sparsity issue, PUDA achieves a data augmentation strategy by unifying adversarial training and positive-unlabeled learning under the positive-unlabeled minimax game. Extensive experimental results demonstrate its effectiveness and compatibility.
翻訳日:2022-05-03 13:19:13 公開日:2022-05-02
# (参考訳) cclf:サンプル効率強化学習のためのコントラスト・キュリオシティ駆動学習フレームワーク

CCLF: A Contrastive-Curiosity-Driven Learning Framework for Sample-Efficient Reinforcement Learning ( http://arxiv.org/abs/2205.00943v1 )

ライセンス: CC BY 4.0
Chenyu Sun, Hangwei Qian, Chunyan Miao(参考訳) 強化学習(RL)では,高次元の観測から直接学習することが困難である。 それにもかかわらず、すべてのサンプルが同等に重要であるわけではないため、単により多くのインプットを注入するだけで、Q-ラーニングの不安定が生じる可能性がある。 本稿では,モデルに依存しないコントラスト駆動学習フレームワーク(CCLF)を開発し,サンプルの重要度を完全に活用し,自己管理的な学習効率を向上させることにより,この問題を体系的に解決する。 提案するコントラスト・キュリオシティにより、cclfは経験のリプレイを優先順位付けし、最も有意義な拡張入力を選択し、より重要なq関数とエンコーダを定式化し、未学習のデータに集中することができる。 さらに、エージェントが好奇心に基づく報酬で探索することを奨励する。 その結果、エージェントはより有益なサンプルに焦点を合わせ、より効率的に表現不変性を学び、拡張された入力を大幅に削減することができる。 CCLFをいくつかの基本RLアルゴリズムに適用し,DeepMind Control Suite,Atari,MiniGridベンチマークで評価した。

In reinforcement learning (RL), it is challenging to learn directly from high-dimensional observations, where data augmentation has recently been shown to remedy this via encoding invariances from raw pixels. Nevertheless, we empirically find that not all samples are equally important and hence simply injecting more augmented inputs may instead cause instability in Q-learning. In this paper, we approach this problem systematically by developing a model-agnostic Contrastive-Curiosity-Driven Learning Framework (CCLF), which can fully exploit sample importance and improve learning efficiency in a self-supervised manner. Facilitated by the proposed contrastive curiosity, CCLF is capable of prioritizing the experience replay, selecting the most informative augmented inputs, and more importantly regularizing the Q-function as well as the encoder to concentrate more on under-learned data. Moreover, it encourages the agent to explore with a curiosity-based reward. As a result, the agent can focus on more informative samples and learn representation invariances more efficiently, with significantly reduced augmented inputs. We apply CCLF to several base RL algorithms and evaluate on the DeepMind Control Suite, Atari, and MiniGrid benchmarks, where our approach demonstrates superior sample efficiency and learning performances compared with other state-of-the-art methods.
翻訳日:2022-05-03 13:17:40 公開日:2022-05-02
# (参考訳) WeaNF: 正規化フローによる弱スーパービジョン

WeaNF: Weak Supervision with Normalizing Flows ( http://arxiv.org/abs/2204.13409v2 )

ライセンス: CC BY 4.0
Andreas Stephan, Benjamin Roth(参考訳) 大きなデータセットの高価な手動アノテーションの必要性を減らすための一般的なアプローチは、ノイズの多いラベル、カバレッジ、バイアスの問題を引き起こす弱い監督である。 これらの問題を克服する手法は差別モデルに依存するか、弱い監督に特有のコスト関数で訓練されたか、より最近では自動アノテーションプロセスの出力をモデル化しようとする生成モデルである。 本研究では,アノテーションプロセス(ラベル付け関数マッチング)の出力をモデル化する代わりに,ラベル付け関数がカバーする入力側データ分布(特徴空間)を生成的にモデル化する。 具体的には,流れの正規化を用いて,各弱いラベリング源やラベリング関数の密度を推定する。 本手法の不可欠な部分は,複数の同時ラベリング関数のフローベースモデリングであり,ラベリング関数の重なりや相関といった現象を捉えている。 本研究では,一般的な弱監視データセットの有効性とモデリング能力を分析し,弱監視正規化フローと標準弱監視ベースラインを比較した。

A popular approach to decrease the need for costly manual annotation of large data sets is weak supervision, which introduces problems of noisy labels, coverage and bias. Methods for overcoming these problems have either relied on discriminative models, trained with cost functions specific to weak supervision, and more recently, generative models, trying to model the output of the automatic annotation process. In this work, we explore a novel direction of generative modeling for weak supervision: Instead of modeling the output of the annotation process (the labeling function matches), we generatively model the input-side data distributions (the feature space) covered by labeling functions. Specifically, we estimate a density for each weak labeling source, or labeling function, by using normalizing flows. An integral part of our method is the flow-based modeling of multiple simultaneously matching labeling functions, and therefore phenomena such as labeling function overlap and correlations are captured. We analyze the effectiveness and modeling capabilities on various commonly used weak supervision data sets, and show that weakly supervised normalizing flows compare favorably to standard weak supervision baselines.
翻訳日:2022-05-03 11:56:38 公開日:2022-05-02
# (参考訳) ヒューマン・イン・ザ・ループオンラインマルチエージェントによる信頼スコアとデータ拡張によるMLモデルの信頼性向上

Human-in-the-loop online multi-agent approach to increase trustworthiness in ML models through trust scores and data augmentation ( http://arxiv.org/abs/2204.14255v2 )

ライセンス: CC BY 4.0
Gusseppe Bravo-Rocca, Peini Liu, Jordi Guitart, Ajay Dholakia, David Ellison, Miroslav Hodak(参考訳) mlモデルの精度を向上させるだけでは不十分です。 これは、自動車、金融、ヘルスケアといった安全クリティカルなアプリケーションのためのレジリエントなAIシステムを構築するための重要なステップである。 そこで本研究では,機械と人間のエージェントを組み合わせるマルチエージェントシステムを提案する。 このシステムにおいて、チェッカーエージェントは、合意に基づく方法を用いて各インスタンスの信頼スコア(予測における過信と過信を罰する)を算出し、それをランク付けし、その後、改善エージェントがヒトルールベースの手順(安全と考えられる)に基づいて異常なインスタンスをフィルタリングし、ヒトラベルを取得し、幾何学的データ拡張を行い、転送学習を用いて拡張データで再トレーニングする。 我々は,MNISTおよびFashionMNISTデータセットの劣化バージョンに基づくシステムの評価を行った。 ベースラインアプローチと比較して、ラベルをわずかに追加するだけで精度と信頼スコアが向上します。

Increasing a ML model accuracy is not enough, we must also increase its trustworthiness. This is an important step for building resilient AI systems for safety-critical applications such as automotive, finance, and healthcare. For that purpose, we propose a multi-agent system that combines both machine and human agents. In this system, a checker agent calculates a trust score of each instance (which penalizes overconfidence and overcautiousness in predictions) using an agreement-based method and ranks it; then an improver agent filters the anomalous instances based on a human rule-based procedure (which is considered safe), gets the human labels, applies geometric data augmentation, and retrains with the augmented data using transfer learning. We evaluate the system on corrupted versions of the MNIST and FashionMNIST datasets. We get an improvement in accuracy and trust score with just few additional labels compared to a baseline approach.
翻訳日:2022-05-03 11:36:38 公開日:2022-05-02
# 自然言語フィードバックによる言語モデルの訓練

Training Language Models with Natural Language Feedback ( http://arxiv.org/abs/2204.14146v2 )

ライセンス: Link先を確認
J\'er\'emy Scheurer, Jon Ander Campos, Jun Shern Chan, Angelica Chen, Kyunghyun Cho, Ethan Perez(参考訳) 事前訓練された言語モデルは、例えば攻撃的なテキストや事実的に不正確な要約を生成するなど、私たちの好みに沿った方法でタスクを実行しないことが多い。 最近の研究は、単純な人間評価の形式から学ぶことによって、上記の問題にアプローチしている: モデル生成タスク出力のペアの比較。 比較フィードバックは人間の嗜好に関する限られた情報を伝える。 本稿では,人間評価ごとにより多くの情報を伝える自然言語フィードバックから学ぶことを提案する。 3段階学習アルゴリズムを用いてモデル出力の言語フィードバックから学習する。 まず、初期出力とフィードバックに基づいて言語モデルを条件付け、多くの改良点を生成する。 第二に、フィードバックと最もよく似たリファインメントを選択します。 第3に,インプットに対して選択されたリファインメントの可能性を最大化するために,言語モデルを微調整する。 合成実験において、まず言語モデルがフィードバックを正確に組み込んで改良を行うかどうかを評価し、大きな言語モデル(175Bパラメータ)のみがそうであることを確認した。 人間の手書きフィードバックのサンプルは100程度しかなく, 学習アルゴリズムはGPT-3モデルを微調整し, ほぼ人間レベルの要約を行う。

Pretrained language models often do not perform tasks in ways that are in line with our preferences, e.g., generating offensive text or factually incorrect summaries. Recent work approaches the above issue by learning from a simple form of human evaluation: comparisons between pairs of model-generated task outputs. Comparison feedback conveys limited information about human preferences per human evaluation. Here, we propose to learn from natural language feedback, which conveys more information per human evaluation. We learn from language feedback on model outputs using a three-step learning algorithm. First, we condition the language model on the initial output and feedback to generate many refinements. Second, we choose the refinement with the highest similarity to the feedback. Third, we finetune a language model to maximize the likelihood of the chosen refinement given the input. In synthetic experiments, we first evaluate whether language models accurately incorporate feedback to produce refinements, finding that only large language models (175B parameters) do so. Using only 100 samples of human-written feedback, our learning algorithm finetunes a GPT-3 model to roughly human-level summarization.
翻訳日:2022-05-03 11:06:09 公開日:2022-05-02
# ノイズの修正:スタイルガンの転送学習のための音源特徴の分離

Fix the Noise: Disentangling Source Feature for Transfer Learning of StyleGAN ( http://arxiv.org/abs/2204.14079v2 )

ライセンス: Link先を確認
Dongyeun Lee, Jae Young Lee, Doyeon Kim, Jaehyun Choi, Junmo Kim(参考訳) StyleGANの転送学習は、特にドメイン翻訳において、様々なタスクを解く大きな可能性を示している。 これまで、トランスファー学習中に重みを交換または凍結することでソースモデルを利用したが、それらは視覚品質とソース機能の制御に制限がある。 言い換えると、それらは計算上要求される追加のモデルを必要とし、滑らかな遷移を防ぐ制御ステップを制限している。 本稿では,これらの制約を克服するための新しいアプローチを提案する。 切り替えや凍結の代わりに、生成品質を改善するために単純な特徴マッチング損失を導入する。 さらに,ソース特性の程度を制御するために,提案手法であるfixnoiseを用いてターゲットモデルを訓練し,対象特徴空間の分断部分空間にのみソース特徴を保存する。 本手法は,不連続な特徴空間により,単一モデルにおける音源特性の程度を円滑に制御できる。 広範な実験により,提案手法が従来よりも一貫性と現実的な画像を生成することを実証した。

Transfer learning of StyleGAN has recently shown great potential to solve diverse tasks, especially in domain translation. Previous methods utilized a source model by swapping or freezing weights during transfer learning, however, they have limitations on visual quality and controlling source features. In other words, they require additional models that are computationally demanding and have restricted control steps that prevent a smooth transition. In this paper, we propose a new approach to overcome these limitations. Instead of swapping or freezing, we introduce a simple feature matching loss to improve generation quality. In addition, to control the degree of source features, we train a target model with the proposed strategy, FixNoise, to preserve the source features only in a disentangled subspace of a target feature space. Owing to the disentangled feature space, our method can smoothly control the degree of the source features in a single model. Extensive experiments demonstrate that the proposed method can generate more consistent and realistic images than previous works.
翻訳日:2022-05-03 11:05:51 公開日:2022-05-02
# クロスモーダルプロトタイプコントラストによる教師なし音声顔表現学習

Unsupervised Voice-Face Representation Learning by Cross-Modal Prototype Contrast ( http://arxiv.org/abs/2204.14057v2 )

ライセンス: Link先を確認
Boqing Zhu, Kele Xu, Changjian Wang, Zheng Qin, Tao Sun, Huaimin Wang, Yuxing Peng(参考訳) 同一性ラベルを使わずに,音声映像から音声表現を学習する手法を提案する。 以前の著作では、声と顔の相関を確立するために、クロスモーダルなインスタンス識別タスクを使用している。 これらの方法は異なるビデオの意味的内容を無視し、トレーニングノイズとして偽陰性ペアを導入する。 さらに、音声クリップと視覚フレームとの自然な相関に基づいて正のペアを構築する。 しかし、この相関関係は現実世界の大量のデータにおいて弱いか不正確な場合があり、これは対照的なパラダイムに正を逸脱させる。 そこで本研究では,対照法を活用し,偽陰性の悪影響に抵抗し,正を逸脱するクロスモーダル型コントラスト学習(cmpc)を提案する。 一方、CMPCは、教師なしクラスタリングを異なるモードで構成することで、クラス内不変性を学習することができた。 一方,クロスモーダル・インスタンスとクロスモーダル・プロトタイプの類似性を比較することにより,学習不能なインスタンスの全体的な損失に対する貢献を動的に再調整する。 実験の結果,提案手法は様々な音声・音声関連評価プロトコルにおいて,最先端の教師なし手法よりも優れていた。 また,低ショットの監督設定では,従来のインスタンス間比較学習に比べて有意に改善が見られた。

We present an approach to learn voice-face representations from the talking face videos, without any identity labels. Previous works employ cross-modal instance discrimination tasks to establish the correlation of voice and face. These methods neglect the semantic content of different videos, introducing false-negative pairs as training noise. Furthermore, the positive pairs are constructed based on the natural correlation between audio clips and visual frames. However, this correlation might be weak or inaccurate in a large amount of real-world data, which leads to deviating positives into the contrastive paradigm. To address these issues, we propose the cross-modal prototype contrastive learning (CMPC), which takes advantage of contrastive methods and resists adverse effects of false negatives and deviate positives. On one hand, CMPC could learn the intra-class invariance by constructing semantic-wise positives via unsupervised clustering in different modalities. On the other hand, by comparing the similarities of cross-modal instances from that of cross-modal prototypes, we dynamically recalibrate the unlearnable instances' contribution to overall loss. Experiments show that the proposed approach outperforms state-of-the-art unsupervised methods on various voice-face association evaluation protocols. Additionally, in the low-shot supervision setting, our method also has a significant improvement compared to previous instance-wise contrastive learning.
翻訳日:2022-05-03 11:05:35 公開日:2022-05-02
# 「私の鼻が走っている」「あなたもcooughing?」:解釈可能な問合せ論理を持つ医療診断エージェントの構築

"My nose is running.""Are you also coughing?": Building A Medical Diagnosis Agent with Interpretable Inquiry Logics ( http://arxiv.org/abs/2204.13953v2 )

ライセンス: Link先を確認
Wenge Liu, Yi Cheng, Hao Wang, Jianheng Tang, Yafei Liu, Ruihui Zhao, Wenjie Li, Yefeng Zheng, Xiaodan Liang(参考訳) 近年,遠隔医療の普及に伴い,Dialogue Systems for Medical Diagnosis (DSMD) の開発が注目されている。 システム構築に余分な人材と専門知識を必要とする初期の研究とは異なり、最近の研究は純粋にデータ駆動の方法でdsmdを構築する方法に焦点を当てた。 しかし、従来のデータ駆動DSMD手法は、医療アプリケーションにとって重要なシステム解釈可能性を見落としており、同時にデータ空間の問題にも悩まされていた。 本稿では,データ駆動DSMDに解釈可能性をもたらす方法について検討する。 具体的には,実際の医師の問合せ論理を合理的に模倣してdsmdの対話マネージャを実装するための,より解釈可能な意思決定プロセスを提案する。 さらに,DSMDデータセットを新たに収集し,既存のデータセットよりもスケールが大きく,パターンも多様であり,高品質である。 実験の結果,3つのデータセットでそれぞれ診断精度が7.7%,10.0%,3.0%向上し,合理的決定プロセスとモデル設計の有効性が示された。 私たちのコードとgmd-12データセットはhttps://github.com/lwgkzl/br-agentで利用可能です。

With the rise of telemedicine, the task of developing Dialogue Systems for Medical Diagnosis (DSMD) has received much attention in recent years. Different from early researches that needed to rely on extra human resources and expertise to help construct the system, recent researches focused on how to build DSMD in a purely data-driven manner. However, the previous data-driven DSMD methods largely overlooked the system interpretability, which is critical for a medical application, and they also suffered from the data sparsity issue at the same time. In this paper, we explore how to bring interpretability to data-driven DSMD. Specifically, we propose a more interpretable decision process to implement the dialogue manager of DSMD by reasonably mimicking real doctors' inquiry logics, and we devise a model with highly transparent components to conduct the inference. Moreover, we collect a new DSMD dataset, which has a much larger scale, more diverse patterns and is of higher quality than the existing ones. The experiments show that our method obtains 7.7%, 10.0%, 3.0% absolute improvement in diagnosis accuracy respectively on three datasets, demonstrating the effectiveness of its rational decision process and model design. Our codes and the GMD-12 dataset are available at https://github.com/lwgkzl/BR-Agent.
翻訳日:2022-05-03 11:05:14 公開日:2022-05-02
# 医療イベントタイム予測における電子健康記録の累積滞在時間表現

Cumulative Stay-time Representation for Electronic Health Records in Medical Event Time Prediction ( http://arxiv.org/abs/2204.13451v2 )

ライセンス: Link先を確認
Takayuki Katsuki, Kohei Miyaguchi, Akira Koseki, Toshiya Iwamori, Ryosuke Yanagiya, Atsushi Suzuki(参考訳) 本稿では,患者の電子健康記録(EHR)から,疾患の発生時期,すなわち医療イベント時間(MET)を予測する問題に対処する。 糖尿病のような非感染性疾患のメットは、累積的な健康状態、より具体的には、患者が過去に特定の健康状態に費やした時間と高い相関がある。 一般的な時系列表現は、累積情報ではなく、連続した観測における値間の詳細な依存関係に焦点を当てているため、EHRからそのような情報を間接的に抽出するものである。 本研究では, 累積健康状態を直接モデル化した, 累積滞在時間表現(CTR)という新しいデータ表現を提案する。 我々は、ニューラルネットワークに基づくトレーニング可能なCTRの構築を導き、ターゲットデータに適合する柔軟性と高次元のEHRを扱うスケーラビリティを有する。 合成および実世界のデータセットを用いた数値実験により、CTRだけで高い予測性能が得られ、それらと組み合わせることで既存のモデルの性能が向上することを示した。

We address the problem of predicting when a disease will develop, i.e., medical event time (MET), from a patient's electronic health record (EHR). The MET of non-communicable diseases like diabetes is highly correlated to cumulative health conditions, more specifically, how much time the patient spent with specific health conditions in the past. The common time-series representation is indirect in extracting such information from EHR because it focuses on detailed dependencies between values in successive observations, not cumulative information. We propose a novel data representation for EHR called cumulative stay-time representation (CTR), which directly models such cumulative health conditions. We derive a trainable construction of CTR based on neural networks that has the flexibility to fit the target data and scalability to handle high-dimensional EHR. Numerical experiments using synthetic and real-world datasets demonstrate that CTR alone achieves a high prediction performance, and it enhances the performance of existing models when combined with them.
翻訳日:2022-05-03 11:04:50 公開日:2022-05-02