このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220421となっている論文です。

PDF登録状況(公開日: 20220421)

TitleAuthorsAbstract論文公表日・翻訳日
# 回路最適化による量子アルゴリズムの高速シミュレーション

Fast simulation of quantum algorithms using circuit optimization ( http://arxiv.org/abs/2010.09746v3 )

ライセンス: Link先を確認
Gian Giacomo Guerreschi(参考訳) 古典的シミュレータは量子アルゴリズムの開発とベンチマークにおいて重要な役割を果たし、事実上量子計算のためのソフトウェアフレームワークはシミュレータ上でアルゴリズムを実行するオプションを提供する。 しかし、量子シミュレータの開発は、その代わりにユーザビリティとコンパイルにフォーカスした他のソフトウェアフレームワークと実質的に分離された。 本稿では,任意の回路のシミュレーション時間を短縮するために,特殊なコンパイラパスを提案することで,シミュレータとコンパイラを共同開発し統合することの利点を実証する。 本概念は広く適用可能であるが,高性能分散シミュレータであるIntel Quantum Simulatorに基づく具体的な実装を提案する。 この研究の一環として、量子状態の表現に関する追加機能によって実装を拡張する。 分散スレーディンガー型シミュレータのローカルとグローバルのキュービットの区別に類似した概念である、状態振幅を分散メモリに格納する順序を変更することにより、通信オーバーヘッドを低減させる。 次に,量子回路の一部としてデータ移動を規定する特別な命令を導入することで,新しい機能を利用するコンパイラパスを実装した。 これらの命令はシミュレータのユニークな機能をターゲットにしており、実際の量子デバイスでは類似性を持たない。 この利点を定量化するために、ランダム回路のシミュレーションに必要な時間と最適化なしで比較する。 シミュレーション時間は通常半減する。

Classical simulators play a major role in the development and benchmark of quantum algorithms and practically any software framework for quantum computation provides the option of running the algorithms on simulators. However, the development of quantum simulators was substantially separated from the rest of the software frameworks which, instead, focus on usability and compilation. Here, we demonstrate the advantage of co-developing and integrating simulators and compilers by proposing a specialized compiler pass to reduce the simulation time for arbitrary circuits. While the concept is broadly applicable, we present a concrete implementation based on the Intel Quantum Simulator, a high-performance distributed simulator. As part of this work, we extend its implementation with additional functionalities related to the representation of quantum states. The communication overhead is reduced by changing the order in which state amplitudes are stored in the distributed memory, a concept analogous to the distinction between local and global qubits for distributed Schroedinger-type simulators. We then implement a compiler pass to exploit the novel functionalities by introducing special instructions governing data movement as part of the quantum circuit. Those instructions target unique capabilities of simulators and have no analogue in actual quantum devices. To quantify the advantage, we compare the time required to simulate random circuits with and without our optimization. The simulation time is typically halved.
翻訳日:2023-04-28 07:51:01 公開日:2022-04-21
# エルミート系と非エルミート系におけるアンダーソン遷移の統一

Unifying the Anderson Transitions in Hermitian and Non-Hermitian Systems ( http://arxiv.org/abs/2105.02514v4 )

ライセンス: Link先を確認
Xunlong Luo, Zhenyu Xiao, Kohei Kawabata, Tomi Ohtsuki, Ryuichi Shindou(参考訳) 非ハーモニティ性は、10倍のアルトランド・ジルンバウアー対称性クラスを38倍の対称性クラスに富み、アンダーソン転移(AT)の臨界挙動は近年広く研究されている。 ここでは、エルミート系と非エルミート系の間のATの普遍性クラスの対応性を提案する。 非エルミート系における長さスケールの臨界指数は、さらにキラル対称性を持つ対応するエルミート系における臨界指数と一致することを示す。 対応の顕著な結果は超普遍性、すなわち非エルミート系のいくつかの異なる対称性クラスのATは、同じ臨界指数によって特徴づけられる。 非エルミート系に対する既知の臨界指数とエルミート系の比較に加えて、対称性クラス AI, AII, AII$^{\dagger}$, CII$^{\dagger}$, DIII における臨界指数を2次元および3次元で得る。 推定臨界指数は提案された対応と一致している。 通信によると、一部の指数はエルミート系における未知の臨界指数の有用な情報も提供し、対応する非エルミート系によるエルミート系のATを研究する方法を提供している。

Non-Hermiticity enriches the 10-fold Altland-Zirnbauer symmetry class into the 38-fold symmetry class, where critical behavior of the Anderson transitions (ATs) has been extensively studied recently. Here, we propose a correspondence of the universality classes of the ATs between Hermitian and non-Hermitian systems. We illustrate that the critical exponents of the length scale in non-Hermitian systems coincide with the critical exponents in the corresponding Hermitian systems with additional chiral symmetry. A remarkable consequence of the correspondence is superuniversality, i.e., the ATs in some different symmetry classes of non-Hermitian systems are characterized by the same critical exponent. In addition to the comparisons between the known critical exponents for non-Hermitian systems and their Hermitian counterparts, we obtain the critical exponents in symmetry classes AI, AII, AII$^{\dagger}$, CII$^{\dagger}$, and DIII in two and three dimensions. Estimated critical exponents are consistent with the proposed correspondence. According to the correspondence, some of the exponents also give useful information of the unknown critical exponents in Hermitian systems, paving a way to study the ATs of Hermitian systems by the corresponding non-Hermitian systems.
翻訳日:2023-04-01 08:08:59 公開日:2022-04-21
# speedrunルーティングの自動化 - 概要と展望

Automating Speedrun Routing: Overview and Vision ( http://arxiv.org/abs/2106.01182v3 )

ライセンス: Link先を確認
Matthias Gro{\ss}, Dietlind Z\"uhlke, Boris Naujoks(参考訳) スピードランニングは一般的にビデオゲームを高速にプレイすること、すなわち、任意の手段を自由に使用して、最小限の時間で所定のゴールを達成することを意味する。 そのためには、コミュニティによって言及されるように、スピードランを事前に計画するか、あるいはルート化しなければならない。 本稿では,アルゴリズムのルーティング問題にアプローチする上で必要な課題の発見とモデル定義に焦点をあてる。 そのため、この論文は2つの部分に分かれている。 第1部は、関連するスピードランニング文学の概要を提供し、重要な情報を抽出し、批判を定式化する。 重要な分類が指摘され、専門的な議論を支援するために命名法が構築される。 この論文の第2部では、実際のspeedrunルーティング最適化問題について言及する。 グラフ表現の異なる概念が提示され、そのポテンシャルが議論される。 問題モデリングと問題解決の両方のビジョンが提示され、適合性と期待される課題について評価される。 最後に、メタヒューリスティックス/eaおよびディープラーニング法を含む、定義された問題に対する既存の最適化手法の適用性について、最初の評価を行う。

Speedrunning in general means to play a video game fast, i.e. using all means at one's disposal to achieve a given goal in the least amount of time possible. To do so, a speedrun must be planned in advance, or routed, as referred to by the community. This paper focuses on discovering challenges and defining models needed when trying to approach the problem of routing algorithmically. To do so, this paper is split in two parts. The first part provides an overview of relevant speedrunning literature, extracting vital information and formulating criticism. Important categorizations are pointed out and a nomenclature is built to support professional discussion. The second part of this paper then refers to the actual speedrun routing optimization problem. Different concepts of graph representations are presented and their potential is discussed. Visions both for problem modeling as well as solving are presented and assessed regarding suitability and expected challenges. Finally, a first assessment of the applicability of existing optimization methods to the defined problem is made, including metaheuristics/EA and Deep Learning methods.
翻訳日:2023-03-28 01:22:27 公開日:2022-04-21
# ガウス照明の可観測境界

Observable bound for Gaussian illumination ( http://arxiv.org/abs/2106.12109v3 )

ライセンス: Link先を確認
Su-Yong Lee, Yonggi Jo, Taek Jeong, Junghyun Kim, Dong Hwan Kim, Dongkyu Kim, Duk Y. Kim, Yong Sup Ihn, and Zaeill Kim(参考訳) ガウス状態を用いた低屈折率目標の有無の識別誤差を最小化する信号対雑音比を最大化するガウス照明の可観測境界を提案する。 観測可能な境界はモードバイモード測定によって達成される。 2モードの真空状態を用いた量子状態では、観測可能な受信機は他の実現可能な受信機よりも優れているが、量子チャーノフ境界に近づくことはできない。 対応するオブザーバブルは、追加の真空ノイズのためにヘテロダイン検出では実装できない。 熱状態を用いた古典的なレジームでは、光子数差測定を実装したレシーバーは信号平均光子数に関係なくそのバウンドに接近し、一方、巨大なアイドラー平均光子数の限界の古典バウンドに漸近的に接近する。

We propose observable bounds for Gaussian illumination to maximize the signal-to-noise ratio, which minimizes the discrimination error between the presence and absence of a low-reflectivity target using Gaussian states. The observable bounds are achieved with mode-by-mode measurements. In the quantum regime using a two-mode squeezed vacuum state, our observable receiver outperforms the other feasible receivers whereas it cannot approach the quantum Chernoff bound. The corresponding observable cannot be implemented with heterodyne detections due to the additional vacuum noise. In the classical regime using a thermal state, a receiver implemented with a photon number difference measurement approaches its bound regardless of the signal mean photon number, while it asymptotically approaches the classical bound in the limit of a huge idler mean photon number.
翻訳日:2023-03-25 18:44:57 公開日:2022-04-21
# 自発的多体フロッケ状態からの連続時間結晶

Continuous time crystal from a spontaneous many-body Floquet state ( http://arxiv.org/abs/2107.00674v3 )

ライセンス: Link先を確認
J. R. M. de Nova, F. Sols(参考訳) フロッケ駆動系は平衡現象を研究する非常に興味深い場である。 例えば、周期ハミルトニアンの離散時間変換対称性が系のサブハーモニック応答によって自発的に破られるような離散時間結晶の実現を提供する。 しかし、現在のフロッケパラダイムでは、外部の周期駆動の連続的存在が要求される。 ここでは,自発多体浮動状態の概念を提案する。 これは、外部周期駆動がない状態では、周期的なハミルトニアンの存在のような自己振動が、多体相互作用によって自発的に誘導される状態である。 加えて、量子揺らぎは正則フロッケ理論によって記述される。 さらに、時間結晶であり、長距離時間周期秩序を呈する。 しかし、この結晶的挙動は従来のフロッケ離散時間結晶とは大きく異なる:ここでは外部の周期的駆動はなく、エネルギーは保存され、自発的対称性の破断の性質は離散的ではなく連続である。 自発多体Floquet状態は、相互作用するフェルミオンからBose-Hubbardモデルまで、様々な正準多体問題に現れることを示した。 特に、自発的多体フロッケ状態は、亜音速と超音速の両方の1次元流動原子凝縮状態の普遍的本質状態であり、外部摂動や量子揺らぎに対する動的相転移と頑健であり、観測のための現実的な実験シナリオも提案している。 自発的多体フロッケ状態は連続時間結晶の実現だけでなく、フロッケ物理学における新しいパラダイムも表している。

Floquet driven systems represent an extremely interesting arena to study out-of-equilibrium phenomena. For instance, they provide realizations of discrete time crystals, where the discrete time translation symmetry of the periodic Hamiltonian is spontaneously broken by a subharmonic response of the system. However, the continuous presence of an external periodic driving is required within the current Floquet paradigm. We propose here the concept of spontaneous many-body Floquet state. This is a state that, in the absence of external periodic driving, self-oscillates like in the presence of a periodic Hamiltonian, this behavior being spontaneously induced by many-body interactions. In addition, its quantum fluctuations are described by regular Floquet theory. Furthermore, it is also a time crystal, presenting long-range time-periodic order. However, this crystalline behavior is very different to that of conventional Floquet discrete time crystals: here, there is no external periodic driving, energy is conserved, and the nature of the spontaneous symmetry breaking is continuous instead of discrete. We demonstrate that spontaneous many-body Floquet states can emerge in a variety of canonical many-body problems, ranging from interacting fermions to Bose-Hubbard models. We specifically show that a spontaneous many-body Floquet state is a universal intrinsic state of a one-dimensional flowing atom condensate, both subsonic and supersonic, resulting from a dynamical phase transition and robust against external perturbations and quantum fluctuations, proposing also realistic experimental scenarios for its observation. A spontaneous many-body Floquet state not only represents a realization of a continuous time crystal, but also a novel paradigm in Floquet physics.
翻訳日:2023-03-23 20:33:10 公開日:2022-04-21
# 一般不確かさ原理の近似がブラックホール蒸発に及ぼす影響

The Influence of Approximation in Generalized Uncertainty Principle on Black Hole Evaporation ( http://arxiv.org/abs/2108.07269v6 )

ライセンス: Link先を確認
Xin-Dong Du and Chao-Yun Long(参考訳) 一般化された不確実性原理は、近似関係としてより大きい等式関係に関する様々な熱力学系を修正するためにしばしば用いられる。 この近似を改良し、正のパラメータと負のパラメータの2つの面からブラックホールの蒸発の間の元の方法と改良された方法の違いを比較する方法を与える。 最後に,改良手法の合理性を証明し,いくつかの指導的意見を与える。

The generalized uncertainty principle is often used to modify various thermodynamics systems by regarding the greater-than-equal relation as an approximate relation. We give a method to improve this approximation and compare the differences between the original and improved methods during the evaporation of black hole from two aspects of positive and negative parameters. Finally, we prove the rationality of the improved method and give some guiding opinions.
翻訳日:2023-03-18 07:20:38 公開日:2022-04-21
# 低温原子における磁気及び光学構造のカップリング

Coupling of magnetic and optomechanical structuring in cold atoms ( http://arxiv.org/abs/2108.12064v3 )

ライセンス: Link先を確認
T. Ackemann, G. Labeyrie, A. Costa Boquete, G. Baio, J. G. M. Walker, R. Kaiser, G.-L. Oppo, G. R. M. Robb(参考訳) 光による相互作用の結果、低温原子の自己組織化相は、原子の内部または外部の次数への結合によって引き起こされる。 内部スピン自由度と外部中心運動の光学力学的ダイナミクスとの相互作用に対する関心が高まっている。 本稿では,1ミラーフィードバック方式におけるJ=1/2 \to J'=3/2$システムにおける磁気的構造と光学的構造との結合モデルについて述べる。 負のデチューニングでは、線形安定性解析により、光ポンピングと光学駆動が協調して磁気秩序を作り出すことが示されている。 しかし、長周期の伝送グレーティングでは、磁気不安定性の存在範囲に非常に近い動作をしなければ、磁気駆動は光機械駆動を強く支配することになる。 格子の小さな期間、特に波長スケールの期間では、光機械駆動が支配的になる。

Self-organized phases in cold atoms as a result of light-mediated interactions can be induced by coupling to internal or external degrees of the atoms. There has been growing interest in the interaction of internal spin degrees of freedom with the optomechanical dynamics of the external centre-of-mass motion. We present a model for the coupling between magnetic and optomechanical structuring in a $J=1/2 \to J'=3/2$ system in a single-mirror feedback scheme, being representative for a larger class of diffractively coupled systems such as longitudinally pumped cavities and counter-propagating beam schemes. For negative detunings, a linear stability analysis demonstrates that optical pumping and optomechanical driving cooperate to create magnetic ordering. However, for long-period transmission gratings the magnetic driving will strongly dominate the optomechanical driving, unless one operates very close to the existence range of the magnetic instability. At small lattice periods, in particular at wavelength-scale periods, the optomechanical driving will dominate.
翻訳日:2023-03-17 02:59:41 公開日:2022-04-21
# 固定XX相互作用への最適合成

Optimal synthesis into fixed XX interactions ( http://arxiv.org/abs/2111.02535v3 )

ライセンス: Link先を確認
Eric C. Peterson, Lev S. Bishop, Ali Javadi-Abhari(参考訳) 本稿では,XX型相互作用と局所ゲートの任意の離散族に対する2量子ユニタリ演算の正確かつ近似的な合成のための最適手順と,その効率的なソフトウェア実装について述べる。 これは正準ゲート空間のある種の多面体部分集合の解析と操作から生じる。 そこで本研究では,xx型相互作用の小さな集合が期待不忠実度を最大に向上させる要因を,実験的な誤りモデルを用いて解析する。 ハールランダムに選択された2量子ビット演算の正確な回路合成について、CXの平方根と立方根を合わせて含む場合、推定不忠実度は ~31.4%向上し、CXのすべての分数的応用を含めることで得られる最適極限は ~36.9% に近づいた。

We describe an optimal procedure, as well as its efficient software implementation, for exact and approximate synthesis of two-qubit unitary operations into any prescribed discrete family of XX-type interactions and local gates. This arises from the analysis and manipulation of certain polyhedral subsets of the space of canonical gates. Using this, we analyze which small sets of XX-type interactions cause the greatest improvement in expected infidelity under experimentally-motivated error models. For the exact circuit synthesis of Haar-randomly selected two-qubit operations, we find an improvement in estimated infidelity by ~31.4% when including alongside CX its square- and cube-roots, near to the optimal limit of ~36.9% obtained by including all fractional applications of CX.
翻訳日:2023-03-09 06:31:42 公開日:2022-04-21
# 加速度は絡み合い収穫を支援するか?

Does acceleration assist entanglement harvesting? ( http://arxiv.org/abs/2111.04392v2 )

ライセンス: Link先を確認
Zhihong Liu, Jialin Zhang, Robert B. Mann and Hongwei Yu(参考訳) 本研究では, 並列, 並列, 反並列, 相互垂直加速度の3つの異なる加速シナリオにおいて, 加速度が一対の加速検出器の絡み合いの獲得に役立っているかを検討する。 Within the framework of entanglement harvesting protocols and the Unruh-DeWitt model of detectors locally interacting with massless scalar fields via a Gaussian switching function with an interaction duration parameter, we find that, in the sense of the entanglement harvested, acceleration is a mixed blessing insofar as it increases the harvested entanglement for a large detector energy gap relative to the interaction duration parameter, whilst inhibiting the entanglement harvested for a small energy gap. さらに, 検出装置間の分離範囲が小さい場合, 時間パラメータと比較してエネルギーギャップが大きい場合, 加速度支援の強化が3つの加速シナリオすべてで起こりうることがわかった。 これは以前の主張とは対照的であり、収穫可能範囲は反並列加速のためにのみ拡張できる。 しかし、時間パラメータと加速度よりも大きいエネルギーギャップに対して小さい加速度では、平行加速度の検出器のみが静止時よりも大きな収穫可能範囲を持っていることが判明した。

We explore whether acceleration assists entanglement harvesting for a pair of uniformly accelerated detectors in three different acceleration scenarios, i.e., parallel, anti-parallel and mutually perpendicular acceleration, both in the sense of the entanglement harvested and harvesting-achievable separation between the two detectors. Within the framework of entanglement harvesting protocols and the Unruh-DeWitt model of detectors locally interacting with massless scalar fields via a Gaussian switching function with an interaction duration parameter, we find that, in the sense of the entanglement harvested, acceleration is a mixed blessing insofar as it increases the harvested entanglement for a large detector energy gap relative to the interaction duration parameter, whilst inhibiting the entanglement harvested for a small energy gap. Regarding the harvesting-achievable separation range between the detectors, we further find that for very small acceleration and large energy gap, both relative to the duration parameter, acceleration-assisted enhancement can happen in all three acceleration scenarios. This is in sharp contrast to what was argued previously: that the harvesting-achievable range can be enhanced only for anti-parallel acceleration. However, for a not too small acceleration relative to the duration parameter and an energy gap larger than the acceleration, we find that only detectors in parallel acceleration possess a harvesting-achievable range larger than those at rest.
翻訳日:2023-03-08 20:33:43 公開日:2022-04-21
# スピン測定による高調波発振器:古典的類似性のないフロッケ系

Harmonic oscillator kicked by spin measurements: a Floquet-like system without classical analogous ( http://arxiv.org/abs/2111.12141v2 )

ライセンス: Link先を確認
Bento Montenegro, Nadja K. Bernardes, and Fernando Parisio(参考訳) 本稿では、時間依存ハミルトニアンの正準量子化ではなく、自由度をストロボスコープで測定することで、インパルス駆動を実現するキック調和振動子を提案する。 アンシラは振動子位置と動的に絡み合っており、背景ハミルトニアンは静止している。 このシステムのダイナミクスは閉解析形式で決定され、適切に定義されたロスシュミットエコー、アンサンブル平均、位相空間のポートレートの評価が可能である。 標準フロッケ系の場合と同様に、位相空間、共鳴、カオス的振る舞いの証拠において結晶構造や準結晶構造を持つレジームを観測するが、古典的カオス系を起源としない。

We present a kicked harmonic oscillator where the impulsive driving is provided by stroboscopic measurements on an ancillary degree of freedom and not by the canonical quantization of a time-dependent Hamiltonian. The ancila is dynamically entangled with the oscillator position, while the background Hamiltonian remains static. The dynamics of this system is determined in closed analytical form, allowing for the evaluation of a properly defined Loschmidt echo, ensemble averages, and phase-space portraits. As in the case of standard Floquet systems we observe regimes with crystalline and quasicrystalline structures in phase space, resonances, and evidences of chaotic behavior, however, not originating from any classically chaotic system.
翻訳日:2023-03-07 01:56:41 公開日:2022-04-21
# 臨界スピードアップによるスクイーズ:量子メトロロジーへの応用

Squeezing by Critical Speeding-up: Applications in Quantum Metrology ( http://arxiv.org/abs/2111.12206v3 )

ライセンス: Link先を確認
Karol Gietka(参考訳) 我々は、臨界速度アップによるクリティカルなスローダウンの利点に苦しむ代わりに、臨界状態の作成を可能にする代替プロトコルを提案する。 パラドックス的に、スピードアップを可能にする臨界点から離れることで、これらの状態を準備します。 我々は、このプロトコルをパラダイム的量子ラビモデルとその古典的な発振器限界とリプキン-メシュコフ-グリックモデルに適用する。 次に, 断熱速度アッププロトコルの量子メトロロジーへの応用について検討し, その性能を臨界量子メトロロジーと比較する。 我々は、リプキン-メシュコフ-グリックモデルによる臨界量子メトロジーが標準量子極限を克服することができないことを示し、臨界メトロジープロトコルがそれを克服できる場合もあるが、臨界メトロジーは準最適メトロジー戦略であると主張する。 最後に、相転移を示す系は量子技術の観点からは確かに興味深いものであると結論づけるが、最も注目されるべき重要な点ではないかもしれない。

We present an alternative protocol allowing for the preparation of critical states that instead of suffering from the critical slowing-down benefits from the critical speeding-up. Paradoxically, we prepare these states by going away from the critical point which allows for the speed-up. We apply the protocol to the paradigmatic quantum Rabi model and its classical oscillator limit as well as the Lipkin-Meshkov-Glick model. Subsequently, we discuss the application of the adiabatic speed-up protocol in quantum metrology and compare its performance with critical quantum metrology. We show that critical quantum metrology with the Lipkin-Meshkov-Glick model cannot even overcome the standard quantum limit, and we argue that, even though critical metrology protocols can overcome it in some cases, critical metrology is a suboptimal metrological strategy. Finally, we conclude that systems exhibiting a phase transition are indeed interesting from the viewpoint of quantum technologies, however, it may not be the critical point that should attract the most attention.
翻訳日:2023-03-07 00:13:03 公開日:2022-04-21
# 超固体中のブロッホ振動

Bloch oscillations in supersolids ( http://arxiv.org/abs/2112.00309v2 )

ライセンス: Link先を確認
Muhammad S. Hasan, J. Polo, J.C. Pelayo and Th. Busch(参考訳) 超固体ストライプ相のスピン軌道結合ボース・アインシュタイン凝縮に浸漬された加速原子不純物の運動は、固体中のブロッホ振動のよく知られた現象と同様に振動する。 凝縮体への振動運動のバックアクションは、超固体内のフォノンモードを励起するが、ロートン極小の位置には影響せず、物質波格子の周期性には影響しない。 振動の究極の崩壊は、主に波束の分散によるものであり、不純物が明るいソリトンであると仮定することで、これを大きな範囲で反作用できることを示した。

We show that the motion of an accelerated atomic impurity immersed in a spin-orbit coupled Bose-Einstein condensate in the supersolid stripe phase undergoes oscillations, similar to the well-known phenomenon of Bloch oscillations in solids. While the back-action of the oscillatory movement onto the condensate excites phonon modes inside the supersolid, it does not affect the position of the roton minimum and therefore not the periodicity of the matter wave lattice. The ultimate decay of the oscillations is mostly due to the dispersion of the wavepacket and we show that this can be counteracted to a large extent by assuming that the impurity is a bright soliton.
翻訳日:2023-03-06 04:50:40 公開日:2022-04-21
# 変分量子法によるSU(3)格子型ヤンミル真空の作製

Preparation of the SU(3) Lattice Yang-Mills Vacuum with Variational Quantum Methods ( http://arxiv.org/abs/2112.09083v3 )

ライセンス: Link先を確認
Anthony N Ciavarella, Ivan A Chernyshev(参考訳) 量子ハードウェアにおけるQCDやその他のゲージ理論の研究には、物理的に興味深い状態の準備が必要である。 変分量子固有解器(VQE)は、量子ハードウェア上で真空状態の準備を行う方法を提供する。 この研究において、VQEは1つのプラケットと1次元のプラケット鎖上の純SU(3)格子ヤンミルに適用される。 古典最適化を行うためにベイズ最適化と勾配降下について検討した。 格子鎖のアンザッツ状態は、ドメイン分解と密度行列正規化群(DMRG)に類似した縫合法を用いて、より小さなシステムからスケーラブルに構築される。 小さな例はIBMの超伝導マニラプロセッサで行われている。

Studying QCD and other gauge theories on quantum hardware requires the preparation of physically interesting states. The Variational Quantum Eigensolver (VQE) provides a way of performing vacuum state preparation on quantum hardware. In this work, VQE is applied to pure SU(3) lattice Yang-Mills on a single plaquette and one dimensional plaquette chains. Bayesian optimization and gradient descent were investigated for performing the classical optimization. Ansatz states for plaquette chains are constructed in a scalable manner from smaller systems using domain decomposition and a stitching procedure analogous to the Density Matrix Renormalization Group (DMRG). Small examples are performed on IBM's superconducting Manila processor.
翻訳日:2023-03-04 09:21:06 公開日:2022-04-21
# 真のマルチパーティイト絡み合い尺度としてのバイパートイトコンカレンスの幾何学的平均

Geometric mean of bipartite concurrences as a genuine multipartite entanglement measure ( http://arxiv.org/abs/2112.10509v3 )

ライセンス: Link先を確認
Yinfei Li and Jiangwei Shang(参考訳) 本研究では,真の多部交絡測度として,両部共起の幾何学的平均を提案する。 この測度は、絶対最大エンタングル状態の最大値を獲得し、ポテンシャル量子資源の定量化に望ましい性質を持つ。 定義の単純さと対称性は、GHZ状態や$W$状態を含む様々な多部交絡状態に対する計算を容易にする。 明示的な例では、我々の測度は他の測度と異なる絡み合いを生じさせ、他の測度では得られない特定の種類の真の多角形絡みの差を検出することができる。 これらの結果は,本尺度の実用的応用を正当化するものである。

In this work we propose the geometric mean of bipartite concurrences as a genuine multipartite entanglement measure. This measure achieves the maximum value for absolutely maximally entangled states and has desirable properties for quantifying potential quantum resources. The simplicity and symmetry in the definition facilitates its computation for various multipartite entangled states including the GHZ states and the $W$ states. With explicit examples we show that our measure results in distinct entanglement orderings from other measures, and can detect differences in certain types of genuine multipartite entanglement while other measures cannot. These results justify the practical application of our measure for tasks involving genuine multipartite entanglement.
翻訳日:2023-03-04 01:06:05 公開日:2022-04-21
# 周期駆動多体量子電池

Periodically driven many-body quantum battery ( http://arxiv.org/abs/2112.10451v2 )

ライセンス: Link先を確認
Saikat Mondal, Sourav Bhattacharjee(参考訳) イジングハミルトニアンのような横磁場の周期的変調によるスピン系に基づく量子電池の充電について検討する。 積分可能限界では、共振トンネルは電池へのエネルギー移動の促進と、特定の駆動周波数での蓄えられたエネルギーの安定性の向上につながる。 余分な長手場の存在下で可積分性が破られると、有効フロッケハミルトニアンには電池のグローバルな充電につながる条件が含まれていることが分かる。 しかし、チャージパワーに量子アドバンテージは見当たらないため、グローバルチャージは量子アドバンテージを達成するための必要条件であり十分な条件ではないことを証明している。

We explore the charging of a quantum battery based on spin systems through periodic modulation of a transverse-field like Ising Hamiltonian. In the integrable limit, we find that resonance tunneling can lead to a higher transfer of energy to the battery and better stability of the stored energy at specific drive frequencies. When the integrability is broken in the presence of an additional longitudinal field, we find that the effective Floquet Hamiltonian contains terms which may lead to a global charging of the battery. However, we do not find any quantum advantage in the charging power, thus demonstrating that global charging is only a necessary and not sufficient condition for achieving quantum advantage.
翻訳日:2023-03-04 01:05:25 公開日:2022-04-21
# ウィグナー分布の半古典式

Semiclassical Formulae For Wigner Distributions ( http://arxiv.org/abs/2201.04892v2 )

ライセンス: Link先を確認
Sonja Barkhofen and Philipp Sch\"utte and Tobias Weich(参考訳) 本稿では、カオスに対するルエル共鳴の現代数学理論のいくつかの側面、すなわち一様双曲型力学系とその物理学における意味について概説する。 まず、共鳴の数学的理論における最近の発展、特に重み付きゼータ函数の残差として不変ルエル分布が発生することを思い出す。 次に、負の曲面の設定における重み付きゼータ関数と半古典的ゼータ関数の対応を導出する。 これをヒルガート、ギルルム、ワイチの結果と組み合わせることで、定数負曲率の量子力学的行列係数として不変ルエル分布の高周波解釈が得られる。 3-disk散乱系のより物理的設定における位相空間分布の数値計算を終える。

In this paper we give an overview over some aspects of the modern mathematical theory of Ruelle resonances for chaotic, i.e. uniformly hyperbolic, dynamical systems and their implications in physics. First we recall recent developments in the mathematical theory of resonances, in particular how invariant Ruelle distributions arise as residues of weighted zeta functions. Then we derive a correspondence between weighted and semiclassical zeta functions in the setting of negatively curved surfaces. Combining this with results of Hilgert, Guillarmou and Weich yields a high frequency interpretation of invariant Ruelle distributions as quantum mechanical matrix coefficients in constant negative curvature. We finish by presenting numerical calculations of phase space distributions in the more physical setting of 3-disk scattering systems.
翻訳日:2023-03-01 06:44:59 公開日:2022-04-21
# 量子ワークス・ランドスケープの定義--グローバル量子教育イニシアチブのレビュー

Defining the quantum workforce landscape: a review of global quantum education initiatives ( http://arxiv.org/abs/2202.08940v3 )

ライセンス: Link先を確認
Maninder Kaur and Araceli Venegas-Gomez(参考訳) 量子テクノロジーの急速な進歩は、多様で包括的で持続可能な量子労働力の不足を悪化させた。 国家政府や産業は量子技術の商業化を加速させるために教育、訓練、労働開発のための戦略を開発している。 本稿では,大学と産学のタレントパイプラインを育成するためのいくつかの学習経路とともに,現在の量子労働力の現状について報告する。 我々は、オンラインコース、カンファレンス、セミナー、ゲーム、コミュニティ中心のネットワークなど、世界中の様々な教育イニシアティブを包括的にガイドし、量子トレーニングを促進し、より良い量子未来を開発するために必要な人材を育成する。

Rapid advances in quantum technology have exacerbated the shortage of a diverse, inclusive, and sustainable quantum workforce. National governments and industries are developing strategies for education, training, and workforce development to accelerate the commercialization of quantum technologies. In this paper, we report the existing state of the quantum workforce as well as several learning pathways to nurture the talent pipeline between academia and industry. We provide a comprehensive guide of various educational initiatives accessible throughout the world, such as online courses, conferences, seminars, games, and community-focused networks, that facilitate quantum training and upskill the talent needed to develop a better quantum future.
翻訳日:2023-02-25 12:41:12 公開日:2022-04-21
# SU(3)[3 00]ハイゼンベルク鎖のハルデンギャップ

The Haldane gap in the SU(3) [3 0 0] Heisenberg chain ( http://arxiv.org/abs/2202.09279v2 )

ライセンス: Link先を確認
Lukas Devos, Laurens Vanderstraeten, Frank Verstraete(参考訳) 我々は、変動的一様全対称$\mathrm{SU}(3)$行列積状態を用いて、$\mathrm{SU}(3)$ spin $[3~0~0]$ Heisenberg モデルのハルデンギャップを計算し、最小のギャップ $\Delta /J = 0.0263$ が運動量 2\pi/3$ のセクターで得られることを発見した。 また,基底状態の対称性を保護した位相次数を議論し,基本励起と系の相関長の完全な分散関係を決定した。

We calculate the Haldane gap of the $\mathrm{SU}(3)$ spin $[3~0~0]$ Heisenberg model using variational uniform fully symmetric $\mathrm{SU}(3)$ matrix product states, and find that the minimal gap $\Delta /J = 0.0263 $ is obtained in the $[2~1~0]$ sector at momentum $2\pi/3$. We also discuss the symmetry protected topological order of the ground state, and determine the full dispersion relation of the elementary excitations and the correlation lengths of the system.
翻訳日:2023-02-24 17:34:29 公開日:2022-04-21
# スタークゲージ保護による障害のない位置決め

Disorder-free localization with Stark gauge protection ( http://arxiv.org/abs/2203.01338v3 )

ライセンス: Link先を確認
Haifeng Lang, Philipp Hauke, Johannes Knolle, Fabian Grusdt, Jad C. Halimeh(参考訳) 翻訳不変ゲージ理論における障害のない局所化は、量子多体物理学におけるエルゴディディディティの反直感的かつ強力な枠組みを示す。 ゲージ破れ誤差の存在下でのこの現象の脆弱性は近年解決されているが、障害のない性質を保ちながら、あらゆる到達可能な進化時間を通じて障害のない局所化を確実に安定化できるスキームは存在しない。 ここでは、ゲージ対称性局所(擬)ジェネレータにおける線形和をスタークポテンシャルで重み付けする「textit{Stark gauge protection}」という概念を紹介する。 厳密な対角化とクリロフに基づく手法を用いて、このスキームが、"\mathrm{u}(1)$" および "\mathbb{z}_2$" のゲージ理論において、"textit{bona fide} stark many-body localization"を誘導することなく、ゲージ破壊エラーに対する無秩序なローカライズを安定化または強化する方法を示す。 スタークゲージの保護の下での力学は、ゲージ破壊項が保護強度によって局所的に抑制され、さらに物質サイト指数によって抑制される効果的なハミルトニアンによって記述されていることをマグヌス展開を通して示す。 我々の手法は、現代の超低温原子実験や、光ツイーザーを用いたライドバーグ原子のセットアップで容易に実現可能である。

Disorder-free localization in translation-invariant gauge theories presents a counterintuitive yet powerful framework of ergodicity breaking in quantum many-body physics. The fragility of this phenomenon in the presence of gauge-breaking errors has recently been addressed, but no scheme has been able to reliably stabilize disorder-free localization through all accessible evolution times while preserving the disorder-free property. Here, we introduce the concept of \textit{Stark gauge protection}, which entails a linear sum in gauge-symmetry local (pseudo)generators weighted by a Stark potential. Using exact diagonalization and Krylov-based methods, we show how this scheme can stabilize or even enhance disorder-free localization against gauge-breaking errors in $\mathrm{U}(1)$ and $\mathbb{Z}_2$ gauge theories up to all accessible evolution times, without inducing \textit{bona fide} Stark many-body localization. We show through a Magnus expansion that the dynamics under Stark gauge protection is described by an effective Hamiltonian where gauge-breaking terms are suppressed locally by the protection strength and additionally by the matter site index, which we argue is the main reason behind stabilizing the localization up to all accessible times. Our scheme is readily feasible in modern ultracold-atom experiments and Rydberg-atom setups with optical tweezers.
翻訳日:2023-02-23 07:53:14 公開日:2022-04-21
# 格子ゲージ理論におけるロバスト量子多体スカー

Robust quantum many-body scars in lattice gauge theories ( http://arxiv.org/abs/2203.08828v3 )

ライセンス: Link先を確認
Jad C. Halimeh, Luca Barbiero, Philipp Hauke, Fabian Grusdt, Annabelle Bohrdt(参考訳) 量子多体スカーリング(quantum many-body scarring)は、低エンタングルメントエントロピーを持つ特別な非熱多体固有状態の存在によって生じる弱いエルゴード性破壊のパラダイムである。 傷跡はゲージ理論と密接な関係にあることが示されているが、そのような実験的に関連するモデルにおけるその安定性はまだ未解決の問題であり、一般的には微調整された条件下でのみ存在すると考えられている。 本研究では, ゲージ対称性生成器の線形項や, $\mathrm{U}(1)$および$\mathbb{Z}_2$ゲージゲージ理論の簡易擬似生成器を用いて, 実験誤差の存在下で量子多体傷を堅牢にすることができることを示す。 我々の発見は量子ゼノダイナミクスの概念によって説明される。 実験で実現可能な手法は、既存の大規模超低温量子シミュレータやライドバーグ原子の光学トワイザーによるセットアップに容易に実装できる。

Quantum many-body scarring is a paradigm of weak ergodicity breaking arising due to the presence of special nonthermal many-body eigenstates that possess low entanglement entropy, are equally spaced in energy, and concentrate in certain parts of the Hilbert space. Though scars have been shown to be intimately connected to gauge theories, their stability in such experimentally relevant models is still an open question, and it is generally considered that they exist only under fine-tuned conditions. In this work, we show through Krylov-based time-evolution methods how quantum many-body scars can be made robust in the presence of experimental errors through utilizing terms linear in the gauge-symmetry generator or a simplified pseudogenerator in $\mathrm{U}(1)$ and $\mathbb{Z}_2$ lattice gauge theories. Our findings are explained by the concept of quantum Zeno dynamics. Our experimentally feasible methods can be readily implemented in existing large-scale ultracold-atom quantum simulators and setups of Rydberg atoms with optical tweezers.
翻訳日:2023-02-21 23:01:11 公開日:2022-04-21
# 検索エンジン最適化に対する公共の意識と態度

Public awareness and attitudes towards search engine optimization ( http://arxiv.org/abs/2204.10078v1 )

ライセンス: Link先を確認
Dirk Lewandowski and Sebastian Schulthei{\ss}(参考訳) 本研究は、検索エンジン最適化(SEO)についてユーザが知っていることや、SEOの影響を受けている可能性のある結果の特定方法に焦点をあてる。 我々はドイツのオンライン人口(N=2,012)のサンプルを用いてオンライン調査を行った。 43%のユーザーがGoogleにお金を払わずにより良いランキングを達成できると考えている。 これは、インターネットユーザーの79%が認識している有料広告による影響の可能性とは対照的である。 しかし、有機的な結果と広告の違いは29.2%に過ぎなかった。 検索エンジン最適化」という用語はユーザーの8.9%で知られているが、14.5%は少なくとも1つのseo戦術を正しく命名できる。 SERP(検索エンジン結果ページ)の複雑さやデバイスによって、SEOによって影響を受け得るラベル付け結果の成功は、より複雑なSERPよりも単純な構造を持つSERPにおいて高い成功率を達成した。 SEOの結果は大きな画面よりも小さな画面の方がよく同定された。 59.2%はSEOが(非常に)ランキングに強い影響を与えていると仮定している。 SEOは陰性(68.4%)よりも陽性(75.2%)と認識されることが多い。 本研究から得られた知見は,検索エンジンプロバイダ,規制機関,情報リテラシーに影響を及ぼす。

This research focuses on what users know about search engine optimization (SEO) and how well they can identify results that have potentially been influenced by SEO. We conducted an online survey with a sample representative of the German online population (N = 2,012). We found that 43% of users assume a better ranking can be achieved without paying money to Google. This is in stark contrast to the possibility of influence through paid advertisements, which 79% of internet users are aware of. However, only 29.2% know how ads differ from organic results. The term "search engine optimization" is known to 8.9% of users but 14.5% can correctly name at least one SEO tactic. Success in labelling results that can be influenced through SEO varies by search engine result page (SERP) complexity and devices: participants achieved higher success rates on SERPs with simple structures than on the more complex SERPs. SEO results were identified better on the small screen than on the large screen. 59.2% assumed that SEO has a (very) strong impact on rankings. SEO is more often perceived as positive (75.2%) than negative (68.4%). The insights from this study have implications for search engine providers, regulators, and information literacy.
翻訳日:2023-02-19 16:23:08 公開日:2022-04-21
# Consent on the Fly: 音声アシスタントのためのEthical Verbal Consentの開発

Consent on the Fly: Developing Ethical Verbal Consent for Voice Assistants ( http://arxiv.org/abs/2204.10058v1 )

ライセンス: Link先を確認
William Seymour, Mark Cote and Jose Such(参考訳) 音声アシスタントがサードパーティのソフトウェアとデータを共有するための同意をブローカーする方法を決定することは、複雑な問題であることが証明されている。 デバイスは、ハンズフリーの音声アシスタントのパーミッションメニューをナビゲートするために、スマートフォンアプリに切り替える必要があることが多い。 alexaはスマートフォンのアプリストアと並行して、「ボイスフォワード・コンセント(voice-forward consent)」を提供する。 コンパニオンアプリを開くよりも便利だが、'オンザフライ'で同意を求めることは、インフォームドコンセントプロセスの中核となるいくつかの概念を損なう可能性がある。 音声インターフェースの無形の性質は、基盤となるプラットフォームからサードパーティ開発者が制御するインタラクションの一部の境界をさらに曖昧にする。 我々は、GDPRに関する独自の作業やUbicompにおける同意作業を含む、ブローカー合意の問題に口頭で対処するための、使用可能な効果的な音声ベースの同意に向けた研究課題を概説する。

Determining how voice assistants should broker consent to share data with third party software has proven to be a complex problem. Devices often require users to switch to companion smartphone apps in order to navigate permissions menus for their otherwise hands-free voice assistant. More in line with smartphone app stores, Alexa now offers "voice-forward consent", allowing users to grant skills access to personal data mid-conversation using speech. While more usable and convenient than opening a companion app, asking for consent 'on the fly' can undermine several concepts core to the informed consent process. The intangible nature of voice interfaces further blurs the boundary between parts of an interaction controlled by third-party developers from the underlying platforms. We outline a research agenda towards usable and effective voice-based consent to address the problems with brokering consent verbally, including our own work drawing on the GDPR and work on consent in Ubicomp.
翻訳日:2023-02-19 16:22:51 公開日:2022-04-21
# 分析結果をデータとして尊重すべき理由

Why we should respect analysis results as data ( http://arxiv.org/abs/2204.09959v1 )

ライセンス: Link先を確認
Joana M Barros, Lukas A Widmer, Mark Baillie, Simon Wandel(参考訳) 新しい治療法の開発と承認は、有効性と安全性の要約のような大量の結果を生み出す。 しかし、臨床研究データの解析も結果の形でデータを生成するのが一般的である。 例えば、記述統計とモデル予測はデータである。 分析結果を文脈に統合することは科学的研究の基盤であるが、分析結果はしばしばデータソースとして無視される。 結果がPDFドキュメントなどの“データ製品”として格納され、マシンが読みやすく、将来の分析に適さない。 分析結果標準と共通データモデルを組み合わせて,「一度だけ計算し,何度も使用する」解決策を提案する。 この分析の結果、データモデルは、結果の静的表現(例えば、表や図)から、知識発見を含むさまざまなコンテキストのアプリケーションを含むデータモデルへの分析のターゲットを再構築する。 さらに,分析の標準化へのアプローチを詳述し,分析結果を保存・照会するためのスキーマを構築するための概念実証を行う。

The development and approval of new treatments generates large volumes of results, such as summaries of efficacy and safety. However, it is commonly overlooked that analyzing clinical study data also produces data in the form of results. For example, descriptive statistics and model predictions are data. Although integrating and putting findings into context is a cornerstone of scientific work, analysis results are often neglected as a data source. Results end up stored as "data products" such as PDF documents that are not machine readable or amenable to future analysis. We propose a solution to "calculate once, use many times" by combining analysis results standards with a common data model. This analysis results data model re-frames the target of analyses from static representations of the results (e.g., tables and figures) to a data model with applications in various contexts, including knowledge discovery. Further, we provide a working proof of concept detailing how to approach analyses standardization and construct a schema to store and query analysis results.
翻訳日:2023-02-19 16:22:33 公開日:2022-04-21
# Block Hunter: ブロックチェーンベースのIIoTネットワークにおけるサイバー脅威追跡のためのフェデレートラーニング

Block Hunter: Federated Learning for Cyber Threat Hunting in Blockchain-based IIoT Networks ( http://arxiv.org/abs/2204.09829v1 )

ライセンス: Link先を確認
Abbas Yazdinejad (Cyber Science Lab, School of Computer science, University of Guelph, ON, Canada), Ali Dehghantanha (Cyber Science Lab, School of Computer science, University of Guelph, ON, Canada), Reza M. Parizi (College of Computing and Software Engineering, Kennesaw State University, GA, USA), Mohammad Hammoudeh (Information & Computer Science Department, King Fahd University of Petroleum & Minerals, Saudi Arabia), Hadis Karimipour (School of Engineering, Department of Electrical and Software Engineering at the University of Calgary, Alberta, Canada) and Gautam Srivastava (Department of Math and Computer Science, Brandon University, Manitoba, Canada as well as with the Research Centre for Interneural Computing, China Medical University, Taichung)(参考訳) 現在、ブロックチェーンベースの技術は、データセキュリティを改善するために様々な業界で開発されている。 産業用モノのインターネット(Industrial Internet of Things, IIoT)の文脈では、ブロックチェーン技術の最も注目すべき応用の1つがチェーンベースのネットワークである。 IIoTデバイスは、デジタル世界でますます普及し、特にスマートファクトリの開発を支援している。 ブロックチェーンは強力なツールだが、サイバー攻撃に対して脆弱である。 スマートファクトリにおけるブロックチェーンベースのIIoTネットワークの異常検出は、ネットワークやシステムを予期しない攻撃から守る上で極めて重要である。 本稿では,federated learning(fl)を用いてblock hunterと呼ばれる脅威追跡フレームワークを構築し,ブロックチェーンベースのiiotネットワークにおける攻撃を自動探索する。 block hunterはクラスタベースのアーキテクチャを使用して、フェデレーション環境で複数の機械学習モデルを組み合わせた異常検出を行う。 私たちの知る限り、block hunterは、プライバシーを保ちながら異常な行動を識別するiiotネットワークにおける、最初の連合脅威追跡モデルです。 その結果, ブロックハンターは, 高精度かつ最小の帯域幅で異常な活動を検出するのに有効であることがわかった。

Nowadays, blockchain-based technologies are being developed in various industries to improve data security. In the context of the Industrial Internet of Things (IIoT), a chain-based network is one of the most notable applications of blockchain technology. IIoT devices have become increasingly prevalent in our digital world, especially in support of developing smart factories. Although blockchain is a powerful tool, it is vulnerable to cyber attacks. Detecting anomalies in blockchain-based IIoT networks in smart factories is crucial in protecting networks and systems from unexpected attacks. In this paper, we use Federated Learning (FL) to build a threat hunting framework called Block Hunter to automatically hunt for attacks in blockchain-based IIoT networks. Block Hunter utilizes a cluster-based architecture for anomaly detection combined with several machine learning models in a federated environment. To the best of our knowledge, Block Hunter is the first federated threat hunting model in IIoT networks that identifies anomalous behavior while preserving privacy. Our results prove the efficiency of the Block Hunter in detecting anomalous activities with high accuracy and minimum required bandwidth.
翻訳日:2023-02-19 16:21:58 公開日:2022-04-21
# AR Activismを理解する: 社会変革のための拡張現実体験の創造者とのインタビュー研究

Understanding AR Activism: An Interview Study with Creators of Augmented Reality Experiences for Social Change ( http://arxiv.org/abs/2204.09821v1 )

ライセンス: Link先を確認
Rafael M.L. Silva, Erica Principe Cruz, Daniela K. Rosner, Dayton Kelly, Andr\'es Monroy-Hern\'andez, Fannie Liu(参考訳) 消費者向け拡張現実(AR)技術の台頭は、文化的慣習を破壊・覆い隠そうとする介入の新たな可能性を開く。 企業のロゴやジオフェンスのデジタルモニュメントを建てるなど、ますます多くの人がソーシャルな目的のためにar体験を作っている。 こうした目的のために人々がARを使用する理由、それを使用する機会と課題、そしてそれが活動家の目標をどのように支援できるか、といった、この新しい行動主義の新たな形態を理解しようとしました。 我々は6カ国にまたがる社会問題にARを用いたプロジェクトに関わる20人を対象に半構造化インタビューを行った。 我々は、ARが活動主義の物理的世界限界を克服し、目に見えない歴史や視点を明らかにすることを目的とした没入型多層物語を伝達できることを発見した。 同時に、ARエクスペリエンスをオーディエンスに作成、保守、配布する上で、人々は課題を経験しました。 社会変革のためのARツールや体験を作成するためのオープンな質問と機会について論じる。

The rise of consumer augmented reality (AR) technology has opened up new possibilities for interventions intended to disrupt and subvert cultural conventions. From defacing corporate logos to erecting geofenced digital monuments, more and more people are creating AR experiences for social causes. We sought to understand this new form of activism, including why people use AR for these purposes, opportunities and challenges in using it, and how well it can support activist goals. We conducted semi-structured interviews with twenty people involved in projects that used AR for a social cause across six different countries. We found that AR can overcome physical world limitations of activism to convey immersive, multilayered narratives that aim to reveal invisible histories and perspectives. At the same time, people experienced challenges in creating, maintaining, and distributing their AR experiences to audiences. We discuss open questions and opportunities for creating AR tools and experiences for social change.
翻訳日:2023-02-19 16:21:43 公開日:2022-04-21
# MAP-SNN:多目的性,適応性,可塑性を用いたスパイク活動の生体応用スパイクニューラルネットワークへのマッピング

MAP-SNN: Mapping Spike Activities with Multiplicity, Adaptability, and Plasticity into Bio-Plausible Spiking Neural Networks ( http://arxiv.org/abs/2204.09893v1 )

ライセンス: Link先を確認
Chengting Yu, Yangkai Du, Mufeng Chen, Aili Wang, Gaoang Wang and Erping Li(参考訳) スパイキングニューラルネットワーク(SNN)は、人間の脳の基本的なメカニズムを模倣しているため、生物学的に現実的で電力効率が高いと考えられている。 近年,ディープラーニングフレームワークを利用したバックプロパゲーション(BP)ベースのSNN学習アルゴリズムの性能が向上している。 しかし、BPベースのアルゴリズムでは、生分解性は部分的に無視されている。 BPをベースとしたSNNは, マルチプライシティ, 適応性, 塑性(MAP)の3つの特性をモデル化する。 多重性の観点から、離散時間におけるモデルロバスト性を強化するために、多重スパイク伝送を用いた多重スパイクパターン(MSP)を提案する。 適応性を実現するため,MSPではスパイク周波数適応(SFA)を採用し,スパイク活性を減少させ効率を向上させる。 本研究では,スパイク応答電流をモデル化し,スパイクニューロンの多様性を高めて時間的特徴抽出を行う,学習可能な畳み込みシナプスを提案する。 提案したSNNモデルはニューロモルフィックデータセット(N-MNISTとSHD)上での競合性能を実現する。 さらに, 提案した3つの側面がスパイク活動の反復的堅牢性, スパイク効率, 時間的特徴抽出能力に重要であることを示した。 要約して、本研究はMAPを用いた生体刺激スパイク活動の実現可能なスキームを提案し、生体特性をスパイクニューラルネットワークに埋め込む新しいニューロモルフィックな視点を提供する。

Spiking Neural Network (SNN) is considered more biologically realistic and power-efficient as it imitates the fundamental mechanism of the human brain. Recently, backpropagation (BP) based SNN learning algorithms that utilize deep learning frameworks have achieved good performance. However, bio-interpretability is partially neglected in those BP-based algorithms. Toward bio-plausible BP-based SNNs, we consider three properties in modeling spike activities: Multiplicity, Adaptability, and Plasticity (MAP). In terms of multiplicity, we propose a Multiple-Spike Pattern (MSP) with multiple spike transmission to strengthen model robustness in discrete time-iteration. To realize adaptability, we adopt Spike Frequency Adaption (SFA) under MSP to decrease spike activities for improved efficiency. For plasticity, we propose a trainable convolutional synapse that models spike response current to enhance the diversity of spiking neurons for temporal feature extraction. The proposed SNN model achieves competitive performances on neuromorphic datasets: N-MNIST and SHD. Furthermore, experimental results demonstrate that the proposed three aspects are significant to iterative robustness, spike efficiency, and temporal feature extraction capability of spike activities. In summary, this work proposes a feasible scheme for bio-inspired spike activities with MAP, offering a new neuromorphic perspective to embed biological characteristics into spiking neural networks.
翻訳日:2023-02-16 03:51:27 公開日:2022-04-21
# シリコンナノキャビティのtio$_{2}$におけるerbiumイオンのパーセル増強

Purcell enhancement of erbium ions in TiO$_{2}$ on silicon nanocavities ( http://arxiv.org/abs/2204.09859v1 )

ライセンス: Link先を確認
Alan M. Dibos, Michael T. Solomon, Sean E. Sullivan, Manish K. Singh, Kathryn E. Sautter, Connor P. Horn, Gregory D. Grant, Yulin Lin, Jianguo Wen, F. Joseph Heremans, Supratik Guha, and David D. Awschalom(参考訳) テレコム光遷移を持つ孤立固体原子欠陥は、長距離量子通信ネットワークへの応用に理想的な量子光子エミッタおよびスピン量子ビットである。 エルビウムのような原型的な通信欠陥は光子放出率の低下を招き、共鳴光共振器を用いた光子強化を必要とする。 エルビウムイオンの伝統的なホストの多くは、クビットベースのデバイスのスケーラブルな製造を制限し、既存の統合フォトニクスプラットフォームと直接結合することができない。 本稿では,シリコンオン絶縁体基板上に成長したエルビウム添加二酸化チタン薄膜を用いて,cmos互換通信量子ビットへのスケーラブルなアプローチを提案する。 このヘテロ構造から, 5\times10^{4}$以上の品質因子と200以上のエルビウムアンサンブルの紫外光放射率を示す1次元フォトニック結晶キャビティを作製した。 この簡単な材料プラットフォームは、成熟したシリコン技術と互換性のあるスケーラブルな量子ビットアーキテクチャで、テレコム量子メモリを実現するための重要なステップである。

Isolated solid-state atomic defects with telecom optical transitions are ideal quantum photon emitters and spin qubits for applications in long-distance quantum communication networks. Prototypical telecom defects such as erbium suffer from poor photon emission rates, requiring photonic enhancement using resonant optical cavities. Many of the traditional hosts for erbium ions are not amenable to direct incorporation with existing integrated photonics platforms, limiting scalable fabrication of qubit-based devices. Here we present a scalable approach towards CMOS-compatible telecom qubits by using erbium-doped titanium dioxide thin films grown atop silicon-on-insulator substrates. From this heterostructure, we have fabricated one-dimensional photonic crystal cavities demonstrating quality factors in excess of $5\times10^{4}$ and corresponding Purcell-enhanced optical emission rates of the erbium ensembles in excess of 200. This easily fabricated materials platform represents an important step towards realizing telecom quantum memories in a scalable qubit architecture compatible with mature silicon technologies.
翻訳日:2023-02-16 03:51:00 公開日:2022-04-21
# 高次微分重力理論における紫外線強度と漸近安全性

Ultraviolet Finiteness or Asymptotic Safety in Higher Derivative Gravitational Theories ( http://arxiv.org/abs/2204.09858v1 )

ライセンス: Link先を確認
Leslaw Rachwal(参考訳) 本稿では,紫外線有限性および漸近的安全性に関するよく知られた条件について論じる。 量子場理論における紫外発散の完全欠如要件と、紫外領域における再正規化群流に対する非自明な不動点の存在は、時空次元が$d=4$の6導出量子重力理論の例に基づいて比較される。 このモデルでは、物質や特別な対称性を加えることなく、曲率に立方体を追加することなく、初めて完全なUV-有限量子理論を持つことが可能である。 類似点と2つのアプローチの明らかな相違点についてコメントするが、どちらも互換性があることが示される。 最後に, 固定点における特別な状況を記述するウィルソン効果の紫外限界の明示的な形式を提供するためには, 実際に漸近的安全性がUV限界モデルを必要とするという主張を動機づける。

We present and discuss well known conditions for ultraviolet finiteness and asymptotic safety. The requirements for complete absence of ultraviolet divergences in quantum field theories and existence of a non-trivial fixed point for renormalization group flow in the ultraviolet regime are compared based on the example of a six-derivative quantum gravitational theory in $d=4$ spacetime dimensions. In this model, it is possible for the first time to have fully UV-finite quantum theory without adding matter or special symmetry, but by inclusion of additional terms cubic in curvatures. We comment on similarities and some apparent differences between the two approaches, but we show that they are both compatible to each other. Finally, we motivate the claim that actually asymptotic safety needs UV-finite models for providing explicit form of the ultraviolet limit of Wilsonian effective actions describing special situations at fixed points.
翻訳日:2023-02-16 03:50:41 公開日:2022-04-21
# 量子鍵配電網におけるビザンチン-フォールト耐震コンセンサスの情報理論

An Information-theoretical Secured Byzantine-fault Tolerance Consensus in Quantum Key Distribution Network ( http://arxiv.org/abs/2204.09832v1 )

ライセンス: Link先を確認
Yi Luo and Hao-Kun Mao and Qiong Li(参考訳) 量子鍵分布(QKD)ネットワークは、長距離における情報理論セキュア通信(ITS)を提供すると期待されている。 qkdネットワークベースのtrusted relayアーキテクチャは、現在最も広く使われているスキームである。 しかし、すべてのリレーが複雑なネットワークで完全に信頼できるという非現実的な仮定である。 過去、不正中継による受動的盗聴攻撃と対応する防御法を理論的に分析した研究はごくわずかである。 しかし、不正直なリレーによる攻撃はより脅威となる可能性がある。 パッシブ攻撃とアクティブ攻撃を考慮し、不適切なリレーをビザンチンノードとして扱い、QKDネットワークが許容できるビザンチンノードの上限を解析する。 本稿では、ポイントツーポイントQKDリンクに基づくエンドツーエンド鍵分布を実現するための、ITS Byzantine-fault tolerance (BFT) QKDネットワークスキームを提案する。 本稿では,QKDネットワークにおけるBFTの整合性を確保するために,このネットワーク方式のためのITSBFT-Consensusプロトコルを設計する。 コンセンサスの情報理論的安全性を確保するため,ポイントツーポイントQKDリンクキーに基づく仮署名方式を設計する。 ビザンチンノードが鍵分布の実行過程を乱すのを防ぐために,コンセンサスと組み合わせたエンドツーエンドの鍵分布方式を設計する。 提案するITSBFT-QKDネットワークスキームを,QKDキー配布セキュリティ,一時署名セキュリティ,コンセンサスセキュリティ,リーダ選挙公正性の4つの側面から理論的に解析する。 シミュレーションの結果、実現可能性を示し、性能を実証した。

Quantum key distribution (QKD) networks is expected to provide information-theoretical secured (ITS) communication over long distances. QKD networks based trusted relay architecture are now the most widely used scheme in practice. However, it is an unrealistic assumption that all relays are fully trustable in complex networks. In the past, only a few studies have theoretically analyzed the case of passive eavesdropping attack by dishonest relays and corresponding defense method. However, we have found that active attacks by dishonest relays can be more threatening. With the consideration of passive and active attacks, we treat dishonest relays as Byzantine nodes and analyzes the upper limit of Byzantine nodes that the QKD network can accommodate. In this paper, we propose an ITS Byzantine-fault tolerance (BFT) QKD network scheme to achieve end-to-end key distribution based on point-to-point QKD links. To ensure consistency and provide BFT ability in the QKD network, we design an ITSBFT-consensus protocol for this network scheme. To ensure the information-theoretic security of consensus, we design a temporary signature scheme based on point-to-point QKD link keys. To prevent Byzantine nodes from disrupting the execution process of key distribution, we design an end-to-end key distribution scheme combined with consensus. We theoretically analyze proposed ITSBFT-QKD network scheme from four aspects: QKD key distribution security, temporary signature security, consensus security, and leader election fairness. The simulation result proved the feasibility and demonstrate the performance.
翻訳日:2023-02-16 03:50:23 公開日:2022-04-21
# 量子ウォークによる動的断熱局所探索

Quantum Walk Inspired Dynamic Adiabatic Local Search ( http://arxiv.org/abs/2204.09830v1 )

ライセンス: Link先を確認
Chen-Fu Chiang and Paul M. Alsing(参考訳) 本研究では,連続時間量子ウォーク(CTQW)フレームワークからAQC(Adiabatic Quantum Computing)フレームワークへの検索アルゴリズムの変換から生じる不整合性問題について検討する。 1つの大きな問題は、AQCスケジュールを通して翻訳されたハミルトンのエネルギーギャップである。 最初の研究でこの問題を解決するために、触媒ハミルトニアンとしてZ演算子のみを選択し、この修正がランニング時間を最適に保つことを示す。 この不連続性問題と解法に着想を得て, 触媒ハミルトニアンの選択した触媒ハミルトニアンと触媒ハミルトニアンの適切な係数関数をAQCスケジュールで解放し, 断熱局所探索を改善するための適切なタイミングを求める。

We investigate the irreconcilability issue that raises from translating the search algorithm from the Continuous-Time Quantum Walk (CTQW) framework to the Adiabatic Quantum Computing (AQC) framework. One major issue is the constant energy gap in the translated Hamiltonian throughout the AQC schedule. To resolve the issue in the initial investigation, we choose only Z operator as the catalyst Hamiltonian and show that this modification keeps the running time optimal. Inspired by this irreconcilability issue and our solution, we further investigate to find the proper timing for releasing the chosen catalyst Hamiltonian and the suitable coefficient function of the catalyst Hamiltonian in the AQC schedule to improve the Adiabatic local search.
翻訳日:2023-02-16 03:49:57 公開日:2022-04-21
# 透過電子顕微鏡によるゴーストイメージング

Computational ghost imaging for transmission electron microscopy ( http://arxiv.org/abs/2204.09997v1 )

ライセンス: Link先を確認
Akhil Kallepalli, Lorenzo Viani, Daan Stellinga, Enzo Rotunno, Ming-Jie Sun, Richard Bowman, Paolo Rosi, Stefano Frabboni, Roberto Balboni, Andrea Migliori, Vincenzo Grillo, Miles Padgett(参考訳) 透過電子顕微鏡(TEM)は光学顕微鏡よりもはるかに高分解能を達成できるが、高エネルギー過程における試料の損傷の課題に直面している。 本稿では,電子顕微鏡における計算ゴーストイメージング技術を用いて,全強度の低減について検討する。 電子に対する同等の高分解能光空間光変調器の技術的欠如は、異なるアプローチを追求する必要があることを意味する。 そこで本研究では,電気的に帯電した金属針の分布を利用してビームを構成するビーム整形法と,得られた非正方形パターンを扱う新しい再構成法を提案する。 次に,このゴーストイメージング手法の電子顕微鏡への応用について述べる。 本手法の全機能をテストするために,類似の光学セットアップ法を考案した。 どちらの方法においても、ラスター走査と比較して、全照明強度を減少させる能力は明らかである。

While transmission electron microscopes (TEM) can achieve a much higher resolution than optical microscopes, they face challenges of damage to samples during the high energy processes involved. Here, we explore using computational ghost imaging techniques in electron microscopy to reduce the total required intensity. The technological lack of the equivalent high-resolution, optical spatial light modulator for electrons means that a different approach needs to be pursued. To this end, we show a beam shaping technique based on the use of a distribution of electrically charged metal needles to structure the beam, alongside a novel reconstruction method to handle the resulting highly non-orthogonal patterns. Second, we illustrate the application of this ghost imaging approach in electron microscopy. To test the full extent of the capabilities of this technique, we realised an analogous optical setup method. In both regimes, the ability to reduce the amount of total illumination intensity is evident in comparison to raster scanning.
翻訳日:2023-02-16 03:45:41 公開日:2022-04-21
# 量子電池としてのマイクロマザー

Micromasers as Quantum Batteries ( http://arxiv.org/abs/2204.09995v1 )

ライセンス: Link先を確認
Vahid Shaghaghi, Varinder Singh, Giuliano Benenti, Dario Rosa(参考訳) マイクロマザーは量子バッテリの優れたモデルであることを示す。 コヒーレント量子ビットによって荷電されるキャビティモードの高度に励起され、純粋で、効果的に安定な状態は、場-物質相互作用の超強結合状態でも達成できる。 量子ビットのコヒーレンスを失うことに対するこれらの魅力的な特徴の安定性と相互作用ハミルトニアンにおける反回転項の効果についても論じる。

We show that a micromaser is an excellent model of quantum battery. A highly excited, pure, and effectively steady state of the cavity mode, charged by coherent qubits, can be achieved, also in the ultrastrong coupling regime of field-matter interaction. Stability of these appealing features against loss of coherence of the qubits and the effect of counter-rotating terms in the interaction Hamiltonian are also discussed.
翻訳日:2023-02-16 03:45:27 公開日:2022-04-21
# スワンソン型ハミルトニアンと逆調和振動子

A Swanson-like Hamiltonian and the inverted harmonic oscillator ( http://arxiv.org/abs/2204.09968v1 )

ライセンス: Link先を確認
Fabio Bagarello(参考訳) 我々は、スワンソンハミルトニアンと密接に関連するパラメータ依存ハミルトニアン$h_\theta$の固有値と固有ベクトルを推定し、それに対する双コヒーレント状態を構成する。 その後、反転量子調和振動子のハミルトニアン$H$の固有系が$H_\theta$の固有系からどのように導出されるかを示す。 他の著者が示唆しているように、あるアドホック計量演算子を使って異なるスカラー製品を導入する必要はない。 実際、分布的アプローチは反転発振器のハミルトニアン$h$を扱うのに十分であることが証明される。

We deduce the eigenvalues and the eigenvectors of a parameter-dependent Hamiltonian $H_\theta$ which is closely related to the Swanson Hamiltonian, and we construct bi-coherent states for it. After that, we show how and in which sense the eigensystem of the Hamiltonian $H$ of the inverted quantum harmonic oscillator can be deduced from that of $H_\theta$. We show that there is no need to introduce a different scalar product using some ad hoc metric operator, as suggested by other authors. Indeed we prove that a distributional approach is sufficient to deal with the Hamiltonian $H$ of the inverted oscillator.
翻訳日:2023-02-16 03:45:18 公開日:2022-04-21
# モーメント依存型システム環境結合への一般化を伴う量子ブラウン運動の特殊マスター方程式

Exact Master Equation for Quantum Brownian Motion with Generalization to Momentum-Dependent System-Environment Couplings ( http://arxiv.org/abs/2204.09965v1 )

ライセンス: Link先を確認
Yu-Wei Huang, Wei-Min Zhang(参考訳) 本稿では,運動量依存型システム環境結合を含む量子ブラウン運動を一般化する。 従来のQBMモデルは、spacial case $W_k = V_k$に対応する。 一般化QBMはより複雑であるが、一般化が必要である。 これは、粒子遷移と系と環境の間の対生成が2つの非常に異なる物理過程を表しており、通常同じ結合強度を持つことができないためである。 したがって、古典レベルでよく定義された従来のqbmモデルは、実際の量子物理世界ではほとんど実現されない。 物理系における一般化QBMの物理的実現について議論し、初期疎結合状態と初期相関状態の両方に対して正確なマスター方程式を導出する。 従来のQBMモデルのHu-Paz-Zhangマスター方程式を特別な場合として再現する。 再正規化ブラウン粒子ハミルトニアンは、自然に誘導される全ての環境状態が運動量依存ポテンシャルを追跡し、qbmハミルトニアンに運動量依存結合を含める必要性も示している。 hu-paz-zhang master方程式では、そのような再正規化ポテンシャルは、正しい再正規化ハミルトニアンが見つからないように、誤って置き換わる。 初期分離状態と初期相関状態の両方の正確なマスター方程式により、Hu-Paz-Zhangマスター方程式の長期問題である初期ヨルトに関する問題も再検討される。 いわゆる「初期ジョート(initial jolt)」は、初期分離されたシステム環境状態の使用による人工的な効果と考えられており、初期分離状態とは無関係であることがわかった。 一般化されたQBMの新しい正確なマスター方程式は、フォトニクス量子コンピューティングにも応用できる可能性がある。

In this paper, we generalize the quantum Brownian motion to include momentum-dependent system-environment couplings. The conventional QBM model corresponds to the spacial case $W_k = V_k$. The generalized QBM is more complicated but the generalization is necessary. This is because the particle transition and the pair production between the system and the environment represent two very different physical processes, and usually cannot have the same coupling strengths. Thus, the conventional QBM model, which is well-defined at classical level, is hardly realized in real quantum physical world. We discuss the physical realizations of the generalized QBM in different physical systems, and derive its exact master equation for both the initial decoupled states and initial correlated states. The Hu-Paz-Zhang master equation of the conventional QBM model is reproduced as a special case. We find that the renormalized Brownian particle Hamiltonian after traced out all the environmental states induced naturally a momentum-dependent potential, which also shows the necessity of including the momentum-dependent coupling in the QBM Hamiltonian. In the Hu-Paz-Zhang master equation, such a renormalized potential is misplaced so that the correct renormalization Hamiltonian has not been found. With the exact master equation for both the initial decoupled and and initial correlated states, the issues about the initial jolt which is a long-stand problem in the Hu-Paz-Zhang master equation is also re-examined. We find that the so-called "initial jolt", which has been thought to be an artificial effect due to the use of the initial decoupled system-environment states, has nothing do to with the initial decoupled state. The new exact master equation for the generalized QBM also has the potential applications to photonics quantum computing.
翻訳日:2023-02-16 03:45:04 公開日:2022-04-21
# フィッシャー情報に基づく量子チャネルの不整合性基準

A Fisher information-based incompatibility criterion for quantum channels ( http://arxiv.org/abs/2204.09963v1 )

ライセンス: Link先を確認
Qing-Hua Zhang and Ion Nechita(参考訳) 我々は,(量子)フィッシャー情報の概念に基づいて,量子チャネルに対する新しい不適合性基準を導入する。 我々の構成は、hが進める量子測定の同様の基準に基づいている。 ~Zhu。 次に、異なるシナリオで非互換性基準のパワーを研究する。 まず、2つのschurチャネルの非互換性に対する最初の解析条件を証明した。 そこで本研究では,非対称量子クローニングの既知結果と比較し,非偏極チャネルのタプルの不整合構造について検討した。

We introduce a new incompatibility criterion for quantum channels, based on the notion of (quantum) Fisher information. Our construction is based on a similar criterion for quantum measurements put forward by H.~Zhu. We then study the power of the incompatibility criterion in different scenarios. Firstly, we prove the first analytical conditions for the incompatibility of two Schur channels. Then, we study the incompatibility structure of a tuple of depolarizing channels, comparing the newly introduced criterion with the known results from asymmetric quantum cloning.
翻訳日:2023-02-16 03:44:37 公開日:2022-04-21
# 古典的後処理による量子支援LDPCデコードについて

On Quantum-Assisted LDPC Decoding Augmented with Classical Post-Processing ( http://arxiv.org/abs/2204.09940v1 )

ライセンス: Link先を確認
Aditya Das Sarma, Utso Majumder, Vishnu Vaidya, M Girish Chandra, A Anil Kumar, Sayantan Pramanik(参考訳) 現在および未来的な量子コンピュータを用いて、異なる領域の難しい問題を解くことは、現在、主要な取り組みの1つとなっている。 もちろん、量子コンピュータと古典コンピューターの両方が協力して動く必要不可欠なソリューションにたどり着くのはもちろんだ。 低密度パリティチェック(LDPC)符号が引き続き普及し,その復号化が進む中で,本論文では,D-Wave 2000Q量子アニーラを用いた準非拘束バイナリ最適化(QUBO)として後者を考察する。 Annealerの出力は、単純な最小距離デコードを使用して古典的に後処理され、パフォーマンスがさらに向上する。 本実装は,シミュレーション・アニーリング (sa) と信条伝播 (bp) により得られたデコード性能と,従来型コンピュータとのデコード性能を比較比較検討した。 その結果、アニール(シミュレーションと量子の両方)の実装はBP復号よりも優れていることが示され、ブロック長の増加とともに利点が顕著になることが示された。 ビット誤り率 (BER) とフレーム誤り率 (FER) は、様々なコードワードの長さに持続する有用なSNR範囲において、シミュレートされたアニールと量子アニールに観察される。

Utilizing present and futuristic Quantum Computers to solve difficult problems in different domains has become one of the main endeavors at this moment. Of course, in arriving at the requisite solution both quantum and classical computers work in conjunction. With the continued popularity of Low Density Parity Check (LDPC) codes and hence their decoding, this paper looks into the latter as a Quadratic Unconstrained Binary Optimization (QUBO) and utilized D-Wave 2000Q Quantum Annealer to solve it. The outputs from the Annealer are classically post-processed using simple minimum distance decoding to further improve the performance. We evaluated and compared this implementation against the decoding performance obtained using Simulated Annealing (SA) and belief propagation (BP) decoding with classical computers. The results show that implementations of annealing (both simulated and quantum) are superior to BP decoding and suggest that the advantage becomes more prominent as block lengths increase. Reduced Bit Error Rate (BER) and Frame Error Rate (FER) are observed for simulated annealing and quantum annealing, at useful SNR range - a trend that persists for various codeword lengths.
翻訳日:2023-02-16 03:44:30 公開日:2022-04-21
# トポロジカルゼロバイアスコンダクタンスピークへのHoning in a Topological zero-bias conductance peak

Honing in on a topological zero-bias conductance peak ( http://arxiv.org/abs/2204.09925v1 )

ライセンス: Link先を確認
Subhajit Pal, Colin Benjamin(参考訳) トポロジカル超伝導体におけるマヨラナ境界状態の一般的な記号は、高さ2e^2/h$のゼロエネルギー伝導ピークである。 しかし、同じ高さの同様のゼロエネルギー伝導ピークは、非位相的な理由から生じることもある。 ここで、これらの自明で位相的なゼロエネルギーコンダクタンスピークは、状態のゼロエネルギー局所密度と状態の局所磁化密度によって区別できることを示す。 状態のゼロエネルギー局所密度は、自明なゼロバイアス伝導ピークに対して有限周期の振動を示す。 対照的に、これらの振動はトポロジカルゼロバイアス伝導ピークのために消える。 一方、状態のゼロエネルギー局所磁化密度は、自明なゼロバイアス伝導ピークに対して周期的な振動を示す一方で、位相的ZBCPでは消滅する。 その結果、状態のゼロエネルギー局所密度と状態の局所磁化密度は、自明なゼロエネルギーコンダクタンスピークと位相的ゼロエネルギーコンダクタンスピークを区別する実験プローブとして使用できることが示唆された。

A popular signature of Majorana bound states in topological superconductors is the zero-energy conductance peak with a height of $2e^2/h$. However, a similar zero energy conductance peak with almost the same height can also arise due to non-topological reasons. Here we show that these trivial and topological zero energy conductance peaks can be distinguished via the zero energy local density of states and local magnetization density of states. We find that the zero-energy local density of states exhibits oscillations with a finite period for a trivial zero-bias conductance peak. In contrast, these oscillations disappear for the topological zero-bias conductance peak. On the other hand, zero energy local magnetization density of states shows a periodic oscillation for trivial zero-bias conductance peak, while for topological ZBCP, they vanish. Our results suggest that zero-energy local density of states and local magnetization density of states can be used as an experimental probe to distinguish trivial zero energy conductance peak from topological zero energy conductance peak.
翻訳日:2023-02-16 03:44:07 公開日:2022-04-21
# マヨアナ量子ビットを持つ位相ジョセフソン接合の輸送理論

Transport theory for topological Josephson junctions with a Majorana qubit ( http://arxiv.org/abs/2204.09923v1 )

ライセンス: Link先を確認
Zhi Wang, Jia-Jin Feng, Zhao Huang, Qian Niu(参考訳) 我々は、Majorana qubit、Josephson相、および散逸過程の相互作用を包括的に含む顕微鏡的ハミルトニアンから始まるトポロジカルジャンクションの輸送に関する半古典理論を構築した。 経路積分法により、ジョセフソン位相とマヨアナ量子ビットの時間発展を計算するのに使用できる運動の半古典方程式の集合を導出する。 方程式では、量子ビット誘導電荷ポンプ、効果的なスピン軌道トルク、ギルバート減衰などのリッチな力学現象が示される。 これらの動的現象が接合の輸送特性に及ぼす影響を実証する。 この理論をジャンクションのシャピロステップの研究に適用し、マヨラナ量子ビットの動的フィードバックによる最初のシャピロステップの抑制を求める。

We construct a semiclassical theory for the transport of topological junctions starting from a microscopic Hamiltonian that comprehensively includes the interplay among the Majorana qubit, the Josephson phase, and the dissipation process. With the path integral approach, we derive a set of semiclassical equations of motion that can be used to calculate the time evolution of the Josephson phase and the Majorana qubit. In the equations we reveal rich dynamical phenomena such as the qubit induced charge pumping, the effective spin-orbit torque, and the Gilbert damping. We demonstrate the influence of these dynamical phenomena on the transport signatures of the junction. We apply the theory to study the Shapiro steps of the junction, and find the suppression of the first Shapiro step due to the dynamical feedback of the Majorana qubit.
翻訳日:2023-02-16 03:43:49 公開日:2022-04-21
# 遷移作用素による多ビット系における自然崩壊の記述

Transition operator approach for the description of spontaneous decay in a multi-qubit system ( http://arxiv.org/abs/2204.09902v1 )

ライセンス: Link先を確認
Ya. S. Greenberg and O. A. Chuikin(参考訳) 本稿では1次元導波路における多ビット系の理論的記述に遷移作用素法を用いることについて議論する。 n-量子ビット系では一般的な計算が行われ、1 と 2 つの量子ビットの自発的崩壊の場合に適用された。 このような系における遷移の確率と放射スペクトルは、詳細に研究されている。

In this paper we discuss the use of the transition operator method for the theoretical description of a multi-qubit system in a one-dimensional waveguide. A general calculation has been performed for the N-qubit system, which was then applied to the case of spontaneous decay for one and two qubits. The probabilities of transitions in such systems, as well as the emission spectra, are investigated in detail.
翻訳日:2023-02-16 03:43:19 公開日:2022-04-21
# 全自由度フォトニック結晶空間光変調器

A full degree-of-freedom photonic crystal spatial light modulator ( http://arxiv.org/abs/2204.10302v1 )

ライセンス: Link先を確認
Christopher L. Panuski, Ian R. Christen, Momchil Minkov, Cole J. Brabec, Sivan Trajtenberg-Mills, Alexander D. Griffiths, Jonathan J.D. McKendry, Gerald L. Leake, Daniel J. Coleman, Cung Tran, Jeffrey St Louis, John Mucci, Cameron Horvath, Jocelyn N. Westwood-Bachman, Stefan F. Preble, Martin D. Dawson, Michael J. Strain, Michael L. Fanto, Dirk R. Englund(参考訳) 光学場の完全な複雑さを損なうには、空間と時間の領域における全ての自由度を完全に制御する必要がある -- 現在の空間光変調器(SLM)、活動的準曲面、光位相アレイのオープンな目標である。 ここでは、4つの鍵となる進歩により、プログラマブルなフォトニッククリスタルキャビティアレイによってこの課題を解決する。 (i)逆設計による高精細マイクロキャビティへの単位近傍垂直結合 (ii)300mmフルウェーハ加工を最適化したスケーラブルな製造 (iii)自動閉ループ「ホログラフィックトリミング」を用いたピコメーター・精密共鳴アライメント (iv)高速マイクロledアレイによる平面外キャビティ制御 それぞれを組み合わせて,64-共振器,2次元SLM,ナノ秒,フェムトジュールオーダースイッチングのほぼ完全な時空間制御を示す。 空間及び帯域幅の限界付近で同時に波長スケールモードを動作させることにより、この研究はマルチモード光制御の基本的限界において新しいプログラム可能性の体系を開放する。

Harnessing the full complexity of optical fields requires complete control of all degrees-of-freedom within a region of space and time -- an open goal for present-day spatial light modulators (SLMs), active metasurfaces, and optical phased arrays. Here, we solve this challenge with a programmable photonic crystal cavity array enabled by four key advances: (i) near-unity vertical coupling to high-finesse microcavities through inverse design, (ii) scalable fabrication by optimized, 300 mm full-wafer processing, (iii) picometer-precision resonance alignment using automated, closed-loop "holographic trimming", and (iv) out-of-plane cavity control via a high-speed micro-LED array. Combining each, we demonstrate near-complete spatiotemporal control of a 64-resonator, two-dimensional SLM with nanosecond- and femtojoule-order switching. Simultaneously operating wavelength-scale modes near the space- and time-bandwidth limits, this work opens a new regime of programmability at the fundamental limits of multimode optical control.
翻訳日:2023-02-16 03:36:10 公開日:2022-04-21
# 制限されたqubit状態とqutrit状態の放送

Broadcast of a restricted set of qubit and qutrit states ( http://arxiv.org/abs/2204.10272v1 )

ライセンス: Link先を確認
Mark Hillery, J\'anos A. Bergou, Tzu-Chieh Wei, Siddhartha Santa, and Vladimir Malinovsky(参考訳) 閉包定理は、未知の状態が複数の受信機に分布することを禁ずる。 しかし、送信者が状態を知っている場合、その状態が制限された可能性セットから選択される場合、リモート状態準備と呼ばれる手順を使用して状態をブロードキャストすることができる。 ここでは,ブロッホ球の赤道に制限されたキュービットの状態を任意の数の受信機に送るのに使用できる遠隔状態準備プロトコルについて検討する。 絡み合いコストは、同じタスクを達成するためにテレポーテーションを使用するコストよりも低い。 2つの受信機に未知のキュービット状態を送り、異なるキュービット状態を2つの受信機に送信し、2つの受信機にキュービット状態を送信する。 最後に,これらのプロトコルの応用について述べる。

The no-cloning theorem forbids the distribution of an unknown state to more than one receiver. However, if the sender knows the state, and the state is chosen from a restricted set of possibilities, a procedure known as remote state preparation can be used to broadcast a state. Here we examine a remote state preparation protocol that can be used to send the state of a qubit, confined to the equator of the Bloch sphere, to an arbitrary number of receivers. The entanglement cost is less than that of using teleportation to accomplish the same task. We present a number of variations on this task, probabilistically sending an unknown qubit state to two receivers, sending different qubit states to two receivers, and sending qutrit states to two receivers. Finally, we discuss some applications of these protocols.
翻訳日:2023-02-16 03:35:32 公開日:2022-04-21
# 超臨界結合を持つ逆二乗特異ポテンシャルに対するJ行列散乱法II 規則化

J-matrix method of scattering for inverse-square singular potentials with supercritical coupling II. Regularization ( http://arxiv.org/abs/2204.10267v1 )

ライセンス: Link先を確認
Abdulaziz D. Alhaidari, Hocine Bahlouli, S. M. Al-Marzoug, Carlos P. Aparicio(参考訳) 本論文は, 前回の論文[Journal xx, xxxxx (2022)]の継続である。 ここで、逆二乗特異ポテンシャルを正則化することにより、同じj行列理論を再構成する。 目的は、理論における計算の急速な収束を回復し、従来の三対角表現を回復することである。 部分的に成功している。

This paper is a continuation of the previous one [Journal xx, xxxxx (2022)]. Here, we reformulate the same J-matrix theory by regularizing the inverse square singular potential. The objective is to restore rapid convergence of the calculation in the theory and recover the conventional tridiagonal representation. Partial success is achieved.
翻訳日:2023-02-16 03:35:16 公開日:2022-04-21
# 量子境界条件の形状を聴く

Hearing the shape of a quantum boundary condition ( http://arxiv.org/abs/2204.10248v1 )

ライセンス: Link先を確認
Giuliano Angelone, Paolo Facchi, Giuseppe Marmo(参考訳) 我々は、接合を持つ環に閉じ込められた自由量子粒子の等スペクトル性問題を研究し、接合における境界条件の観点から、対応するハミルトニアンの自己随伴実現を解析する。 特に、スペクトル関数の観点でエネルギースペクトルを特徴づけることで、自己随伴現実化を2つのクラスに分類し、等スペクトルハミルトニアンのすべての族を識別する。 これらの2つのクラスはパリティの作用(つまり空間反射)によって識別され、議論において中心的な役割を果たす。

We study the isospectrality problem for a free quantum particle confined in a ring with a junction, analyzing all the self-adjoint realizations of the corresponding Hamiltonian in terms of a boundary condition at the junction. In particular, by characterizing the energy spectrum in terms of a spectral function, we classify the self-adjoint realizations in two classes, identifying all the families of isospectral Hamiltonians. These two classes turn out to be discerned by the action of parity (i.e. space reflection), which plays a central role in our discussion.
翻訳日:2023-02-16 03:35:12 公開日:2022-04-21
# GHZライクな状態に基づく新しい二者半量子鍵分配プロトコル

A novel two-party semiquantum key distribution protocol based on GHZ-like states ( http://arxiv.org/abs/2204.10088v1 )

ライセンス: Link先を確認
Tian-Jie Xu, Tian-Yu Ye(参考訳) 本稿では,GHZライクな1種類の状態のみを用いることで,新しい2パーティ半量子鍵分配(SQKD)プロトコルを提案する。 提案したSQKDプロトコルは、無制限の量子能力を持つ1つの量子パーティーと、制限された量子能力を持つ1つの古典的なパーティの間に共有される秘密鍵を作成することができる。 提案したSQKDプロトコルは、アダマールゲートや量子エンタングルメントスワップを必要としない。 詳細なセキュリティ分析により、提案されたSQKDプロトコルは、トロイの木馬攻撃、絡み合い対策攻撃、二重CNOT攻撃、測度回帰攻撃、インターセプト回帰攻撃など、外部の盗難者からの様々な有名な攻撃に抵抗できることが判明した。

In this paper, we propose a novel two-party semiquantum key distribution (SQKD) protocol by only employing one kind of GHZ-like state. The proposed SQKD protocol can create a private key shared between one quantum party with unlimited quantum abilities and one classical party with limited quantum abilities without the existence of a third party. The proposed SQKD protocol doesn't need the Hadamard gate or quantum entanglement swapping. Detailed security analysis turns out that the proposed SQKD protocol can resist various famous attacks from an outside eavesdropper, such as the Trojan horse attacks, the entangle-measure attack, the double CNOT attacks, the measure-resend attack and the intercept-resend attack.
翻訳日:2023-02-16 03:35:02 公開日:2022-04-21
# 波長可変周波数ビン多モード集光状態

Tunable frequency-bin multi-mode squeezed states of light ( http://arxiv.org/abs/2204.10079v1 )

ライセンス: Link先を確認
Christian Drago and Agata M. Bra\'nczyk(参考訳) スクイーズ状態は量子状態の多彩なクラスであり、量子コンピューティングから高精度検出まで幅広い応用がある。 周波数ビンに符号化された複数モードの光の調整可能な圧縮状態を生成する方法を提案する。 本手法はパルス形ポンプ場により励起される自発パラメトリックダウンコンバージョンを用いる。 マルチモードスクイーズ状態は1回のパスで発生し、ポンプフィールドの特性を調整してリアルタイムに調整することができる。 新しい自由度でエンコードされた新しい量子状態の探索は、新しい量子応用を発見するための実りある道となり得る。

Squeezed states are a versatile class of quantum states with applications ranging from quantum computing to high-precision detection. We propose a method for generating tunable squeezed states of light with multiple modes encoded in frequency bins. Our method uses custom-engineered spontaneous parametric downconversion pumped by a pulse-shaped pump field. The multi-mode squeezed states are generated in a single pass and can be tuned in real time by adjusting the properties of the pump field. Exploring new quantum states of light, encoded in new degrees of freedom, can be a fruitful path toward discovering new quantum applications.
翻訳日:2023-02-16 03:34:46 公開日:2022-04-21
# 熱光による浮遊ナノ粒子の運動加熱の測定

Measurement of the motional heating of a levitated nanoparticle by thermal light ( http://arxiv.org/abs/2204.10042v1 )

ライセンス: Link先を確認
A. T. M. Anishur Rahman and P. F. Barker(参考訳) 超発光ダイオードによる熱光源による真空中を浮遊するシリカナノ粒子の光子誘起加熱の測定について報告する。 3つのトラップ軸に沿ったナノ球運動の加熱はガス圧と2つの粒子径の関数として測定された。 加熱速度は、レーザーによって浮遊する際に同じ球のより低い再加熱と比較された。 測定されたトラップ加熱速度は、熱光子の再コイルから期待されるはるかに大きな加熱速度に支配される。

We report on measurements of photon induced heating of silica nanospheres levitated in vacuum by a thermal light source formed by a superluminescent diode. Heating of the nanospheres motion along the three trap axes was measured as a function of gas pressure and for two particle sizes. Heating rates were also compared with the much lower reheating of the same sphere when levitated by a laser. We find the measured trap heating rates are dominated by the much larger heating rates expected from the recoil of thermal photons.
翻訳日:2023-02-16 03:34:10 公開日:2022-04-21
# 理想検出器アレイを用いた量子計測プロセス

Quantum measurement process with an ideal detector array ( http://arxiv.org/abs/2205.02785v1 )

ライセンス: Link先を確認
Michael Zirpel(参考訳) 有限固有値スペクトルを持つ観測器は、適切なユニタリ変換を実現するマルチポート装置と、各検出器が観測可能な1つの値の指標として動作する検出器機器の配列を用いて測定することができる。 フォン・ノイマンの量子力学的測定過程の枠組みにおけるこの構成の研究は驚くべき結果である: 測定された系と検出器アレイが崩壊することなく相互作用した後、正確に1つの検出器が検出を示す。 それぞれの検出器は0か1の検出を示しており、重ね合わせはできない。

Any observable with finite eigenvalue spectrum can be measured using a multiport apparatus realizing an appropriate unitary transformation and an array of detector instruments, where each detector operates as an indicator of one possible value of the observable. The study of this setup in the frame of von Neumann's quantum mechanical measurement process has a remarkable result: already after the interaction of the measured system with the detector array without collapse, exactly one detector is indicating a detection. Each single detector indicates either 0 or 1 detection, and no superposition can be attributed to it.
翻訳日:2023-02-16 03:27:55 公開日:2022-04-21
# 量子真空摩擦のエネルギー論 ii)双極子揺らぎと磁場揺らぎ

Energetics of quantum vacuum friction. II: Dipole fluctuations and field fluctuations ( http://arxiv.org/abs/2204.10886v1 )

ライセンス: Link先を確認
Xin Guo, Kimball A. Milton, Gerard Kennedy, William P. McNulty, Nima Pourtolami, Yang Li(参考訳) arXiv:2108.01539の2番目の論文として、本質的な散逸性粒子上の量子真空摩擦について論じる。 摩擦は磁場のゆらぎだけでなく、粒子に固有の双極子ゆらぎからも生じる。 その結果、散逸粒子は非平衡定常状態(ness)から外れ、内部エネルギーを失うか得ることができる。 粒子の温度が特別なNESS温度と等しい場合のみ、粒子はNESSに入る。 まず, 粒子の温度を放射温度と粒子の速度の関数として与えるネッセンス条件を導出する。 NESS条件を適用すれば、NESSにおける量子真空摩擦の式が得られる。 ネッセンス量子真空摩擦は常に負定値であり、従って真の抵抗である。 ネス温度と量子真空摩擦は様々なモデルで数値計算される。 ネッセンスからすると、量子真空摩擦力はもはや放射の残りのフレームに明確なサインを持たないにもかかわらず、粒子の移動を維持するのに必要な外部力は粒子の運動と同じ方向にあるはずである。 このことは、真空エネルギーを有用な機械作業に変換する永久運動機械を作る可能性を排除している。 また, 粒子の融点温度からの温度のずれは, 粒子が脱落した後にネオンに戻るように, 粒子が内部エネルギーを失うか得ていることがわかった。 これにより、粒子の温度を実験的に測定することで、これらの量子真空摩擦効果の実現可能なシグネチャとなる。

As a second paper in series with arXiv:2108.01539, we discuss here quantum vacuum friction on an intrinsically dissipative particle. The friction arises not only from the field fluctuations but also from the dipole fluctuations intrinsic to the particle. As a result, the dissipative particle can be out of the nonequilibrium steady state (NESS), where it loses or gains internal energy. Only if the temperature of the particle equals a special NESS temperature will the particle be in NESS. We first derive the NESS conditions which give the NESS temperature of the particle as a function of the radiation temperature and the velocity of the particle. Imposing the NESS conditions, we then obtain an expression for the quantum vacuum friction in NESS. The NESS quantum vacuum friction is shown to be always negative definite, therefore a true drag. The NESS temperature and quantum vacuum friction are calculated numerically for various models. Out of NESS, even though the quantum vacuum frictional force no longer has a definite sign in the rest frame of the radiation, we find the external force needed to keep the particle moving must be in the same direction as the motion of the particle. This then excludes the possibility of making a perpetual motion machine, which could convert the vacuum energy into useful mechanical work. In addition, we find that the deviation of the temperature of the particle from its NESS temperature causes the particle to lose or gain internal energy in such a way that the particle would return to NESS after deviating from it. This enables experimental measurements of the NESS temperature of the particle to serve as a feasible signature for these quantum vacuum frictional effects.
翻訳日:2023-02-16 03:27:44 公開日:2022-04-21
# 相対論的波動方程式における逆流

Backflow in relativistic wave equations ( http://arxiv.org/abs/2204.10880v1 )

ライセンス: Link先を確認
Iwo Bialynicki-Birula, Zofia Bialynicka-Birula and Szymon Augustynowicz(参考訳) 多くの著者による主張とは裏腹に、バックフローは古典的な効果ではないことを示す。 バックフローは、量子方程式と古典方程式の解の特徴的な特徴である。 逆流現象が明らかな線形化重力のディラック方程式、マクスウェル方程式、方程式の簡単な解を提案する。 この研究では、相対論的理論におけるバックフローを記述するが、この現象はあらゆる種類の波動方程式(量子方程式と古典方程式)の解で起こりうる。

We show that, contrary to the statements made by many authors, the backflow is not a nonclassical effect. The backflow is a characteristic feature of solutions of the wave equations: quantum and classical. We present simple solutions of the Dirac equation, Maxwell equations and equations of linearized gravity where the backflow phenomenon is clearly seen. In this work we describe backflow in relativistic theories but this phenomenon can occur in the solutions of all kinds of wave equations: quantum and classical.
翻訳日:2023-02-16 03:27:19 公開日:2022-04-21
# 複雑な量子状態を生成する共鳴半導体メタサーフェス

Resonant Semiconductor Metasurfaces for Generating Complex Quantum States ( http://arxiv.org/abs/2204.10371v1 )

ライセンス: Link先を確認
Tom\'as Santiago-Cruz, Sylvain D. Gennaro, Oleg Mitrofanov, Sadhvikas Addamane, John Reno, Igal Brener, Maria V. Chekhova(参考訳) 量子状態工学(quantum state engineering)は、量子フォトニック技術の基盤であり、1つまたは2つのポンプ光子が光子対に崩壊する自発的なパラメトリックダウンコンバージョンと4波混合に依存している。 これらの非線形効果は共に、参加する光子に対する運動量保存(すなわち位相マッチング)を必要とし、結果として生じる量子状態の汎用性を強く制限する。 非線形メタサーフェスはそのサブ波長の厚さのため、この制約を緩和し、量子状態工学の境界を広げる。 ここでは、高品質共鳴による半導体メタ表面の自発的パラメトリックダウンコンバージョンにより、絡み合った光子を生成する。 量子真空場を拡大することにより、我々の準曲面は、複数の波長で狭い共鳴帯域内の光子対の放出を増加させる。 緩和された運動量保存のため、同じ共鳴は事実上あらゆるエネルギーのポンプ光子からの光子対生成をサポートする。 これにより、複雑な周波数多重量子状態、特にクラスター状態を生成することができる。 量子状態工学におけるメタサーフェスの多機能利用を実証した。

Quantum state engineering, the cornerstone of quantum photonic technologies, mainly relies on spontaneous parametric down-conversion and four-wave mixing, where one or two pump photons decay into a photon pair. Both these nonlinear effects require momentum conservation (i.e., phase-matching) for the participating photons, which strongly limits the versatility of the resulting quantum states. Nonlinear metasurfaces, due to their subwavelength thickness, relax this constraint and extend the boundaries of quantum state engineering. Here, we generate entangled photons via spontaneous parametric down-conversion in semiconductor metasurfaces with high-quality resonances. By enhancing the quantum vacuum field, our metasurfaces boost the emission of photon pairs within narrow resonance bands at multiple selected wavelengths. Due to the relaxed momentum conservation, the same resonances support photon pair generation from pump photons of practically any energy. This enables the generation of complex frequency-multiplexed quantum states, in particular cluster states. Our results demonstrate the multifunctional use of metasurfaces for quantum state engineering.
翻訳日:2023-02-16 03:26:57 公開日:2022-04-21
# 局所数学とスケーリング分野:局所物理学と宇宙論への影響

Local mathematics and scaling field: effects on local physics and on cosmology ( http://arxiv.org/abs/2204.10369v1 )

ライセンス: Link先を確認
Paul Benioff(参考訳) この論文の起源は、yang millsによる観測から始まり、ある位置におけるイソスピン空間のどの状態がプロトンを表すのかは、別の位置のイソスピン空間のどの状態がプロトンを表すかは決定されない。 これは、異なる位置におけるベクトル空間間のユニタリゲージ変換作用素、$U(y,x)$の存在によって説明される。 この作用素は異なる位置におけるベクトル空間に対する同じ状態の概念を定義する。 もし$\psi$ が x$ のベクトル空間の状態であれば、$u(y,x)\psi$ は、ベクトル空間における$y$と同じ状態である。 ベクトル空間は、その公理的記述にスカラー場を含む。 これらはノルムやベクトルスカラー乗算による閉包などとして現れる。 これは局所ベクトル空間と大域スカラー場という矛盾につながる。 ここでは、グローバルスカラーフィールドをローカルスカラーフィールドに置き換えることで、この衝突を取り除く。 これらは $\bar{s}_{x}$ で表され、ここで $x$ はユークリッド空間や時空の任意の位置である。 ここで、$S$は異なる種類の数(自然数、整数、有理数、実数、複素数)を表す。 ベクトル空間とスカラー場とヤンミルズ観測の関連性は、数に対するヤンミルズ観測とは何を意味するのかという疑問を提起する。 答えは、数と数の意味または値という2つの異なる概念が、通常の数学の用法で混ざり合っていることである。 これら2つの概念は異なる。

The origin of this paper starts with the observation by Yang Mills that what state represents a proton in isospin space at one location does not determine what state represents a proton in isospin space at another location. This is accounted for by the presence of a unitary gauge transformation operator, $U(y,x)$, between vector spaces at different locations. This operator defines the notion of same states for vector spaces at different locations. If $\psi$ is a state in a vector space at $x$ then $U(y,x)\psi$ is the same state in the vector space at $y$. Vector spaces include scalar fields in their axiomatic description. These appear as norms, closure under vector scalar multiplication, etc. This leads to a conflict: local vector spaces and global scalar fields. Here this conflict is removed by replacing global scalar fields with local scalar fields. These are represented by $\bar{S}_{x}$ where $x$ is any location in Euclidean space or space time. Here $S$ represents the different type of numbers, (natural, integers, rational, real, and complex). The association of scalar fields with vector spaces and the Yang Mills observation raises the question, What corresponds to the Yang Mills observation for numbers? The answer is that two different concepts, number and number meaning or value, are conflated in the usual use of mathematics. These two concepts are distinct.
翻訳日:2023-02-16 03:26:42 公開日:2022-04-21
# 最大絡み合い速度は双対ユニタリティーを意味する

Maximal entanglement velocity implies dual unitarity ( http://arxiv.org/abs/2204.10341v1 )

ライセンス: Link先を確認
Tianci Zhou, Aram W. Harrow(参考訳) グローバル量子クエンチは、局所ユニタリゲートを持つ量子回路によってモデル化することができる。 一般に、エンタングルメントは、光円錐の成長によって上界のエンタングルメント速度によって与えられる速度で直線的に成長する。 空間と時間方向を交換する場合、最大速度を達成するユニタリ相互作用はユニタリでなければならないことを示し、これは双対ユニタリティと呼ばれる性質である。 近似最大絡み合い速度は、近似二重ユニタリ性も意味する。 さらに、最大エンタングルメント速度は、常に特定の動的エンタングルメントパターンを伴い、既知のいくつかの正確な可解モデルのより単純な解析をもたらすことを示す。

A global quantum quench can be modeled by a quantum circuit with local unitary gates. In general, entanglement grows linearly at a rate given by entanglement velocity, which is upper bounded by the growth of the light cone. We show that the unitary interactions achieving the maximal rate must remain unitary if we exchange the space and time directions -- a property known as dual unitarity. Our results are robust: approximate maximal entanglement velocity also implies approximate dual unitarity. We further show that maximal entanglement velocity is always accompanied by a specific dynamical pattern of entanglement, which yields simpler analyses of several known exactly solvable models.
翻訳日:2023-02-16 03:26:15 公開日:2022-04-21
# 探索問題に対する量子近似最適化アルゴリズムのGrover Searchによる代替演算子アンザツ

Grover Search Inspired Alternating Operator Ansatz of Quantum Approximate Optimization Algorithm for Search Problems ( http://arxiv.org/abs/2204.10324v1 )

ライセンス: Link先を確認
Chen-Fu Chiang and Paul M. Alsing(参考訳) 我々は,AGS(Adiabatic Grover Search)とAQC(Adiabatic Quantum Computing)の2つの計算フレームワーク間のマッピングを用いて,Groverの探索アルゴリズムをAQCレギュレーションに変換する。 次に,量子近似最適化アルゴリズム (qaoa) における変分パラメータの値を得るために, ags のスケジュール依存ハミルトニアンにトロタライズを適用する。 目標は、反復的な機械学習プロセスなしで、グローバー探索アルゴリズムの最適動作をqaoaフレームワークに導入することである。

We use the mapping between two computation frameworks , Adiabatic Grover Search (AGS) and Adiabatic Quantum Computing (AQC), to translate the Grover search algorithm into the AQC regime. We then apply Trotterization on the schedule-dependent Hamiltonian of AGS to obtain the values of variational parameters in the Quantum Approximate Optimization Algorithm (QAOA) framework. The goal is to carry the optimal behavior of Grover search algorithm into the QAOA framework without the iterative machine learning processes.
翻訳日:2023-02-16 03:25:44 公開日:2022-04-21
# 知覚システムに対するディジタル・物理逆入力のリアルタイム検出

Real-Time Detectors for Digital and Physical Adversarial Inputs to Perception Systems ( http://arxiv.org/abs/2002.09792v2 )

ライセンス: Link先を確認
Yiannis Kantaros, Taylor Carpenter, Kaustubh Sridhar, Yahan Yang, Insup Lee, James Weimer(参考訳) ディープニューラルネットワーク(DNN)モデルは、敵のデジタルおよび物理的攻撃に対して脆弱であることが証明されている。 本稿では,DNNに基づく認識システムに対する,双方の逆入力に対する新たな攻撃・データセット非依存・リアルタイム検出手法を提案する。 特に、提案された検出器は、逆像が特定のラベル不変変換に敏感であるという観測に依存する。 具体的には、画像が逆向きに操作されているかどうかを判定するために、所定の入力画像に対する対象分類器の出力が、調査中の画像の変換版を供給した後、大きく変化するかどうかを検知する。 さらに,提案する検出器は実行時と設計時の両方で計算的に軽量であり,大規模な画像領域を含むリアルタイムアプリケーションに適していることを示す。 そこで我々は,imagenetにおける提案手法の有効性を実証する。この課題は,関連する防御の大部分や,リアルタイムの自律的アプリケーションで遭遇する可能性のある物理的に攻撃される交通標識に対して,計算的に困難である。 最後に,クリーンかつ物理的な交通標識画像を含む,AdvNetと呼ばれる最初の敵対的データセットを提案する。 MNIST、CIFAR10、ImageNet、AdvNetのデータセットに関する大規模な比較実験は、VisionGuardがスケーラビリティと検出性能で既存のディフェンスを上回っていることを示している。 また,攻撃対象の認識ベースDNNを備えた移動体上でのフィールドテストデータに対して,提案した検出器の評価を行った。

Deep neural network (DNN) models have proven to be vulnerable to adversarial digital and physical attacks. In this paper, we propose a novel attack- and dataset-agnostic and real-time detector for both types of adversarial inputs to DNN-based perception systems. In particular, the proposed detector relies on the observation that adversarial images are sensitive to certain label-invariant transformations. Specifically, to determine if an image has been adversarially manipulated, the proposed detector checks if the output of the target classifier on a given input image changes significantly after feeding it a transformed version of the image under investigation. Moreover, we show that the proposed detector is computationally-light both at runtime and design-time which makes it suitable for real-time applications that may also involve large-scale image domains. To highlight this, we demonstrate the efficiency of the proposed detector on ImageNet, a task that is computationally challenging for the majority of relevant defenses, and on physically attacked traffic signs that may be encountered in real-time autonomy applications. Finally, we propose the first adversarial dataset, called AdvNet that includes both clean and physical traffic sign images. Our extensive comparative experiments on the MNIST, CIFAR10, ImageNet, and AdvNet datasets show that VisionGuard outperforms existing defenses in terms of scalability and detection performance. We have also evaluated the proposed detector on field test data obtained on a moving vehicle equipped with a perception-based DNN being under attack.
翻訳日:2022-12-29 10:00:20 公開日:2022-04-21
# データサンプルを超えて:微分ネットワーク推定と科学的知識の整合

Beyond Data Samples: Aligning Differential Networks Estimation with Scientific Knowledge ( http://arxiv.org/abs/2004.11494v2 )

ライセンス: Link先を確認
Arshdeep Sekhon, Zhe Wang, Yanjun Qi(参考訳) 2つの文脈間の差分統計依存ネットワークを学習することは、多くの実生活アプリケーション、主に高次元の低サンプル状態において不可欠である。 本稿では,データサンプル以外の様々な知識源を統合可能な新しい微分ネットワーク推定器を提案する。 提案する推定器は,多数の変数に拡張可能で,鋭い漸近収束率を実現する。 広範にシミュレーションされたデータと4つの実世界の応用(ニューロイメージングと機能ゲノミクスによる3つの応用)に関する実証実験により,本手法はより優れた差分ネットワーク推定を実現し,分類などの下流タスクへのより良いサポートを提供することを示す。 本研究は, 遺伝的ネットワーク同定と脳コネクトーム変化発見において, グループ, 空間, 解剖学的知識を統合することの意義を明らかにするものである。

Learning the differential statistical dependency network between two contexts is essential for many real-life applications, mostly in the high dimensional low sample regime. In this paper, we propose a novel differential network estimator that allows integrating various sources of knowledge beyond data samples. The proposed estimator is scalable to a large number of variables and achieves a sharp asymptotic convergence rate. Empirical experiments on extensive simulated data and four real-world applications (one on neuroimaging and three from functional genomics) show that our approach achieves improved differential network estimation and provides better supports to downstream tasks like classification. Our results highlight significant benefits of integrating group, spatial and anatomic knowledge during differential genetic network identification and brain connectome change discovery.
翻訳日:2022-12-10 03:00:00 公開日:2022-04-21
# landcover.ai: 航空画像による建物、森林、水、道路の自動マッピングのためのデータセット

LandCover.ai: Dataset for Automatic Mapping of Buildings, Woodlands, Water and Roads from Aerial Imagery ( http://arxiv.org/abs/2005.02264v4 )

ライセンス: Link先を確認
Adrian Boguszewski, Dominik Batorski, Natalia Ziemba-Jankowska, Tomasz Dziedzic, Anna Zambrzycka(参考訳) 土地被覆のモニタリングと土地利用は天然資源管理において不可欠である。 自動視覚マッピングは農業、林業、公共行政にとって大きな経済的価値をもたらす。 衛星画像や航空画像とコンピュータビジョンとディープラーニングを組み合わせることで、正確な評価が可能になり、変化の検出を大幅にスピードアップすることができる。 航空画像は通常、衛星データよりも解像度の高い画像を提供し、より詳細なマッピングを可能にする。 しかし、このセグメンテーションのために作られた航空データセットがまだ不足しており、農村部では1ピクセルあたりの解像度が10センチメートル、手動の細いラベル、建物、森、水、道路などの非常に重要な環境インスタンスをカバーしている。 ここでは,セマンティックセグメンテーションのためのLandCover.aiデータセットを紹介する。 216.27 sqの画像を集めました ポーランドの農村地帯は、中央ヨーロッパの39.51平方キロメートルの国である。 解像度は50cm/ピクセル、176.76sq。 解像度25 cm/ピクセルのkmは、建物、森林、水、道路の4種類のオブジェクトに手動で注釈を付けている。 さらに,テストセット上のユニオン平均交点の85.56%を達成できる簡単なベンチマーク結果も報告した。 土地被覆の自動マッピングは比較的小さく、費用効率が良く、RGBのみのデータセットで可能であることを証明している。 データセットはhttps://landcover.ai.linuxpolska.com/で公開されている。

Monitoring of land cover and land use is crucial in natural resources management. Automatic visual mapping can carry enormous economic value for agriculture, forestry, or public administration. Satellite or aerial images combined with computer vision and deep learning enable precise assessment and can significantly speed up change detection. Aerial imagery usually provides images with much higher pixel resolution than satellite data allowing more detailed mapping. However, there is still a lack of aerial datasets made for the segmentation, covering rural areas with a resolution of tens centimeters per pixel, manual fine labels, and highly publicly important environmental instances like buildings, woods, water, or roads. Here we introduce LandCover.ai (Land Cover from Aerial Imagery) dataset for semantic segmentation. We collected images of 216.27 sq. km rural areas across Poland, a country in Central Europe, 39.51 sq. km with resolution 50 cm per pixel and 176.76 sq. km with resolution 25 cm per pixel and manually fine annotated four following classes of objects: buildings, woodlands, water, and roads. Additionally, we report simple benchmark results, achieving 85.56% of mean intersection over union on the test set. It proves that the automatic mapping of land cover is possible with a relatively small, cost-efficient, RGB-only dataset. The dataset is publicly available at https://landcover.ai.linuxpolska.com/
翻訳日:2022-12-06 14:16:52 公開日:2022-04-21
# なぜ答えないのか : 癌病理診断のための既知分類器の分類決定因子の理解

Why I'm not Answering: Understanding Determinants of Classification of an Abstaining Classifier for Cancer Pathology Reports ( http://arxiv.org/abs/2009.05094v5 )

ライセンス: Link先を確認
Sayera Dhaubhadel, Jamaludin Mohd-Yusof, Kumkum Ganguly, Gopinath Chennupati, Sunil Thulasidasan, Nicolas W. Hengartner, Brent J. Mumphrey, Eric B. Durbin, Jennifer A. Doherty, Mireille Lemieux, Noah Schaefferkoetter, Georgia Tourassi, Linda Coyle, Lynne Penberthy, Benjamin H. McMahon and Tanmoy Bhattacharya(参考訳) 重要な現実世界のアプリケーションにディープラーニングシステムの安全なデプロイを行うには、ごくわずかなミスを犯すモデルが必要である。 そこで本研究では,95%の精度を持つように調整された禁忌分類器を用いてこの問題に対処し,石灰を用いて禁忌決定要因を同定する。 本質的には、感度を低下させるコストはあるものの、誤った分類につながる可能性のある病理報告の属性を学ぶために、モデルをトレーニングしています。 本研究は,NCI SEERがん登録所のがん病理報告を6つのタスクで分類するためのマルチタスク設定における留置型分類器を実証する。 これらの課題に対して,25~45%の報告を控えることで,分類誤差率を2~5の因子で低減する。 がん部位を分類する特定のタスクについては、転移、リンパ節に関する報告、複数のがん部位の議論を分類ミスの多くの原因として特定することができ、がん部位(例えば、乳がん、肺がん、前立腺)によって、その程度や種類が系統的に異なることを観察できる。 3つのタスクを組み合わせると、我々のモデルは50%以上のレポートを6つのタスクのうち95%以上の精度で分類し、残りの6つのタスクすべてに対して85%以上の精度で分類する。 さらに, 単語出現の指標のみよりも, ライムの分類決定要因が優れていることを示す。 深層吸入分類器とlimeを用いた特徴同定を組み合わせることで,病理所見から癌部位を分類する場合の正確性と禁忌の関連概念を識別できる。 キーワード検索におけるlimeの改善は統計的に有意であり、おそらくは単語が文脈で評価され、分類の局所的決定要因として同定されているためである。

Safe deployment of deep learning systems in critical real world applications requires models to make very few mistakes, and only under predictable circumstances. In this work, we address this problem using an abstaining classifier that is tuned to have $>$95% accuracy, and then identify the determinants of abstention using LIME. Essentially, we are training our model to learn the attributes of pathology reports that are likely to lead to incorrect classifications, albeit at the cost of reduced sensitivity. We demonstrate an abstaining classifier in a multitask setting for classifying cancer pathology reports from the NCI SEER cancer registries on six tasks of interest. For these tasks, we reduce the classification error rate by factors of 2--5 by abstaining on 25--45% of the reports. For the specific task of classifying cancer site, we are able to identify metastasis, reports involving lymph nodes, and discussion of multiple cancer sites as responsible for many of the classification mistakes, and observe that the extent and types of mistakes vary systematically with cancer site (e.g., breast, lung, and prostate). When combining across three of the tasks, our model classifies 50% of the reports with an accuracy greater than 95% for three of the six tasks\edit, and greater than 85% for all six tasks on the retained samples. Furthermore, we show that LIME provides a better determinant of classification than measures of word occurrence alone. By combining a deep abstaining classifier with feature identification using LIME, we are able to identify concepts responsible for both correctness and abstention when classifying cancer sites from pathology reports. The improvement of LIME over keyword searches is statistically significant, presumably because words are assessed in context and have been identified as a local determinant of classification.
翻訳日:2022-10-20 03:54:25 公開日:2022-04-21
# 条件適応型マルチタスク学習:少ないパラメータと少ないデータを用いたNLPにおける伝達学習の改善

Conditionally Adaptive Multi-Task Learning: Improving Transfer Learning in NLP Using Fewer Parameters & Less Data ( http://arxiv.org/abs/2009.09139v3 )

ライセンス: Link先を確認
Jonathan Pilault, Amine Elhattami, Christopher Pal(参考訳) マルチタスク学習(MTL)ネットワークは、異なるタスク間で学習知識を伝達するための有望な方法として登場した。 しかし、MTLは、低リソースタスクへの過度な適合、破滅的な忘れ込み、負のタスク転送、学習干渉といった課題に対処しなければならない。 自然言語処理(NLP)では、最高のパフォーマンスを得るためにタスクごとに個別のモデルが必要であることが多い。 しかし、多くの微調整アプローチはパラメータ非効率、すなわちタスク毎の1つの新しいモデルを含む可能性があり、事前訓練中に取得した知識を失う可能性が高い。 本稿では,新しい条件付注意機構と,重み共有を容易にするタスクコンディショニングモジュールからなる,新しいトランスフォーマーアーキテクチャを提案する。 この構成(ハイパーネットワークアダプタ)を通じて,事前学習したモデルの重みの半分を固定することで,より効率的なパラメータ共有を実現し,忘れることの軽減を図る。 また、タスク間のデータ不均衡の負の効果を軽減するために、新しいマルチタスクデータサンプリング戦略を使用する。 このアプローチを用いることで、パラメータとデータ効率(重み付け更新に約66%のデータを使用)を保ちながら、単一タスクの微調整方法を超えることができる。 glue上の他のbert largeメソッドと比較して、8-taskモデルは、他のアダプタメソッドを2.8%上回り、24-taskモデルはmtlとsingle taskの微調整を使用する0.7-1.0%を上回っています。 単一のマルチタスクモデルアプローチでは,26のNLPタスクに対して競合的に動作し,多数のテストおよび開発セットに対して最先端の結果が得られることを示す。 私たちのコードはhttps://github.com/CAMTL/CA-MTLで公開されています。

Multi-Task Learning (MTL) networks have emerged as a promising method for transferring learned knowledge across different tasks. However, MTL must deal with challenges such as: overfitting to low resource tasks, catastrophic forgetting, and negative task transfer, or learning interference. Often, in Natural Language Processing (NLP), a separate model per task is needed to obtain the best performance. However, many fine-tuning approaches are both parameter inefficient, i.e., potentially involving one new model per task, and highly susceptible to losing knowledge acquired during pretraining. We propose a novel Transformer architecture consisting of a new conditional attention mechanism as well as a set of task-conditioned modules that facilitate weight sharing. Through this construction (a hypernetwork adapter), we achieve more efficient parameter sharing and mitigate forgetting by keeping half of the weights of a pretrained model fixed. We also use a new multi-task data sampling strategy to mitigate the negative effects of data imbalance across tasks. Using this approach, we are able to surpass single task fine-tuning methods while being parameter and data efficient (using around 66% of the data for weight updates). Compared to other BERT Large methods on GLUE, our 8-task model surpasses other Adapter methods by 2.8% and our 24-task model outperforms by 0.7-1.0% models that use MTL and single task fine-tuning. We show that a larger variant of our single multi-task model approach performs competitively across 26 NLP tasks and yields state-of-the-art results on a number of test and development sets. Our code is publicly available at https://github.com/CAMTL/CA-MTL.
翻訳日:2022-10-16 20:51:51 公開日:2022-04-21
# 改良された転送モデル:ランダム化転送機

An Improved Transfer Model: Randomized Transferable Machine ( http://arxiv.org/abs/2011.13629v2 )

ライセンス: Link先を確認
Pengfei Wei, Xinghua Qu, Yew Soon Ong, Zejun Ma(参考訳) 機能ベースの転送は、転送学習の最も効果的な方法の1つです。 既存の研究は通常、学習した新しい特徴表現が \emph{ domain-invariant} であると仮定し、ソースドメイン上で転送モデル $\mathcal{M}$ をトレーニングする。 本稿では,新しい特徴表現が準最適であり,領域にまたがる小さな分岐が存在する,より現実的なシナリオを考える。 このようなドメインの小さな分散を扱うために,Randomized Transferable Machine (RTM) と呼ばれる新しい転送モデルを提案する。 具体的には、既存の機能ベースの転送方法から学んだ、新しいソースおよびターゲットデータに取り組んでいます。 鍵となるアイデアは、新しいソースデータをノイズを使ってランダムに破壊し、ソーストレーニングデータ集団を拡大し、すべての破損したソースデータ集団でうまく機能する転送モデル $\widetilde{\mathcal{m}}$ をトレーニングすることだ。 原則として、より多くの汚職が発生するほど、新しいターゲットデータの確率が高くなると、構築されたソースデータ人口によってカバーされ、より優れた転送性能が$\widetilde{\mathcal{M}}$によって達成される。 理想的なケースは無限の腐敗であり、実際には実現不可能である。 汚職を行なわずに$\widetilde{\mathcal{M}}$をトレーニングできる限界化ソリューションを開発したが、無限ソースノイズデータを用いたトレーニングに等価である。 さらに、$\widetilde{\mathcal{M}}$ の2つのインスタンスを提案し、これは理論上、従来の転送モデル $\mathcal{M}$ よりも転送優位性を示す。 さらに重要なことに、両方のインスタンスはクローズドフォームソリューションを持ち、高速かつ効率的なトレーニングプロセスに繋がる。 様々な実世界の転送タスクの実験により、rtmは有望な転送モデルであることが示されている。

Feature-based transfer is one of the most effective methodologies for transfer learning. Existing studies usually assume that the learned new feature representation is \emph{domain-invariant}, and thus train a transfer model $\mathcal{M}$ on the source domain. In this paper, we consider a more realistic scenario where the new feature representation is suboptimal and small divergence still exists across domains. We propose a new transfer model called Randomized Transferable Machine (RTM) to handle such small divergence of domains. Specifically, we work on the new source and target data learned from existing feature-based transfer methods. The key idea is to enlarge source training data populations by randomly corrupting the new source data using some noises, and then train a transfer model $\widetilde{\mathcal{M}}$ that performs well on all the corrupted source data populations. In principle, the more corruptions are made, the higher the probability of the new target data can be covered by the constructed source data populations, and thus better transfer performance can be achieved by $\widetilde{\mathcal{M}}$. An ideal case is with infinite corruptions, which however is infeasible in reality. We develop a marginalized solution that enables to train an $\widetilde{\mathcal{M}}$ without conducting any corruption but equivalent to be trained using infinite source noisy data populations. We further propose two instantiations of $\widetilde{\mathcal{M}}$, which theoretically show the transfer superiority over the conventional transfer model $\mathcal{M}$. More importantly, both instantiations have closed-form solutions, leading to a fast and efficient training process. Experiments on various real-world transfer tasks show that RTM is a promising transfer model.
翻訳日:2022-09-20 01:39:01 公開日:2022-04-21
# (参考訳) GSAの初期重力定数を決定するためのヒューリスティック

A heuristic to determine the initial gravitational constant of the GSA ( http://arxiv.org/abs/2205.06770v1 )

ライセンス: CC BY 4.0
Alfredo J. P. Barbosa, Edmilson M. Moreira, Carlos H. V. Moraes, Ot\'avio A. S. Carpinteiro(参考訳) 重力探索アルゴリズム (gsa) はニュートンの重力と動力学の法則に基づく最適化アルゴリズムである。 2009年に導入されたgsaには、すでにいくつかのバージョンとアプリケーションがある。 しかし、その性能は、経験的に決定されるパラメータの値に依存する。 したがって、特定のアプリケーションに適したパラメータは必ずしも他のアプリケーションに適しているとは限らないため、その一般化は妥協される。 本稿では、gsaの初期重力定数を決定する新しいヒューリスティックを定義する正規化重力定数(gsa-ngc)を持つ重力探索アルゴリズムを提案する。 新しいヒューリスティックはブランス=ディッケの重力理論に基礎を置いており、アプリケーションの探索空間の多重次元を考慮に入れている。 最終的なソリューションを改善し、イテレーションの数とgsaの早期収束を減らすことを目的としている。 GSA-NGCは実験的に検証され、様々な用途に適合し、GSAの一般性、性能、効率を大幅に改善することが証明された。

The Gravitational Search Algorithm (GSA) is an optimization algorithm based on Newton's laws of gravity and dynamics. Introduced in 2009, the GSA already has several versions and applications. However, its performance depends on the values of its parameters, which are determined empirically. Hence, its generality is compromised, because the parameters that are suitable for a particular application are not necessarily suitable for another. This paper proposes the Gravitational Search Algorithm with Normalized Gravitational Constant (GSA-NGC), which defines a new heuristic to determine the initial gravitational constant of the GSA. The new heuristic is grounded in the Brans-Dicke theory of gravitation and takes into consideration the multiple dimensions of the search space of the application. It aims to improve the final solution and reduce the number of iterations and premature convergences of the GSA. The GSA-NGC is validated experimentally, proving to be suitable for various applications and improving significantly the generality, performance, and efficiency of the GSA.
翻訳日:2022-05-22 19:30:57 公開日:2022-04-21
# (参考訳) 情報伝達と因果関係の統一理論

A unified theory of information transfer and causal relation ( http://arxiv.org/abs/2204.13598v1 )

ライセンス: CC BY 4.0
Yang Tian, Hedong Hou, Yaoyuan Wang, Ziyang Zhang, Pei Sun(参考訳) 伝達エントロピーと情報フローによって測定された結合確率力学間の情報伝達は,系の因果関係に基づく物理過程として提案される。 情報伝達分析は科学と工学の両方で応用が進んでいるが、その基礎に関する批判的な謎は未解決のままである。 基本的な問題は、情報伝達と因果関係がどのようにして発生し、それらがどう依存するか、相互にどのように異なるか、そしてそれらが統一され一般的な量によって作られるかである。 これらの質問は、情報伝達による因果関係測定の有効性を本質的に決定する。 ここでは情報伝達と因果関係の完全な理論的基礎を築こうとする。 情報伝達と因果関係は高次相互情報によって特徴づけられる特定の情報相乗効果と冗長性現象から普遍的に生じることを条件付きで示す。 さらに,本理論は,情報伝達のメカニズムを解析的に説明し,起源・消滅・相違に対する因果関係を解明する。 さらに, この理論は, 高次元結合事象に基づく情報伝達と因果関係の効果の大きさを自然に定義する。 これらの結果は、計算機科学におけるパールの因果推論理論と物理学における情報伝達解析との統一的な情報、シナジー、因果関係を提供する。

Information transfer between coupled stochastic dynamics, measured by transfer entropy and information flow, is suggested as a physical process underlying the causal relation of systems. While information transfer analysis has booming applications in both science and engineering fields, critical mysteries about its foundations remain unsolved. Fundamental yet difficult questions concern how information transfer and causal relation originate, what they depend on, how they differ from each other, and if they are created by a unified and general quantity. These questions essentially determine the validity of causal relation measurement via information transfer. Here we pursue to lay a complete theoretical basis of information transfer and causal relation. Beyond the well-known relations between these concepts that conditionally hold, we demonstrate that information transfer and causal relation universally originate from specific information synergy and redundancy phenomena characterized by high-order mutual information. More importantly, our theory analytically explains the mechanisms for information transfer and causal relation to originate, vanish, and differ from each other. Moreover, our theory naturally defines the effect sizes of information transfer and causal relation based on high-dimensional coupling events. These results may provide a unified view of information, synergy, and causal relation to bridge Pearl's causal inference theory in computer science and information transfer analysis in physics.
翻訳日:2022-05-09 03:27:59 公開日:2022-04-21
# (参考訳) 病理におけるAIソリューション評価のためのテストデータセットの勧告

Recommendations on test datasets for evaluating AI solutions in pathology ( http://arxiv.org/abs/2204.14226v1 )

ライセンス: CC BY 4.0
Andr\'e Homeyer, Christian Gei{\ss}ler, Lars Ole Schwen, Falk Zakrzewski, Theodore Evans, Klaus Strohmenger, Max Westphal, Roman David B\"ulow, Michaela Kargl, Aray Karjauv, Isidre Munn\'e-Bertran, Carl Orge Retzlaff, Adri\`a Romero-L\'opez, Tomasz So{\l}tysi\'nski, Markus Plass, Rita Carvalho, Peter Steinbach, Yu-Chia Lan, Nassim Bouteldja, David Haber, Mateo Rojas-Carulla, Alireza Vafaei Sadr, Matthias Kraft, Daniel Kr\"uger, Rutger Fick, Tobias Lang, Peter Boor, Heimo M\"uller, Peter Hufnagl, Norman Zerbe(参考訳) デジタル組織像から自動的に情報を抽出する人工知能(AI)ソリューションは、病理診断の改善に大いに期待されている。 日常使用の前には,予測性能を評価し,規制承認を得ることが重要である。 この評価には適切なテストデータセットが必要です。 しかし、このようなデータセットのコンパイルは困難であり、特定の推奨事項が欠けている。 商用AI開発者、病理学者、研究者を含む様々な利害関係者からなる委員会は、重要な側面について議論し、病理学におけるテストデータセットに関する広範な文献レビューを行った。 ここでは、結果を要約し、テストデータセットの収集に関する一般的な推奨事項を導出する。 どれぐらいのイメージが必要なのか? 低頻度サブセットを扱うには? 潜在的なバイアスはどのように検出できるのか? データセットの報告方法は? 異なる国における規制要件は何ですか? この推奨は、ai開発者が製品の実用性を示すのを助け、規制当局やエンドユーザが報告されたパフォーマンス対策を検証するのを助けることを目的としている。 さらに研究は、十分な代表的なテストデータセットの基準を定式化し、AIソリューションがユーザーの介入を減らし、将来診断ワークフローをよりサポートできるようにする必要がある。

Artificial intelligence (AI) solutions that automatically extract information from digital histology images have shown great promise for improving pathological diagnosis. Prior to routine use, it is important to evaluate their predictive performance and obtain regulatory approval. This assessment requires appropriate test datasets. However, compiling such datasets is challenging and specific recommendations are missing. A committee of various stakeholders, including commercial AI developers, pathologists, and researchers, discussed key aspects and conducted extensive literature reviews on test datasets in pathology. Here, we summarize the results and derive general recommendations for the collection of test datasets. We address several questions: Which and how many images are needed? How to deal with low-prevalence subsets? How can potential bias be detected? How should datasets be reported? What are the regulatory requirements in different countries? The recommendations are intended to help AI developers demonstrate the utility of their products and to help regulatory agencies and end users verify reported performance measures. Further research is needed to formulate criteria for sufficiently representative test datasets so that AI solutions can operate with less user intervention and better support diagnostic workflows in the future.
翻訳日:2022-05-09 03:14:21 公開日:2022-04-21
# (参考訳) ganとテクスチャ認識を用いたコア画像の検出と分類への機械学習の適用

Application of machine learning methods to detect and classify Core images using GAN and texture recognition ( http://arxiv.org/abs/2204.14224v1 )

ライセンス: CC BY 4.0
Daniyar Nurseitov, Kairat Bostanbekov, Galymzhan Abdimanap, Abdelrahman Abdallah, Anel Alimova, Darkhan Kurmangaliyev(参考訳) 探査活動中、石油会社は重要な石油鉱床を見つけるのに役立つ貴重な地質情報を提供するため、掘削コアのサンプルに大きく依存している。 伝統的なコアロギング技術は熱心で主観的です。 石油産業における新しい技術であるコアイメージングは、非破壊的かつ非侵襲的な方法で大量のドリルコアを迅速に特徴付けることで分析を補うために用いられる。 本稿では,コア検出と分類の問題について述べる。 最初の問題は、Faster RCNNとMask RCNNモデルを用いて、画像中のコアを検出し、ホールを分割することである。 第2の問題は、gan(generative adversarial network)技術を適用してコアイメージの穴を埋めることと、画像に欠落しているコンテンツに対して高周波残差を生成するcra(contextual residual aggregate)を使用することである。 そして最後に、コアイメージの分類にテクスチャ認識モデルを適用する。

During exploration campaigns, oil companies rely heavily on drill core samples as they provide valuable geological information that helps them find important oil deposits. Traditional core logging techniques are laborious and subjective. Core imaging, a new technique in the oil industry, is used to supplement analysis by rapidly characterising large quantities of drill cores in a nondestructive and noninvasive manner. In this paper, we will present the problem of core detection and classification. The first problem is detecting the cores and segmenting the holes in images by using Faster RCNN and Mask RCNN models respectively. The second problem is filling the hole in the core image by applying the Generative adversarial network(GAN) technique and using Contextual Residual Aggregation(CRA) which creates high frequency residual for missing contents in images. And finally applying Texture recognition models for the classification of core images.
翻訳日:2022-05-09 02:19:39 公開日:2022-04-21
# 全変量に基づく位相検索のための凸拡大

Convex Augmentation for Total Variation Based Phase Retrieval ( http://arxiv.org/abs/2205.00834v1 )

ライセンス: Link先を確認
Jianwei Niu, Hok Shing Wong, Tieyong Zeng(参考訳) 位相検索は重要な物理応用や産業応用において重要な問題である。 本稿では,ガウス雑音によって基礎となる信号の測定の大きさが劣化するケースについて考察する。 本稿では,全変動正規化に基づく位相探索のための凸拡大手法を提案する。 PhaseLiftのような一般的な凸緩和モデルとは対照的に、我々のモデルは乗算器の半近交互方向修正法(sPADMM)によって効率的に解ける。 改良された sPADMM は標準モデルよりも汎用的で柔軟であり,本論文でもその収束性を確立する。 提案手法の有効性を示すため,広範な数値実験を行った。

Phase retrieval is an important problem with significant physical and industrial applications. In this paper, we consider the case where the magnitude of the measurement of an underlying signal is corrupted by Gaussian noise. We introduce a convex augmentation approach for phase retrieval based on total variation regularization. In contrast to popular convex relaxation models like PhaseLift, our model can be efficiently solved by a modified semi-proximal alternating direction method of multipliers (sPADMM). The modified sPADMM is more general and flexible than the standard one, and its convergence is also established in this paper. Extensive numerical experiments are conducted to showcase the effectiveness of the proposed method.
翻訳日:2022-05-09 00:13:49 公開日:2022-04-21
# 暗号通貨ポンプ・ダンプのシーケンスベースターゲットコイン予測

Sequence-Based Target Coin Prediction for Cryptocurrency Pump-and-Dump ( http://arxiv.org/abs/2204.12929v1 )

ライセンス: Link先を確認
Sihao Hu, Zhen Zhang, Shengliang Lu, Bingsheng He, Zhao Li(参考訳) 仮想通貨市場では、ポンプ・アンド・ダンプ方式(P&D)が拡大するにつれて、そのような不正行為を事前に検出し、被害者になる前に潜在的な投資家に知らせることが義務づけられる。 本稿では,ターゲットコインの予測タスク,すなわち,ポンプ前のターゲット交換に記載された全てのコインのポンプ確率を予測することに焦点を当てる。 我々は、2019年1月から2022年1月まで、Telegramチャンネルで組織された709件のP&Dの総合的な調査を行い、いくつかの異常かつ興味深いP&Dパターンを発掘する。 経験的分析により、ポンピングコインはチャネル内均一性とチャネル間不均一性を示すことが示され、SNNと呼ばれる新しいシーケンスベースのニューラルネットワークを開発するきっかけとなった。 特に、snnは各チャネルのポンプ履歴を位置注意機構を介してシーケンス表現として符号化し、有用な情報をフィルタリングし、シーケンス長が長い場合に発生するノイズを緩和する。 また、コイン側のコールドスタート問題を実用的な環境で特定・対処する。 実験の結果,AUCは1.6%,Hit Ratio@3は41.0%であり,実世界の応用に適していることがわかった。 副産物として、最新のP&Dの研究に適したデータセットとともに、GitHubでデータサイエンスパイプライン全体のソースコードをリリースしています。

As the pump-and-dump schemes (P&Ds) proliferate in the cryptocurrency market, it becomes imperative to detect such fraudulent activities in advance, to inform potentially susceptible investors before they become victims. In this paper, we focus on the target coin prediction task, i.e., to predict the pump probability of all coins listed in the target exchange before a pump. We conduct a comprehensive study of the latest P&Ds, investigate 709 events organized in Telegram channels from Jan. 2019 to Jan. 2022, and unearth some abnormal yet interesting patterns of P&Ds. Empirical analysis demonstrates that pumped coins exhibit intra-channel homogeneity and inter-channel heterogeneity, which inspires us to develop a novel sequence-based neural network named SNN. Specifically, SNN encodes each channel's pump history as a sequence representation via a positional attention mechanism, which filters useful information and alleviates the noise introduced when the sequence length is long. We also identify and address the coin-side cold-start problem in a practical setting. Extensive experiments show a lift of 1.6% AUC and 41.0% Hit Ratio@3 brought by our method, making it well-suited for real-world application. As a side contribution, we release the source code of our entire data science pipeline on GitHub, along with the dataset tailored for studying the latest P&Ds.
翻訳日:2022-05-09 00:13:19 公開日:2022-04-21
# 医療用テキストのマイナショット学習 : 体系的レビュー

Few-shot learning for medical text: A systematic review ( http://arxiv.org/abs/2204.14081v1 )

ライセンス: Link先を確認
Yao Ge, Yuting Guo, Yuan-Chi Yang, Mohammed Ali Al-Garadi, Abeed Sarker(参考訳) 目的:FSL(Few-shot Learning)メソッドはトレーニングに少数のラベル付きインスタンスを必要とする。 多くの医学トピックは、実用的な設定で注釈付きテキストデータに制限があるため、FSLベースの自然言語処理(NLP)手法は、かなりの可能性を秘めている。 我々は,医療用NLPのFSL法の現状を体系的に検討することを目的とした。 Materials and Methods: 2016年1月から2021年8月にかけて、PubMed/Medline、Embase、ACL Anthology、IEEE Xplore Digital Libraryを使って、論文を検索した。 最新の関連手法を特定するため,Google Scholarを通じて,プリプリントサーバ(medRxivなど)など他のソースも検索した。 FSLとあらゆる種類の医療用テキストを含むすべての記事を含む。 データソース(s)、aim(s)、トレーニングセットサイズ(s)、プライマリメソッド(s)/approach(es)、評価方法(s)に基づいて記事を抽象化した。 結果: 包括的基準は2018年以降31件,2020年以降は22件(71%)であった。 概念抽出/名称認識が最も頻繁に扱われるタスク(13/31; 42%)はテキスト分類(10/31; 32%)であった。 21名(68%)の研究が既存のデータセットを再構成し、少数のシナリオを合成し、最も頻繁に使われるデータセット(7/31; 23%)だった。 一般的な方法は,注意機構のfsl (12/31; 39%) ,原型ネットワーク (8/31; 26%),メタラーニング (6/31; 19%) である。 考察: 生物医学的NLPにおけるFSLの可能性にもかかわらず, ドメイン非依存のFSLに比べて進歩は限られている。 これは、標準化された公開データセットの曖昧さと、バイオメディカルトピックに関するFSLメソッドの相対的低パフォーマンスに起因する可能性がある。 バイオメディカルfslのための特殊なデータセットの作成とリリースは、比較分析を可能にして手法開発を支援する可能性がある。

Objective: Few-shot learning (FSL) methods require small numbers of labeled instances for training. As many medical topics have limited annotated textual data in practical settings, FSL-based natural language processing (NLP) methods hold substantial promise. We aimed to conduct a systematic review to explore the state of FSL methods for medical NLP. Materials and Methods: We searched for articles published between January 2016 and August 2021 using PubMed/Medline, Embase, ACL Anthology, and IEEE Xplore Digital Library. To identify the latest relevant methods, we also searched other sources such as preprint servers (eg., medRxiv) via Google Scholar. We included all articles that involved FSL and any type of medical text. We abstracted articles based on data source(s), aim(s), training set size(s), primary method(s)/approach(es), and evaluation method(s). Results: 31 studies met our inclusion criteria-all published after 2018; 22 (71%) since 2020. Concept extraction/named entity recognition was the most frequently addressed task (13/31; 42%), followed by text classification (10/31; 32%). Twenty-one (68%) studies reconstructed existing datasets to create few-shot scenarios synthetically, and MIMIC-III was the most frequently used dataset (7/31; 23%). Common methods included FSL with attention mechanisms (12/31; 39%), prototypical networks (8/31; 26%), and meta-learning (6/31; 19%). Discussion: Despite the potential for FSL in biomedical NLP, progress has been limited compared to domain-independent FSL. This may be due to the paucity of standardized, public datasets, and the relative underperformance of FSL methods on biomedical topics. Creation and release of specialized datasets for biomedical FSL may aid method development by enabling comparative analyses.
翻訳日:2022-05-08 23:35:30 公開日:2022-04-21
# 検索なしのニューラルアーキテクチャ設計の自動化

Automating Neural Architecture Design without Search ( http://arxiv.org/abs/2204.11838v1 )

ライセンス: Link先を確認
Zixuan Liang, Yanan Sun(参考訳) ディープラーニングアーキテクチャ設計を自動化する主要なアプローチであるニューラル構造探索(NAS)は、近年大きな成功を収めている。 しかし、NASに付着する性能推定成分は、しばしば費用がかかるため、膨大な計算需要が生じる。 この苦痛を和らげるために多くの努力がなされているが、どちらが最適かはまだ合意されていない。 本稿では,アルゴリズム実行中に生成された各ニューラルアーキテクチャを逐次評価する必要がなくなる新しい視点から,自動アーキテクチャ設計について検討する。 具体的には,最先端アーキテクチャの設計において,高度な専門家の知識を習得し,学習した知識に基づいて新たなアーキテクチャを直接生成する手法を提案する。 リンク予測にグラフニューラルネットワークを用いて提案手法を実装し,NAS-Bench-101から知識を得た。 既存の競合相手と比較して、最小コストで競争力のあるネットワークを見つけました。 さらに,nas-bench-101から学んだ知識を活用して,darts検索空間におけるアーキテクチャ設計の自動化を行い,cifar10では97.82%,imagenetでは76.51%のtop-1精度を達成した。 これはまた、提案されたアプローチの高い転送可能性を示し、この研究の方向性において、より計算効率の高い新しいパラダイムをもたらす可能性がある。

Neural structure search (NAS), as the mainstream approach to automate deep neural architecture design, has achieved much success in recent years. However, the performance estimation component adhering to NAS is often prohibitively costly, which leads to the enormous computational demand. Though a large number of efforts have been dedicated to alleviating this pain point, no consensus has been made yet on which is optimal. In this paper, we study the automated architecture design from a new perspective that eliminates the need to sequentially evaluate each neural architecture generated during algorithm execution. Specifically, the proposed approach is built by learning the knowledge of high-level experts in designing state-of-the-art architectures, and then the new architecture is directly generated upon the knowledge learned. We implemented the proposed approach by using a graph neural network for link prediction and acquired the knowledge from NAS-Bench-101. Compared to existing peer competitors, we found a competitive network with minimal cost. In addition, we also utilized the learned knowledge from NAS-Bench-101 to automate architecture design in the DARTS search space, and achieved 97.82% accuracy on CIFAR10, and 76.51% top-1 accuracy on ImageNet consuming only $2\times10^{-4}$ GPU days. This also demonstrates the high transferability of the proposed approach, and can potentially lead to a new, more computationally efficient paradigm in this research direction.
翻訳日:2022-05-01 09:28:39 公開日:2022-04-21
# Weber-Fechner法則による機械学習の高速化

Accelerating Machine Learning via the Weber-Fechner Law ( http://arxiv.org/abs/2204.11834v1 )

ライセンス: Link先を確認
B.N. Kausik(参考訳) ウェーバー=フェヒナーの法則では、人間の知覚は刺激の対数としてスケールする。 我々は、人間の概念の学習アルゴリズムは、Weber-Fechner法から恩恵を受けることができると主張している。 具体的には、Weber-Fechnerを、ソートされた出力の対数パワー系列を介して、畳み込みの有無にかかわらず、単純なニューラルネットワークに課す。 我々の実験は、数回のトレーニングイテレーションと限られた計算資源の中で、MNISTデータセットの驚くべき性能と精度を示し、Weber-Fechnerが人間の概念の機械学習を加速できることを示唆している。

The Weber-Fechner Law observes that human perception scales as the logarithm of the stimulus. We argue that learning algorithms for human concepts could benefit from the Weber-Fechner Law. Specifically, we impose Weber-Fechner on simple neural networks, with or without convolution, via the logarithmic power series of their sorted output. Our experiments show surprising performance and accuracy on the MNIST data set within a few training iterations and limited computational resources, suggesting that Weber-Fechner can accelerate machine learning of human concepts.
翻訳日:2022-05-01 08:51:25 公開日:2022-04-21
# AU-NN:ANFISユニットニューラルネットワーク

AU-NN: ANFIS Unit Neural Network ( http://arxiv.org/abs/2204.11839v1 )

ライセンス: Link先を確認
Tonatiuh Hern\'andez-del-Toro, Carlos A. Reyes-Garc\'ia, Luis Villase\~nor-Pineda(参考訳) 本稿では、各ニューロンが独立な anfis であるディープニューラルネットワークである anfis unit neural network について述べる。 このネットワークの2つのユースケースは、ネットワークの能力をテストするために示される。 i)5つの想像上の単語の分類。 (ii) 想像された単語セグメントとアイドル状態セグメントを区別するタスクにおけるインクリメンタル学習。 どちらの場合も、提案するネットワークは従来の手法よりも優れている。 さらに、インスタンス全体をひとつの例として扱う代わりに、各インスタンスを小さなインスタンスの集合に分解し、その分類は集合のすべての予測に対して多数決によって行われる。 この論文で使用されるAU-NNを構築するためのコードは、githubリポジトリ https://github.com/tonahdztoro/AU_NNで公開されている。

In this paper is described the ANFIS Unit Neural Network, a deep neural network where each neuron is an independent ANFIS. Two use cases of this network are shown to test the capability of the network. (i) Classification of five imagined words. (ii) Incremental learning in the task of detecting Imagined Word Segments vs. Idle State Segments. In both cases, the proposed network outperforms the conventional methods. Additionally, is described a process of classification where instead of taking the whole instance as one example, each instance is decomposed into a set of smaller instances, and the classification is done by a majority vote over all the predictions of the set. The codes to build the AU-NN used in this paper, are available on the github repository https://github.com/tonahdztoro/AU_NN.
翻訳日:2022-05-01 08:51:15 公開日:2022-04-21
# 大規模タンパク質配列のためのスケーラブルなApache Sparkに基づく特徴抽出手法とそのクラスタリング性能解析

A Novel Scalable Apache Spark Based Feature Extraction Approaches for Huge Protein Sequence and their Clustering Performance Analysis ( http://arxiv.org/abs/2204.11835v1 )

ライセンス: Link先を確認
Preeti Jha, Aruna Tiwari, Neha Bharill, Milind Ratnaparkhe, Om Prakash Patel, Nilagiri Harshith, Mukkamalla Mounika, Neha Nagendra(参考訳) ゲノムシーケンシングプロジェクトは、高次元タンパク質配列データセットの数を急速に増加させている。 従来の機械学習アプローチによる高次元タンパク質配列データセットのクラスタリングには、多くの課題がある。 多くの異なる特徴抽出法があり、広く使われている。 しかし、現在のアルゴリズムでは拡張性がないため、何百万ものタンパク質配列から特徴を抽出することは現実的ではない。 したがって、重要な特徴を抽出する効率的な特徴抽出アプローチが必要となる。 我々は,60d-SPF (60-dimensional Scalable Protein Feature) と6d-SCPSF (6-dimensional Scalable Co-occurrence-based Probability-Specific Feature) と呼ばれるApache Sparkを用いて,巨大タンパク質配列から特徴を抽出する2つのスケーラブルな特徴抽出手法を提案する。 提案する60d-spfおよび6d-scpsfアプローチは,アミノ酸の統計特性を捉え,各タンパク質配列を60次元および6次元で表現する固定長の数値特徴ベクトルを生成する。 プリプロセスされた巨大なタンパク質配列は、2つのクラスタリングアルゴリズム、すなわち、反復最適化ファジィc-Means(SRSIO-FCM)とクラスタリングのためのスケーラブルリテラルファジィC-Means(SLFCM)の入力として使用される。 提案する特徴抽出法, 60d-SPF, 6d-SCPSF, SRSIO-FCM および SLFCM クラスタリングアルゴリズムにおける既存の特徴抽出法の有効性を実証するために, 種々の大豆タンパク質データセットについて広範な実験を行った。 その結果,SRSIO-FCMとSLFCMクラスタリングアルゴリズムを用いた60d-SPF抽出法は,提案した6d-SCPSFと既存の特徴抽出手法よりも有意に優れた結果が得られることがわかった。

Genome sequencing projects are rapidly increasing the number of high-dimensional protein sequence datasets. Clustering a high-dimensional protein sequence dataset using traditional machine learning approaches poses many challenges. Many different feature extraction methods exist and are widely used. However, extracting features from millions of protein sequences becomes impractical because they are not scalable with current algorithms. Therefore, there is a need for an efficient feature extraction approach that extracts significant features. We have proposed two scalable feature extraction approaches for extracting features from huge protein sequences using Apache Spark, which are termed 60d-SPF (60-dimensional Scalable Protein Feature) and 6d-SCPSF (6-dimensional Scalable Co-occurrence-based Probability-Specific Feature). The proposed 60d-SPF and 6d-SCPSF approaches capture the statistical properties of amino acids to create a fixed-length numeric feature vector that represents each protein sequence in terms of 60-dimensional and 6-dimensional features, respectively. The preprocessed huge protein sequences are used as an input in two clustering algorithms, i.e., Scalable Random Sampling with Iterative Optimization Fuzzy c-Means (SRSIO-FCM) and Scalable Literal Fuzzy C-Means (SLFCM) for clustering. We have conducted extensive experiments on various soybean protein datasets to demonstrate the effectiveness of the proposed feature extraction methods, 60d-SPF, 6d-SCPSF, and existing feature extraction methods on SRSIO-FCM and SLFCM clustering algorithms. The reported results in terms of the Silhouette index and the Davies-Bouldin index show that the proposed 60d-SPF extraction method on SRSIO-FCM and SLFCM clustering algorithms achieves significantly better results than the proposed 6d-SCPSF and existing feature extraction approaches.
翻訳日:2022-05-01 08:50:27 公開日:2022-04-21
# クッキーバナーにおける暗黒パターンの自動検出--どのようにして貧弱にするか、なぜ他の方法では難しいのか

Automated detection of dark patterns in cookie banners: how to do it poorly and why it is hard to do it any other way ( http://arxiv.org/abs/2204.11836v1 )

ライセンス: Link先を確認
Than Htut Soe, Cristiana Teixeira Santos, and Marija Slavkovik(参考訳) クッキーバナーは、あなたのデータ収集の同意を集めているように見えるポップアップで、暗いパターンにとって魅力的な場所です。 ダークパターンは、興味のないオプションに対するユーザの選択に影響を与えるために使用されるデザイン要素である。 ダークパターンの使用は同意意識を無意味に表現し、公平な収集とデータの使用を改善する試みを無効にする。 機械学習はクッキーバナーに暗黒パターンが存在することを自動的に検出できるだろうか? この研究では、300のニュースウェブサイトのクッキーバナーのデータセットを使用して、正確にそれを行う予測モデルをトレーニングしました。 私たちが使用した機械学習パイプラインには、機能エンジニアリング、パラメータ検索、勾配強化木分類器のトレーニング、評価が含まれています。 トレーニングされたモデルの正確性は有望ですが、改善の余地はたくさんあります。 我々は、人工知能に暗パターンの自動検出がもたらす学際的課題を詳細に分析する。 データセットと機械学習を使って作成されたすべてのコードは、レビューのために削除されたリポジトリのurlで入手できる。

Cookie banners, the pop ups that appear to collect your consent for data collection, are a tempting ground for dark patterns. Dark patterns are design elements that are used to influence the user's choice towards an option that is not in their interest. The use of dark patterns renders consent elicitation meaningless and voids the attempts to improve a fair collection and use of data. Can machine learning be used to automatically detect the presence of dark patterns in cookie banners? In this work, a dataset of cookie banners of 300 news websites was used to train a prediction model that does exactly that. The machine learning pipeline we used includes feature engineering, parameter search, training a Gradient Boosted Tree classifier and evaluation. The accuracy of the trained model is promising, but allows a lot of room for improvement. We provide an in-depth analysis of the interdisciplinary challenges that automated dark pattern detection poses to artificial intelligence. The dataset and all the code created using machine learning is available at the url to repository removed for review.
翻訳日:2022-05-01 08:49:50 公開日:2022-04-21
# マスクベースの対向防御スキーム

A Mask-Based Adversarial Defense Scheme ( http://arxiv.org/abs/2204.11837v1 )

ライセンス: Link先を確認
Weizhen Xu, Chenyi Zhang, Fangzhen Zhao, Liangda Fang(参考訳) 本稿では,DNNに対する有害な影響を軽減するため,DNNに対するMask-based Adversarial Defense scheme(MAD)を提案する。 より正確には,本手法は,潜在的な対立画像の一部をランダムにマスキングすることで,DNNの堅牢性を促進し,結果として,DNNの出力する%の分類結果が,入力摂動に対してより寛容になる。 既存の敵防衛技術と比較すると,本手法では付加的な認知構造やDNNの設計の変更は不要である。 本手法は, 各種データセットを対象としたDNNモデルの収集実験を行い, 実験結果から, 提案手法がテスト対象の敵攻撃手法に対して効果的にDNNの防御能力を向上できることを確認した。 特定のシナリオでは、MADで訓練されたDNNモデルは、逆入力を受けた元のモデルと比較して、分類精度を最大20%から90%改善した。

Adversarial attacks hamper the functionality and accuracy of Deep Neural Networks (DNNs) by meddling with subtle perturbations to their inputs.In this work, we propose a new Mask-based Adversarial Defense scheme (MAD) for DNNs to mitigate the negative effect from adversarial attacks. To be precise, our method promotes the robustness of a DNN by randomly masking a portion of potential adversarial images, and as a result, the %classification result output of the DNN becomes more tolerant to minor input perturbations. Compared with existing adversarial defense techniques, our method does not need any additional denoising structure, nor any change to a DNN's design. We have tested this approach on a collection of DNN models for a variety of data sets, and the experimental results confirm that the proposed method can effectively improve the defense abilities of the DNNs against all of the tested adversarial attack methods. In certain scenarios, the DNN models trained with MAD have improved classification accuracy by as much as 20% to 90% compared to the original models that are given adversarial inputs.
翻訳日:2022-05-01 08:49:33 公開日:2022-04-21
# (参考訳) AIOpsのためのクラウドサービスインシデント調査から学んだマイニングルート

Mining Root Cause Knowledge from Cloud Service Incident Investigations for AIOps ( http://arxiv.org/abs/2204.11598v1 )

ライセンス: CC BY 4.0
Amrita Saha, Steven C.H. Hoi(参考訳) サービス破壊インシデントの原因分析(RCA)は、特にSalesforceのようなクラウド業界のリーダにとって、ITプロセスにおける最も重要かつ複雑なタスクのひとつです。 通常、RCA調査はアプリケーションエラーログやサービスコールトレースのようなデータソースを活用する。 しかし、根本原因情報の豊富な金鉱は、過去のドメインの専門家による調査の自然言語文書にも隠されている。 これは一般的に、ITインシデント管理のコアコンポーネントを構成する問題レビューボード(PRB)データと呼ばれる。 しかしながら、RBBの生の非構造性のため、そのような根本原因の知識は、新しいインシデントのRCAのための手動パイプラインや自動化パイプラインによって直接的に再利用されない。 これにより、この広く利用可能なデータソースを活用してインシデント因果解析(ICA)エンジンを構築するためのモチベーションとなり、SoTAニューラルNLP技術を用いてターゲット情報を抽出し、PRB文書から構造化因果知識グラフを構築する。 ICAは新しいインシデントに対して単純なyet- Effective RetrievalベースのRCAのバックボーンを形成し、インシデント症状を考慮して過去のインシデントを検索してランク付けし、それらから起こりうる根本原因を検出する。 本研究では,2万件以上のクラウドサービスインシデント調査を数年前に収集した,ICAと,Salesforceで構築されたダウンストリームインシデント検索とレトリーバルベースのRCAパイプラインについて紹介する。 また、ICAと下流タスクの有効性を、様々な定量的ベンチマーク、質的分析、ドメインエキスパートの検証、デプロイ後の実際のインシデントケーススタディを通じて確立する。

Root Cause Analysis (RCA) of any service-disrupting incident is one of the most critical as well as complex tasks in IT processes, especially for cloud industry leaders like Salesforce. Typically RCA investigation leverages data-sources like application error logs or service call traces. However a rich goldmine of root cause information is also hidden in the natural language documentation of the past incidents investigations by domain experts. This is generally termed as Problem Review Board (PRB) Data which constitute a core component of IT Incident Management. However, owing to the raw unstructured nature of PRBs, such root cause knowledge is not directly reusable by manual or automated pipelines for RCA of new incidents. This motivates us to leverage this widely-available data-source to build an Incident Causation Analysis (ICA) engine, using SoTA neural NLP techniques to extract targeted information and construct a structured Causal Knowledge Graph from PRB documents. ICA forms the backbone of a simple-yet-effective Retrieval based RCA for new incidents, through an Information Retrieval system to search and rank past incidents and detect likely root causes from them, given the incident symptom. In this work, we present ICA and the downstream Incident Search and Retrieval based RCA pipeline, built at Salesforce, over 2K documented cloud service incident investigations collected over a few years. We also establish the effectiveness of ICA and the downstream tasks through various quantitative benchmarks, qualitative analysis as well as domain expert's validation and real incident case studies after deployment.
翻訳日:2022-04-29 08:37:15 公開日:2022-04-21
# (参考訳) 新しいラグランジアン問題クロスオーバー:クロスオーバースタンドの体系的レビューとメタ分析

A New Lagrangian Problem Crossover: A Systematic Review and Meta-Analysis of Crossover Standerds ( http://arxiv.org/abs/2204.10890v1 )

ライセンス: CC BY 4.0
Aso M. Aladdin, Tarik A. Rashid(参考訳) ほとんどの進化的メタヒューリスティックアルゴリズムの性能は、様々な演算子に依存する。 クロスオーバー演算子は、主にアプリケーション依存のクロスオーバー演算子とアプリケーション非依存のクロスオーバー演算子という2つの標準に分類される。 これらの標準は常に進化的アルゴリズムプロセスの最も適した点を選択するのに役立つ。 クロスオーバー演算子の高効率により、エンジニアリングアプリケーション最適化で発生したエラーを短時間とコストで最小化することができる。 この論文の背景には2つの重要な目標があり、当初は工学的操作と問題表現の解決に研究者が用いたクロスオーバー標準分類の概要である。 2つ目の目的は、新しい体系的標準作用素としてのラグランジアン問題クロスオーバー(LPX)の定式化を進めるために、ラグランジアンデュアル関数(LDF)に依存する新しい標準クロスオーバーの重要性を提案することである。 提案する100世代の親染色体のクロスオーバー標準の結果は、共同のリアルタイムクロスオーバー標準であるbxおよびsbx標準と比較される。 提案規格の精度と性能は3つの単調な試験関数により評価された。 さらに,提案した標準結果は統計的に実証され,BXやSBXと比較して新しい最適化アルゴリズムを生成・拡張する能力が過剰であることが証明された。

The performance of most evolutionary metaheuristic algorithms depends on various operators. The crossover operator is one of them and is mainly classified into two standards; application-dependent crossover operators and application-independent crossover operators. These standards always help to choose the best-fitted point in the evolutionary algorithm process. The high efficiency of crossover operators enables minimizing the error that occurred in engineering application optimization within a short time and cost. There are two crucial objectives behind this paper; at first, it is an overview of crossover standards classification that has been used by researchers for solving engineering operations and problem representation. The second objective of this paper; The significance of novel standard crossover is proposed depending on Lagrangian Dual Function (LDF) to progress the formulation of the Lagrangian Problem Crossover (LPX) as a new systematic standard operator. The results of the proposed crossover standards for 100 generations of parent chromosomes are compared to the BX and SBX standards, which are the communal real-coded crossover standards. The accuracy and performance of the proposed standard have evaluated by three unimodal test functions. Besides, the proposed standard results are statistically demonstrated and proved that it has an excessive ability to generate and enhance the novel optimization algorithm compared to BX and SBX.
翻訳日:2022-04-29 08:16:58 公開日:2022-04-21
# (参考訳) 高次元における近位ランジュバンアルゴリズムの最適スケーリング

Optimal Scaling for the Proximal Langevin Algorithm in High Dimensions ( http://arxiv.org/abs/2204.10793v1 )

ライセンス: CC BY 4.0
Natesh S. Pillai(参考訳) メトロポリス調整ランジュバン(metropolis-adjusted langevin、mala)アルゴリズムは、対象密度の対数勾配をその提案分布に組み込んだサンプリングアルゴリズムである。 初期の共同研究である \cite{pill:stu:12} において、著者は \cite{Robe:Rose:98} の楽譜を拡張し、定常性において、ターゲットの$N$次元近似にMALAを適用するには、目標測度を探索するために${\cal O}(N^{\frac13})$ステップが必要であることを示した。 また、拡散限界の結果として、MALAアルゴリズムは0.574$の平均受容確率で最適化される、と \cite{Robe:Rose:98,pill:stu:12} で示された。 \cite{pere:16} において、ペレイラは、ログターゲット密度の勾配を近位関数(主にMALA非微分可能なターゲット密度を実装することを目的とした)に置き換える、近位MALAアルゴリズムを導入した。 本稿では, 2 倍の微分可能なターゲット密度の広いクラスにおいて, 近位MALAはMALAと高次元で同じ最適なスケーリングをしており, 平均 0.574$ の許容確率を持つことを示す。 そこで本論文は,MALAを実装しながら勾配を計算するのに費用がかかるスムーズなターゲット密度に対して,ユーザは勾配を対応する近位関数に置き換える(凸最適化により比較的安価に計算できる)。 これは \cite{pere:16} でなされた経験的な観察の一部を確認する。

The Metropolis-adjusted Langevin (MALA) algorithm is a sampling algorithm that incorporates the gradient of the logarithm of the target density in its proposal distribution. In an earlier joint work \cite{pill:stu:12}, the author had extended the seminal work of \cite{Robe:Rose:98} and showed that in stationarity, MALA applied to an $N$-dimensional approximation of the target will take ${\cal O}(N^{\frac13})$ steps to explore its target measure. It was also shown in \cite{Robe:Rose:98,pill:stu:12} that, as a consequence of the diffusion limit, the MALA algorithm is optimized at an average acceptance probability of $0.574$. In \cite{pere:16}, Pereyra introduced the proximal MALA algorithm where the gradient of the log target density is replaced by the proximal function (mainly aimed at implementing MALA non-differentiable target densities). In this paper, we show that for a wide class of twice differentiable target densities, the proximal MALA enjoys the same optimal scaling as that of MALA in high dimensions and also has an average optimal acceptance probability of $0.574$. The results of this paper thus give the following practically useful guideline: for smooth target densities where it is expensive to compute the gradient while implementing MALA, users may replace the gradient with the corresponding proximal function (that can be often computed relatively cheaply via convex optimization) \emph{without} losing any efficiency. This confirms some of the empirical observations made in \cite{pere:16}.
翻訳日:2022-04-26 03:48:43 公開日:2022-04-21
# (参考訳) 音声障害者のためのAIによる音声自動治療ツール:体系的文献レビュー

AI-Based Automated Speech Therapy Tools for persons with Speech Sound Disorders: A Systematic Literature Review ( http://arxiv.org/abs/2204.10325v1 )

ライセンス: CC BY 4.0
Chinmoy Deka, Abhishek Shrivastava, Saurabh Nautiyal, Praveen Chauhan(参考訳) 本稿では,音声障害者のためのaiに基づく自動音声治療ツール(ssd)の公開研究に関する体系的文献レビューを行う。 新型コロナウイルス(covid-19)パンデミック(covid-19)は、ssdを持つ人のための自動音声療法ツールの要件を開始した。 しかしながら、このような自動化ツールを設計するためのガイドラインや、人間の専門家と比べて必要な自動化の度合いは存在しない。 この体系的なレビューでは、PRISMAフレームワークに従い、4つの研究課題に対処した。 1)AIをベースとした自動音声治療ツールが扱うSSDの種類 2)このようなツールによって達成される自律性レベルはどのようなものか。 3)介入方法の違いは何か 4)人間専門家と比較して、いかに効果的か。 2007年から2022年にかけて,本研究に関連する研究論文をデジタル図書館で検索した。 その結果、研究者の間では、SSD患者のためのAIベースの自動音声治療ツールが注目されている。 構音障害は, 再検討した論文に基づいて最も頻繁に対処されたSSDであった。 さらに,多くの研究者が,利害関係者の役割を考慮せずに,完全に自動化されたツールを提案した。 モバイルベースのアプリケーションとゲーム化されたアプリケーションが最も頻繁な介入方法であったことを示す。 さらに,これらのツールの有効性について,専門家の言語病理医(SLP)と比較した研究は少ない。 本稿では,その分野における最先端技術について述べるとともに,今後の研究方向性について提案する。

This paper presents a systematic literature review of published studies on AI-based automated speech therapy tools for persons with speech sound disorders (SSD). The COVID-19 pandemic has initiated the requirement for automated speech therapy tools for persons with SSD making speech therapy accessible and affordable. However, there are no guidelines for designing such automated tools and their required degree of automation compared to human experts. In this systematic review, we followed the PRISMA framework to address four research questions: 1) what types of SSD do AI-based automated speech therapy tools address, 2) what is the level of autonomy achieved by such tools, 3) what are the different modes of intervention, and 4) how effective are such tools in comparison with human experts. An extensive search was conducted on digital libraries to find research papers relevant to our study from 2007 to 2022. The results show that AI-based automated speech therapy tools for persons with SSD are increasingly gaining attention among researchers. Articulation disorders were the most frequently addressed SSD based on the reviewed papers. Further, our analysis shows that most researchers proposed fully automated tools without considering the role of other stakeholders. Our review indicates that mobile-based and gamified applications were the most frequent mode of intervention. The results further show that only a few studies compared the effectiveness of such tools compared to expert Speech-Language Pathologists (SLP). Our paper presents the state-of-the-art in the field, contributes significant insights based on the research questions, and provides suggestions for future research directions.
翻訳日:2022-04-26 03:23:03 公開日:2022-04-21
# (参考訳) 物理のための機械学習代数幾何学

Machine Learning Algebraic Geometry for Physics ( http://arxiv.org/abs/2204.10334v1 )

ライセンス: CC0 1.0
Jiakang Bao, Yang-Hui He, Elli Heyes, Edward Hirst(参考訳) 代数幾何学と物理への機械学習の最近の応用について概説する。 代数幾何学の問題は典型的にはテンソル間の写像として再構成できるため、特に教師付き学習に適している。 さらに、教師なしの手法はそのような幾何学的データの構造についての洞察を与えることができる。 このプログラムの核心は、いかに幾何学が機械で学習できるか、そして、aiが数学をいかに助けるかという問題である。 これは a. kasprzyk らによって編集された著書 machine learning and algebraic geometry への章である。

We review some recent applications of machine learning to algebraic geometry and physics. Since problems in algebraic geometry can typically be reformulated as mappings between tensors, this makes them particularly amenable to supervised learning. Additionally, unsupervised methods can provide insight into the structure of such geometrical data. At the heart of this programme is the question of how geometry can be machine learned, and indeed how AI helps one to do mathematics. This is a chapter contribution to the book Machine learning and Algebraic Geometry, edited by A. Kasprzyk et al.
翻訳日:2022-04-26 03:11:51 公開日:2022-04-21
# (参考訳) 効率的なカーネル化q-learning

Provably Efficient Kernelized Q-Learning ( http://arxiv.org/abs/2204.10349v1 )

ライセンス: CC BY 4.0
Shuang Liu and Hao Su(参考訳) 我々は,q-learningのカーネル化版を提案し,解析する。 カーネル空間は通常無限次元であるが、広範な研究により、一般化はデータの有効次元によってのみ影響を受けることが示されている。 このようなアイデアをqラーニングフレームワークに取り入れ,任意のカーネルに対する後悔の限界を導出する。 特に、線型核とガウス RBF 核に対して具体的な境界を提供し、特に後者の境界は前者とほとんど同じように見えるが、実際の次元は次元の異なる概念に置き換えられる。 最後に、我々はアルゴリズムを古典的な制御タスクのスイートでテストし、驚くべきことに、ガウスのRBFカーネルの下では、わずか1000の環境ステップの後、合理的に優れたパフォーマンスを達成しています。

We propose and analyze a kernelized version of Q-learning. Although a kernel space is typically infinite-dimensional, extensive study has shown that generalization is only affected by the effective dimension of the data. We incorporate such ideas into the Q-learning framework and derive regret bounds for arbitrary kernels. In particular, we provide concrete bounds for linear kernels and Gaussian RBF kernels; notably, the latter bound looks almost identical to the former, only that the actual dimension is replaced by a different notion of dimensionality. Finally, we test our algorithm on a suite of classic control tasks; remarkably, under the Gaussian RBF kernel, it achieves reasonably good performance after only 1000 environmental steps, while its neural network counterpart, deep Q-learning, still struggles.
翻訳日:2022-04-26 03:10:14 公開日:2022-04-21
# (参考訳) 人工知能エージェントにおける創造的問題解決:調査とフレームワーク

Creative Problem Solving in Artificially Intelligent Agents: A Survey and Framework ( http://arxiv.org/abs/2204.10358v1 )

ライセンス: CC BY 4.0
Evana Gizzi, Lakshmi Nair, Sonia Chernova, Jivko Sinapov(参考訳) CPS(Creative Problem Solving)は、人工知能(AI)のサブ領域であり、自律システムにおけるオフ・ノミナルまたは異常な問題を解決する方法に焦点を当てている。 計画と学習の多くの進歩、新しい問題を解決すること、既存の知識を新しい文脈に適用すること、特に環境が予測不可能な方法で展開後に変化する場合にもかかわらず、インテリジェントシステムの安全で有用な統合には制限要因が残っている。 ますます自律的なシステムの出現は、創造性を通じて環境の不確実性に対処するAIエージェントの必要性を規定している。 CPSのさらなる研究を促進するために、我々は既存のAI手法を分類するために採用したCPSの定義とフレームワークを提案する。 我々のフレームワークは、CPS問題の4つの主成分、すなわち、構成されている。 1) 問題定式化。 2)知識表現 3)知識の操作方法,及び 4) 評価方法。 我々は,調査をオープンリサーチ質問で結論付け,今後の方向性を示唆した。

Creative Problem Solving (CPS) is a sub-area within Artificial Intelligence (AI) that focuses on methods for solving off-nominal, or anomalous problems in autonomous systems. Despite many advancements in planning and learning, resolving novel problems or adapting existing knowledge to a new context, especially in cases where the environment may change in unpredictable ways post deployment, remains a limiting factor in the safe and useful integration of intelligent systems. The emergence of increasingly autonomous systems dictates the necessity for AI agents to deal with environmental uncertainty through creativity. To stimulate further research in CPS, we present a definition and a framework of CPS, which we adopt to categorize existing AI methods in this field. Our framework consists of four main components of a CPS problem, namely, 1) problem formulation, 2) knowledge representation, 3) method of knowledge manipulation, and 4) method of evaluation. We conclude our survey with open research questions, and suggested directions for the future.
翻訳日:2022-04-26 02:36:22 公開日:2022-04-21
# (参考訳) 事前学習型ニューラルネットワークモデルにおけるバイアスの理解の高度化に向けて:Affective Biasに着目した調査

Towards an Enhanced Understanding of Bias in Pre-trained Neural Language Models: A Survey with Special Emphasis on Affective Bias ( http://arxiv.org/abs/2204.10365v1 )

ライセンス: CC BY 4.0
Anoop K., Manjary P. Gangan, Deepak P., Lajish V. L(参考訳) ディープラーニングによる自然言語処理(NLP)の顕著な進歩、特に最近の大規模事前学習型ニューラルネットワークモデルの出現は、いくつかの研究がNLPアプリケーションにおける潜在的なバイアスを議論し報告し始めたため、精査の対象となった。 NLPのバイアスは、人間によって符号化された潜在的バイアスが、NLPアルゴリズムによって永続的または増幅されるテキストデータに現れることに由来する。 本研究では,事前学習された大規模言語モデルにおけるバイアスを理解するための調査を行い,そのバイアスを定量化・緩和する様々な方法について述べる。 ビジネス、ヘルスケア、教育などの現実世界のシステムにおける、テキストベースの下流タスクの幅広い適用性を考慮して、大きな事前学習された言語モデルにおいて、影響(感情)の文脈におけるバイアス、すなわち感情バイアス(emotion)について、特に焦点を当てる。 本稿では,将来の研究を支援する様々なバイアス評価コーパスの概要と,事前学習言語モデルにおけるバイアス研究の課題について述べる。 我々は、事前訓練された言語モデルにおける偏見の包括的見解、特に感情的偏見の探索が、この発展分野に関心を持つ研究者にとって非常に有益であると考えている。

The remarkable progress in Natural Language Processing (NLP) brought about by deep learning, particularly with the recent advent of large pre-trained neural language models, is brought into scrutiny as several studies began to discuss and report potential biases in NLP applications. Bias in NLP is found to originate from latent historical biases encoded by humans into textual data which gets perpetuated or even amplified by NLP algorithm. We present a survey to comprehend bias in large pre-trained language models, analyze the stages at which they occur in these models, and various ways in which these biases could be quantified and mitigated. Considering wide applicability of textual affective computing based downstream tasks in real-world systems such as business, healthcare, education, etc., we give a special emphasis on investigating bias in the context of affect (emotion) i.e., Affective Bias, in large pre-trained language models. We present a summary of various bias evaluation corpora that help to aid future research and discuss challenges in the research on bias in pre-trained language models. We believe that our attempt to draw a comprehensive view of bias in pre-trained language models, and especially the exploration of affective bias will be highly beneficial to researchers interested in this evolving field.
翻訳日:2022-04-26 02:34:57 公開日:2022-04-21
# (参考訳) リカレント・セットによるアトラクション領域のモデルフリー学習

Model-free Learning of Regions of Attraction via Recurrent Sets ( http://arxiv.org/abs/2204.10372v1 )

ライセンス: CC BY 4.0
Yue Shen, Maxim Bichuch, Enrique Mallada(参考訳) 本研究では,漸近的に安定な平衡点のアトラクション領域(ROA)の内部近似を,ダイナミックスの明示的なモデルなしで学習する問題を考察する。 ROAに含まれる(ロバストな)不変集合を見つけるために境界不確実性を持つ近似モデルを活用するのではなく、より緩和された再帰の概念を満たす集合を学習することを提案する。 セットが$\tau$-recurrent(resp.$k$-recurrent)であると定義するのは、セット内で始まるすべてのトラジェクトリが、少なくとも$\tau$ seconds(resp.$k$ steps)の後に返される場合である。 穏やかな仮定の下では、安定平衡を含む$\tau$-recurrent 集合はその roa の部分集合でなければならない。 次に、この特性を利用して、有限長軌道のサンプリングによって得られる反例を用いてROAの内部近似を計算するアルゴリズムを開発する。 我々のアルゴリズムは、サンプルを逐次処理し、初期オフライントレーニング段階以降も実行し続けることができる。 さらにアルゴリズムが使用する反例の数の上界を提供し、ほぼ確実に収束する保証を提供する。

We consider the problem of learning an inner approximation of the region of attraction (ROA) of an asymptotically stable equilibrium point without an explicit model of the dynamics. Rather than leveraging approximate models with bounded uncertainty to find a (robust) invariant set contained in the ROA, we propose to learn sets that satisfy a more relaxed notion of containment known as recurrence. We define a set to be $\tau$-recurrent (resp. $k$-recurrent) if every trajectory that starts within the set, returns to it after at most $\tau$ seconds (resp. $k$ steps). We show that under mild assumptions a $\tau$-recurrent set containing a stable equilibrium must be a subset of its ROA. We then leverage this property to develop algorithms that compute inner approximations of the ROA using counter-examples of recurrence that are obtained by sampling finite-length trajectories. Our algorithms process samples sequentially, which allow them to continue being executed even after an initial offline training stage. We further provide an upper bound on the number of counter-examples used by the algorithm, and almost sure convergence guarantees.
翻訳日:2022-04-26 02:33:52 公開日:2022-04-21
# (参考訳) 通信制約下における分散非パラメトリック推定

Distributed Nonparametric Estimation under Communication Constraints ( http://arxiv.org/abs/2204.10373v1 )

ライセンス: CC BY 4.0
Azeem Zaman and Botond Szab\'o(参考訳) ビッグデータの時代においては,複数のノードにまたがって非常に大きなデータセットを分割し,分散データを用いた推定器を構築する必要がある。 分散推定器を設計する場合,コンピュータ間の通信が1台のコンピュータの計算に比べて遅いため,ネットワーク間の通信量を最小化することが望ましい。 本研究は,非パラメトリック問題に対するコミュニケーション制約下での分散推定の挙動を理解するための汎用フレームワークを提供する。 より広いクラスのモデルに対して、文献を支配するガウスの枠組みを超えて結果を提供する。 具体例として、分散回帰、密度推定、分類、ポアソン回帰、ボラティリティ推定モデルにおいて、通信制約下での最小値と一致する上限を導出する。 これを支援するために、我々は全ての例で容易に検証できる十分な条件を提供する。

In the era of big data, it is necessary to split extremely large data sets across multiple computing nodes and construct estimators using the distributed data. When designing distributed estimators, it is desirable to minimize the amount of communication across the network because transmission between computers is slow in comparison to computations in a single computer. Our work provides a general framework for understanding the behavior of distributed estimation under communication constraints for nonparametric problems. We provide results for a broad class of models, moving beyond the Gaussian framework that dominates the literature. As concrete examples we derive minimax lower and matching upper bounds in the distributed regression, density estimation, classification, Poisson regression and volatility estimation models under communication constraints. To assist with this, we provide sufficient conditions that can be easily verified in all of our examples.
翻訳日:2022-04-26 02:10:49 公開日:2022-04-21
# (参考訳) Margin Guaranteeによる差分私的学習

Differentially Private Learning with Margin Guarantees ( http://arxiv.org/abs/2204.10376v1 )

ライセンス: CC BY 4.0
Raef Bassily, Mehryar Mohri, Ananda Theertha Suresh(参考訳) 我々は,次元非依存のマージン保証を備えた新しい差分プライベート(DP)アルゴリズムを提案する。 線形仮説の族に対しては、相対偏差マージン保証の恩恵を受ける純粋DP学習アルゴリズムと、マージン保証の効率的なDP学習アルゴリズムを提供する。 また,gaussian kernelsなどのシフト不変カーネルを用いたカーネルベース仮説に対するマージン保証を備えた,新しい効率的なdp学習アルゴリズムを提案する。 さらに、入力次元に依存しないマージン保証を証明するために、フィードフォワードニューラルネットワークの族に対して純粋なDP学習アルゴリズムを提供する。 さらに,一般ラベルdp学習アルゴリズムについて述べる。このアルゴリズムは,相対偏差限界の利点を享受し,ニューラルネットワークを含む幅広い仮説集合に適用できる。 最後に、モデル選択を含む一般的な方法でDP学習アルゴリズムをどのように拡張し、最良の信頼率パラメータを選択するかを示す。

We present a series of new differentially private (DP) algorithms with dimension-independent margin guarantees. For the family of linear hypotheses, we give a pure DP learning algorithm that benefits from relative deviation margin guarantees, as well as an efficient DP learning algorithm with margin guarantees. We also present a new efficient DP learning algorithm with margin guarantees for kernel-based hypotheses with shift-invariant kernels, such as Gaussian kernels, and point out how our results can be extended to other kernels using oblivious sketching techniques. We further give a pure DP learning algorithm for a family of feed-forward neural networks for which we prove margin guarantees that are independent of the input dimension. Additionally, we describe a general label DP learning algorithm, which benefits from relative deviation margin bounds and is applicable to a broad family of hypothesis sets, including that of neural networks. Finally, we show how our DP learning algorithms can be augmented in a general way to include model selection, to select the best confidence margin parameter.
翻訳日:2022-04-26 02:09:50 公開日:2022-04-21
# (参考訳) 対照的なテスト時間適応

Contrastive Test-Time Adaptation ( http://arxiv.org/abs/2204.10377v1 )

ライセンス: CC BY 4.0
Dian Chen, Dequan Wang, Trevor Darrell, Sayna Ebrahimi(参考訳) テスト時適応は、ソースデータにアクセスすることなく、ソースドメインのトレーニング済みモデルがターゲットドメインに適応しなければならない、教師なしドメイン適応の特別な設定である。 本稿では,自己指導型コントラスト学習を活用して目標特徴学習を促進する手法と,擬似ラベルを著しく悪用する改良型オンライン擬似ラベリング手法を提案する。 コントラスト学習タスクは擬似ラベリングと併用し、MoCoと同様に構築された正と負のペアとソース初期化エンコーダと対比し、擬似ラベリングで示される同級負のペアを除外する。 一方,オンライン上で疑似ラベルを作成し,メモリキューの維持により,対象機能空間内の最寄り者間のソフト投票により精製する。 提案手法であるadacontrastは,メモリ効率,ハイパーパラメータに対する過敏性,モデルキャリブレーションの改善など,既存の手法と比較して望ましい性能を保ちつつ,主要なベンチマークで最先端のパフォーマンスを実現する。 プロジェクトページ: site.google.com/view/adacontrast

Test-time adaptation is a special setting of unsupervised domain adaptation where a trained model on the source domain has to adapt to the target domain without accessing source data. We propose a novel way to leverage self-supervised contrastive learning to facilitate target feature learning, along with an online pseudo labeling scheme with refinement that significantly denoises pseudo labels. The contrastive learning task is applied jointly with pseudo labeling, contrasting positive and negative pairs constructed similarly as MoCo but with source-initialized encoder, and excluding same-class negative pairs indicated by pseudo labels. Meanwhile, we produce pseudo labels online and refine them via soft voting among their nearest neighbors in the target feature space, enabled by maintaining a memory queue. Our method, AdaContrast, achieves state-of-the-art performance on major benchmarks while having several desirable properties compared to existing works, including memory efficiency, insensitivity to hyper-parameters, and better model calibration. Project page: sites.google.com/view/adacontrast.
翻訳日:2022-04-26 02:08:47 公開日:2022-04-21
# (参考訳) 階層的コヒーレント確率予測へのトップダウンアプローチ

A Top-Down Approach to Hierarchically Coherent Probabilistic Forecasting ( http://arxiv.org/abs/2204.10414v1 )

ライセンス: CC BY 4.0
Abhimanyu Das, Weihao Kong, Biswajit Paria, Rajat Sen(参考訳) 階層的予測は、多くの実用多変量予測アプリケーションにおいて重要な問題であり、その目標は、あらかじめ指定された木階層に配置された多数の関連時系列に対して、一貫性のある予測を得ることである。 本稿では,新しい注意に基づくrnnモデルを用いた階層的予測に対する確率的トップダウン手法を提案する。 これらの確率比は、ルート時系列に対する独立した単変量確率予測モデル(ProphetやSTSなど)と結合される。 結果の予測はトップダウンで計算され、自然に一貫性があり、階層内の全時系列の確率予測をサポートする。 従来のボトムアップ階層モデリングと比較してトップダウンアプローチの優位性を理論的に正当化します。 最後に,3つの公開データセットを実験し,最新の確率的階層モデルと比較して,確率的予測が大幅に改善されたことを示す。

Hierarchical forecasting is a key problem in many practical multivariate forecasting applications - the goal is to obtain coherent predictions for a large number of correlated time series that are arranged in a pre-specified tree hierarchy. In this paper, we present a probabilistic top-down approach to hierarchical forecasting that uses a novel attention-based RNN model to learn the distribution of the proportions according to which each parent prediction is split among its children nodes at any point in time. These probabilistic proportions are then coupled with an independent univariate probabilistic forecasting model (such as Prophet or STS) for the root time series. The resulting forecasts are computed in a top-down fashion and are naturally coherent, and also support probabilistic predictions over all time series in the hierarchy. We provide theoretical justification for the superiority of our top-down approach compared to traditional bottom-up hierarchical modeling. Finally, we experiment on three public datasets and demonstrate significantly improved probabilistic forecasts, compared to state-of-the-art probabilistic hierarchical models.
翻訳日:2022-04-26 01:50:22 公開日:2022-04-21
# (参考訳) 軽量cnn-elmモデルによるマルチビルディングとマルチフロア分類

Lightweight Hybrid CNN-ELM Model for Multi-building and Multi-floor Classification ( http://arxiv.org/abs/2204.10418v1 )

ライセンス: CC BY 4.0
Darwin Quezada-Gaibor, Joaqu\'in Torres-Sospedra, Jari Nurmi, Yevgeni Koucheryavy and Joaqu\'in Huerta(参考訳) 機械学習モデルは、環境から有意義な情報を抽出する能力が高いため、現在の屋内測位ソリューションにおいて必須のツールとなっている。 畳み込みニューラルネットワーク(CNN)は、入力データから複雑なパターンを学習できるため、最も使われているニューラルネットワーク(NN)の1つである。 屋内位置決めソリューションで使用されるもう1つのモデルはExtreme Learning Machine (ELM)であり、許容可能な一般化性能と学習速度を提供する。 本稿では,cnnとelmの軽量な組み合わせについて述べる。これにより,電力や資源に制約のある機器に適した建物と床の迅速かつ正確な分類が可能となる。 その結果,提案モデルはベンチマークより58\%高速であり,分類精度がわずかに向上した(1\%未満)。

Machine learning models have become an essential tool in current indoor positioning solutions, given their high capabilities to extract meaningful information from the environment. Convolutional neural networks (CNNs) are one of the most used neural networks (NNs) due to that they are capable of learning complex patterns from the input data. Another model used in indoor positioning solutions is the Extreme Learning Machine (ELM), which provides an acceptable generalization performance as well as a fast speed of learning. In this paper, we offer a lightweight combination of CNN and ELM, which provides a quick and accurate classification of building and floor, suitable for power and resource-constrained devices. As a result, the proposed model is 58\% faster than the benchmark, with a slight improvement in the classification accuracy (by less than 1\%
翻訳日:2022-04-26 01:28:49 公開日:2022-04-21
# (参考訳) PG3:一般政策創出のための政策指導型計画

PG3: Policy-Guided Planning for Generalized Policy Generation ( http://arxiv.org/abs/2204.10420v1 )

ライセンス: CC BY 4.0
Ryan Yang, Tom Silver, Aidan Curtis, Tomas Lozano-Perez, Leslie Pack Kaelbling(参考訳) 古典計画における長年の目標は、同じ領域から複数の問題にまたがって一般化するポリシーを合成することである。 そこで本研究では,政策探索の指針となるスコア関数に着目し,一般的な政策探索手法について検討する。 2つのスコア関数の制限を示し、これらの制限を克服する新しいアプローチを提案する。 提案手法の背景にある政策指導型政策創出計画(PG3)は、その候補を評価するためのメカニズムとして、訓練問題計画の指針として候補政策を用いるべきである。 理論的な結果から、PG3が最適か許容可能な条件が与えられる。 次に、PDDLに基づく計画上の問題と、意思決定リストを解除する政策探索の特定インスタンス化について検討する。 6つのドメインの実証的な結果は、PG3が複数のベースラインよりも効率的かつ効果的に一般化されたポリシーを学習していることを確認する。 コード: https://github.com/ryangpeixu/pg3

A longstanding objective in classical planning is to synthesize policies that generalize across multiple problems from the same domain. In this work, we study generalized policy search-based methods with a focus on the score function used to guide the search over policies. We demonstrate limitations of two score functions and propose a new approach that overcomes these limitations. The main idea behind our approach, Policy-Guided Planning for Generalized Policy Generation (PG3), is that a candidate policy should be used to guide planning on training problems as a mechanism for evaluating that candidate. Theoretical results in a simplified setting give conditions under which PG3 is optimal or admissible. We then study a specific instantiation of policy search where planning problems are PDDL-based and policies are lifted decision lists. Empirical results in six domains confirm that PG3 learns generalized policies more efficiently and effectively than several baselines. Code: https://github.com/ryangpeixu/pg3
翻訳日:2022-04-26 01:15:47 公開日:2022-04-21
# (参考訳) ドイツ議会法人(GerParCor)

German Parliamentary Corpus (GerParCor) ( http://arxiv.org/abs/2204.10422v1 )

ライセンス: CC BY 4.0
Giuseppe Abrami, Mevl\"ut Bagci, Leon Hammerla, Alexander Mehler(参考訳) 議会の議論は、公開文書の大規模かつ一部未公開の宝庫を表している。 ドイツ語圏では、全国および連邦レベルでドイツ語話者の全ての議会をカバーする統一的なアクセスと注釈付きコーポラの欠如がある。 このギャップに対処するため、ドイツ議会法人(GerParCor)を紹介します。 ゲルパルコル(gerparcor)は、3世紀から4カ国(州や連邦レベルのデータを含む)のドイツ語議会議定書のジャンル別コーパスである。 さらに、GerParCorはスキャンされたプロトコルの変換、特にTesseractをベースとしたOCRプロセスを通じて変換されたFrakturのプロトコルを含んでいる。 すべてのプロトコルはspurCy3のNLPパイプラインによって前処理され、セッション日に関するメタデータが自動的にアノテートされる。 GerParCorはUIMAプロジェクトのXMIフォーマットで利用可能である。 このようにして、GerParCorは、NLPにおける様々なタスクのための政治的コミュニケーションの分野で、歴史的なテキストの大きなコーパスとして使用できる。

Parliamentary debates represent a large and partly unexploited treasure trove of publicly accessible texts. In the German-speaking area, there is a certain deficit of uniformly accessible and annotated corpora covering all German-speaking parliaments at the national and federal level. To address this gap, we introduce the German Parliament Corpus (GerParCor). GerParCor is a genre-specific corpus of (predominantly historical) German-language parliamentary protocols from three centuries and four countries, including state and federal level data. In addition, GerParCor contains conversions of scanned protocols and, in particular, of protocols in Fraktur converted via an OCR process based on Tesseract. All protocols were preprocessed by means of the NLP pipeline of spaCy3 and automatically annotated with metadata regarding their session date. GerParCor is made available in the XMI format of the UIMA project. In this way, GerParCor can be used as a large corpus of historical texts in the field of political communication for various tasks in NLP.
翻訳日:2022-04-26 00:55:00 公開日:2022-04-21
# (参考訳) データ効率向上型MRI再構成のためのスケール-等変アンローリングニューラルネットワーク

Scale-Equivariant Unrolled Neural Networks for Data-Efficient Accelerated MRI Reconstruction ( http://arxiv.org/abs/2204.10436v1 )

ライセンス: CC BY 4.0
Beliz Gunel, Arda Sahiner, Arjun D. Desai, Akshay S. Chaudhari, Shreyas Vasanawala, Mert Pilanci, John Pauly(参考訳) ニューラルネットワークは、加速磁気共鳴イメージング(MRI)再構成タスクにおいて、最先端の再構築性能と高速な推論時間を実現している。 しかしながら、これらのアプローチは、多くの臨床医用画像アプリケーションで取得できるコストがかかるか、あるいは不可能である基礎的真理データとして、完全なサンプリングされたスキャンに依存するため、データへの依存度を減らすことが望ましい。 本研究では,患者解剖学の多様性から生じる画像のスケールにおけるドリフトに対するデータ効率とロバスト性を改善するために,スケール同変畳み込みニューラルネットワークを用いた非ローリングニューラルネットワークの近似演算子をモデル化することを提案する。 本手法は,分散画像と分散画像の両方のデータ拡張を伴わずに,同じメモリ制約下での最先端の未ロールニューラルネットワークに対する強力な改善を,列車や推論時間を大幅に増加させることなく実証する。

Unrolled neural networks have enabled state-of-the-art reconstruction performance and fast inference times for the accelerated magnetic resonance imaging (MRI) reconstruction task. However, these approaches depend on fully-sampled scans as ground truth data which is either costly or not possible to acquire in many clinical medical imaging applications; hence, reducing dependence on data is desirable. In this work, we propose modeling the proximal operators of unrolled neural networks with scale-equivariant convolutional neural networks in order to improve the data-efficiency and robustness to drifts in scale of the images that might stem from the variability of patient anatomies or change in field-of-view across different MRI scanners. Our approach demonstrates strong improvements over the state-of-the-art unrolled neural networks under the same memory constraints both with and without data augmentations on both in-distribution and out-of-distribution scaled images without significantly increasing the train or inference time.
翻訳日:2022-04-26 00:45:40 公開日:2022-04-21
# 幾何機械学習による時間積分粗粒分子動力学シミュレーション

Simulate Time-integrated Coarse-grained Molecular Dynamics with Geometric Machine Learning ( http://arxiv.org/abs/2204.10348v1 )

ライセンス: Link先を確認
Xiang Fu, Tian Xie, Nathan J. Rebello, Bradley D. Olsen, Tommi Jaakkola(参考訳) 分子動力学 (md) シミュレーションは様々な科学的領域のワークホースであるが、高い計算コストで制限される。 学習に基づく力場は、ab-initio mdシミュレーションを加速する大きな進歩を遂げているが、長い時間mdシミュレーションを必要とする多くの実世界のアプリケーションでは、まだ十分ではない。 本稿では,グラフクラスタリングを用いて物理系を粗粒化する機械学習アプローチを採用し,グラフニューラルネットワークを用いて,非常に大きな時間積分ステップでシステムの進化をモデル化する。 新しいスコアベースのGNNリファインメントモジュールは、長期間のシミュレーション不安定性の長年の課題を解決する。 短時間のmd軌道データでしか訓練できないが、学習シミュレータは未知の新しいシステムに一般化し、訓練軌道よりもずっと長くシミュレートすることができる。 10-100 nsレベルの長時間ダイナミクスを必要とする特性は、古典的力場よりも数次高い速度で正確に回復することができる。 本手法の有効性を,(1)暗黙の溶媒中における単鎖粗粒ポリマー,(2)多成分Li-イオン高分子電解質系に示す。

Molecular dynamics (MD) simulation is the workhorse of various scientific domains but is limited by high computational cost. Learning-based force fields have made major progress in accelerating ab-initio MD simulation but are still not fast enough for many real-world applications that require long-time MD simulation. In this paper, we adopt a different machine learning approach where we coarse-grain a physical system using graph clustering, and model the system evolution with a very large time-integration step using graph neural networks. A novel score-based GNN refinement module resolves the long-standing challenge of long-time simulation instability. Despite only trained with short MD trajectory data, our learned simulator can generalize to unseen novel systems and simulate for much longer than the training trajectories. Properties requiring 10-100 ns level long-time dynamics can be accurately recovered at several-orders-of-magnitude higher speed than classical force fields. We demonstrate the effectiveness of our method on two realistic complex systems: (1) single-chain coarse-grained polymers in implicit solvent; (2) multi-component Li-ion polymer electrolyte systems.
翻訳日:2022-04-25 14:49:08 公開日:2022-04-21
# STD: 時系列の季節変動分散分解

STD: A Seasonal-Trend-Dispersion Decomposition of Time Series ( http://arxiv.org/abs/2204.10398v1 )

ライセンス: Link先を確認
Grzegorz Dudek(参考訳) 時系列の分解は、その性質を理解するのに役立つ重要なタスクである。 傾向,季節成分,循環成分,不規則変動などの隠蔽成分を表現した複雑な時系列の分析と予測を容易にする。 したがって、多くの分野において予測と決定プロセスにおいて重要である。 近年,様々な時系列特性を抽出・明らかにする時系列分解法が開発されている。 残念ながら、彼らは非常に重要な特性、すなわち時系列の分散を無視している。 時系列のヘテロシデスティック性に対処するため,本研究で提案する手法であるstdは,時系列の分散に関連する傾向,季節成分,成分を抽出する。 我々はSTD分解を不規則成分と非規則成分の2つの方法で定義する。 時系列解析と予測にSTDをどのように利用できるかを示す。

The decomposition of a time series is an essential task that helps to understand its very nature. It facilitates the analysis and forecasting of complex time series expressing various hidden components such as the trend, seasonal components, cyclic components and irregular fluctuations. Therefore, it is crucial in many fields for forecasting and decision processes. In recent years, many methods of time series decomposition have been developed, which extract and reveal different time series properties. Unfortunately, they neglect a very important property, i.e. time series variance. To deal with heteroscedasticity in time series, the method proposed in this work -- a seasonal-trend-dispersion decomposition (STD) -- extracts the trend, seasonal component and component related to the dispersion of the time series. We define STD decomposition in two ways: with and without an irregular component. We show how STD can be used for time series analysis and forecasting.
翻訳日:2022-04-25 14:48:50 公開日:2022-04-21
# 共通言語を用いたゴール指向セマンティックコミュニケーションのためのカリキュラム学習

Curriculum Learning for Goal-Oriented Semantic Communications with a Common Language ( http://arxiv.org/abs/2204.10429v1 )

ライセンス: Link先を確認
Mohammad Karimzadeh Farshbafan, Walid Saad, and Merouane Debbah(参考訳) ゴール指向セマンティック通信は次世代無線ネットワークの柱となる。 この分野における最近の大きな取り組みにもかかわらず、ほとんどの先行研究は特定のデータ型(例えば、画像や音声)に焦点を当てており、意味伝達の目的と有効性を無視している。 そこで,本稿では,話者とリスナが動的環境において一連の逐次タスクを協調的に実行できるようにするため,総合的な目標指向意味コミュニケーションフレームワークを提案する。 話者とリスナーのセマンティックコミュニケーションを実現するために,階層的信念に基づく共通言語を提案する。 講演者は、環境のオブザーバとして機能し、その信念を利用して、その観察(イベントと呼ばれる)の初期記述をリスナーに送信する。 そして、リスナーは、送信された記述を推測し、話者の送信された信念に関連する信念を加えることでそれを完了することができる。 これにより、リスナは、完了した記述に基づいて観察されたイベントを再構成し、再構成されたイベントに基づいて環境において適切なアクションを行う。 タスクの実行時間と信念効率の制約により伝達コストと推論コストを最小限に抑えながら、イベントの完全かつ抽象的な記述を決定する最適化問題を定義する。 そこで,強化学習に基づく新たなボトムアップカリキュラム学習(CL)フレームワークを提案し,その最適化問題を解き,話者とリスナーが,信念セットの構造とイベントの完全かつ抽象的な記述を徐々に特定できるようにする。 シミュレーションの結果,提案手法は収束時間,タスク実行コスト,時間,信頼性,信条効率の点で従来のRLよりも優れていた。

Goal-oriented semantic communication will be a pillar of next-generation wireless networks. Despite significant recent efforts in this area, most prior works are focused on specific data types (e.g., image or audio), and they ignore the goal and effectiveness aspects of semantic transmissions. In contrast, in this paper, a holistic goal-oriented semantic communication framework is proposed to enable a speaker and a listener to cooperatively execute a set of sequential tasks in a dynamic environment. A common language based on a hierarchical belief set is proposed to enable semantic communications between speaker and listener. The speaker, acting as an observer of the environment, utilizes the beliefs to transmit an initial description of its observation (called event) to the listener. The listener is then able to infer on the transmitted description and complete it by adding related beliefs to the transmitted beliefs of the speaker. As such, the listener reconstructs the observed event based on the completed description, and it then takes appropriate action in the environment based on the reconstructed event. An optimization problem is defined to determine the perfect and abstract description of the events while minimizing the transmission and inference costs with constraints on the task execution time and belief efficiency. Then, a novel bottom-up curriculum learning (CL) framework based on reinforcement learning is proposed to solve the optimization problem and enable the speaker and listener to gradually identify the structure of the belief set and the perfect and abstract description of the events. Simulation results show that the proposed CL method outperforms traditional RL in terms of convergence time, task execution cost and time, reliability, and belief efficiency.
翻訳日:2022-04-25 14:48:38 公開日:2022-04-21
# マルチメガピクセル画像における微小物体のインタラクティブセグメンテーションと可視化

Interactive Segmentation and Visualization for Tiny Objects in Multi-megapixel Images ( http://arxiv.org/abs/2204.10356v1 )

ライセンス: Link先を確認
Chengyuan Xu, Boning Dong, Noah Stier, Curtis McCully, D. Andrew Howell, Pradeep Sen, Tobias H\"ollerer(参考訳) 大規模なマルチメガピクセルハイダイナミックレンジ(HDR)画像において,小さなオブジェクト(わずか数ピクセル)を識別・検査・編集するための,インタラクティブな画像分割・可視化フレームワークを提案する。 天文学的観測で宇宙線(crs)を検出することは、複数のツールを必要とする面倒なワークフローであり、モデル推論、hdr画像可視化、セグメンテーションマスク検査、編集を単一のグラフィカルユーザインタフェースに統合するインタラクティブなツールキットを開発した。 この機能は、当初天文学的なデータのために設計されたもので、バイオメディシン、材料科学、リモートセンシングなど科学分野の人間とループの小さな物体のセグメンテーションやコンピュータビジョンのための有用な研究支援ツールとなっている。 マルチメガピクセル画像中の小さな物体を識別するための重要な機能であるセグメンテーションマスクと、画像のマウス制御、同期、デュアルウィンドウ可視化を特徴とする。 ブラウザベースのツールはWeb上で簡単にホストでき、任意のデバイスに対してマルチユーザアクセスとGPUアクセラレーションを提供する。 このツールキットは、高精度のアノテーションツールとしても、インタラクティブな機械学習フレームワークのフロントエンドとしても利用できる。 当社のオープンソースデータセット、cr検出モデル、可視化ツールキットは、https://github.com/cy-xu/cosmic-connで利用可能です。

We introduce an interactive image segmentation and visualization framework for identifying, inspecting, and editing tiny objects (just a few pixels wide) in large multi-megapixel high-dynamic-range (HDR) images. Detecting cosmic rays (CRs) in astronomical observations is a cumbersome workflow that requires multiple tools, so we developed an interactive toolkit that unifies model inference, HDR image visualization, segmentation mask inspection and editing into a single graphical user interface. The feature set, initially designed for astronomical data, makes this work a useful research-supporting tool for human-in-the-loop tiny-object segmentation in scientific areas like biomedicine, materials science, remote sensing, etc., as well as computer vision. Our interface features mouse-controlled, synchronized, dual-window visualization of the image and the segmentation mask, a critical feature for locating tiny objects in multi-megapixel images. The browser-based tool can be readily hosted on the web to provide multi-user access and GPU acceleration for any device. The toolkit can also be used as a high-precision annotation tool, or adapted as the frontend for an interactive machine learning framework. Our open-source dataset, CR detection model, and visualization toolkit are available at https://github.com/cy-xu/cosmic-conn.
翻訳日:2022-04-25 14:45:12 公開日:2022-04-21
# cyclesense:モバイルモーションセンサによる自転車交通の近距離ミス検出

CycleSense: Detecting Near Miss Incidents in Bicycle Traffic from Mobile Motion Sensors ( http://arxiv.org/abs/2204.10416v1 )

ライセンス: Link先を確認
Ahmet-Serdar Karakaya and Thomas Ritter and Felix Biessmann and David Bermbach(参考訳) 世界中の都市では、自動車は健康と交通の問題を招き、自転車のシェアを増加させることで部分的に軽減することができる。 しかし、安全性が欠如しているため、サイクリングを避ける人は多い。 都市計画者にとって、サイクリストが安全な場所やそうでない場所についての洞察が欠けているため、この問題に対処することは難しい。 このような洞察を得るために、私たちは以前クラウドソーシングプラットフォームであるSimRaを提案しました。 本稿では,信号処理と機械学習を組み合わせたcyclesenseを提案する。 SimRaデータセットを用いて,SimRaが使用するベースライン手法と比較することにより,CycleSenseを評価し,インシデント検出を大幅に改善することを示す。

In cities worldwide, cars cause health and traffic problems which could be partly mitigated through an increased modal share of bicycles. Many people, however, avoid cycling due to a lack of perceived safety. For city planners, addressing this is hard as they lack insights into where cyclists feel safe and where they do not. To gain such insights, we have in previous work proposed the crowdsourcing platform SimRa, which allows cyclists to record their rides and report near miss incidents via a smartphone app. In this paper, we present CycleSense, a combination of signal processing and Machine Learning techniques, which partially automates the detection of near miss incidents. Using the SimRa data set, we evaluate CycleSense by comparing it to a baseline method used by SimRa and show that it significantly improves incident detection.
翻訳日:2022-04-25 14:44:48 公開日:2022-04-21
# コースの定常:点-雲で定義されるリーマン多様体上の力学系の位置平衡

Staying the course: Locating equilibria of dynamical systems on Riemannian manifolds defined by point-clouds ( http://arxiv.org/abs/2204.10413v1 )

ライセンス: Link先を確認
Juan M. Bello-Rivas, Anastasia Georgiou, John Guckenheimer, Ioannis G. Kevrekidis(参考訳) リーマン多様体上の力学系の平衡(定常状態)を逐次見つけ出す方法を導入する。 多様体はアトラスや滑らかな写像の零点によって特徴づけられる必要はない。 代わりに、ポイントクラウドで定義し、反復的なプロセスを通じて必要に応じてサンプリングすることができる。 多様体がユークリッド空間であれば、我々の手法は、ベクトル場 $X$ の方向が定数となる曲線の等傾線に従う。 一般ベクトル場 $X$ に対して、アイソクラインは滑らかな曲線であり、すべての平衡はイソクラインの極限点である。 平行輸送を用いてリーマン多様体への同型写像の定義を一般化する: 一般化同型写像は曲線であり、その上で$X$の方向は互いに平行輸送である。 ユークリッドの場合と同様に、ジェネリックベクトル場の一般化等鎖線$X$は、$X$の平衡を接続する滑らかな曲線である。 我々の研究は計算統計力学、特に分子系のダイナミクスをモデル化する高次元(確率)微分方程式に動機づけられている。 これらのダイナミクスは、しばしば低次元多様体の近くに集中し、準安定平衡間の遷移(単一の不安定な方向を持つサドル点)を持つ。 ブラックボックスサンプリングスキーム(例えばマルコフ連鎖モンテカルロ)と多様体学習技法(この場合の拡散写像)を結合することにより、我々の手法が$X$の平衡を確実に見つけることを示す。

We introduce a method to successively locate equilibria (steady states) of dynamical systems on Riemannian manifolds. The manifolds need not be characterized by an atlas or by the zeros of a smooth map. Instead, they can be defined by point-clouds and sampled as needed through an iterative process. If the manifold is an Euclidean space, our method follows isoclines, curves along which the direction of the vector field $X$ is constant. For a generic vector field $X$, isoclines are smooth curves and every equilibrium is a limit point of isoclines. We generalize the definition of isoclines to Riemannian manifolds through the use of parallel transport: generalized isoclines are curves along which the directions of $X$ are parallel transports of each other. As in the Euclidean case, generalized isoclines of generic vector fields $X$ are smooth curves that connect equilibria of $X$. Our work is motivated by computational statistical mechanics, specifically high dimensional (stochastic) differential equations that model the dynamics of molecular systems. Often, these dynamics concentrate near low-dimensional manifolds and have transitions (sadddle points with a single unstable direction) between metastable equilibria We employ iteratively sampled data and isoclines to locate these saddle points. Coupling a black-box sampling scheme (e.g., Markov chain Monte Carlo) with manifold learning techniques (diffusion maps in the case presented here), we show that our method reliably locates equilibria of $X$.
翻訳日:2022-04-25 14:42:22 公開日:2022-04-21
# 階層型強化学習による複雑なインタフェースとのインタラクションの学習

Learning how to Interact with a Complex Interface using Hierarchical Reinforcement Learning ( http://arxiv.org/abs/2204.10374v1 )

ライセンス: Link先を確認
Gheorghe Comanici, Amelia Glaese, Anita Gergely, Daniel Toyama, Zafarali Ahmed, Tyler Jackson, Philippe Hamel, Doina Precup(参考訳) 階層強化学習(HRL)は、対話型エージェントが複雑な問題をサブタスクの階層に分解することを可能にする。 高レベルタスクは、プリミティブアクションであるかのように低レベルタスクのソリューションを呼び出すことができる。 本研究では,複雑なインタフェースと対話する適切な方法を学ぶための階層分解の有用性について検討する。 具体的には,シミュレーションandroidデバイス上でアプリケーションとインターフェース可能なhrlエージェントをトレーニングする。 我々は,(1)単純な指ジェスチャーに対応するサブタスクを学習する階層型分散深層強化学習アーキテクチャを導入し,(2)これらのジェスチャーを組み合わせて複数のAndroidタスクを解く方法を提案する。 我々の手法はゴール条件付けに依存しており、任意のベースRLエージェントをHRLエージェントに変換するためにより一般的に使用できる。 AndroidEnv環境を使ってアプローチを評価します。 実験では、HRLエージェントは人気のあるDQNアルゴリズムの分散バージョンを使用して、階層の異なるコンポーネントをトレーニングする。 ネイティブアクション空間は、単純なDQNエージェントに対して完全に抽出可能であるが、我々のアーキテクチャは、異なるタスクと対話する効果的な方法を確立するために使用することができ、異なるレベルの抽象化よりも、同じDQNエージェントの性能を著しく向上させることができる。

Hierarchical Reinforcement Learning (HRL) allows interactive agents to decompose complex problems into a hierarchy of sub-tasks. Higher-level tasks can invoke the solutions of lower-level tasks as if they were primitive actions. In this work, we study the utility of hierarchical decompositions for learning an appropriate way to interact with a complex interface. Specifically, we train HRL agents that can interface with applications in a simulated Android device. We introduce a Hierarchical Distributed Deep Reinforcement Learning architecture that learns (1) subtasks corresponding to simple finger gestures, and (2) how to combine these gestures to solve several Android tasks. Our approach relies on goal conditioning and can be used more generally to convert any base RL agent into an HRL agent. We use the AndroidEnv environment to evaluate our approach. For the experiments, the HRL agent uses a distributed version of the popular DQN algorithm to train different components of the hierarchy. While the native action space is completely intractable for simple DQN agents, our architecture can be used to establish an effective way to interact with different tasks, significantly improving the performance of the same DQN agent over different levels of abstraction.
翻訳日:2022-04-25 14:28:12 公開日:2022-04-21
# 深層強化学習と作物シミュレーションによる窒素管理の最適化

Optimizing Nitrogen Management with Deep Reinforcement Learning and Crop Simulations ( http://arxiv.org/abs/2204.10394v1 )

ライセンス: Link先を確認
Jing Wu, Ran Tao, Pan Zhao, Nicolas F. Martin, Naira Hovakimyan(参考訳) 窒素 (N) 管理は土壌の肥大化と作物生産の維持に重要であり, 負の環境影響を最小限に抑えるが, 最適化は困難である。 本稿では,深部強化学習(RL)を用いた知的N管理システムと農業技術移転意思決定支援システム(DSSAT)を用いた作物シミュレーションを提案する。 まず、N 管理問題を RL 問題として定式化する。 次に,q-network と soft actor-critic algorithm を用いて管理方針を訓練し,sm-dssat インタフェースを用いてシミュレーション作物環境とrlエージェント間の日常的なインタラクションを実現する。 米国アイオワ州とフロリダのトウモロコシ生産の実験によると、RLを訓練した政策は、肥料を減らしながら高収率または類似の収量を達成し、従来の経験的方法よりも優れている。

Nitrogen (N) management is critical to sustain soil fertility and crop production while minimizing the negative environmental impact, but is challenging to optimize. This paper proposes an intelligent N management system using deep reinforcement learning (RL) and crop simulations with Decision Support System for Agrotechnology Transfer (DSSAT). We first formulate the N management problem as an RL problem. We then train management policies with deep Q-network and soft actor-critic algorithms, and the Gym-DSSAT interface that allows for daily interactions between the simulated crop environment and RL agents. According to the experiments on the maize crop in both Iowa and Florida in the US, our RL-trained policies outperform previous empirical methods by achieving higher or similar yield while using less fertilizers
翻訳日:2022-04-25 14:27:51 公開日:2022-04-21
# DiRA:自己監督型医用画像解析のための差別的・再帰的・敵対的学習

DiRA: Discriminative, Restorative, and Adversarial Learning for Self-supervised Medical Image Analysis ( http://arxiv.org/abs/2204.10437v1 )

ライセンス: Link先を確認
Fatemeh Haghighi, Mohammad Reza Hosseinzadeh Taher, Michael B. Gotway, Jianming Liang(参考訳) 認知的学習、回復的学習、および敵対的学習は、コンピュータビジョンおよび医用イメージングにおける自己教師あり学習スキームに有用であることが証明されている。 しかし,既存の取り組みは,3次設定で相互に相乗効果を排除し,より深い意味表現学習の恩恵を享受できると考えている。 このビジョンを実現するために我々は,非ラベル医用画像から相補的な視覚情報を協調的に抽出し,詳細な意味表現学習を行う最初のフレームワークであるdiraを開発した。 Our extensive experiments demonstrate that DiRA (1) encourages collaborative learning among three learning ingredients, resulting in more generalizable representation across organs, diseases, and modalities; (2) outperforms fully supervised ImageNet models and increases robustness in small data regimes, reducing annotation cost across multiple medical imaging applications; (3) learns fine-grained semantic representation, facilitating accurate lesion localization with only image-level annotation; and (4) enhances state-of-the-art restorative approaches, revealing that DiRA is a general mechanism for united representation learning. すべてのコードと事前訓練されたモデルはhttps: //github.com/JLiangLab/DiRAで利用可能である。

Discriminative learning, restorative learning, and adversarial learning have proven beneficial for self-supervised learning schemes in computer vision and medical imaging. Existing efforts, however, omit their synergistic effects on each other in a ternary setup, which, we envision, can significantly benefit deep semantic representation learning. To realize this vision, we have developed DiRA, the first framework that unites discriminative, restorative, and adversarial learning in a unified manner to collaboratively glean complementary visual information from unlabeled medical images for fine-grained semantic representation learning. Our extensive experiments demonstrate that DiRA (1) encourages collaborative learning among three learning ingredients, resulting in more generalizable representation across organs, diseases, and modalities; (2) outperforms fully supervised ImageNet models and increases robustness in small data regimes, reducing annotation cost across multiple medical imaging applications; (3) learns fine-grained semantic representation, facilitating accurate lesion localization with only image-level annotation; and (4) enhances state-of-the-art restorative approaches, revealing that DiRA is a general mechanism for united representation learning. All code and pre-trained models are available at https: //github.com/JLiangLab/DiRA.
翻訳日:2022-04-25 14:19:55 公開日:2022-04-21
# 多項式状態における内積核行列のスペクトルとカーネルリッジ回帰における多重降下現象

Spectrum of inner-product kernel matrices in the polynomial regime and multiple descent phenomenon in kernel ridge regression ( http://arxiv.org/abs/2204.10425v1 )

ライセンス: Link先を確認
Theodor Misiakiewicz(参考訳) 内積核行列のスペクトル、すなわち、h (\langle \textbf{x}_i ,\textbf{x}_j \rangle/d)$ ここで、$( \textbf{x}_i)_{i \leq n}$ は i.i.d.~random covariates in $\mathbb{r}^d$ である。 線形高次元レジーム $n \asymp d$ において、これらの行列は線形化によってよく近似され、再スケールされたウィッシュアート行列と恒等行列の和に単純化されることを示した。 本稿では,この分解を,球面と超キューブ上に一様分布するデータに対して,多項式高次元レジーム $n \asymp d^\ell,\ell \in \mathbb{n}$ に一般化する。 この方法では、カーネル行列は次数-$\ell$多項式近似によりよく近似され、単位元は低ランクのスパイク行列に分解され、エントリ $q_\ell (\langle \textbf{x}_i , \textbf{x}_j \rangle)$ を持つ 'gegenbauer matrix' となる。 ゲゲンバウアー行列のスペクトルは分布的にマルケンコ・パストゥル則に収束することを示した。 この問題は、多項式状態 $n \asymp d^\kappa, \kappa > 0$ におけるカーネルリッジ回帰(KRR)の予測誤差の研究によって動機付けられる。 以前の研究は、$\kappa \not\in \mathbb{N}$に対して、KRR はちょうど次数-$\lfloor \kappa \rfloor$多項式近似を対象関数に適合させることを示した。 本稿では,核行列のキャラクタリゼーションを用いてこの図を完結させ,極限 $n/d^\kappa \to \psi$ と $\kappa \in \mathbb{n}$ におけるテスト誤差の正確な漸近値を計算する。 この場合、テストエラーは、レベル$\kappa$の効果的な正規化と信号対雑音比に依存する二重降下挙動を示すことができる。 この二重降下は$\kappa$が整数を渡るたびに起こるので、これは以前のいくつかの研究で観察されたKRRリスク曲線における多重降下現象を説明する。

We study the spectrum of inner-product kernel matrices, i.e., $n \times n$ matrices with entries $h (\langle \textbf{x}_i ,\textbf{x}_j \rangle/d)$ where the $( \textbf{x}_i)_{i \leq n}$ are i.i.d.~random covariates in $\mathbb{R}^d$. In the linear high-dimensional regime $n \asymp d$, it was shown that these matrices are well approximated by their linearization, which simplifies into the sum of a rescaled Wishart matrix and identity matrix. In this paper, we generalize this decomposition to the polynomial high-dimensional regime $n \asymp d^\ell,\ell \in \mathbb{N}$, for data uniformly distributed on the sphere and hypercube. In this regime, the kernel matrix is well approximated by its degree-$\ell$ polynomial approximation and can be decomposed into a low-rank spike matrix, identity and a `Gegenbauer matrix' with entries $Q_\ell (\langle \textbf{x}_i , \textbf{x}_j \rangle)$, where $Q_\ell$ is the degree-$\ell$ Gegenbauer polynomial. We show that the spectrum of the Gegenbauer matrix converges in distribution to a Marchenko-Pastur law. This problem is motivated by the study of the prediction error of kernel ridge regression (KRR) in the polynomial regime $n \asymp d^\kappa, \kappa >0$. Previous work showed that for $\kappa \not\in \mathbb{N}$, KRR fits exactly a degree-$\lfloor \kappa \rfloor$ polynomial approximation to the target function. In this paper, we use our characterization of the kernel matrix to complete this picture and compute the precise asymptotics of the test error in the limit $n/d^\kappa \to \psi$ with $\kappa \in \mathbb{N}$. In this case, the test error can present a double descent behavior, depending on the effective regularization and signal-to-noise ratio at level $\kappa$. Because this double descent can occur each time $\kappa$ crosses an integer, this explains the multiple descent phenomenon in the KRR risk curve observed in several previous works.
翻訳日:2022-04-25 14:16:39 公開日:2022-04-21
# 第6回AI都市チャレンジ

The 6th AI City Challenge ( http://arxiv.org/abs/2204.10380v1 )

ライセンス: Link先を確認
Milind Naphade, Shuo Wang, David C. Anastasiu, Zheng Tang, Ming-Ching Chang, Yue Yao, Liang Zheng, Mohammed Shaiqur Rahman, Archana Venkatachalapathy, Anuj Sharma, Qi Feng, Vitaly Ablavsky, Stan Sclaroff, Pranamesh Chakraborty, Alice Li, Shangru Li and Rama Chellappa(参考訳) AI City Challengeの第6版は、コンピュータービジョンと人工知能の交差する領域において、大きな可能性を秘めている2つの領域(Intelligent Traffic Systems(ITS)と、レンガやモルタルの小売ビジネス)の問題に焦点を当てている。 2022年のaiシティチャレンジの4つのチャレンジトラックは27カ国254チームから参加要請を受けた。 トラック1は都市規模のマルチターゲット・マルチカメラ(MTMC)の車両追跡に対処した。 トラック2 - 自然言語による車線検索。 トラック3は自然主義的な運転分析のための全く新しいトラックであり、運転者の安全に焦点をあてた複数のカメラがデータを捉え、運転者の行動を分類することであった。 トラック4は1台のビューカメラだけで店舗の自動チェックアウトを実現するための新しいトラックである。 我々は、外部データの使用を許可しないコンテストの公開リーダボードと、提出されたすべての結果の一般リーダボードを含む、異なる方法に基づく提出のための2つのリーダーボードをリリースした。 参加チームのトップパフォーマンスは強いベースラインを確立し、提案されたチャレンジトラックで最先端の成績を上げました。

The 6th edition of the AI City Challenge specifically focuses on problems in two domains where there is tremendous unlocked potential at the intersection of computer vision and artificial intelligence: Intelligent Traffic Systems (ITS), and brick and mortar retail businesses. The four challenge tracks of the 2022 AI City Challenge received participation requests from 254 teams across 27 countries. Track 1 addressed city-scale multi-target multi-camera (MTMC) vehicle tracking. Track 2 addressed natural-language-based vehicle track retrieval. Track 3 was a brand new track for naturalistic driving analysis, where the data were captured by several cameras mounted inside the vehicle focusing on driver safety, and the task was to classify driver actions. Track 4 was another new track aiming to achieve retail store automated checkout using only a single view camera. We released two leader boards for submissions based on different methods, including a public leader board for the contest, where no use of external data is allowed, and a general leader board for all submitted results. The top performance of participating teams established strong baselines and even outperformed the state-of-the-art in the proposed challenge tracks.
翻訳日:2022-04-25 13:49:59 公開日:2022-04-21
# 生体視覚システムにヒントを得たキューを用いた単眼深度推定

Monocular Depth Estimation Using Cues Inspired by Biological Vision Systems ( http://arxiv.org/abs/2204.10384v1 )

ライセンス: Link先を確認
Dylan Auty, Krystian Mikolajczyk(参考訳) 単眼深度推定(MDE)は、シーンのRGB画像を同じカメラビューから画素幅の深度マップに変換することを目的としている。 情報は欠落しており、あらゆる画像が3dシーンから撮影された可能性がある。 したがって、mdeタスクの一部は、画像内のどの視覚手がかりを深度推定に使用できるか、どのように使うかを学ぶことである。 トレーニングデータはアノテーションのコストや計算能力によって制限されるネットワーク容量によって制限されるため、これは難しい。 本研究では,視覚的キュー情報をモデルに明示的に注入することが深度推定に有用であることを示す。 生体視覚システムの研究の後、相対的な大きさ、親しみやすいサイズ、絶対的な大きさの生物学的手がかりをエミュレートするために、意味情報と物体の大きさとその関係に関する事前知識に焦点を当てた。 我々は最先端のセマンティクスモデルとインスタンスセグメンテーションモデルを用いて外部情報を提供し、言語埋め込みを利用してクラス間の関係情報をエンコードする。 また、オブジェクトの平均実世界サイズに関する事前情報も提供しています。 この外部情報は、データ可用性の制限を克服し、所定のネットワークの容量が既知の助けとなるヒントに焦点を当てていることを保証するため、パフォーマンスが向上する。 本仮説を実験的に検証し,広く用いられているnyud2室内深度推定ベンチマークを用いて,提案モデルの評価を行った。 その結果,RGB画像とともに意味情報,サイズ,インスタンスサイズが明示的に提供される場合の深度予測の精度が向上し,どの深度推定システムにも容易に適用できることがわかった。

Monocular depth estimation (MDE) aims to transform an RGB image of a scene into a pixelwise depth map from the same camera view. It is fundamentally ill-posed due to missing information: any single image can have been taken from many possible 3D scenes. Part of the MDE task is, therefore, to learn which visual cues in the image can be used for depth estimation, and how. With training data limited by cost of annotation or network capacity limited by computational power, this is challenging. In this work we demonstrate that explicitly injecting visual cue information into the model is beneficial for depth estimation. Following research into biological vision systems, we focus on semantic information and prior knowledge of object sizes and their relations, to emulate the biological cues of relative size, familiar size, and absolute size. We use state-of-the-art semantic and instance segmentation models to provide external information, and exploit language embeddings to encode relational information between classes. We also provide a prior on the average real-world size of objects. This external information overcomes the limitation in data availability, and ensures that the limited capacity of a given network is focused on known-helpful cues, therefore improving performance. We experimentally validate our hypothesis and evaluate the proposed model on the widely used NYUD2 indoor depth estimation benchmark. The results show improvements in depth prediction when the semantic information, size prior and instance size are explicitly provided along with the RGB images, and our method can be easily adapted to any depth estimation system.
翻訳日:2022-04-25 13:49:40 公開日:2022-04-21
# 対話型知識支援機械教育のための枠組み

A Framework for Interactive Knowledge-Aided Machine Teaching ( http://arxiv.org/abs/2204.10357v1 )

ライセンス: Link先を確認
Karan Taneja, Harshvardhan Sikka and Ashok Goel(参考訳) 機械指導(英: Machine Teaching、MT)とは、人間が教師の役割を演じて機械学習モデルを訓練する対話的なプロセスである。 MTシステムを設計するプロセスには、人間の教師の効率と機械学習のパフォーマンスの両方に影響を与える決定が含まれる。 従来の研究は特定のMTシステムを提案し評価してきたが、設計の一般的な枠組みについては議論が限られている。 本稿では,mtシステムを設計するためのフレームワークを提案し,テキスト分類問題を具体例として詳述する。 本フレームワークは,インターフェース,機械学習,知識ベースという3つのコンポーネントに着目し,各コンポーネントが他のコンポーネントにどのようなメリットをもたらすかを説明する。 我々の予備実験は、MTシステムが人間の教え時間と機械学習者の誤り率の両方を削減できることを示す。

Machine Teaching (MT) is an interactive process where humans train a machine learning model by playing the role of a teacher. The process of designing an MT system involves decisions that can impact both efficiency of human teachers and performance of machine learners. Previous research has proposed and evaluated specific MT systems but there is limited discussion on a general framework for designing them. We propose a framework for designing MT systems and also detail a system for the text classification problem as a specific instance. Our framework focuses on three components i.e. teaching interface, machine learner, and knowledge base; and their relations describe how each component can benefit the others. Our preliminary experiments show how MT systems can reduce both human teaching time and machine learner error rate.
翻訳日:2022-04-25 13:27:07 公開日:2022-04-21
# 透明な説明可能な規則集合の進化

Evolution of Transparent Explainable Rule-sets ( http://arxiv.org/abs/2204.10438v1 )

ライセンス: Link先を確認
Hormoz Shahrzad, Babak Hodjat, Risto Miikkulainen(参考訳) ほとんどのAIシステムは、与えられた入力に対して適切な出力を生成するブラックボックスである。 しかし、いくつかのドメインは、これらのアプローチで直接満足できない説明可能性と信頼性要件を持っている。 そのため、トレーニング後にブラックボックスモデルを解釈するために様々な方法が開発されている。 本稿では,モデルが透過的かつ説明可能な代替手法を提案する。 このアプローチ、EVOTERは単純な論理式に基づいてルールセットを進化させる。 この手法は、いくつかの予測/分類と処方/政治検索ドメインにおいて代理なしで評価される。 ブラックボックスモデルと同様に実行される有意義なルールセットを見つけることが示される。 ルールはドメインに対する洞察を与え、データに隠されたバイアスを明確にする。 バイアスを取り除き、制約を追加するために、それらを直接編集することもできる。 EVOTERは将来、現実世界のアプリケーションのための信頼できるAIシステムを構築するための有望な基盤となる。

Most AI systems are black boxes generating reasonable outputs for given inputs. Some domains, however, have explainability and trustworthiness requirements that cannot be directly met by these approaches. Various methods have therefore been developed to interpret black-box models after training. This paper advocates an alternative approach where the models are transparent and explainable to begin with. This approach, EVOTER, evolves rule-sets based on simple logical expressions. The approach is evaluated in several prediction/classification and prescription/policy search domains with and without a surrogate. It is shown to discover meaningful rule sets that perform similarly to black-box models. The rules can provide insight to the domain, and make biases hidden in the data explicit. It may also be possible to edit them directly to remove biases and add constraints. EVOTER thus forms a promising foundation for building trustworthy AI systems for real-world applications in the future.
翻訳日:2022-04-25 13:26:55 公開日:2022-04-21
# グローバルコンテキストを用いたデノボタンパク質の創製

Generative De Novo Protein Design with Global Context ( http://arxiv.org/abs/2204.10673v1 )

ライセンス: Link先を確認
Cheng Tan, Zhangyang Gao, Jun Xia, Stan Z. Li(参考訳) アミノ酸の線形配列はタンパク質の構造と機能を決定する。 タンパク質構造予測の逆法として知られるタンパク質設計は、定義された構造に折り畳む新しいタンパク質配列を得ることを目指している。 計算タンパク質の設計に関する最近の研究は、所望のバックボーン構造を局所的な位置情報で設計し、競争性能を達成した。 しかし、異なるバックボーン構造の類似した局所環境は異なるアミノ酸をもたらす可能性があり、タンパク質構造のグローバルな文脈が重要であることを示している。 そこで本研究では,局所モジュールとグローバルモジュールからなるGCA(Global-Context Aware Generative de novo protein design method)を提案する。 ローカルモジュールは隣接するアミノ酸間の関係に焦点を当てているが、グローバルモジュールは明示的に非ローカルなコンテキストをキャプチャする。 実験の結果,gca法がde novoタンパク質設計の最先端技術を上回ることがわかった。 私たちのコードとトレーニング済みのモデルがリリースされます。

The linear sequence of amino acids determines protein structure and function. Protein design, known as the inverse of protein structure prediction, aims to obtain a novel protein sequence that will fold into the defined structure. Recent works on computational protein design have studied designing sequences for the desired backbone structure with local positional information and achieved competitive performance. However, similar local environments in different backbone structures may result in different amino acids, indicating that protein structure's global context matters. Thus, we propose the Global-Context Aware generative de novo protein design method (GCA), consisting of local and global modules. While local modules focus on relationships between neighbor amino acids, global modules explicitly capture non-local contexts. Experimental results demonstrate that the proposed GCA method outperforms state-of-the-arts on de novo protein design. Our code and pretrained model will be released.
翻訳日:2022-04-25 13:24:50 公開日:2022-04-21
# 畳み込みニューラルネットワークの空間的雑音関連残差学習による膝関節の3次元高速スピンエコー磁気共鳴画像の作成

Denoising of Three-Dimensional Fast Spin Echo Magnetic Resonance Images of Knee Joints using Spatial-Variant Noise-Relevant Residual Learning of Convolution Neural Network ( http://arxiv.org/abs/2204.10773v1 )

ライセンス: Link先を確認
Shutian Zhao (1), Donal G. Cahill (1), Siyue Li (1), Fan Xiao (1), Thierry Blu (2), James F Griffith (1), Weitian Chen (1) ((1) Department of Imaging and Interventional Radiology, the Chinese University of Hong Kong, (2) Department of Electrical Engineering, the Chinese University of Hong Kong)(参考訳) 2次元高速スピンエコー法(FSE)は, 膝関節のMRIにおいて中心的な役割を担っている。 さらに3次元FSEは膝関節の高等方性磁気共鳴(MR)像を提供するが、2次元FSEに比べて信号対雑音比が低い。 深層学習手法はmr画像に有望な手法であるが,mr画像の真の雑音分布を得る上での課題から合成雑音を用いて訓練されることが多い。 本研究では, 畳み込みニューラルネットワーク (CNN) の残差学習に基づく深層学習モデルの開発に, 2-NEX による固有ノイズ情報を用いて, 膝関節の3次元FSE MR画像のノイズ抑制を行った。 提案したCNNは、2段階の残差学習を並列輸送および残差ブロック上で使用し、2-NEXトレーニングデータから実雑音特徴を総合的に学習するように設計された。 アブレーション実験の結果,ネットワーク設計が検証された。 本手法は, ピーク信号対雑音比と構造類似度指標に基づいて, 最先端法と比較して3次元fse膝関節mr画像のデノージング性能が向上した。 また, 画像品質の向上を, 放射線学的評価により検証した。 2-NEX取得における空間変動ノイズ情報を用いた深部CNNを開発した。 本法は, 膝関節の臨床MRI評価に有意であり, 他の解剖学的構造評価にも有用であると考えられた。

Two-dimensional (2D) fast spin echo (FSE) techniques play a central role in the clinical magnetic resonance imaging (MRI) of knee joints. Moreover, three-dimensional (3D) FSE provides high-isotropic-resolution magnetic resonance (MR) images of knee joints, but it has a reduced signal-to-noise ratio compared to 2D FSE. Deep-learning denoising methods are a promising approach for denoising MR images, but they are often trained using synthetic noise due to challenges in obtaining true noise distributions for MR images. In this study, inherent true noise information from 2-NEX acquisition was used to develop a deep-learning model based on residual learning of convolutional neural network (CNN), and this model was used to suppress the noise in 3D FSE MR images of knee joints. The proposed CNN used two-step residual learning over parallel transporting and residual blocks and was designed to comprehensively learn real noise features from 2-NEX training data. The results of an ablation study validated the network design. The new method achieved improved denoising performance of 3D FSE knee MR images compared with current state-of-the-art methods, based on the peak signal-to-noise ratio and structural similarity index measure. The improved image quality after denoising using the new method was verified by radiological evaluation. A deep CNN using the inherent spatial-varying noise information in 2-NEX acquisitions was developed. This method showed promise for clinical MRI assessments of the knee, and has potential applications for the assessment of other anatomical structures.
翻訳日:2022-04-25 13:22:57 公開日:2022-04-21
# 例をデコレートする: 生医学的関係抽出のための簡単なプロンプト設計法

Decorate the Examples: A Simple Method of Prompt Design for Biomedical Relation Extraction ( http://arxiv.org/abs/2204.10360v1 )

ライセンス: Link先を確認
Hui-Syuan Yeh, Thomas Lavergne, Pierre Zweigenbaum(参考訳) 関連抽出は、生物医学領域における自然言語処理の核となる問題である。 関係抽出に関する最近の研究は、素早い学習がフルトレーニングセットと少数ショットトレーニングの両方における微調整の性能を向上させることを示した。 しかし、優れたプロンプト設計が難しいドメイン固有のタスクに対する労力は少なくなっている。 本稿では,ChemProtデータセットを用いたバイオメディカルな関係抽出の促進について検討する。 本稿では,関係抽出タスクを単純なプロンプト定式化の下でクローズテストタスクとして再編成する包括的プロンプトを体系的に生成する,単純かつ効果的な手法を提案する。 特に,迅速な選択のために,異なるランキングスコアを試す。 BioMed-RoBERTa-baseでは,通常の微調整ベースラインで14.21F1,ChemProtで現在最先端のSciFive-Largeで1.14F1を得ることができた。 さらに、プロンプトベースの学習では、合理的な予測を行うためのトレーニングサンプルが少なくなることも分かりました。 その結果,ドメイン固有の関係抽出タスクにおける手法の可能性を示した。

Relation extraction is a core problem for natural language processing in the biomedical domain. Recent research on relation extraction showed that prompt-based learning improves the performance on both fine-tuning on full training set and few-shot training. However, less effort has been made on domain-specific tasks where good prompt design can be even harder. In this paper, we investigate prompting for biomedical relation extraction, with experiments on the ChemProt dataset. We present a simple yet effective method to systematically generate comprehensive prompts that reformulate the relation extraction task as a cloze-test task under a simple prompt formulation. In particular, we experiment with different ranking scores for prompt selection. With BioMed-RoBERTa-base, our results show that prompting-based fine-tuning obtains gains by 14.21 F1 over its regular fine-tuning baseline, and 1.14 F1 over SciFive-Large, the current state-of-the-art on ChemProt. Besides, we find prompt-based learning requires fewer training examples to make reasonable predictions. The results demonstrate the potential of our methods in such a domain-specific relation extraction task.
翻訳日:2022-04-25 13:21:57 公開日:2022-04-21
# 臨床アンケートの活用によるうつ病検出の汎用性の向上

Improving the Generalizability of Depression Detection by Leveraging Clinical Questionnaires ( http://arxiv.org/abs/2204.10432v1 )

ライセンス: Link先を確認
Thong Nguyen, Andrew Yates, Ayah Zirikly, Bart Desmet, Arman Cohan(参考訳) 自動化された手法は、ソーシャルメディアを含む様々な情報ソースから精神状態(うつ病など)を特定し分析するために広く用いられてきた。 しかし、そのようなモデルを現実世界の医療アプリケーションに展開することは、ドメイン外一般化の貧弱さやブラックボックスモデルの信頼の欠如など、課題に直面している。 本研究では, うつ病検診において臨床医が用いた, PHQ9 の症状の有無によって, 異なる度合いに制約されたうつ病検出手法を提案する。 3つのソーシャルメディアデータセットのデータセット転送実験において、PHQ9の症状をベースとしたモデルでは、標準的なBERTベースのアプローチに比べて、配信外データへの一般化能力が大幅に向上することが判明した。 さらに、このアプローチはドメイン内データで競争力を保てる。 これらの結果と質的分析から,臨床症状における接地モデル予測は,検査が容易なモデルの作成にともなう汎用性の向上につながることが示唆された。

Automated methods have been widely used to identify and analyze mental health conditions (e.g., depression) from various sources of information, including social media. Yet, deployment of such models in real-world healthcare applications faces challenges including poor out-of-domain generalization and lack of trust in black box models. In this work, we propose approaches for depression detection that are constrained to different degrees by the presence of symptoms described in PHQ9, a questionnaire used by clinicians in the depression screening process. In dataset-transfer experiments on three social media datasets, we find that grounding the model in PHQ9's symptoms substantially improves its ability to generalize to out-of-distribution data compared to a standard BERT-based approach. Furthermore, this approach can still perform competitively on in-domain data. These results and our qualitative analyses suggest that grounding model predictions in clinically-relevant symptoms can improve generalizability while producing a model that is easier to inspect.
翻訳日:2022-04-25 13:21:16 公開日:2022-04-21
# PreTraM: 接続軌道とマップによる自己監督型事前トレーニング

PreTraM: Self-Supervised Pre-training via Connecting Trajectory and Map ( http://arxiv.org/abs/2204.10435v1 )

ライセンス: Link先を確認
Chenfeng Xu, Tian Li, Chen Tang, Lingfeng Sun, Kurt Keutzer, Masayoshi Tomizuka, Alireza Fathi, Wei Zhan(参考訳) 近年、深層学習は軌道予測において大きな進歩を遂げている。 しかし、軌跡データの不足は、データに精通したディープラーニングモデルが優れた表現を学習することを妨げる。 コンピュータビジョンと自然言語処理には成熟した表現学習方法が存在するが、これらの事前学習方法は大規模データを必要とする。 適切な軌跡データ(nuScenesデータセットの34Kサンプルなど)がないため、軌道予測においてこれらのアプローチを再現することは困難である。 トラジェクトリデータの不足を回避するために,既存のデータセットに豊富なトラジェクトリ-HD-マップと密接に関連する別のデータモダリティを利用する。 本稿では、軌道予測のための軌跡と地図を接続する自己教師付き事前学習スキームPreTraMを提案する。 具体的には、PreTraMは2つの部分から構成される。 1) 軌跡を投影し, クロスモーダルコントラスト学習を伴う共有埋め込み空間へマップする軌道マップコントラスト学習 2) コントラスト学習では,HD-map の多量化によるコントラスト学習により地図表現が強化される。 AgentFormerやTrajectron++といった一般的なベースラインに加えて、PreTraMは、挑戦的なnuScenesデータセット上で、FDE-10でパフォーマンスを5.5%と6.9%向上させる。 PreTraMはデータ効率を向上し,モデルサイズによく対応している。

Deep learning has recently achieved significant progress in trajectory forecasting. However, the scarcity of trajectory data inhibits the data-hungry deep-learning models from learning good representations. While mature representation learning methods exist in computer vision and natural language processing, these pre-training methods require large-scale data. It is hard to replicate these approaches in trajectory forecasting due to the lack of adequate trajectory data (e.g., 34K samples in the nuScenes dataset). To work around the scarcity of trajectory data, we resort to another data modality closely related to trajectories-HD-maps, which is abundantly provided in existing datasets. In this paper, we propose PreTraM, a self-supervised pre-training scheme via connecting trajectories and maps for trajectory forecasting. Specifically, PreTraM consists of two parts: 1) Trajectory-Map Contrastive Learning, where we project trajectories and maps to a shared embedding space with cross-modal contrastive learning, and 2) Map Contrastive Learning, where we enhance map representation with contrastive learning on large quantities of HD-maps. On top of popular baselines such as AgentFormer and Trajectron++, PreTraM boosts their performance by 5.5% and 6.9% relatively in FDE-10 on the challenging nuScenes dataset. We show that PreTraM improves data efficiency and scales well with model size.
翻訳日:2022-04-25 13:02:40 公開日:2022-04-21
# ICDBigBird: ICDコード分類のためのコンテキスト埋め込みモデル

ICDBigBird: A Contextual Embedding Model for ICD Code Classification ( http://arxiv.org/abs/2204.10408v1 )

ライセンス: Link先を確認
George Michalopoulos, Michal Malyska, Nicola Sahar, Alexander Wong, Helen Chen(参考訳) 国際疾病分類システム(icd)は、医療遭遇時の疾患や手順を分類する国際標準であり、医療報告や管理の目的で広く使用されている。 医療における臨床, 手術, 財務上の意思決定には, 臨床手順に適切な符号を割り当てることが重要である。 文脈単語埋め込みモデルは、複数のNLPタスクにおいて最先端の結果を得た。 しかし、これらのモデルはICD分類タスクにおける最新結果の達成には至っていない。主な欠点の1つは、実際の患者ノートではめったにない少数のトークンを含む文書しか処理できないことである。 本稿では,icdコード間の関係を利用するグラフ畳み込みネットワーク(gcn)を統合可能なbigbirdベースのモデルであるicdbigbirdを提案する。 実世界臨床データセットを用いた実験は,これまでの最先端モデルに匹敵するicd分類タスクにおけるbigbirdモデルの有効性を実証する。

The International Classification of Diseases (ICD) system is the international standard for classifying diseases and procedures during a healthcare encounter and is widely used for healthcare reporting and management purposes. Assigning correct codes for clinical procedures is important for clinical, operational, and financial decision-making in healthcare. Contextual word embedding models have achieved state-of-the-art results in multiple NLP tasks. However, these models have yet to achieve state-of-the-art results in the ICD classification task since one of their main disadvantages is that they can only process documents that contain a small number of tokens which is rarely the case with real patient notes. In this paper, we introduce ICDBigBird a BigBird-based model which can integrate a Graph Convolutional Network (GCN), that takes advantage of the relations between ICD codes in order to create 'enriched' representations of their embeddings, with a BigBird contextual model that can process larger documents. Our experiments on a real-world clinical dataset demonstrate the effectiveness of our BigBird-based model on the ICD classification task as it outperforms the previous state-of-the-art models.
翻訳日:2022-04-25 13:01:39 公開日:2022-04-21
# Machine Assisted Generation, Calibration, and Comparison (MAGCC) Framework を用いた科学知識の科学シミュレーションモデルへの自動変換

Facilitating automated conversion of scientific knowledge into scientific simulation models with the Machine Assisted Generation, Calibration, and Comparison (MAGCC) Framework ( http://arxiv.org/abs/2204.10382v1 )

ライセンス: Link先を確認
Chase Cockrell, Scott Christley, Gary An(参考訳) machine assisted generation, comparison, and calibration (magcc) フレームワークは、科学的シミュレーションモデルの開発、実装、テスト、使用において、繰り返し重要なステップとプロセスの機械支援と自動化を提供する。 magccは自然言語処理あるいは既存の数学モデルから抽出された知識抽出システムを橋渡しし、科学モデルと人工知能(ai)によるコード生成を支援する包括的なワークフローを提供する。 MAGCCはこれを達成します。 1) 総合的に表現可能な形式的知識表現知識ベースである構造化科学知識表現(Structured Scientific Knowledge Representation, SSKR)の開発。 2)人工知能による論理推論システムである計算モデリングアシスタント(cma)の使用は、sskrから情報を取得し、トレース可能な方法で、様々なシミュレーションモデリング手法にわたってモデル仕様を生成する。 3)これらのモデル仕様からシミュレーションモデルの実行可能なコードを生成するためにCMAを使用する。 MAGCCフレームワークは任意の科学領域をカスタマイズでき、今後は新たに開発されたコード生成AIシステムを統合する予定だ。

The Machine Assisted Generation, Comparison, and Calibration (MAGCC) framework provides machine assistance and automation of recurrent crucial steps and processes in the development, implementation, testing, and use of scientific simulation models. MAGCC bridges systems for knowledge extraction via natural language processing or extracted from existing mathematical models and provides a comprehensive workflow encompassing the composition of scientific models and artificial intelligence (AI) assisted code generation. MAGCC accomplishes this through: 1) the development of a comprehensively expressive formal knowledge representation knowledgebase, the Structured Scientific Knowledge Representation (SSKR) that encompasses all the types of information needed to make any simulation model, 2) the use of an artificially intelligent logic reasoning system, the Computational Modeling Assistant (CMA), that takes information from the SSKR and generates, in a traceable fashion, model specifications across a range of simulation modeling methods, and 3) the use of the CMA to generate executable code for a simulation model from those model specifications. The MAGCC framework can be customized any scientific domain, and future work will integrate newly developed code-generating AI systems.
翻訳日:2022-04-25 13:00:09 公開日:2022-04-21
# SoftEdge: ランダムなソフトエッジによるグラフ分類の正規化

SoftEdge: Regularizing Graph Classification with Random Soft Edges ( http://arxiv.org/abs/2204.10390v1 )

ライセンス: Link先を確認
Hongyu Guo and Sun Sun(参考訳) グラフデータの強化は、学習のためのメッセージパッシングという形で、グラフのエッジに沿って情報交換を利用するグラフニューラルネットワーク(gnns)の正則化において重要な役割を果たす。 その効果により、単純なエッジとノード操作(例えば、追加と削除)がグラフ拡張に広く用いられている。 本稿では,このような共通拡張手法の限界を明らかにする。 つまり、単純なエッジとノード操作によって、同じ構造や識別不能な構造を持つグラフを作成して、gnnをメッセージ渡しするが競合ラベルを付けることで、サンプル衝突問題が発生し、モデル性能が低下する。 この問題に対処するために,与えられたグラフのエッジの一部にランダムな重みを割り当て,そのグラフ上の動的近傍を構築するSoftEdgeを提案する。 softedgeが衝突のない拡張グラフを生成することを証明します。 また,本手法は,一般的なノード・エッジ操作手法よりも精度が高く,GNN深度による精度劣化に対する顕著なレジリエンスが得られることを示す。

Graph data augmentation plays a vital role in regularizing Graph Neural Networks (GNNs), which leverage information exchange along edges in graphs, in the form of message passing, for learning. Due to their effectiveness, simple edge and node manipulations (e.g., addition and deletion) have been widely used in graph augmentation. In this paper, we identify a limitation in such a common augmentation technique. That is, simple edge and node manipulations can create graphs with an identical structure or indistinguishable structures to message passing GNNs but of conflict labels, leading to the sample collision issue and thus the degradation of model performance. To address this problem, we propose SoftEdge, which assigns random weights to a portion of the edges of a given graph to construct dynamic neighborhoods over the graph. We prove that SoftEdge creates collision-free augmented graphs. We also show that this simple method obtains superior accuracy to popular node and edge manipulation approaches and notable resilience to the accuracy degradation with the GNN depth.
翻訳日:2022-04-25 12:59:47 公開日:2022-04-21
# 変分オートエンコーダにおけるgibbsサンプリングによるスワップボラティリティデータの補間

Interpolation of Missing Swaption Volatility Data using Gibbs Sampling on Variational Autoencoders ( http://arxiv.org/abs/2204.10400v1 )

ライセンス: Link先を確認
Ivo Richert and Robert Buch(参考訳) 金融業者と研究者の双方にとって重要な関心にもかかわらず、欧州のスワップの市場が実装したボラティリティデータは、様々な交換器の非流動性のため、しばしば欠落した引用の大部分が示される。 この場合、共通のSABRモデルのような標準的な確率補間ツールは、基礎となるスワップのオンザマネーの引用でのみ利用できるため、インプリートボラティリティの笑顔を観察するために校正できないことが多い。 本稿では, 変分オートエンコーダを用いて, 含意ボラティリティキューブの確率的潜在表現を学習し, 観測データに満たないボラティリティデータについて近似ギブスサンプリング手法により推定することにより, 完全に未知なボラティリティキューブの形状を推定する。 欠落した引用の暗黙の見積もりは、後に標準的な確率的ボラティリティモデルに適合するために使われる。 実市場の引用文から合成データに基づいて学習したモデルに対するアプローチの頑健さを検証し, 人工的に不備な値のボラティリティー立方体を補間したSABR補間ボラティライトが, 完全立方体に校正されたSABRの適合度に比べて2点以上異なることを示す。 さらに,本手法を用いてデルタニュートラルポートフォリオをヒージング目的に設定する方法について述べる。

Albeit of crucial interest for both financial practitioners and researchers, market-implied volatility data of European swaptions often exhibit large portions of missing quotes due to illiquidity of the various underlying swaption instruments. In this case, standard stochastic interpolation tools like the common SABR model often cannot be calibrated to observed implied volatility smiles, due to data being only available for the at-the-money quote of the respective underlying swaption. Here, we propose to infer the geometry of the full unknown implied volatility cube by learning stochastic latent representations of implied volatility cubes via variational autoencoders, enabling inference about the missing volatility data conditional on the observed data by an approximate Gibbs sampling approach. Imputed estimates of missing quotes can afterwards be used to fit a standard stochastic volatility model. Since training data for the employed variational autoencoder model is usually sparsely available, we test the robustness of the approach for a model trained on synthetic data on real market quotes and we show that SABR interpolated volatilites calibrated to reconstructed volatility cubes with artificially imputed missing values differ by not much more than two basis points compared to SABR fits calibrated to the complete cube. Moreover, we show how the imputation can be used to successfully set up delta-neutral portfolios for hedging purposes.
翻訳日:2022-04-25 12:59:13 公開日:2022-04-21
# 時系列データを用いた連続潜時変動モデルの学習

Learning Sequential Latent Variable Models from Multimodal Time Series Data ( http://arxiv.org/abs/2204.10419v1 )

ライセンス: Link先を確認
Oliver Limoyo, Trevor Ablett, and Jonathan Kelly(参考訳) 高次元データの逐次モデリングは、モデルに基づく強化学習や制御のための動的識別を含む多くの領域に現れる重要な問題である。 逐次データに適用される潜時変数モデル(すなわち潜時力学モデル)は、特に画像を扱う場合、この問題を解決するための特に効果的な確率論的アプローチであることが示されている。 しかし、多くのアプリケーション領域(例えばロボティクス)では、複数のセンシングモードからの情報は利用可能であり、既存の潜在力学手法はまだ、そのようなマルチモーダルシーケンシャルデータを効果的に活用するために拡張されていない。 マルチモーダルセンサストリームは有用な方法で相関し、しばしばモダリティの相補的な情報を含む。 本稿では,マルチモーダルデータの確率的潜在状態表現と各ダイナミクスを共同で学習するための自己教師付き生成モデリングフレームワークを提案する。 マルチモーダルロボット平面プッシュタスクによる合成および実世界のデータセットを用いて,提案手法が予測と表現品質を大幅に改善することを示す。 さらに,潜在空間における各モダリティを結合する共通学習ベースラインと比較し,その原理的確率的定式化が有効であることを示す。 最後に,完全自己教師型であるにもかかわらず,本手法は,基礎的真理ラベルに依存する既存の教師付きアプローチと同じくらい効果的であることを示す。

Sequential modelling of high-dimensional data is an important problem that appears in many domains including model-based reinforcement learning and dynamics identification for control. Latent variable models applied to sequential data (i.e., latent dynamics models) have been shown to be a particularly effective probabilistic approach to solve this problem, especially when dealing with images. However, in many application areas (e.g., robotics), information from multiple sensing modalities is available -- existing latent dynamics methods have not yet been extended to effectively make use of such multimodal sequential data. Multimodal sensor streams can be correlated in a useful manner and often contain complementary information across modalities. In this work, we present a self-supervised generative modelling framework to jointly learn a probabilistic latent state representation of multimodal data and the respective dynamics. Using synthetic and real-world datasets from a multimodal robotic planar pushing task, we demonstrate that our approach leads to significant improvements in prediction and representation quality. Furthermore, we compare to the common learning baseline of concatenating each modality in the latent space and show that our principled probabilistic formulation performs better. Finally, despite being fully self-supervised, we demonstrate that our method is nearly as effective as an existing supervised approach that relies on ground truth labels.
翻訳日:2022-04-25 12:38:56 公開日:2022-04-21
# (参考訳) 世界を理解する:テキストゲームのための質問誘導強化学習

Perceiving the World: Question-guided Reinforcement Learning for Text-based Games ( http://arxiv.org/abs/2204.09597v2 )

ライセンス: CC BY 4.0
Yunqiu Xu, Meng Fang, Ling Chen, Yali Du, Joey Tianyi Zhou and Chengqi Zhang(参考訳) テキストベースのゲームは自然言語処理を研究するインタラクティブな方法を提供する。 深層強化学習はゲームプレイエージェントの開発において有効性を示しているが、サンプル効率の低さと大きなアクションスペースは、DRLが現実世界で適用されることを妨げる2つの大きな課題である。 本稿では,環境に関する質問に答えることで,タスクやプルーアクションを自動的に分解する世界認識モジュールの導入による課題に対処する。 次に、強化学習から言語学習を分離する2段階学習フレームワークを提案し、サンプル効率をさらに向上させる。 実験の結果,提案手法は性能と試料効率を著しく向上させることがわかった。 また,複合誤差に対するロバスト性や事前トレーニングデータの制限も示している。

Text-based games provide an interactive way to study natural language processing. While deep reinforcement learning has shown effectiveness in developing the game playing agent, the low sample efficiency and the large action space remain to be the two major challenges that hinder the DRL from being applied in the real world. In this paper, we address the challenges by introducing world-perceiving modules, which automatically decompose tasks and prune actions by answering questions about the environment. We then propose a two-phase training framework to decouple language learning from reinforcement learning, which further improves the sample efficiency. The experimental results show that the proposed method significantly improves the performance and sample efficiency. Besides, it shows robustness against compound error and limited pre-training data.
翻訳日:2022-04-25 00:47:42 公開日:2022-04-21
# 適応型同時音声翻訳のための連続統合・発火の検討

Exploring Continuous Integrate-and-Fire for Adaptive Simultaneous Speech Translation ( http://arxiv.org/abs/2204.09595v2 )

ライセンス: Link先を確認
Chih-Chiang Chang, Hung-yi Lee(参考訳) 同時音声翻訳(SimulST)は、完全な入力が観測される前にストリーミング音声を翻訳することを目的とした課題である。 SimulSTシステムは通常、音声情報を集約する事前決定と、読み書きを決定するポリシーの2つのコンポーネントを含む。 最近の研究では、事前決定を改善するための様々な戦略を提案したが、それらは主に固定されたwait-kポリシーを採用しており、適応的な政策はほとんど検討されなかった。 本稿では,CIF(Continuous Integrate-and-Fire)を適用して適応政策をモデル化することを提案する。 単調なマルチヘッドアテンション (MMA) と比較して,本手法はより単純な計算,低レイテンシにおける品質,長い発話の一般化に優れる。 我々は MuST-C V2 データセット上で実験を行い,本手法の有効性を示す。

Simultaneous speech translation (SimulST) is a challenging task aiming to translate streaming speech before the complete input is observed. A SimulST system generally includes two components: the pre-decision that aggregates the speech information and the policy that decides to read or write. While recent works had proposed various strategies to improve the pre-decision, they mainly adopt the fixed wait-k policy, leaving the adaptive policies rarely explored. This paper proposes to model the adaptive policy by adapting the Continuous Integrate-and-Fire (CIF). Compared with monotonic multihead attention (MMA), our method has the advantage of simpler computation, superior quality at low latency, and better generalization to long utterances. We conduct experiments on the MuST-C V2 dataset and show the effectiveness of our approach.
翻訳日:2022-04-24 16:42:25 公開日:2022-04-21
# グラフマイニングにおける公平性:調査

Fairness in Graph Mining: A Survey ( http://arxiv.org/abs/2204.09888v1 )

ライセンス: Link先を確認
Yushun Dong, Jing Ma, Chen Chen and Jundong Li(参考訳) グラフマイニングアルゴリズムは、長年にわたり無数の分野で重要な役割を果たしてきた。 しかしながら、様々なグラフ分析タスクで有望な性能を発揮するにもかかわらず、これらのアルゴリズムのほとんどは公平性に配慮していない。 結果として、人間中心の応用で利用される特定の集団に対する差別につながる可能性がある。 近年、アルゴリズムの公正性はグラフベースのアプリケーションで広く研究されている。 独立で同一に分散されたデータに対するアルゴリズム上の公正さとは対照的に、グラフマイニングにおける公正さは排他的背景、分類学、達成技術を持っている。 本調査では,公正なグラフマイニングの文脈下で,既存の文献を包括的かつ最新に紹介する。 具体的には,グラフ上の公平性の概念の新たな分類法を提案する。 さらに,グラフマイニングにおける公平性を促進する既存の手法の整理的な概要を示す。 最後に、この新興研究分野において広く使われているデータセットを要約し、現在の研究課題やオープンな質問に対する洞察を提供し、異種交配のアイデアの奨励とさらなる進歩を目指している。

Graph mining algorithms have been playing a significant role in myriad fields over the years. However, despite their promising performance on various graph analytical tasks, most of these algorithms lack fairness considerations. As a consequence, they could lead to discrimination towards certain populations when exploited in human-centered applications. Recently, algorithmic fairness has been extensively studied in graph-based applications. In contrast to algorithmic fairness on independent and identically distributed (i.i.d.) data, fairness in graph mining has exclusive backgrounds, taxonomies, and fulfilling techniques. In this survey, we provide a comprehensive and up-to-date introduction of existing literature under the context of fair graph mining. Specifically, we propose a novel taxonomy of fairness notions on graphs, which sheds light on their connections and differences. We further present an organized summary of existing techniques that promote fairness in graph mining. Finally, we summarize the widely used datasets in this emerging research field and provide insights on current research challenges and open questions, aiming at encouraging cross-breeding ideas and further advances.
翻訳日:2022-04-24 13:23:44 公開日:2022-04-21
# (参考訳) STONet: ニューラル演算駆動時空間ネットワーク

STONet: A Neural-Operator-Driven Spatio-temporal Network ( http://arxiv.org/abs/2204.08414v2 )

ライセンス: CC BY 4.0
Haitao Lin, Guojiang Zhao, Lirong Wu, Stan Z. Li(参考訳) グラフベース時空間ニューラルネットワークは,非構造格子から不規則にサンプリングされた離散点間の空間依存性をモデル化するのに有効である。 しかし、これらのモデルは一般に空間的に伝達的であり、モデルで供給される離散的な空間ノードの信号にのみ適合するが、ゼロショットの'アンセン'空間点に一般化できない。 対照的に、地球表面の温度予測のような連続的な空間上のタスクを予測するために、 \textit{spatially-inductive} 特性は、モデルが単に信号に合うのではなく、システムの基盤となるメカニズムや物理法則を学ぶ能力を示す空間領域の任意の点に一般化することができる。 さらに、時間領域では、値が不足しているデータのような \textit{irregularly-sampled} 時系列は、モデルに時間的連続性を持たせます。 これら2つの課題に触発され,空間連続的な物理量の力学を規定するメカニズムを学習するPDEのためのニューラル演算子に基づく時空間フレームワークを提案する。 実験により,空間的連続的な物理量予測におけるモデルの性能が向上し,非知覚的な空間的点に対する優れた一般化と時間的不規則なデータを扱う能力が示された。

Graph-based spatio-temporal neural networks are effective to model the spatial dependency among discrete points sampled irregularly from unstructured grids, thanks to the great expressiveness of graph neural networks. However, these models are usually spatially-transductive -- only fitting the signals for discrete spatial nodes fed in models but unable to generalize to `unseen' spatial points with zero-shot. In comparison, for forecasting tasks on continuous space such as temperature prediction on the earth's surface, the \textit{spatially-inductive} property allows the model to generalize to any point in the spatial domain, demonstrating models' ability to learn the underlying mechanisms or physics laws of the systems, rather than simply fit the signals. Besides, in temporal domains, \textit{irregularly-sampled} time series, e.g. data with missing values, urge models to be temporally-continuous. Motivated by the two issues, we propose a spatio-temporal framework based on neural operators for PDEs, which learn the underlying mechanisms governing the dynamics of spatially-continuous physical quantities. Experiments show our model's improved performance on forecasting spatially-continuous physic quantities, and its superior generalization to unseen spatial points and ability to handle temporally-irregular data.
翻訳日:2022-04-23 09:39:09 公開日:2022-04-21
# (参考訳) リモートセンシング画像における半教師付き変化検出のための一貫性正規化の再検討

Revisiting Consistency Regularization for Semi-supervised Change Detection in Remote Sensing Images ( http://arxiv.org/abs/2204.08454v3 )

ライセンス: CC BY 4.0
Wele Gedara Chaminda Bandara and Vishal M. Patel(参考訳) リモートセンシング(rs)変化検出(cd)は、共登録バイタイムポラリ画像から「関心の変化」を検出することを目的としている。 既存の深層教師付きCD手法の性能は、ネットワークのトレーニングに使用される大量の注釈付きデータに起因する。 しかし、大量のリモートセンシング画像をアノテートすることは、人間の専門家によるピクセル単位での比較を必要とするため、労働集約的で高価である。 一方,地球観測プログラムの増大により,無ラベルのマルチ時間RS画像へのアクセスが制限されることが少なくない。 本稿では,ラベルなしバイタイム画像からの情報を簡易かつ効果的に活用し,cdアプローチの性能を向上させる手法を提案する。 具体的には, 教師なしcd損失を, 教師なしクロスエントロピー(ce)損失に加えて, 教師なしcd損失を定式化した半教師付きcdモデルを提案する。 2つの公開CDデータセットで行った実験により、提案した半教師付きCD法は、注釈付きトレーニングデータの10%未満にアクセスしても、教師付きCDの性能に近づくことができた。 コードはhttps://github.com/wgcban/semicdで利用可能

Remote-sensing (RS) Change Detection (CD) aims to detect "changes of interest" from co-registered bi-temporal images. The performance of existing deep supervised CD methods is attributed to the large amounts of annotated data used to train the networks. However, annotating large amounts of remote sensing images is labor-intensive and expensive, particularly with bi-temporal images, as it requires pixel-wise comparisons by a human expert. On the other hand, we often have access to unlimited unlabeled multi-temporal RS imagery thanks to ever-increasing earth observation programs. In this paper, we propose a simple yet effective way to leverage the information from unlabeled bi-temporal images to improve the performance of CD approaches. More specifically, we propose a semi-supervised CD model in which we formulate an unsupervised CD loss in addition to the supervised Cross-Entropy (CE) loss by constraining the output change probability map of a given unlabeled bi-temporal image pair to be consistent under the small random perturbations applied on the deep feature difference map that is obtained by subtracting their latent feature representations. Experiments conducted on two publicly available CD datasets show that the proposed semi-supervised CD method can reach closer to the performance of supervised CD even with access to as little as 10% of the annotated training data. Code available at https://github.com/wgcban/SemiCD
翻訳日:2022-04-23 08:54:11 公開日:2022-04-21
# (参考訳) ラジオギャラクシー動物園: 半教師付き学習を用いて、大きな未ラベルデータセットをデータ-セットシフト下での電波銀河分類に活用する

Radio Galaxy Zoo: Using semi-supervised learning to leverage large unlabelled data-sets for radio galaxy classification under data-set shift ( http://arxiv.org/abs/2204.08816v3 )

ライセンス: CC BY 4.0
Inigo V. Slijepcevic, Anna M. M. Scaife, Mike Walmsley, Micah Bowles, Ivy Wong, Stanislav S. Shabala and Hongming Tang(参考訳) 本研究では,電波銀河の形態的分類に適用した最先端半教師付き学習(SSL)アルゴリズムの分類精度とロバスト性について検討する。 より少ないラベルを持つSSLが、監督された最先端技術に匹敵するテスト精度を達成できるかどうかをテストします。 検討した電波銀河分類問題に対して、SSLはさらなる正規化を提供し、ベースライン検定精度を上回ります。 しかし,コンピュータサイエンスのベンチマークデータに報告されているモデル性能指標とは対照的に,改善はラベルボリュームの限られた範囲に限られており,低ラベルボリュームでは性能が急速に低下している。 さらに,分類の改善にかかわらず,SSLはモデル校正を改善しないことを示す。 さらに,同じラジオ調査から抽出した下位のカタログを用いてSSLに必要なラベル付きおよび非ラベル付きデータセットを提供すると,分類性能の大幅な低下が観測され,データセットシフトによるSSL技術の適用の難しさが浮き彫りになる。 We show that a class-imbalanced unlabelled data pool negatively affects performance through prior probability shift, which we suggest may explain this performance drop, and that using the Frechet Distance between labelled and unlabelled data-sets as a measure of data-set shift can provide a prediction of model performance, but that for typical radio galaxy data-sets with labelled sample volumes of O(1000), the sample variance associated with this technique is high and the technique is in general not sufficiently robust to replace a train-test cycle.

In this work we examine the classification accuracy and robustness of a state-of-the-art semi-supervised learning (SSL) algorithm applied to the morphological classification of radio galaxies. We test if SSL with fewer labels can achieve test accuracies comparable to the supervised state-of-the-art and whether this holds when incorporating previously unseen data. We find that for the radio galaxy classification problem considered, SSL provides additional regularisation and outperforms the baseline test accuracy. However, in contrast to model performance metrics reported on computer science benchmarking data-sets, we find that improvement is limited to a narrow range of label volumes, with performance falling off rapidly at low label volumes. Additionally, we show that SSL does not improve model calibration, regardless of whether classification is improved. Moreover, we find that when different underlying catalogues drawn from the same radio survey are used to provide the labelled and unlabelled data-sets required for SSL, a significant drop in classification performance is observered, highlighting the difficulty of applying SSL techniques under dataset shift. We show that a class-imbalanced unlabelled data pool negatively affects performance through prior probability shift, which we suggest may explain this performance drop, and that using the Frechet Distance between labelled and unlabelled data-sets as a measure of data-set shift can provide a prediction of model performance, but that for typical radio galaxy data-sets with labelled sample volumes of O(1000), the sample variance associated with this technique is high and the technique is in general not sufficiently robust to replace a train-test cycle.
翻訳日:2022-04-23 08:52:54 公開日:2022-04-21
# (参考訳) 全気象条件下での効率的なドメイン・インクリメンタル学習手法

An Efficient Domain-Incremental Learning Approach to Drive in All Weather Conditions ( http://arxiv.org/abs/2204.08817v2 )

ライセンス: CC BY 4.0
M. Jehanzeb Mirza, Marc Masana, Horst Possegger, Horst Bischof(参考訳) ディープニューラルネットワークは、自律運転のための印象的な視覚知覚性能を実現するが、様々な気象条件に対する堅牢性には注意が必要である。 異なる気象条件などの変化した環境にこれらのモデルを適用する場合、以前の学習情報を忘れる傾向がある。 これは通常、トレーニングサンプルのメモリバンクを保持するか、シナリオ毎にモデル全体またはモデルパラメータのコピーを保持することによって、モデルを再トレーニングするインクリメンタルな学習アプローチによって対処される。 これらのアプローチは目覚ましい結果を示すが、スケーラビリティの問題があり、全ての気象条件下での自律運転への適用性は示されていない。 本稿では,再トレーニングや高価なメモリバンクを必要とせずに,新たなタスク(気象条件など)を漸進的に学習できるシンプルなオンラインゼロフォーティング手法であるディスクを提案する。 各タスクに格納する唯一の情報は、第1および第2次統計値の変化によって各ドメインを分類する統計パラメータです。 したがって、各タスクが到着すると、対応するタスクの統計ベクトルをモデルに'プラグ・アンド・プレイ'するだけで、そのタスクですぐにうまく働き始めます。 我々は,大雨,霧,雪などの悪天候に遭遇するドメイン増分自律運転シナリオにおいて,物体検出のためのアプローチの有効性を検証し,本手法の有効性を示す。

Although deep neural networks enable impressive visual perception performance for autonomous driving, their robustness to varying weather conditions still requires attention. When adapting these models for changed environments, such as different weather conditions, they are prone to forgetting previously learned information. This catastrophic forgetting is typically addressed via incremental learning approaches which usually re-train the model by either keeping a memory bank of training samples or keeping a copy of the entire model or model parameters for each scenario. While these approaches show impressive results, they can be prone to scalability issues and their applicability for autonomous driving in all weather conditions has not been shown. In this paper we propose DISC -- Domain Incremental through Statistical Correction -- a simple online zero-forgetting approach which can incrementally learn new tasks (i.e weather conditions) without requiring re-training or expensive memory banks. The only information we store for each task are the statistical parameters as we categorize each domain by the change in first and second order statistics. Thus, as each task arrives, we simply 'plug and play' the statistical vectors for the corresponding task into the model and it immediately starts to perform well on that task. We show the efficacy of our approach by testing it for object detection in a challenging domain-incremental autonomous driving scenario where we encounter different adverse weather conditions, such as heavy rain, fog, and snow.
翻訳日:2022-04-23 07:55:05 公開日:2022-04-21
# (参考訳) manIQA: 画像品質評価のためのマルチ次元注意ネットワーク

MANIQA: Multi-dimension Attention Network for No-Reference Image Quality Assessment ( http://arxiv.org/abs/2204.08958v2 )

ライセンス: CC BY 4.0
Sidi Yang and Tianhe Wu and Shuwei Shi and Shanshan Lao and Yuan Gong and Mingdeng Cao and Jiahao Wang and Yujiu Yang(参考訳) No-Reference Image Quality Assessment (NR-IQA) は、人間の主観的知覚に応じて画像の知覚品質を評価することを目的としている。 残念なことに、既存のNR-IQA法は、GANベースの歪み画像に対して正確な品質スコアを予測する必要性を満たすには程遠い。 そこで本研究では,ganに基づく歪みに対する性能向上のために,ノンリファレンス画像品質評価(maniqa)のためのマルチディメンションアテンションネットワークを提案する。 まず,ViTを介して特徴を抽出し,次にグローバルおよびローカルインタラクションを強化するために,Transposed Attention Block (TAB)とScale Swin Transformer Block (SSTB)を提案する。 これら2つのモジュールはそれぞれ、チャネルと空間次元にアテンション機構を適用する。 この多次元的な方法では、モジュールは協調的に画像の異なる領域間の相互作用をグローバルおよび局所的に増加させる。 最後に、パッチ重み付け品質予測のための2つの分岐構造を適用し、各パッチのスコアの重みに応じて最終スコアを予測する。 実験の結果,MANIQAは4つの標準データセット(LIVE, TID2013, CSIQ, KADID-10K)の最先端の手法よりも大きなマージンで優れていた。 また,ntire 2022画像品質評価課題トラック2:no-referenceにおいて,最終テスト段階で第1位にランクインした。 コードとモデルはhttps://github.com/iigroup/maniqaで入手できる。

No-Reference Image Quality Assessment (NR-IQA) aims to assess the perceptual quality of images in accordance with human subjective perception. Unfortunately, existing NR-IQA methods are far from meeting the needs of predicting accurate quality scores on GAN-based distortion images. To this end, we propose Multi-dimension Attention Network for no-reference Image Quality Assessment (MANIQA) to improve the performance on GAN-based distortion. We firstly extract features via ViT, then to strengthen global and local interactions, we propose the Transposed Attention Block (TAB) and the Scale Swin Transformer Block (SSTB). These two modules apply attention mechanisms across the channel and spatial dimension, respectively. In this multi-dimensional manner, the modules cooperatively increase the interaction among different regions of images globally and locally. Finally, a dual branch structure for patch-weighted quality prediction is applied to predict the final score depending on the weight of each patch's score. Experimental results demonstrate that MANIQA outperforms state-of-the-art methods on four standard datasets (LIVE, TID2013, CSIQ, and KADID-10K) by a large margin. Besides, our method ranked first place in the final testing phase of the NTIRE 2022 Perceptual Image Quality Assessment Challenge Track 2: No-Reference. Codes and models are available at https://github.com/IIGROUP/MANIQA.
翻訳日:2022-04-23 07:23:29 公開日:2022-04-21
# (参考訳) カスケードカラーと輝度補償による夜間画像のレンダリング

Rendering Nighttime Image Via Cascaded Color and Brightness Compensation ( http://arxiv.org/abs/2204.08970v2 )

ライセンス: CC BY 4.0
Zhihao Li, Si Yi, Zhan Ma(参考訳) 画像信号処理(ISP)はカメライメージングに不可欠であり、ニューラルネットワーク(NN)ソリューションは昼間のシーンに広く展開されている。 夜間画像データセットの不足と夜間照明特性の洞察は、既存のNNISPを用いた高品質レンダリングにおいて大きな課題となる。 そこで我々はまず、ホワイトバランスとトーンマッピングを備えた高解像度夜間RAW-RGB(NR2R)データセットを構築した。 一方、夜間照明光源の特性を最大限に把握するために、色と明るさの補正を行う2段NN ISPであるCBUnetを開発した。 実験の結果,従来のispパイプラインに比べて視覚品質が向上し,ntire 2022 night photography rendering challengeの2位にランクインした。 コードと関連する資料は、私たちのWebサイトで利用可能です。

Image signal processing (ISP) is crucial for camera imaging, and neural networks (NN) solutions are extensively deployed for daytime scenes. The lack of sufficient nighttime image dataset and insights on nighttime illumination characteristics poses a great challenge for high-quality rendering using existing NN ISPs. To tackle it, we first built a high-resolution nighttime RAW-RGB (NR2R) dataset with white balance and tone mapping annotated by expert professionals. Meanwhile, to best capture the characteristics of nighttime illumination light sources, we develop the CBUnet, a two-stage NN ISP to cascade the compensation of color and brightness attributes. Experiments show that our method has better visual quality compared to traditional ISP pipeline, and is ranked at the second place in the NTIRE 2022 Night Photography Rendering Challenge for two tracks by respective People's and Professional Photographer's choices. The code and relevant materials are avaiable on our website: https://njuvision.github.io/CBUnet.
翻訳日:2022-04-23 07:09:18 公開日:2022-04-21
# (参考訳) セキュリティアウェア電子設計自動化のための人工知能に関する調査と展望

A Survey and Perspective on Artificial Intelligence for Security-Aware Electronic Design Automation ( http://arxiv.org/abs/2204.09579v2 )

ライセンス: CC BY 4.0
David Selasi Koblah, Rabin Yu Acharya, Daniel Capecci, Olivia P. Dizon-Paradis, Shahin Tajik, Fatemeh Ganji, Damon L. Woodard, Domenic Forte(参考訳) 人工知能(AI)と機械学習(ML)の技術は、パフォーマンスと自動化のレベルを改善するために、いくつかの分野でますます使われている。 近年、高性能コンピューティングの進歩とデータサイズの増加により、この利用は指数関数的に増加している。 このような分野の1つはハードウェア設計であり、特にデジタルおよびアナログ集積回路(IC)の設計であり、そこではAI/ML技術が、常に増加する設計の複雑さ、アグレッシブな市場投入時間、そしてユビキタス接続デバイス(IoT)の増加に対応するために広く使われている。 しかし、IC設計に関するセキュリティ上の懸念や問題は非常に見過ごされている。 本稿では,回路設計・最適化におけるAL/MLの現状と課題,セキュリティ対応CAD/EDAの研究,セキュリティ対応回路設計におけるAI/MLの今後の研究方向性とニーズについて要約する。

Artificial intelligence (AI) and machine learning (ML) techniques have been increasingly used in several fields to improve performance and the level of automation. In recent years, this use has exponentially increased due to the advancement of high-performance computing and the ever increasing size of data. One of such fields is that of hardware design; specifically the design of digital and analog integrated circuits~(ICs), where AI/ ML techniques have been extensively used to address ever-increasing design complexity, aggressive time-to-market, and the growing number of ubiquitous interconnected devices (IoT). However, the security concerns and issues related to IC design have been highly overlooked. In this paper, we summarize the state-of-the-art in AL/ML for circuit design/optimization, security and engineering challenges, research in security-aware CAD/EDA, and future research directions and needs for using AI/ML for security-aware circuit design.
翻訳日:2022-04-23 06:57:45 公開日:2022-04-21
# (参考訳) 品質多様性アルゴリズムを用いた教師なし能力発見

Relevance-guided Unsupervised Discovery of Abilities with Quality-Diversity Algorithms ( http://arxiv.org/abs/2204.09828v1 )

ライセンス: CC BY 4.0
Luca Grillotti and Antoine Cully(参考訳) 品質多様性アルゴリズムは、下流タスクを解くのに有用な、多種多様な高性能なソリューションの大規模なコレクションを生成する効率的なメカニズムを提供する。 しかし、これらのアルゴリズムのほとんどは、ハンドコードされる多様性を特徴付けるために振る舞い記述子に依存しているため、考慮されたタスクに関する事前の知識を必要とする。 本研究では,その課題に適した行動特性を自律的に発見する品質多様性アルゴリズムであるRelevance-guided Unsupervised Discovery of Abilitiesを紹介する。 特に,本手法では,学習した行動記述子空間への関心領域に近い解の密度を高めるために,独自の多様性指標を導入する。 本研究は,ロボットが知覚データに基づいて自律的に能力を見出すことができるシミュレーションロボット環境上でのアプローチを評価する。 ランダムな目標へのナビゲーション,高速で前進,ハーフロールを行う3つのタスクでアルゴリズムを評価した。 実験結果から,本手法は多種多様であるばかりでなく,下流の課題に適応した解の集合を見出すことができた。

Quality-Diversity algorithms provide efficient mechanisms to generate large collections of diverse and high-performing solutions, which have shown to be instrumental for solving downstream tasks. However, most of those algorithms rely on a behavioural descriptor to characterise the diversity that is hand-coded, hence requiring prior knowledge about the considered tasks. In this work, we introduce Relevance-guided Unsupervised Discovery of Abilities; a Quality-Diversity algorithm that autonomously finds a behavioural characterisation tailored to the task at hand. In particular, our method introduces a custom diversity metric that leads to higher densities of solutions near the areas of interest in the learnt behavioural descriptor space. We evaluate our approach on a simulated robotic environment, where the robot has to autonomously discover its abilities based on its full sensory data. We evaluated the algorithms on three tasks: navigation to random targets, moving forward with a high velocity, and performing half-rolls. The experimental results show that our method manages to discover collections of solutions that are not only diverse, but also well-adapted to the considered downstream task.
翻訳日:2022-04-23 03:14:04 公開日:2022-04-21
# (参考訳) コヒーレントリスク対策のためのサンプルベース境界:政策合成と検証への応用

Sample-Based Bounds for Coherent Risk Measures: Applications to Policy Synthesis and Verification ( http://arxiv.org/abs/2204.09833v1 )

ライセンス: CC BY 4.0
Prithvi Akella, Anushri Dixit, Mohamadreza Ahmadi, Joel W. Burdick, and Aaron D. Ames(参考訳) 可変環境に従属する自律システムの劇的な増加は、これらのシステムのためのポリシーの合成と検証の両方においてリスクを考える必要性が高まっている。 本稿では,まず,分布が不明な確率変数のリスク測度評価を限定するサンプルベース手法を開発し,リスク認識検証と政策合成に関するいくつかの問題に対処することを目的とする。 これらの境界により、大規模なロボットシステムに対して高信頼の検証文を生成することができる。 第2に,非凸最適化問題の解を決定するためのサンプルベース手法を開発し,可能解の決定空間の大部分を上回ります。 両方のサンプルベースのアプローチにより、最小レベルのシステム性能を達成することが保証されるリスク対応ポリシーを迅速に合成することができます。 シミュレーションのアプローチを示すために,協調型マルチエージェントシステムの検証と,システムのベースラインコントローラに匹敵するリスク対応コントローラの開発を行った。 我々はまた、我々のアプローチがどのようにしてg$-エントロピーリスク尺度(私たちがフォーカスするコヒーレントリスク尺度のサブセット)を考慮に入れられるかについても言及する。

The dramatic increase of autonomous systems subject to variable environments has given rise to the pressing need to consider risk in both the synthesis and verification of policies for these systems. This paper aims to address a few problems regarding risk-aware verification and policy synthesis, by first developing a sample-based method to bound the risk measure evaluation of a random variable whose distribution is unknown. These bounds permit us to generate high-confidence verification statements for a large class of robotic systems. Second, we develop a sample-based method to determine solutions to non-convex optimization problems that outperform a large fraction of the decision space of possible solutions. Both sample-based approaches then permit us to rapidly synthesize risk-aware policies that are guaranteed to achieve a minimum level of system performance. To showcase our approach in simulation, we verify a cooperative multi-agent system and develop a risk-aware controller that outperforms the system's baseline controller. We also mention how our approach can be extended to account for any $g$-entropic risk measure - the subset of coherent risk measures on which we focus.
翻訳日:2022-04-23 02:56:10 公開日:2022-04-21
# (参考訳) エキスパート問題のためのメモリ境界

Memory Bounds for the Experts Problem ( http://arxiv.org/abs/2204.09837v1 )

ライセンス: CC BY 4.0
Vaidehi Srinivas, David P. Woodruff, Ziyu Xu, Samson Zhou(参考訳) 専門家のアドバイスによるオンライン学習は、逐次予測の基本的な問題である。 この問題では、アルゴリズムは、毎日予測を行う「専門家」のセットにアクセスすることができる。 毎日の目標は、これらの予測を処理し、最小限のコストで予測することだ。 予測を行った後、アルゴリズムはその日の実際の結果を確認し、その状態を更新し、翌日に進む。 アルゴリズムは、そのセットでもっとも優れた専門家と比較してどれだけうまく機能するかによって判断される。 この問題の古典的なアルゴリズムは乗法重みアルゴリズムである。 しかし、私たちの知る限り、すべてのアプリケーションは、すべての専門家のために重みを格納し、$\omega(n)$メモリを使用する。 専門家が予測を行う日数だけでなく、専門家が予測を行う日数が大きい場合には、特に重要な自然ストリーミングモデルにおいて、専門家のアドバイスによるオンライン学習の解決や標準的な逐次予測アルゴリズムの実行に必要なメモリの理解に関する作業はほとんどない。 本研究は,ストリーミング環境におけるエキスパートアドバイス問題による学習を開始し,下限と上限を示す。 ランダム順序や逆順列に対する我々の低い境界は、新しいマスキング手法を用いてカスタム構築問題への還元を利用して、後悔と記憶のトレードオフを円滑に表す。 我々の上界は、専門家の小さな「プール」上で、標準的な逐次予測アルゴリズムを実行する新しい方法を示し、必要なメモリを減らす。 ランダムな順序列の場合、上界は低次項まで厳密であることが示される。 これらの結果と技術が、オンライン学習に広く応用され、メモリ制約のある設定における他の幅広い問題に対して、乗法重みのような標準的な逐次予測技術に基づくアルゴリズムを刺激できることを願っている。

Online learning with expert advice is a fundamental problem of sequential prediction. In this problem, the algorithm has access to a set of $n$ "experts" who make predictions on each day. The goal on each day is to process these predictions, and make a prediction with the minimum cost. After making a prediction, the algorithm sees the actual outcome on that day, updates its state, and then moves on to the next day. An algorithm is judged by how well it does compared to the best expert in the set. The classical algorithm for this problem is the multiplicative weights algorithm. However, every application, to our knowledge, relies on storing weights for every expert, and uses $\Omega(n)$ memory. There is little work on understanding the memory required to solve the online learning with expert advice problem, or run standard sequential prediction algorithms, in natural streaming models, which is especially important when the number of experts, as well as the number of days on which the experts make predictions, is large. We initiate the study of the learning with expert advice problem in the streaming setting, and show lower and upper bounds. Our lower bound for i.i.d., random order, and adversarial order streams uses a reduction to a custom-built problem using a novel masking technique, to show a smooth trade-off for regret versus memory. Our upper bounds show novel ways to run standard sequential prediction algorithms in rounds on small "pools" of experts, thus reducing the necessary memory. For random-order streams, we show that our upper bound is tight up to low order terms. We hope that these results and techniques will have broad applications in online learning, and can inspire algorithms based on standard sequential prediction techniques, like multiplicative weights, for a wide range of other problems in the memory-constrained setting.
翻訳日:2022-04-23 02:53:44 公開日:2022-04-21
# (参考訳) 6GAN: 強化学習による生成逆ネットによるIPv6マルチパターンターゲット生成

6GAN: IPv6 Multi-Pattern Target Generation via Generative Adversarial Nets with Reinforcement Learning ( http://arxiv.org/abs/2204.09839v1 )

ライセンス: CC BY 4.0
Tianyu Cui, Gaopeng Gou, Gang Xiong, Chang Liu, Peipei Fu, Zhen Li(参考訳) グローバルIPv6スキャンは、ネットワーク速度と計算能力の制限により、研究者にとって常に課題となっている。 ターゲット生成アルゴリズムは,スキャン対象候補を予測することにより,インターネットアセスメントの問題を克服するために提案されている。 しかし、ipv6カスタムアドレス設定はアルゴリズム推論を損なう多様なアドレスパターンとして現れる。 広範なipv6エイリアスは、有効なホストターゲットではなく、エイリアス領域を発見するアルゴリズムを誤解させる可能性がある。 本稿では,GAN(Generative Adversarial Net)とマルチパターンターゲット生成のための強化学習を組み合わせた新しいアーキテクチャである6GANを紹介する。 6GANは複数のジェネレータにマルチクラス判別器とエイリアス検出器で訓練させ、異なるアドレスパターンタイプで非アライズされたアクティブターゲットを生成する。 識別器とエイリアス検出器からの報酬は、アドレスシーケンス決定プロセスの監督に役立つ。 敵対的な訓練の後、6GANのジェネレータは各パターンに対して強力な模倣能力を保ち、6GANの識別器は0.966の精度で優れたパターン識別能力を得る。 実験は,高品質な候補集合に到達することにより,最先端の目標生成アルゴリズムを上回ったことを示す。

Global IPv6 scanning has always been a challenge for researchers because of the limited network speed and computational power. Target generation algorithms are recently proposed to overcome the problem for Internet assessments by predicting a candidate set to scan. However, IPv6 custom address configuration emerges diverse addressing patterns discouraging algorithmic inference. Widespread IPv6 alias could also mislead the algorithm to discover aliased regions rather than valid host targets. In this paper, we introduce 6GAN, a novel architecture built with Generative Adversarial Net (GAN) and reinforcement learning for multi-pattern target generation. 6GAN forces multiple generators to train with a multi-class discriminator and an alias detector to generate non-aliased active targets with different addressing pattern types. The rewards from the discriminator and the alias detector help supervise the address sequence decision-making process. After adversarial training, 6GAN's generators could keep a strong imitating ability for each pattern and 6GAN's discriminator obtains outstanding pattern discrimination ability with a 0.966 accuracy. Experiments indicate that our work outperformed the state-of-the-art target generation algorithms by reaching a higher-quality candidate set.
翻訳日:2022-04-23 02:52:28 公開日:2022-04-21
# (参考訳) 大規模脳波認識のための多層プラットフォーム

Multi-Tier Platform for Cognizing Massive Electroencephalogram ( http://arxiv.org/abs/2204.09840v1 )

ライセンス: CC BY 4.0
Zheng Chen, Lingwei Zhu, Ziwei Yang, Renyuan Zhang(参考訳) 複数の階層を組み立てるエンドツーエンドプラットフォームは、脳活動を正確に認識するために構築されている。 大規模な脳波データ(EEG)を供給しているため、時間周波数スペクトログラムは伝統的にエピソードワイドの特徴行列(ティア-1)に投影される。 スパイクニューラルネットワーク(SNN)に基づく階層は、稀な特徴からスパイクストリームの観点から原理情報を抽出し、脳波の性質における時間的影響を維持するように設計されている。 提案したtier-3は、SNNからスパイクパターンの時間領域と空間領域を変換し、変換されたパターン行列をtier-4として知られる人工ニューラルネットワーク(ANN, Transformer)に供給する。 このようにして、分類などの認識を高精度に行う。 概念実証のために,5,793名の被験者から記録された最大42,560時間からなる複数の脳波データセットを導入することで,睡眠ステージスコア問題を示す。 実験結果から,本プラットフォームは,最先端の脳波を2%上回るsole eegを利用することで,一般認知全体の87%の精度を実現する。 さらに,我々は,脳波の時間的特徴を視覚的・グラフィカルに解釈し,神経力学において要求されるが,従来の認知シナリオではほとんど現れない臨界エピソードを特定する。

An end-to-end platform assembling multiple tiers is built for precisely cognizing brain activities. Being fed massive electroencephalogram (EEG) data, the time-frequency spectrograms are conventionally projected into the episode-wise feature matrices (seen as tier-1). A spiking neural network (SNN) based tier is designed to distill the principle information in terms of spike-streams from the rare features, which maintains the temporal implication in the nature of EEGs. The proposed tier-3 transposes time- and space-domain of spike patterns from the SNN; and feeds the transposed pattern-matrices into an artificial neural network (ANN, Transformer specifically) known as tier-4, where a special spanning topology is proposed to match the two-dimensional input form. In this manner, cognition such as classification is conducted with high accuracy. For proof-of-concept, the sleep stage scoring problem is demonstrated by introducing multiple EEG datasets with the largest comprising 42,560 hours recorded from 5,793 subjects. From experiment results, our platform achieves the general cognition overall accuracy of 87% by leveraging sole EEG, which is 2% superior to the state-of-the-art. Moreover, our developed multi-tier methodology offers visible and graphical interpretations of the temporal characteristics of EEG by identifying the critical episodes, which is demanded in neurodynamics but hardly appears in conventional cognition scenarios.
翻訳日:2022-04-23 02:34:20 公開日:2022-04-21
# (参考訳) FedCL: プライバシ保護レコメンデーションのためのFederated Contrastive Learning

FedCL: Federated Contrastive Learning for Privacy-Preserving Recommendation ( http://arxiv.org/abs/2204.09850v1 )

ライセンス: CC BY 4.0
Chuhan Wu, Fangzhao Wu, Tao Qi, Yongfeng Huang, Xing Xie(参考訳) 対照的な学習はレコメンデーションモデル学習に広く使われており、代表的および有意義な否定的なサンプルを選択することが重要である。 既存の手法は通常、豊富で高品質な負のサンプルが入手しやすい集中型データに焦点を当てている。 しかし、集中型ユーザデータストレージとエクスプロイトによって、プライバシのリスクと懸念が高まる一方で、単一クライアント上の分散化されたユーザデータは、正確なコントラスト学習には偏りがちである。 本稿では,プライバシーを十分に保護した効果的なモデルトレーニングのために,高品質な否定的サンプルを活用できる,プライバシー保護推奨のためのfederated contrastive learning法であるfederated contrastive learning methodを提案する。 まず、各クライアントのローカルモデルを介してローカルユーザデータからユーザ埋め込みを推測し、その後、ローカルディファレンシャルプライバシ(LDP)で摂動した後、ハードネガティブサンプリングのために中央サーバに送信する。 個人ユーザ埋め込みは, LDPによる重騒音を含むため, ノイズの影響を軽減するためにサーバ上にユーザ埋め込みをクラスタ化することを提案し, クラスタセントロイドを用いてアイテムプールからハードネガティブなサンプルを検索する。 これらの強い負のサンプルは、ユーザクライアントに配信され、ローカルデータから観測された負のサンプルと混合される。 4つのベンチマークデータセットに対する大規模な実験は、FedCLがさまざまなレコメンデーションメソッドをプライバシ保護方法で強化できることを示している。

Contrastive learning is widely used for recommendation model learning, where selecting representative and informative negative samples is critical. Existing methods usually focus on centralized data, where abundant and high-quality negative samples are easy to obtain. However, centralized user data storage and exploitation may lead to privacy risks and concerns, while decentralized user data on a single client can be too sparse and biased for accurate contrastive learning. In this paper, we propose a federated contrastive learning method named FedCL for privacy-preserving recommendation, which can exploit high-quality negative samples for effective model training with privacy well protected. We first infer user embeddings from local user data through the local model on each client, and then perturb them with local differential privacy (LDP) before sending them to a central server for hard negative sampling. Since individual user embedding contains heavy noise due to LDP, we propose to cluster user embeddings on the server to mitigate the influence of noise, and the cluster centroids are used to retrieve hard negative samples from the item pool. These hard negative samples are delivered to user clients and mixed with the observed negative samples from local data as well as in-batch negatives constructed from positive samples for federated model training. Extensive experiments on four benchmark datasets show FedCL can empower various recommendation methods in a privacy-preserving way.
翻訳日:2022-04-23 02:22:09 公開日:2022-04-21
# (参考訳) 火星地形画像の科学的関連分類に関する自己監督学習

Self-Supervised Learning to Guide Scientifically Relevant Categorization of Martian Terrain Images ( http://arxiv.org/abs/2204.09854v1 )

ライセンス: CC BY 4.0
Tejas Panambur, Deep Chakraborty, Melissa Meyer, Ralph Milliken, Erik Learned-Miller, Mario Parente(参考訳) 火星探査機ローバーの画像における地形の自動認識は、航海だけでなく、岩石の種類や古代火星の古気候や居住性の研究に関心を持つ科学者にとって重要な問題である。 火星の地形を分類するための既存のアプローチは、限られた粒度(例えば、土壌、砂、岩盤、フロートロックなど)の分類を生産する非専門家の注釈器の使用や、地質学的解析とは無関係なローバー部品や景観といった知覚的なクラスを生産する一般的なクラス発見アプローチに依存する。 地質学的・地形学的区分を含むエキスパートラベルデータセットは、稀に、あるいは一般に公開できないため、複雑なアノテーションから関連するカテゴリ情報を抽出する必要がある。 詳細な地形分類を持つデータセットの作成を容易にするため,キュリオシティ・ローバーに搭載されたマストカメラ(Mars Science Laboratory)から撮影した画像に堆積テクスチャを集成する自己教師手法を提案する。 次に,これらのクラスターの質的解析を行い,その地質学的意義を粒状地形群の作成を通じて記述する。 これらの自動的に発見されたクラスターの精度と地質学的検証は、我々の手法が重要な地質学的特徴の迅速な分類に有望であることを示し、そのため、火星の地形認識のための大規模で粒状で一般公開されたデータセットを作成するという長期的な目標を促進することを示唆している。

Automatic terrain recognition in Mars rover images is an important problem not just for navigation, but for scientists interested in studying rock types, and by extension, conditions of the ancient Martian paleoclimate and habitability. Existing approaches to label Martian terrain either involve the use of non-expert annotators producing taxonomies of limited granularity (e.g. soil, sand, bedrock, float rock, etc.), or rely on generic class discovery approaches that tend to produce perceptual classes such as rover parts and landscape, which are irrelevant to geologic analysis. Expert-labeled datasets containing granular geological/geomorphological terrain categories are rare or inaccessible to public, and sometimes require the extraction of relevant categorical information from complex annotations. In order to facilitate the creation of a dataset with detailed terrain categories, we present a self-supervised method that can cluster sedimentary textures in images captured from the Mast camera onboard the Curiosity rover (Mars Science Laboratory). We then present a qualitative analysis of these clusters and describe their geologic significance via the creation of a set of granular terrain categories. The precision and geologic validation of these automatically discovered clusters suggest that our methods are promising for the rapid classification of important geologic features and will therefore facilitate our long-term goal of producing a large, granular, and publicly available dataset for Mars terrain recognition.
翻訳日:2022-04-23 02:06:52 公開日:2022-04-21
# (参考訳) グローバル・ローカル情報に基づくリモートセンシング型クロスモーダルテキスト画像検索

Remote Sensing Cross-Modal Text-Image Retrieval Based on Global and Local Information ( http://arxiv.org/abs/2204.09860v1 )

ライセンス: CC BY 4.0
Zhiqiang Yuan, Wenkai Zhang, Changyuan Tian, Xuee Rong, Zhengyuan Zhang, Hongqi Wang, Kun Fu, and Xian Sun(参考訳) リモートセンシング(RS)画像の高速かつ柔軟な情報抽出を可能にするため,クロスモーダルリモートセンシングテキスト画像検索(RSCTIR)は近年,緊急な研究ホットスポットとなっている。 しかし、現在のRSCTIR法は、主にRS画像のグローバルな特徴に焦点を当てており、ターゲット関係と正当性を反映した局所的特徴の無視につながっている。 本稿では,まずグローバル・ローカル情報(GaLR)に基づく新しいRSCTIRフレームワークを提案し,多レベル情報動的融合(MIDF)モジュールを設計し,異なるレベルの特徴を効果的に統合する。 midfはローカル情報を利用してグローバル情報を補正し、グローバル情報を利用してローカル情報を補完し、動的に2つを追加して目立った視覚的表現を生成する。 グラフ畳み込みネットワーク(GCN)における冗長なターゲットの圧力を緩和し、局所特徴をモデル化する際の正常なインスタンスに対するモデルの注意力を改善するため、GCNが優れた局所表現を生成するのを支援するために、非雑音表現行列と拡張隣接行列(DREA)を考案した。 DREAは、冗長な機能を高い類似性でフィルタリングするだけでなく、顕著なオブジェクトの特徴を強化することで、より強力なローカル機能も得る。 最後に、推論中に類似度行列の情報をフル活用するために、プラグ・アンド・プレイ多変量再帰法(MR)アルゴリズムを提案する。 このアルゴリズムは、検索結果の k 近傍を利用して逆探索を行い、双方向検索の複数の成分を組み合わせることで性能を向上させる。 公開データセットに対する大規模な実験は、RSCTIRタスク上でのGaLR法の最先端性能を強く実証している。 GaLR法、MRアルゴリズム、および対応するファイルのコードはhttps://github.com/xiaoyuan 1996/GaLR で公開されている。

Cross-modal remote sensing text-image retrieval (RSCTIR) has recently become an urgent research hotspot due to its ability of enabling fast and flexible information extraction on remote sensing (RS) images. However, current RSCTIR methods mainly focus on global features of RS images, which leads to the neglect of local features that reflect target relationships and saliency. In this article, we first propose a novel RSCTIR framework based on global and local information (GaLR), and design a multi-level information dynamic fusion (MIDF) module to efficaciously integrate features of different levels. MIDF leverages local information to correct global information, utilizes global information to supplement local information, and uses the dynamic addition of the two to generate prominent visual representation. To alleviate the pressure of the redundant targets on the graph convolution network (GCN) and to improve the model s attention on salient instances during modeling local features, the de-noised representation matrix and the enhanced adjacency matrix (DREA) are devised to assist GCN in producing superior local representations. DREA not only filters out redundant features with high similarity, but also obtains more powerful local features by enhancing the features of prominent objects. Finally, to make full use of the information in the similarity matrix during inference, we come up with a plug-and-play multivariate rerank (MR) algorithm. The algorithm utilizes the k nearest neighbors of the retrieval results to perform a reverse search, and improves the performance by combining multiple components of bidirectional retrieval. Extensive experiments on public datasets strongly demonstrate the state-of-the-art performance of GaLR methods on the RSCTIR task. The code of GaLR method, MR algorithm, and corresponding files have been made available at https://github.com/xiaoyuan1996/GaLR .
翻訳日:2022-04-23 01:26:43 公開日:2022-04-21
# (参考訳) Pixel2Mesh++: マルチビュー画像からの3Dメッシュ生成とリファインメント

Pixel2Mesh++: 3D Mesh Generation and Refinement from Multi-View Images ( http://arxiv.org/abs/2204.09866v1 )

ライセンス: CC BY 4.0
Chao Wen, Yinda Zhang, Chenjie Cao, Zhuwen Li, Xiangyang Xue, Yanwei Fu(参考訳) カメラポーズの有無にかかわらず、少数のカラー画像から3次元メッシュ表現における形状生成の問題について検討する。 先行研究の多くは,先行研究から形状の表現を学んでいるが,グラフ畳み込みネットワークを用いたクロスビュー情報を活用することで,形状の質をさらに向上させる。 画像から3d形状への直接マッピング機能を構築する代わりに、モデルは一連の変形を予測して粗い形状を反復的に改善する。 従来のマルチビュー幾何法にインスパイアされた我々のネットワークは、初期メッシュの頂点位置付近のエリアをサンプリングし、複数の入力画像から構築された知覚的特徴統計を用いて最適な変形を導く。 広範な実験により,入力視点から視覚的に理解できるだけでなく,任意の視点によく適合した正確な3次元形状が得られた。 物理的に駆動されるアーキテクチャの助けを借りて,様々な意味カテゴリー,入力画像数を一般化する能力も提示する。 モデル解析実験により、我々のモデルは初期メッシュの品質とカメラポーズの誤差に頑健であり、テスト時間最適化のための微分可能なレンダラーと組み合わせることができることが示された。

We study the problem of shape generation in 3D mesh representation from a small number of color images with or without camera poses. While many previous works learn to hallucinate the shape directly from priors, we adopt to further improve the shape quality by leveraging cross-view information with a graph convolution network. Instead of building a direct mapping function from images to 3D shape, our model learns to predict series of deformations to improve a coarse shape iteratively. Inspired by traditional multiple view geometry methods, our network samples nearby area around the initial mesh's vertex locations and reasons an optimal deformation using perceptual feature statistics built from multiple input images. Extensive experiments show that our model produces accurate 3D shapes that are not only visually plausible from the input perspectives, but also well aligned to arbitrary viewpoints. With the help of physically driven architecture, our model also exhibits generalization capability across different semantic categories, and the number of input images. Model analysis experiments show that our model is robust to the quality of the initial mesh and the error of camera pose, and can be combined with a differentiable renderer for test-time optimization.
翻訳日:2022-04-23 00:59:38 公開日:2022-04-21
# (参考訳) 対話生成のためのモデル非依存データ操作法

A Model-Agnostic Data Manipulation Method for Persona-based Dialogue Generation ( http://arxiv.org/abs/2204.09867v1 )

ライセンス: CC BY 4.0
Yu Cao, Wei Bi, Meng Fang, Shuming Shi and Dacheng Tao(参考訳) インテリジェントな対話エージェントの構築に向けて、世代モデルに明示的なペルソナを導入することへの関心が高まっている。 しかし,手持ちの対話データが限られているため,対話生成モデルを十分に訓練することは困難である。 第1に、現在のペルソナベースの対話データセットのスケールアップは高価であり、第2に、このタスクに含まれる各データサンプルは、従来の対話データよりも学習が複雑である。 上記の課題を解決するために,任意のペルソナベースの対話生成モデルに同梱するモデルに依存しないデータ操作手法を提案し,その性能を向上する。 元のトレーニングサンプルは最初に蒸留され、より簡単に取り付けられることが期待されている。 次に、より簡単な蒸留データを多様化する様々な効果的な方法を示す。 与えられたベースモデルは、構築されたデータキュリキュラ、すなわち最初に拡張蒸留されたサンプル、そして元のモデルを通じてトレーニングされる。 実験では、2つの強力なベースダイアログモデル(Transformer encoder-decoder と GPT2)による手法の優位性を示す。

Towards building intelligent dialogue agents, there has been a growing interest in introducing explicit personas in generation models. However, with limited persona-based dialogue data at hand, it may be difficult to train a dialogue generation model well. We point out that the data challenges of this generation task lie in two aspects: first, it is expensive to scale up current persona-based dialogue datasets; second, each data sample in this task is more complex to learn with than conventional dialogue data. To alleviate the above data issues, we propose a data manipulation method, which is model-agnostic to be packed with any persona-based dialogue generation model to improve its performance. The original training samples will first be distilled and thus expected to be fitted more easily. Next, we show various effective ways that can diversify such easier distilled data. A given base model will then be trained via the constructed data curricula, i.e. first on augmented distilled samples and then on original ones. Experiments illustrate the superiority of our method with two strong base dialogue models (Transformer encoder-decoder and GPT2).
翻訳日:2022-04-23 00:29:10 公開日:2022-04-21
# (参考訳) クロスモーダルリモートセンシング画像検索のための細粒度マルチスケール手法の探索

Exploring a Fine-Grained Multiscale Method for Cross-Modal Remote Sensing Image Retrieval ( http://arxiv.org/abs/2204.09868v1 )

ライセンス: CC BY 4.0
Zhiqiang Yuan, Wenkai Zhang, Kun Fu, Xuan Li, Chubo Deng, Hongqi Wang, and Xian Sun(参考訳) リモートセンシング (RS) のクロスモーダルテキスト画像検索は, フレキシブルな入力と効率的なクエリの利点から注目されている。 しかし,従来の手法では,rs画像におけるマルチスケールおよび冗長なターゲットの特性を無視し,検索精度の低下を招いた。 RSマルチモーダル検索タスクにおけるマルチスケール不足とターゲット冗長性の問題に対処するため,新しい非対称マルチモーダル特徴マッチングネットワーク(AMFMN)を考案した。 本モデルは,マルチスケール機能入力に適応し,マルチソース検索手法を好み,冗長な機能を動的にフィルタすることができる。 AMFMNはマルチスケール視覚自己注意(MVSA)モジュールを使用して、RS画像の健全な特徴を抽出し、視覚的特徴を利用してテキスト表現を誘導する。 さらに,RS画像の強いクラス内類似性に起因する正のサンプルのあいまいさを軽減するために,試料対の先行類似性に基づく動的変数マージンを持つ三重項損失関数を提案する。 最後に、粗いテキストと高いクラス内類似性を持つ従来のrs画像テキストデータセットとは異なり、より細粒度でより挑戦的なrsitmd(remote sensing image-text match dataset)を構築し、キーワードと文によるrs画像検索を別々にサポートする。 4つのRSテキスト画像データセットに対する実験により,提案モデルがクロスモーダルRSテキスト画像検索タスクにおいて最先端の性能を達成可能であることを示す。

Remote sensing (RS) cross-modal text-image retrieval has attracted extensive attention for its advantages of flexible input and efficient query. However, traditional methods ignore the characteristics of multi-scale and redundant targets in RS image, leading to the degradation of retrieval accuracy. To cope with the problem of multi-scale scarcity and target redundancy in RS multimodal retrieval task, we come up with a novel asymmetric multimodal feature matching network (AMFMN). Our model adapts to multi-scale feature inputs, favors multi-source retrieval methods, and can dynamically filter redundant features. AMFMN employs the multi-scale visual self-attention (MVSA) module to extract the salient features of RS image and utilizes visual features to guide the text representation. Furthermore, to alleviate the positive samples ambiguity caused by the strong intraclass similarity in RS image, we propose a triplet loss function with dynamic variable margin based on prior similarity of sample pairs. Finally, unlike the traditional RS image-text dataset with coarse text and higher intraclass similarity, we construct a fine-grained and more challenging Remote sensing Image-Text Match dataset (RSITMD), which supports RS image retrieval through keywords and sentence separately and jointly. Experiments on four RS text-image datasets demonstrate that the proposed model can achieve state-of-the-art performance in cross-modal RS text-image retrieval task.
翻訳日:2022-04-23 00:06:28 公開日:2022-04-21
# (参考訳) 物理と学習前科:課題特異的イメージングのためのカメラ再考とアルゴリズム設計

Physics vs. Learned Priors: Rethinking Camera and Algorithm Design for Task-Specific Imaging ( http://arxiv.org/abs/2204.09871v1 )

ライセンス: CC BY 4.0
Tzofi Klinghoffer, Siddharth Somasundaram, Kushagra Tiwary, Ramesh Raskar(参考訳) カメラは元々、物理に基づくヒューリスティックを使って美的イメージをキャプチャするために設計された。 近年、カメラデザインは純粋に物理駆動からデータ駆動とタスク固有のものへと変化してきた。 本稿では,カメラハードウェアとアルゴリズムのエンド・ツー・エンド設計の新たな分野の構成要素を理解するためのフレームワークを提案する。 このフレームワークの一部として、物理とデータの両方を利用する手法が、画像やコンピュータビジョンにおいてどのように普及し、タスク固有のカメラ設計の将来を左右する重要なトレンドを浮き彫りにしてきたかを示す。 最後に、エンドツーエンド設計の進歩に対する現在の障壁を共有し、これらの障壁をどのように克服できるかを仮定します。

Cameras were originally designed using physics-based heuristics to capture aesthetic images. In recent years, there has been a transformation in camera design from being purely physics-driven to increasingly data-driven and task-specific. In this paper, we present a framework to understand the building blocks of this nascent field of end-to-end design of camera hardware and algorithms. As part of this framework, we show how methods that exploit both physics and data have become prevalent in imaging and computer vision, underscoring a key trend that will continue to dominate the future of task-specific camera design. Finally, we share current barriers to progress in end-to-end design, and hypothesize how these barriers can be overcome.
翻訳日:2022-04-22 23:37:48 公開日:2022-04-21
# (参考訳) ヒト行動モデルにおける持続的推移双対性

Persistent-Transient Duality in Human Behavior Modeling ( http://arxiv.org/abs/2204.09875v1 )

ライセンス: CC BY 4.0
Hung Tran, Vuong Le, Svetha Venkatesh, Truyen Tran(参考訳) 本稿では,親子型マルチチャネルニューラルネットワークを用いて人間の行動における永続的過渡的双対性をモデル化することを提案する。 短時間の一時的なセッションは、提案されたTransient Switchによって管理される。 神経フレームワークは、自動的に双対の構造を発見するように訓練される。 本モデルは,人間と物体の対話動作予測において優れた性能を示す。

We propose to model the persistent-transient duality in human behavior using a parent-child multi-channel neural network, which features a parent persistent channel that manages the global dynamics and children transient channels that are initiated and terminated on-demand to handle detailed interactive actions. The short-lived transient sessions are managed by a proposed Transient Switch. The neural framework is trained to discover the structure of the duality automatically. Our model shows superior performances in human-object interaction motion prediction.
翻訳日:2022-04-22 23:06:21 公開日:2022-04-21
# (参考訳) 意図に基づく文脈インフォーマル性予測モデルとカリキュラム学習への応用

An Attention-Based Model for Predicting Contextual Informativeness and Curriculum Learning Applications ( http://arxiv.org/abs/2204.09885v1 )

ライセンス: CC BY 4.0
Sungjin Nam, David Jurgens, Kevyn Collins-Thompson(参考訳) 人間と機械は文中の文脈情報を通じて未知の単語の意味を学習するが、全ての文脈が学習に等しく役立つわけではない。 目的語に対する文脈情報化のレベルをキャプチャする効果的な手法を提案する。 私たちの研究は3つの主な貢献をしている。 まず,文の指導的側面に着目し,文脈情報度を推定するモデルを開発した。 事前学習した埋め込みを用いた注意ベースのアプローチは、単一コンテキストデータセットと既存のマルチセンスコンテキストデータセットに対して最先端のパフォーマンスを示す。 第二に、我々のモデルは、対象語に対する読者の理解に最も寄与するであろう文中の重要な文脈要素を特定する方法を示す。 第3に,学習者のための語彙学習アプリケーション用に開発された文脈情報モデルが,バッチ学習やマイナショット機械学習の設定において,単語埋め込みモデルの訓練用キュリキュラの開発にどのように役立つかを検討する。 我々は、人間と機械の学習者の両方に言語学習をサポートするアプリケーションに新たな可能性を開くと信じている。

Both humans and machines learn the meaning of unknown words through contextual information in a sentence, but not all contexts are equally helpful for learning. We introduce an effective method for capturing the level of contextual informativeness with respect to a given target word. Our study makes three main contributions. First, we develop models for estimating contextual informativeness, focusing on the instructional aspect of sentences. Our attention-based approach using pre-trained embeddings demonstrates state-of-the-art performance on our single-context dataset and an existing multi-sentence context dataset. Second, we show how our model identifies key contextual elements in a sentence that are likely to contribute most to a reader's understanding of the target word. Third, we examine how our contextual informativeness model, originally developed for vocabulary learning applications for students, can be used for developing better training curricula for word embedding models in batch learning and few-shot machine learning settings. We believe our results open new possibilities for applications that support language learning for both human and machine learners
翻訳日:2022-04-22 22:59:15 公開日:2022-04-21
# (参考訳) ガウス過程ネットワークの誘導

Inducing Gaussian Process Networks ( http://arxiv.org/abs/2204.09889v1 )

ライセンス: CC BY 4.0
Alessandro Tibo and Thomas Dyhre Nielsen(参考訳) ガウス過程(GP)は強力だが計算コストのかかる機械学習モデルであり、予測毎にカーネル共分散行列を推定する必要がある。 グラフ、集合、画像といった大規模で複雑な領域において、適切なカーネルの選択は決定的に自明であり、学習タスクに新たな障害を与える。 この10年間で、これらの課題はスケーラビリティと表現性の観点から大きな進歩をもたらし、例えば、ポイント誘導とニューラルネットワークカーネル近似の使用によって例示されている。 本稿では,特徴空間と誘導点を同時に学習する簡単なフレームワークであるガウス過程ネットワーク(ign)の誘導を提案する。 特に誘導ポイントは、機能空間で直接学習され、複雑な構造化ドメインのシームレスな表現を可能にすると同時に、スケーラブルな勾配ベースの学習方法を促進する。 回帰分類と(バイナリ)分類をともに検討し,実世界のデータセットに対する実験結果について報告する。 また、ニューラルネットワークアーキテクチャを用いて複雑なドメインを効果的にモデル化するためにIGNを使用する方法を示す。

Gaussian processes (GPs) are powerful but computationally expensive machine learning models, requiring an estimate of the kernel covariance matrix for every prediction. In large and complex domains, such as graphs, sets, or images, the choice of suitable kernel can also be non-trivial to determine, providing an additional obstacle to the learning task. Over the last decade, these challenges have resulted in significant advances being made in terms of scalability and expressivity, exemplified by, e.g., the use of inducing points and neural network kernel approximations. In this paper, we propose inducing Gaussian process networks (IGN), a simple framework for simultaneously learning the feature space as well as the inducing points. The inducing points, in particular, are learned directly in the feature space, enabling a seamless representation of complex structured domains while also facilitating scalable gradient-based learning methods. We consider both regression and (binary) classification tasks and report on experimental results for real-world data sets showing that IGNs provide significant advances over state-of-the-art methods. We also demonstrate how IGNs can be used to effectively model complex domains using neural network architectures.
翻訳日:2022-04-22 22:58:09 公開日:2022-04-21
# (参考訳) Infographics Wizard: フレキシブルなインフォグラフィックのオーサリングと設計

Infographics Wizard: Flexible Infographics Authoring and Design Exploration ( http://arxiv.org/abs/2204.09904v1 )

ライセンス: CC BY 4.0
Anjul Tyagi, Jian Zhao, Pushkar Patel, Swasti Khurana, Klaus Mueller(参考訳) インフォグラフィックは、人間の知覚の特定のデザイン原則に従う情報の視覚的な表現である。 インフォグラフィックの設計は、プロのデザイナーでさえも、非専門家や時間消費にとって退屈なプロセスである。 設計者の助けを借りて,汎用構造およびフローベースインフォグラフィック設計生成のための半自動インフォグラフィックフレームワークを提案する。 初期設計者に対しては,設計入力を必要とせずに,ユーザが提供するテキストのインフォグラフィックデザインを自動的に作成・ランク付けする。 しかし、エキスパートデザイナーはインフォグラフィックをカスタマイズするためにカスタムデザインインプットを提供することができる。 この作業では、個別のビジュアルグループ(VG)デザインデータセット(SVG)と、セグメント化されたVGを備えた1kの完全なインフォグラフィックイメージデータセットも提供します。 評価の結果,すべての専門知識レベルの設計者が,手作りのインフォグラフィックテンプレートと同じ品質を維持しつつ,既存の手法よりも早く汎用インフォグラフィックデザインを生成できることが確認された。

Infographics are an aesthetic visual representation of information following specific design principles of human perception. Designing infographics can be a tedious process for non-experts and time-consuming, even for professional designers. With the help of designers, we propose a semi-automated infographic framework for general structured and flow-based infographic design generation. For novice designers, our framework automatically creates and ranks infographic designs for a user-provided text with no requirement for design input. However, expert designers can still provide custom design inputs to customize the infographics. We will also contribute an individual visual group (VG) designs dataset (in SVG), along with a 1k complete infographic image dataset with segmented VGs in this work. Evaluation results confirm that by using our framework, designers from all expertise levels can generate generic infographic designs faster than existing methods while maintaining the same quality as hand-designed infographics templates.
翻訳日:2022-04-22 22:38:43 公開日:2022-04-21
# (参考訳) CPGNet:リアルタイムLiDARセマンティックセグメンテーションのためのカスケードポイントグリッド融合ネットワーク

CPGNet: Cascade Point-Grid Fusion Network for Real-Time LiDAR Semantic Segmentation ( http://arxiv.org/abs/2204.09914v1 )

ライセンス: CC BY 4.0
Xiaoyan Li, Gang Zhang, Hongyu Pan, Zhenhua Wang(参考訳) 高度な自動運転に必要なLiDARセマンティックセマンティックセマンティクスは、モバイルプラットフォーム上で正確で、高速で、容易にデプロイする必要がある。 時間を要する隣接探索やスパース3d畳み込みが採用されているため、以前のポイントベースやスパースボクセルベースのメソッドはリアルタイムアプリケーションから遠く離れている。 レンジビューやマルチビュー融合を含む近年の2次元投影法では,リアルタイムに動作可能であるが,2次元投影時の情報損失により精度が低下する。 さらに、パフォーマンスを改善するために、従来のメソッドは通常、テスト時間拡張(TTA)を採用し、推論プロセスをさらに遅くする。 そこで本研究では, 高速化を実現するため, 主に以下の2つの手法により, 効率と有効性を両立するカスケード・ポイントグリッド・フュージョン・ネットワーク(cpgnet)を提案する。 1)新しいポイントグリッド(PG)融合ブロックは,2次元投影格子を主目的とした意味的特徴を抽出し,情報損失を最小限に抑えるために3次元点上の2次元特徴と3次元特徴の両方を要約する。 2) 提案した変換整合性損失は, 単一時間モデル推論とTTAのギャップを狭める。 SemanticKITTI と nuScenes ベンチマークの実験では、CPGNetにアンサンブルモデルやTTAを含まないことは最先端の RPVNet に匹敵するが、実行速度は4.7倍である。

LiDAR semantic segmentation essential for advanced autonomous driving is required to be accurate, fast, and easy-deployed on mobile platforms. Previous point-based or sparse voxel-based methods are far away from real-time applications since time-consuming neighbor searching or sparse 3D convolution are employed. Recent 2D projection-based methods, including range view and multi-view fusion, can run in real time, but suffer from lower accuracy due to information loss during the 2D projection. Besides, to improve the performance, previous methods usually adopt test time augmentation (TTA), which further slows down the inference process. To achieve a better speed-accuracy trade-off, we propose Cascade Point-Grid Fusion Network (CPGNet), which ensures both effectiveness and efficiency mainly by the following two techniques: 1) the novel Point-Grid (PG) fusion block extracts semantic features mainly on the 2D projected grid for efficiency, while summarizes both 2D and 3D features on 3D point for minimal information loss; 2) the proposed transformation consistency loss narrows the gap between the single-time model inference and TTA. The experiments on the SemanticKITTI and nuScenes benchmarks demonstrate that the CPGNet without ensemble models or TTA is comparable with the state-of-the-art RPVNet, while it runs 4.7 times faster.
翻訳日:2022-04-22 22:16:18 公開日:2022-04-21
# (参考訳) 仮想環境におけるソニックインタラクション:デジタル双生児のエゴセントリックな音声視点

Sonic Interactions in Virtual Environments: the Egocentric Audio Perspective of the Digital Twin ( http://arxiv.org/abs/2204.09919v1 )

ライセンス: CC BY 4.0
Michele Geronazzo and Stefania Serafin(参考訳) リスナーと物理世界と仮想環境(VE)の関係は、自然なマルチモーダルインタフェースの設計を刺激するだけでなく、VR技術の仲介行動を理解するためにも発見されるべきである。 本章は,仮想環境(sive)におけるソニックインタラクションに関連する研究の列を,課題を包括する第1の理論的枠組み,すなわち聴覚デジタル双生児の自己中心的視点を備えた研究分野に転換することを目的とする。 没入型オーディオ技術が実装されたveでは、vrシミュレーションの役割はアクタと呼ばれる人間と非人間のエージェントのネットワークにおける感覚形成の参加的探索によって果たさなければならない。 the guardian of such locus of agencyは、聴覚デジタル双生児であり、人間とテクノロジーの間の動作を促進させ、没入的かつコヒーレントな体験に不可欠な全ての構成を動的かつ流動的に再定義する。 絡み合い理論の考え方は、主に聴取者の知覚能力に関する新たな知識に関連する自我中心・空間的な視点で減少している。 これは、vesにおける動き、透明性、挑発的な活動を生み出すために、デジタルツインポテンシャルと積極的に変化する関係である。 この章は、いくつかの書誌的参考文献によって補完された独自の理論的視点と、ここで提示された提案に大きく貢献した他の書籍の章との関係を含んでいる。

The relationships between the listener, physical world and virtual environment (VE) should not only inspire the design of natural multimodal interfaces but should be discovered to make sense of the mediating action of VR technologies. This chapter aims to transform an archipelago of studies related to sonic interactions in virtual environments (SIVE) into a research field equipped with a first theoretical framework with an inclusive vision of the challenges to come: the egocentric perspective of the auditory digital twin. In a VE with immersive audio technologies implemented, the role of VR simulations must be enacted by a participatory exploration of sense-making in a network of human and non-human agents, called actors. The guardian of such locus of agency is the auditory digital twin that fosters intra-actions between humans and technology, dynamically and fluidly redefining all those configurations that are crucial for an immersive and coherent experience. The idea of entanglement theory is here mainly declined in an egocentric-spatial perspective related to emerging knowledge of the listener's perceptual capabilities. This is an actively transformative relation with the digital twin potentials to create movement, transparency, and provocative activities in VEs. The chapter contains an original theoretical perspective complemented by several bibliographical references and links to the other book chapters that have contributed significantly to the proposal presented here.
翻訳日:2022-04-22 21:57:57 公開日:2022-04-21
# (参考訳) 知覚の可視化:DNNの目を通して見る

Perception Visualization: Seeing Through the Eyes of a DNN ( http://arxiv.org/abs/2204.09920v1 )

ライセンス: CC BY-SA 4.0
Loris Giulivi, Mark James Carman, Giacomo Boracchi(参考訳) 人工知能(AI)システムが私たちの住む世界を動かします。 ディープニューラルネットワーク(dnn)は、絶えず広がるシナリオの風景の中でタスクを解決できますが、これらの強力なモデルを適用したいという願望は、パフォーマンスに集中し、それらを理解する能力を優先順位を下げることにつながります。 説明可能なAIの分野での現在の研究は、様々な摂動や勾配に基づく説明手法を開発することによって、このギャップを埋めようとしている。 画像の場合、これらのテクニックはモデルがなぜ予測を行うのかを解明するために必要となる意味情報を完全なキャプチャと伝達に失敗します。 本研究では, grad-cam のような現在の説明法とは性質的に根本的に異なる新しい説明法を開発した。 知覚の可視化は、潜在表現がどのような視覚パターンに対応するかを表現することによって、dnnが入力画像で知覚するものを視覚的に表現する。 可視化は、元のモデルのパラメータや予測が変更されないような符号化された特徴を逆転する再構成モデルによって得られる。 ユーザ調査の結果,知覚可視化が利用可能であれば,人間がシステムの判断をよりよく理解し,予測できることが示され,信頼性の高いシステムとしての深層モデルのデバッグとデプロイが容易になる。

Artificial intelligence (AI) systems power the world we live in. Deep neural networks (DNNs) are able to solve tasks in an ever-expanding landscape of scenarios, but our eagerness to apply these powerful models leads us to focus on their performance and deprioritises our ability to understand them. Current research in the field of explainable AI tries to bridge this gap by developing various perturbation or gradient-based explanation techniques. For images, these techniques fail to fully capture and convey the semantic information needed to elucidate why the model makes the predictions it does. In this work, we develop a new form of explanation that is radically different in nature from current explanation methods, such as Grad-CAM. Perception visualization provides a visual representation of what the DNN perceives in the input image by depicting what visual patterns the latent representation corresponds to. Visualizations are obtained through a reconstruction model that inverts the encoded features, such that the parameters and predictions of the original models are not modified. Results of our user study demonstrate that humans can better understand and predict the system's decisions when perception visualizations are available, thus easing the debugging and deployment of deep models as trusted systems.
翻訳日:2022-04-22 21:56:52 公開日:2022-04-21
# (参考訳) 高速ネットワークを用いた科学論文のマルチタスク推薦システム

Multi-task recommendation system for scientific papers with high-way networks ( http://arxiv.org/abs/2204.09930v1 )

ライセンス: CC BY-SA 4.0
Aram Karimi, Simon Dobnik(参考訳) 研究コミュニティで書かれた多くの論文の中から、最も関連性の高い科学論文を見つけ、選択することは、最近の研究者にとって重要な課題の1つです。 私たちが知っているように、学者や学者に対する研究の関心に関する多くの情報は、彼らが読んだ論文に属する。 これらの論文から文脈的特徴の分析と抽出は、最も関連する論文の提案に役立つだろう。 本稿では,論文推薦を予測し,キーワードなどのメタデータを生成するマルチタスクレコメンデーションシステム(RS)を提案する。 このシステムは3段階のディープニューラルネットワークエンコーダとして実装され、テキストの長いシーケンスを埋め込みベクトルにマッピングし、同時に学習して、特定のユーザと論文のキーワードの推奨率を予測する。 このアプローチの背景にある動機は、論文のトピックがキーワードとして表現され、研究者の好みの予測に役立っていることである。 この目的を達成するために、RNN、ハイウェイ、畳み込みニューラルネットワークのシステム組み合わせを用いて、コンテキスト対応の協調行列をエンドツーエンドで訓練する。 我々のアプリケーションは、ハイウェイネットワークを使ってシステムを非常に深く訓練し、RNNとCNNの利点を組み合わせて最も重要な要素を見つけ、遅延表現する。 ハイウェイネットワークは、より洗練されたセマンティックな構造表現を学習することで、従来のRNNとCNNパイプラインを強化することができる。 この方法を用いることで、コールドスタート問題を克服し、大量のテキスト列で潜在機能を学ぶこともできる。

Finding and selecting the most relevant scientific papers from a large number of papers written in a research community is one of the key challenges for researchers these days. As we know, much information around research interest for scholars and academicians belongs to papers they read. Analysis and extracting contextual features from these papers could help us to suggest the most related paper to them. In this paper, we present a multi-task recommendation system (RS) that predicts a paper recommendation and generates its meta-data such as keywords. The system is implemented as a three-stage deep neural network encoder that tries to maps longer sequences of text to an embedding vector and learns simultaneously to predict the recommendation rate for a particular user and the paper's keywords. The motivation behind this approach is that the paper's topics expressed as keywords are a useful predictor of preferences of researchers. To achieve this goal, we use a system combination of RNNs, Highway and Convolutional Neural Networks to train end-to-end a context-aware collaborative matrix. Our application uses Highway networks to train the system very deep, combine the benefits of RNN and CNN to find the most important factor and make latent representation. Highway Networks allow us to enhance the traditional RNN and CNN pipeline by learning more sophisticated semantic structural representations. Using this method we can also overcome the cold start problem and learn latent features over large sequences of text.
翻訳日:2022-04-22 21:44:46 公開日:2022-04-21
# (参考訳) Ultra Marginal Feature の重要性

Ultra Marginal Feature Importance ( http://arxiv.org/abs/2204.09938v1 )

ライセンス: CC BY 4.0
Joseph Janssen and Vincent Guan(参考訳) 科学者はしばしば最善のモデルのトレーニングではなく、データから学習を優先するが、機械学習の研究は後者を優先することが多い。 限界寄与特徴重要度のような限界特徴重要度法の開発は、解釈可能な方法でデータ間の関係を説明するための有用なフレームワークを提供することで、この傾向を破ろうとする。 本研究では,相関したインタラクションの検出とランタイムの削減に関して,パフォーマンスを向上させるために,限界貢献機能のフレームワークを一般化する。 そこで我々は,機能セットの「情報サブセット」を$F$とし,AIフェアネス文献から公正表現学習手法を適用した上で,我々の重要度を直接計算可能であることを示す。 最適輸送法と線形回帰法は、F$という特徴集合からf$という特徴の全ての情報を除去するために実験的に検討・検討されている。 これらの実装から,超限界特徴重要度は,少なくとも限界寄与特徴重要度と同等であり,相関相互作用や非関連特徴の存在下では計算時間が大幅に向上し,性能が向上することを示す。

Scientists frequently prioritize learning from data rather than training the best possible model; however, research in machine learning often prioritizes the latter. The development of marginal feature importance methods, such as marginal contribution feature importance, attempts to break this trend by providing a useful framework for explaining relationships in data in an interpretable fashion. In this work, we generalize the framework of marginal contribution feature importance to improve performance with regards to detecting correlated interactions and reducing runtime. To do so, we consider "information subsets" of the set of features $F$ and show that our importance metric can be computed directly after applying fair representation learning methods from the AI fairness literature. The methods of optimal transport and linear regression are considered and explored experimentally for removing all the information of our feature of interest $f$ from the feature set $F$. Given these implementations, we show on real and simulated data that ultra marginal feature importance performs at least as well as marginal contribution feature importance, with substantially faster computation time and better performance in the presence of correlated interactions and unrelated features.
翻訳日:2022-04-22 21:33:55 公開日:2022-04-21
# (参考訳) 患者ジャーニーの回復:Twitter上のバイオメディカルエンティティとリレーションシップのコーパス(BEAR)

Recovering Patient Journeys: A Corpus of Biomedical Entities and Relations on Twitter (BEAR) ( http://arxiv.org/abs/2204.09952v1 )

ライセンス: CC BY-SA 4.0
Amelie W\"uhrl and Roman Klinger(参考訳) 医学領域におけるテキストマイニングと情報抽出は、研究者による科学的テキストに焦点を当てている。 しかし、個々の患者体験への直接アクセスや患者と医師の相互作用は制限されることがある。 ソーシャルメディアで提供される情報、例えば患者とその親戚は、科学的なテキストで知識を補完する。 患者の経過と主観的視点を反映し、症状を発症し、診断を受け、治療を提供し、治療を受け、治療を受けたり、医学的な状況で生活することを学ぶ。 この種のデータの価値は2つある: まず、人々の視点に直接アクセスできる。 第二に、他の場所では利用できない情報、例えば自己待遇や自己診断をカバーできる。 名前付きエンティティ認識と関係抽出は、非構造化テキストで利用可能な情報を構成する方法である。 しかし、既存の医療ソーシャルメディアコーポラでは、患者を分析の中心に置くのではなく、比較的小さな実体と関係と特定のドメインに焦点を合わせていた。 本稿では,患者の移動や経験をより詳細に解明しモデル化する動機づけに従い,アノテーション層が豊富なコーパスを寄贈する。 我々は、14の実体クラス(環境要因、診断、生化学的プロセス、患者の生活の質、病原体、医療状況、治療)と20の関連クラス(例えば、予防、影響、相互作用、原因)を分類し、そのほとんどはソーシャルメディアデータについてこれまで考慮されていなかった。 公開データセットは2100のツイートと近似で構成されている。 6000のエンティティと3000の関連アノテーション。 コーパス分析では、80%以上の文書が関連エンティティを含んでいることがわかった。 ツイートの50%以上が、患者の旅の物語を明らかにするのに不可欠な関係を表現している。

Text mining and information extraction for the medical domain has focused on scientific text generated by researchers. However, their direct access to individual patient experiences or patient-doctor interactions can be limited. Information provided on social media, e.g., by patients and their relatives, complements the knowledge in scientific text. It reflects the patient's journey and their subjective perspective on the process of developing symptoms, being diagnosed and offered a treatment, being cured or learning to live with a medical condition. The value of this type of data is therefore twofold: Firstly, it offers direct access to people's perspectives. Secondly, it might cover information that is not available elsewhere, including self-treatment or self-diagnoses. Named entity recognition and relation extraction are methods to structure information that is available in unstructured text. However, existing medical social media corpora focused on a comparably small set of entities and relations and particular domains, rather than putting the patient into the center of analyses. With this paper we contribute a corpus with a rich set of annotation layers following the motivation to uncover and model patients' journeys and experiences in more detail. We label 14 entity classes (incl. environmental factors, diagnostics, biochemical processes, patients' quality-of-life descriptions, pathogens, medical conditions, and treatments) and 20 relation classes (e.g., prevents, influences, interactions, causes) most of which have not been considered before for social media data. The publicly available dataset consists of 2,100 tweets with approx. 6,000 entity and 3,000 relation annotations. In a corpus analysis we find that over 80 % of documents contain relevant entities. Over 50 % of tweets express relations which we consider essential for uncovering patients' narratives about their journeys.
翻訳日:2022-04-22 21:15:18 公開日:2022-04-21
# (参考訳) semeval-2022 タスク11: バングラデシュの複雑な名前付きエンティティを認識するためのデータ拡張とアンサンブルの活用について

TEAM-Atreides at SemEval-2022 Task 11: On leveraging data augmentation and ensemble to recognize complex Named Entities in Bangla ( http://arxiv.org/abs/2204.09964v1 )

ライセンス: CC BY 4.0
Nazia Tasnim, Md. Istiak Hossain Shihab, Asif Shahriyar Sushmit, Steven Bethard and Farig Sadeque(参考訳) 生物学的・医療領域、芸術作品、組織名など多くの分野は、実際には構文的にも意味的にも曖昧であるかもしれない、ネストし、重複し、不連続な実体に言及している。 従来のシーケンスタグ付けアルゴリズムは、シーケンスタグ付けスキームが確立される仮定に違反する可能性があるため、これらの複雑な言及を認識できない。 本稿では,SemEval 2022 Task 11における,このような複雑な名前付きエンティティの同定への貢献について述べる。 我々は,バングラ語でのみ事前訓練された複数のELECTRAベースのモデルのアンサンブルを,英語で事前訓練されたELECTRAベースのモデルの性能を利用してトラック11の競争性能を実現した。 システム記述の提供に加えて、アーキテクチャ決定、データセットの強化、競合後の発見に関する実験の結果も提示します。

Many areas, such as the biological and healthcare domain, artistic works, and organization names, have nested, overlapping, discontinuous entity mentions that may even be syntactically or semantically ambiguous in practice. Traditional sequence tagging algorithms are unable to recognize these complex mentions because they may violate the assumptions upon which sequence tagging schemes are founded. In this paper, we describe our contribution to SemEval 2022 Task 11 on identifying such complex Named Entities. We have leveraged the ensemble of multiple ELECTRA-based models that were exclusively pretrained on the Bangla language with the performance of ELECTRA-based models pretrained on English to achieve competitive performance on the Track-11. Besides providing a system description, we will also present the outcomes of our experiments on architectural decisions, dataset augmentations, and post-competition findings.
翻訳日:2022-04-22 20:53:13 公開日:2022-04-21
# (参考訳) クロスビュージオローカライゼーションのためのトランスフォーマー誘導畳み込みニューラルネットワーク

Transformer-Guided Convolutional Neural Network for Cross-View Geolocalization ( http://arxiv.org/abs/2204.09967v1 )

ライセンス: CC BY 4.0
Teng Wang and Shujuan Fan and Daikun Liu and Changyin Sun(参考訳) ground-to-aerial geolocalizationは、地理タグ付き空中画像の参照データベースとマッチングすることにより、地上レベルのクエリ画像をローカライズすることを指す。 この2つのビューの間に視覚的な外観と幾何学的構成の大きな違いがあるため、これは非常に難しい。 本研究では,cnnに基づく局所的特徴とトランスフォーマティブに基づくグローバル表現を結合した,トランスフォーマティブ誘導畳み込みニューラルネットワーク(transgcnn)アーキテクチャを提案する。 具体的には,入力画像から特徴マップを抽出するCNNバックボーンと,CNNマップからグローバルコンテキストをモデル化するTransformerヘッダで構成される。 特にトランスフォーマーヘッドは空間認識重要生成器として機能し、最終的な特徴表現として有能なCNN特徴を選択する。 このような結合処理により,軽量なトランスフォーマーネットワークを活用し,組込み機能の識別能力を大幅に向上させることができる。 さらに,マルチスケールウインドウの画像特徴を統合し,グローバル特徴表現の詳細を改善するために,デュアルブランチトランスヘッドネットワークを設計した。 人気のあるベンチマークデータセットに関する広範囲な実験により、cvusaとcvact_valでそれぞれ94.12\%と84.92\%のtop-1精度を達成し、50%未満のパラメータと約2倍のフレームレートで2番目にパフォーマンスの高いベースラインを上回っており、精度と効率のトレードオフが望ましいことが示された。

Ground-to-aerial geolocalization refers to localizing a ground-level query image by matching it to a reference database of geo-tagged aerial imagery. This is very challenging due to the huge perspective differences in visual appearances and geometric configurations between these two views. In this work, we propose a novel Transformer-guided convolutional neural network (TransGCNN) architecture, which couples CNN-based local features with Transformer-based global representations for enhanced representation learning. Specifically, our TransGCNN consists of a CNN backbone extracting feature map from an input image and a Transformer head modeling global context from the CNN map. In particular, our Transformer head acts as a spatial-aware importance generator to select salient CNN features as the final feature representation. Such a coupling procedure allows us to leverage a lightweight Transformer network to greatly enhance the discriminative capability of the embedded features. Furthermore, we design a dual-branch Transformer head network to combine image features from multi-scale windows in order to improve details of the global feature representation. Extensive experiments on popular benchmark datasets demonstrate that our model achieves top-1 accuracy of 94.12\% and 84.92\% on CVUSA and CVACT_val, respectively, which outperforms the second-performing baseline with less than 50% parameters and almost 2x higher frame rate, therefore achieving a preferable accuracy-efficiency tradeoff.
翻訳日:2022-04-22 20:44:56 公開日:2022-04-21
# (参考訳) ニューラルネットワークの融合

Merging of neural networks ( http://arxiv.org/abs/2204.09973v1 )

ライセンス: CC BY 4.0
Martin Pa\v{s}en, Vladim\'ir Bo\v{z}a(参考訳) 異なる初期化でトレーニングされた2つのニューラルネットワークを、元のニューラルネットワークと同じサイズで単一のニューラルネットワークにマージする方法を提案する。 我々は、各入力ネットワークからチャンネルを慎重に選択することでこれを行う。 この手順は、不運な種を避けるために複数の開始種子を試した後の最終段階として用いられる可能性がある。 また,2つのネットワークを訓練し,マージすることで,1つのネットワークを長時間トレーニングするよりも優れたパフォーマンスが得られることを示した。 可用性: https://github.com/fmfi-compbio/neural-network-merging

We propose a simple scheme for merging two neural networks trained with different starting initialization into a single one with the same size as the original ones. We do this by carefully selecting channels from each input network. Our procedure might be used as a finalization step after one tries multiple starting seeds to avoid an unlucky one. We also show that training two networks and merging them leads to better performance than training a single network for an extended period of time. Availability: https://github.com/fmfi-compbio/neural-network-merging
翻訳日:2022-04-22 20:26:20 公開日:2022-04-21
# (参考訳) CNNと(Bi)LSTMニューラルネットワークに基づく時系列データ充足手法

A data filling methodology for time series based on CNN and (Bi)LSTM neural networks ( http://arxiv.org/abs/2204.09994v1 )

ライセンス: CC BY 4.0
Kostas Tzoumpas (1) and Aaron Estrada (1) and Pietro Miraglio (2) and Pietro Zambelli (1) ((1) Eurac Research - Institute for Renewable Energy, Bolzano, Italy (2) Centro Euro-Mediterraneo sui Cambiamenti Climatici, Bologna, Italy)(参考訳) センサからデータを集める過程において、いくつかの状況がデータの連続性と妥当性に影響し、データの変更や情報の喪失につながる。 補間的手法のような古典的な統計手法は、時系列における欠落したデータを近似するために用いられるが、近年のDeep Learning(DL)の発展は、革新的でより正確な予測技術への衝動を与えている。 本稿では,イタリア・ボルザーノの監視住宅から得られた内部温度時系列の具体的な事例について,データギャップを埋めるための2つのDLモデルを構築した。 本研究で開発されたDLモデルは、畳み込みニューラルネットワーク(CNN)、Long Short-Term Memory Neural Networks(LSTM)、Bidirectional LSTMs(BiLSTM)の組み合わせに基づいている。 我々のモデルの2つの重要な特徴は、前と後の両方のデータを使用することと、対象データ(内部温度)を予測するために相関時系列(外部温度)を利用することである。 提案手法は, 変動するデータの性質を把握し, 対象時系列の再構成に優れた精度を示す。 さらに、我々のモデルは、現在の作業のベースラインとして使用される別のDLアーキテクチャによる、既に良い結果を大幅に改善します。

In the process of collecting data from sensors, several circumstances can affect their continuity and validity, resulting in alterations of the data or loss of information. Although classical methods of statistics, such as interpolation-like techniques, can be used to approximate the missing data in a time series, the recent developments in Deep Learning (DL) have given impetus to innovative and much more accurate forecasting techniques. In the present paper, we develop two DL models aimed at filling data gaps, for the specific case of internal temperature time series obtained from monitored apartments located in Bolzano, Italy. The DL models developed in the present work are based on the combination of Convolutional Neural Networks (CNNs), Long Short-Term Memory Neural Networks (LSTMs), and Bidirectional LSTMs (BiLSTMs). Two key features of our models are the use of both pre- and post-gap data, and the exploitation of a correlated time series (the external temperature) in order to predict the target one (the internal temperature). Our approach manages to capture the fluctuating nature of the data and shows good accuracy in reconstructing the target time series. In addition, our models significantly improve the already good results from another DL architecture that is used as a baseline for the present work.
翻訳日:2022-04-22 20:19:08 公開日:2022-04-21
# (参考訳) 巨大な凍った言語モデルの肩の上に立つ

Standing on the Shoulders of Giant Frozen Language Models ( http://arxiv.org/abs/2204.10019v1 )

ライセンス: CC BY 4.0
Yoav Levine, Itay Dalmedigos, Ori Ram, Yoel Zeldes, Daniel Jannai, Dor Muhlgay, Yoni Osin, Opher Lieber, Barak Lenz, Shai Shalev-Shwartz, Amnon Shashua, Kevin Leyton-Brown, Yoav Shoham(参考訳) 膨大な事前訓練言語モデル(LM)は、様々なタスクにおいて驚くほど優れたゼロショット機能を示している。 これにより、さまざまなアプリケーションにわたって幅広い機能を持つ単一の汎用モデルの魅力的なビジョンが生まれます。 しかしながら、現在の「凍った」LM(すなわち重量を触れずに残す)を活用するための先進的な技術は、タスク依存の方法でこれらの重量を変更する微調整アプローチを過小評価することが多い。 その結果として、これらは忘れられやすく、多様さを妥協させ、パフォーマンスと多様さのトレードオフを示唆します。 本論文の主なメッセージは, 急速チューニングのような現在の凍結モデル技術は氷山先端に過ぎず, より強力な LM の活用手法は, 基礎となるモデルの汎用性を犠牲にすることなく, 挑戦領域の微調整もできるということである。 これを実証するために、入力依存のプロンプトチューニング、フリーズリーダー、再帰的LMの3つの新しい手法を導入し、それぞれが現在のフリーズモデルアプローチを大幅に改善している。 実際、私たちの手法のいくつかは、現在後者が支配しているドメインにおける微調整アプローチよりも優れています。 各手法の計算コストは、既存の凍結モデル法よりも高いが、巨大な凍結LMを通る単一パスに対して無視可能である。 これらのメソッドはそれ自体で有意義な貢献をしているが、これらの貢献を一緒に提示することで、任意のメソッドの詳細を超えた、より広いメッセージを読者に納得させることを目指している。

Huge pretrained language models (LMs) have demonstrated surprisingly good zero-shot capabilities on a wide variety of tasks. This gives rise to the appealing vision of a single, versatile model with a wide range of functionalities across disparate applications. However, current leading techniques for leveraging a "frozen" LM -- i.e., leaving its weights untouched -- still often underperform fine-tuning approaches which modify these weights in a task-dependent way. Those, in turn, suffer forgetfulness and compromise versatility, suggesting a tradeoff between performance and versatility. The main message of this paper is that current frozen-model techniques such as prompt tuning are only the tip of the iceberg, and more powerful methods for leveraging frozen LMs can do just as well as fine tuning in challenging domains without sacrificing the underlying model's versatility. To demonstrate this, we introduce three novel methods for leveraging frozen models: input-dependent prompt tuning, frozen readers, and recursive LMs, each of which vastly improves on current frozen-model approaches. Indeed, some of our methods even outperform fine-tuning approaches in domains currently dominated by the latter. The computational cost of each method is higher than that of existing frozen model methods, but still negligible relative to a single pass through a huge frozen LM. Each of these methods constitutes a meaningful contribution in its own right, but by presenting these contributions together we aim to convince the reader of a broader message that goes beyond the details of any given method: that frozen models have untapped potential and that fine-tuning is often unnecessary.
翻訳日:2022-04-22 19:53:36 公開日:2022-04-21
# (参考訳) 学習に基づくバグ検知器の分布変化について

On Distribution Shift in Learning-based Bug Detectors ( http://arxiv.org/abs/2204.10049v1 )

ライセンス: CC BY 4.0
Jingxuan He, Luca Beurer-Kellner, Martin Vechev(参考訳) ディープラーニングは最近、バグ検出などのプログラム分析タスクで最初の成功を達成している。 実際のバグを欠いた既存の作業の多くは、正しいプログラムに合成バグを注入してトレーニングとテストデータを構築している。 高いテスト精度(例:90%)を達成したにもかかわらず、結果として生じるバグ検出装置は、実際のソフトウェアリポジトリをスキャンするのに使用する場合、実際には驚くほど使用不可能であることが判明した。 本研究では,この大規模な性能差は,実際のバグ分布と,検出器の訓練および評価に使用される合成バグ分布との根本的なミスマッチによるものである,と論じる。 この課題に対処するために,我々はまず,バグ検出領域にモデルを適応させるための合成バグ分布と,実際のバグ分布にモデルを適応させるための実際のバグ分布という,2つのフェーズでバグ検出を訓練することを提案する。 これら2つのフェーズにおいて、マルチタスク階層、焦点損失、コントラスト学習を活用してパフォーマンスをさらに向上する。 我々は,本手法を広範に研究した3種類のバグタイプに対して評価し,実際のバグ分布を捉えるために慎重に設計された新しいデータセットを構築した。 私たちの学習した検出器は、構築したテストセットと最新バージョンのオープンソースリポジトリの両方で非常に高性能です。

Deep learning has recently achieved initial success in program analysis tasks such as bug detection. Lacking real bugs, most existing works construct training and test data by injecting synthetic bugs into correct programs. Despite achieving high test accuracy (e.g. >90%), the resulting bug detectors are found to be surprisingly unusable in practice, i.e., <10% precision when used to scan real software repositories. In this work, we argue that this massive performance difference is caused by distribution shift, i.e., a fundamental mismatch between the real bug distribution and the synthetic bug distribution used to train and evaluate the detectors. To address this key challenge, we propose to train a bug detector in two phases, first on a synthetic bug distribution to adapt the model to the bug detection domain, and then on a real bug distribution to drive the model towards the real distribution. During these two phases, we leverage a multi-task hierarchy, focal loss, and contrastive learning to further boost performance. We evaluate our approach extensively on three widely studied bug types, for which we construct new datasets carefully designed to capture the real bug distribution. The results demonstrate that our approach is practically effective and successfully mitigates the distribution shift: our learned detectors are highly performant on both our constructed test set and the latest version of open source repositories.
翻訳日:2022-04-22 19:27:32 公開日:2022-04-21
# (参考訳) semeval-2022タスク2 : 多言語的慣用性検出と文埋め込み

SemEval-2022 Task 2: Multilingual Idiomaticity Detection and Sentence Embedding ( http://arxiv.org/abs/2204.10050v1 )

ライセンス: CC BY-SA 4.0
Harish Tayyar Madabushi, Edward Gow-Smith, Marcos Garcia, Carolina Scarton, Marco Idiart, Aline Villavicencio(参考訳) 本稿では,2つのサブタスクからなる多言語慣用性検出と文の埋め込みに関する共有タスクについて述べる。 (a)文が慣用的表現を含むか否かを識別することを目的とした二分分類 b) 文脈における潜在的慣用的表現を適切に表現する必要がある意味的テキスト類似性に基づくタスク。 各サブタスクには、トレーニングデータの量に関する異なる設定が含まれている。 タスク記述の他に,英語,ポルトガル語,ガリシア語のデータセットとそのアノテーション手順,評価指標,参加者システムの概要と結果について紹介する。 このタスクには100名近い登録参加者が参加し、実践と評価のフェーズで650名以上と150名以上の応募を行った。

This paper presents the shared task on Multilingual Idiomaticity Detection and Sentence Embedding, which consists of two subtasks: (a) a binary classification one aimed at identifying whether a sentence contains an idiomatic expression, and (b) a task based on semantic text similarity which requires the model to adequately represent potentially idiomatic expressions in context. Each subtask includes different settings regarding the amount of training data. Besides the task description, this paper introduces the datasets in English, Portuguese, and Galician and their annotation procedure, the evaluation metrics, and a summary of the participant systems and their results. The task had close to 100 registered participants organised into twenty five teams making over 650 and 150 submissions in the practice and evaluation phases respectively.
翻訳日:2022-04-22 19:00:06 公開日:2022-04-21
# (参考訳) 逆形状前処理によるインシシット形状補完

Implicit Shape Completion via Adversarial Shape Priors ( http://arxiv.org/abs/2204.10060v1 )

ライセンス: CC BY 4.0
Abhishek Saroha, Marvin Eisenberger, Tarun Yenamandra and Daniel Cremers(参考訳) 部分点雲の完全化のためのニューラル暗黙的形状法を提案する。 そこで我々は,条件付き深層sdfアーキテクチャと,学習された逆向きの形状プリエントを組み合わせた。 より具体的には、我々のネットワークは部分入力をグローバルな潜在コードに変換し、暗黙の符号付き距離生成器を介して全幾何学を復元する。 さらに、我々は、生成元に可塑性で一貫した再構築を強制するPointNet++識別器を訓練する。 このようにして、トレーニングセットのポーズ分布を模倣し、部分的な入力観察を再現するという意味で正確であるような、現実的な形状を予測するという課題を効果的に分離する。 実験では,人工物体(飛行機,椅子,...)と変形可能な形状カテゴリ(人体)の両方を考慮して,部分的な形状を完遂するための最先端のパフォーマンスを示す。 最後に,対象物の欠落部分の回復に極めて一貫性のある視覚的に妥当な再構築が,我々の対向訓練アプローチによって達成されていることを示す。

We present a novel neural implicit shape method for partial point cloud completion. To that end, we combine a conditional Deep-SDF architecture with learned, adversarial shape priors. More specifically, our network converts partial inputs into a global latent code and then recovers the full geometry via an implicit, signed distance generator. Additionally, we train a PointNet++ discriminator that impels the generator to produce plausible, globally consistent reconstructions. In that way, we effectively decouple the challenges of predicting shapes that are both realistic, i.e. imitate the training set's pose distribution, and accurate in the sense that they replicate the partial input observations. In our experiments, we demonstrate state-of-the-art performance for completing partial shapes, considering both man-made objects (e.g. airplanes, chairs, ...) and deformable shape categories (human bodies). Finally, we show that our adversarial training approach leads to visually plausible reconstructions that are highly consistent in recovering missing parts of a given object.
翻訳日:2022-04-22 18:31:30 公開日:2022-04-21
# (参考訳) ソーシャルメディアで誤情報を否定するアクティブ市民の識別と特徴付け

Identifying and Characterizing Active Citizens who Refute Misinformation in Social Media ( http://arxiv.org/abs/2204.10080v1 )

ライセンス: CC BY 4.0
Yida Mu and Pu Niu and Nikolaos Aletras(参考訳) ソーシャルメディアで誤報が広まる現象は、誤報を含む可能性のあるポストに反論することで問題に対処することに集中する活動的な市民の新しい形態を生み出した。 ソーシャルメディアにおけるこのような活動的な市民の行動を自動的に同定し特徴付けることは、誤情報分析の研究を補完する計算社会科学の重要な課題である。 本稿では,この課題をソーシャルメディアプラットフォーム(TwitterとWeibo)と言語(英語と中国語)で初めて検討する。 この目的のために,(1)Weibo利用者の新しいデータセットを2つのカテゴリの1つ(誤報ポスターやアクティブな市民など)にマッピングし,公開し,(2)新しいWeiboデータセットと既存のTwitterデータセット上で教師付きモデルのバッテリを評価し,(3)2つのカテゴリ間の言語使用の違いを広範囲に分析した。

The phenomenon of misinformation spreading in social media has developed a new form of active citizens who focus on tackling the problem by refuting posts that might contain misinformation. Automatically identifying and characterizing the behavior of such active citizens in social media is an important task in computational social science for complementing studies in misinformation analysis. In this paper, we study this task across different social media platforms (i.e., Twitter and Weibo) and languages (i.e., English and Chinese) for the first time. To this end, (1) we develop and make publicly available a new dataset of Weibo users mapped into one of the two categories (i.e., misinformation posters or active citizens); (2) we evaluate a battery of supervised models on our new Weibo dataset and an existing Twitter dataset which we repurpose for the task; and (3) we present an extensive analysis of the differences in language use between the two user categories.
翻訳日:2022-04-22 18:30:32 公開日:2022-04-21
# (参考訳) 予測メンテナンスのための2段階機械学習フレームワーク:学習定式化の比較

A two-level machine learning framework for predictive maintenance: comparison of learning formulations ( http://arxiv.org/abs/2204.10083v1 )

ライセンス: CC BY 4.0
Valentin Hamaide, Denis Joassin, Lauriane Castin, Fran\c{c}ois Glineur(参考訳) ダウンタイムやマシン故障を避けるためには,産業機械のセンサ情報に基づく入ってくる故障の予測とスケジュール維持が重要である。 予測メンテナンス問題を解決するために、さまざまな機械学習定式化が使用できる。 しかし、文献で研究されるアプローチの多くは、現実のシナリオには直接適用されない。 実際、これらのアプローチの多くは、分類や故障検出の場合にはラベル付き機械の誤動作に依存するか、回帰や有用な寿命推定の場合に予測できる単調な健康指標を見つけるかのどちらかであり、必ずしも実現可能であるとは限らない。 さらに、問題の意思決定部分は、予測フェーズとともに常に研究されるわけではない。 本稿では,2段階のフレームワークにおける予測保守のための異なる定式化を設計・比較し,故障検出性能とメンテナンス決定のタイミングを定量化する設計指標について検討する。 最初のレベルは、学習アルゴリズムを使って特徴を集約することで健康指標を構築する責任がある。 第2のレベルは、この健康指標に基づいてアラームをトリガーできる意思決定システムで構成される。 フレームワークの第1段階では、単純なしきい値に基づく一変量予測技術から、失敗前の残り時間に基づく教師付き学習方法まで、3つの改善度を比較する。 我々は、すべての定式化で使用される共通アルゴリズムとして、サポートベクトルマシン(SVM)とそのバリエーションを選択する。 実世界の回転機械ケーススタディに異なる戦略を適用して比較し、単純なモデルが既にうまく機能しているのに対して、より洗練された改良により、良質なパラメータの予測が促進されることを観察する。

Predicting incoming failures and scheduling maintenance based on sensors information in industrial machines is increasingly important to avoid downtime and machine failure. Different machine learning formulations can be used to solve the predictive maintenance problem. However, many of the approaches studied in the literature are not directly applicable to real-life scenarios. Indeed, many of those approaches usually either rely on labelled machine malfunctions in the case of classification and fault detection, or rely on finding a monotonic health indicator on which a prediction can be made in the case of regression and remaining useful life estimation, which is not always feasible. Moreover, the decision-making part of the problem is not always studied in conjunction with the prediction phase. This paper aims to design and compare different formulations for predictive maintenance in a two-level framework and design metrics that quantify both the failure detection performance as well as the timing of the maintenance decision. The first level is responsible for building a health indicator by aggregating features using a learning algorithm. The second level consists of a decision-making system that can trigger an alarm based on this health indicator. Three degrees of refinements are compared in the first level of the framework, from simple threshold-based univariate predictive technique to supervised learning methods based on the remaining time before failure. We choose to use the Support Vector Machine (SVM) and its variations as the common algorithm used in all the formulations. We apply and compare the different strategies on a real-world rotating machine case study and observe that while a simple model can already perform well, more sophisticated refinements enhance the predictions for well-chosen parameters.
翻訳日:2022-04-22 18:12:11 公開日:2022-04-21
# (参考訳) OTExtSum: 最適転送による抽出テキスト要約

OTExtSum: Extractive Text Summarisation with Optimal Transport ( http://arxiv.org/abs/2204.10086v1 )

ライセンス: CC BY 4.0
Peggy Tang, Kun Hu, Rui Yan, Lei Zhang, Junbin Gao, Zhiyong Wang(参考訳) 抽出テキスト要約は、文書から有能な文を選び、短いが情報的な要約を形成することを目的としている。 学習ベースの手法は有望な結果を得たが、高価なトレーニングへの依存や解釈可能性の欠如など、いくつかの制限がある。 そこで本稿では,テキスト要約を最適輸送(OT)問題,すなわちOTExtSum(Optimal Transport Extractive Summariser)として初めて定式化した非学習型手法を提案する。 最適文抽出は、その意味分布に関する文書への輸送コストを最小化する最適な要約を得るものとして概念化される。 そのようなコストはwasserstein距離によって定義され、サマリーのオリジナルの文書の意味的カバレッジを測定するのに使用される。 multinews、pubmed、billsum、cnn/dmの4つの挑戦的かつ広く使用されるデータセットに関する包括的な実験は、提案手法が最先端の非学習ベース手法や最近のルージュメトリックの学習ベース手法よりも優れていることを示している。

Extractive text summarisation aims to select salient sentences from a document to form a short yet informative summary. While learning-based methods have achieved promising results, they have several limitations, such as dependence on expensive training and lack of interpretability. Therefore, in this paper, we propose a novel non-learning-based method by for the first time formulating text summarisation as an Optimal Transport (OT) problem, namely Optimal Transport Extractive Summariser (OTExtSum). Optimal sentence extraction is conceptualised as obtaining an optimal summary that minimises the transportation cost to a given document regarding their semantic distributions. Such a cost is defined by the Wasserstein distance and used to measure the summary's semantic coverage of the original document. Comprehensive experiments on four challenging and widely used datasets - MultiNews, PubMed, BillSum, and CNN/DM demonstrate that our proposed method outperforms the state-of-the-art non-learning-based methods and several recent learning-based methods in terms of the ROUGE metric.
翻訳日:2022-04-22 17:46:19 公開日:2022-04-21
# (参考訳) WebFace260M: 百万規模のディープ顔認識のためのベンチマーク

WebFace260M: A Benchmark for Million-Scale Deep Face Recognition ( http://arxiv.org/abs/2204.10149v1 )

ライセンス: CC BY 4.0
Zheng Zhu, Guan Huang, Jiankang Deng, Yun Ye, Junjie Huang, Xinze Chen, Jiagang Zhu, Tian Yang, Dalong Du, Jiwen Lu, Jie Zhou(参考訳) 顔のベンチマークにより、研究コミュニティは高性能顔認証システムの訓練と評価を行うことができる。 本稿では,未作成の 4m identities/260m faces (webface260m) と 2m identities/42m faces (webface42m) のトレーニングデータを含む,新しい百万単位の認識ベンチマークを提案する。 まず、400万の名前リストを集め、2億6000万の顔をインターネットからダウンロードします。 次に,CAST(Self-Training)パイプラインを利用したクリーニングを,効率的かつスケーラブルなWebFace260Mを浄化するために考案した。 私たちの知る限り、クリーン化されたWebFace42Mは、最大の顔認識トレーニングセットであり、学術と産業の間のデータギャップを埋めることを期待しています。 実際のデプロイメントを参照して、FRUITS(Face Recognition Under Inference Time Constraint)プロトコルと、豊富な属性を持つ新しいテストセットを構築する。 また、新型コロナウイルスによるバイオメトリックス評価のための大規模なマスク付き顔サブセットも収集した。 顔マッチングの総合評価では,3つの認識タスクをそれぞれ標準,マスク,アンバイアス設定で行う。 このベンチマークと合わせて、百万規模の顔認識問題を掘り下げる。 分散フレームワークを開発し、パフォーマンスを損なうことなく、顔認識モデルを効率的にトレーニングする。 WebFace42Mにより実現され、NIST-FRVTの430項目のうち、挑戦的なIJB-Cセットの障害率を40%削減し、3位にランク付けする。 10%のデータ(WebFace4M)でさえ、公開トレーニングセットよりも優れたパフォーマンスを示している。 さらに、包括的なベースラインはFRUITS-100/500/1000ミリ秒プロトコルで確立されている。 提案したベンチマークは、標準、マスク付き、偏見のない顔認識シナリオにおいて大きな可能性を示している。 webface260m webサイトはhttps://www.face-benchmark.orgです。

Face benchmarks empower the research community to train and evaluate high-performance face recognition systems. In this paper, we contribute a new million-scale recognition benchmark, containing uncurated 4M identities/260M faces (WebFace260M) and cleaned 2M identities/42M faces (WebFace42M) training data, as well as an elaborately designed time-constrained evaluation protocol. Firstly, we collect 4M name lists and download 260M faces from the Internet. Then, a Cleaning Automatically utilizing Self-Training (CAST) pipeline is devised to purify the tremendous WebFace260M, which is efficient and scalable. To the best of our knowledge, the cleaned WebFace42M is the largest public face recognition training set and we expect to close the data gap between academia and industry. Referring to practical deployments, Face Recognition Under Inference Time conStraint (FRUITS) protocol and a new test set with rich attributes are constructed. Besides, we gather a large-scale masked face sub-set for biometrics assessment under COVID-19. For a comprehensive evaluation of face matchers, three recognition tasks are performed under standard, masked and unbiased settings, respectively. Equipped with this benchmark, we delve into million-scale face recognition problems. A distributed framework is developed to train face recognition models efficiently without tampering with the performance. Enabled by WebFace42M, we reduce 40% failure rate on the challenging IJB-C set and rank 3rd among 430 entries on NIST-FRVT. Even 10% data (WebFace4M) shows superior performance compared with the public training sets. Furthermore, comprehensive baselines are established under the FRUITS-100/500/1000 milliseconds protocols. The proposed benchmark shows enormous potential on standard, masked and unbiased face recognition scenarios. Our WebFace260M website is https://www.face-benchmark.org.
翻訳日:2022-04-22 17:31:49 公開日:2022-04-21
# (参考訳) 説明可能性の特徴: xaiにおけるカテゴリー的・連続的特徴に対する反事実的・因果的説明の理解

Features of Explainability: How users understand counterfactual and causal explanations for categorical and continuous features in XAI ( http://arxiv.org/abs/2204.10152v1 )

ライセンス: CC BY 4.0
Greta Warren and Mark T Keane and Ruth M J Byrne(参考訳) 対物的説明は、AI決定の解釈可能性、レコメンデーション、バイアスに対処するためにますます使われています。 しかし, 大規模ユーザスタディでは, 因果的説明(ルールベースや決定木モデルにおける使用履歴が長い)などの他の説明と比較して, 利用者がシステム決定を理解するのにどの程度の反事実的説明が有効なのかは分かっていない。 反実的説明が連続的な特徴の分類に等しく有効であるかどうかも分かっていないが、現在の方法ではそう仮定している。 そこで,127名のボランティアによる対照ユーザ調査において,単純なaiシステムによる意思決定の客観的な予測精度と,説明に対する満足度と信頼度の主観的判断に対する反事実的・因果的説明の効果を検証した。 主観的説明は説明不能な説明よりも予測の正確さが高く,因果的説明よりは精度が低いが,主観的説明は因果的説明よりも満足度と信頼度が高い。 また、ユーザーは連続的な特徴よりもカテゴリー的特徴を参照する説明を理解することができた。 本研究は,XAIにおけるこれらの知見が現在および将来の対策方法に与える影響について論じる。

Counterfactual explanations are increasingly used to address interpretability, recourse, and bias in AI decisions. However, we do not know how well counterfactual explanations help users to understand a systems decisions, since no large scale user studies have compared their efficacy to other sorts of explanations such as causal explanations (which have a longer track record of use in rule based and decision tree models). It is also unknown whether counterfactual explanations are equally effective for categorical as for continuous features, although current methods assume they do. Hence, in a controlled user study with 127 volunteer participants, we tested the effects of counterfactual and causal explanations on the objective accuracy of users predictions of the decisions made by a simple AI system, and participants subjective judgments of satisfaction and trust in the explanations. We discovered a dissociation between objective and subjective measures: counterfactual explanations elicit higher accuracy of predictions than no-explanation control descriptions but no higher accuracy than causal explanations, yet counterfactual explanations elicit greater satisfaction and trust than causal explanations. We also found that users understand explanations referring to categorical features more readily than those referring to continuous features. We discuss the implications of these findings for current and future counterfactual methods in XAI.
翻訳日:2022-04-22 17:00:41 公開日:2022-04-21
# (参考訳) 時空間行動のマルチパーソンビデオデータセットアノテーション手法

A Multi-Person Video Dataset Annotation Method of Spatio-Temporally Actions ( http://arxiv.org/abs/2204.10160v1 )

ライセンス: CC BY 4.0
Fan Yang(参考訳) 時空間行動検出はビデオ理解において重要かつ困難な問題である。 However, the application of the existing large-scale spatio-temporal action datasets in specific fields is limited, and there is currently no public tool for making spatio-temporal action datasets, it takes a lot of time and effort for researchers to customize the spatio-temporal action datasets, so we propose a multi-Person video dataset Annotation Method of spatio-temporally actions.First, we use ffmpeg to crop the videos and frame the videos; then use yolov5 to detect human in the video frame, and then use deep sort to detect the ID of the human in the video frame. yolov5とdeep sortの検出結果を処理することにより、時空間アクションデータセットのアノテーションファイルを取得し、時空間アクションデータセットをカスタマイズする作業が完了する。

Spatio-temporal action detection is an important and challenging problem in video understanding. However, the application of the existing large-scale spatio-temporal action datasets in specific fields is limited, and there is currently no public tool for making spatio-temporal action datasets, it takes a lot of time and effort for researchers to customize the spatio-temporal action datasets, so we propose a multi-Person video dataset Annotation Method of spatio-temporally actions.First, we use ffmpeg to crop the videos and frame the videos; then use yolov5 to detect human in the video frame, and then use deep sort to detect the ID of the human in the video frame. By processing the detection results of yolov5 and deep sort, we can get the annotation file of the spatio-temporal action dataset to complete the work of customizing the spatio-temporal action dataset.
翻訳日:2022-04-22 16:43:20 公開日:2022-04-21
# (参考訳) 冠動脈の血管内光コヒーレンス断層像における線維性キャップの自動解析

Automated analysis of fibrous cap in intravascular optical coherence tomography images of coronary arteries ( http://arxiv.org/abs/2204.10162v1 )

ライセンス: CC BY 4.0
Juhwan Lee, Gabriel T. R. Pereira, Yazan Gharaibeh, Chaitanya Kolluru, Vladislav N. Zimin, Luis A. P. Dallan, Justin N. Kim, Ammar Hoori, Sadeer G. Al-Kindi, Giulio Guagliumi, Hiram G. Bezerra, and David L. Wilson(参考訳) thin-cap fibroatheroma (tcfa) とプラーク破裂は血栓症と急性冠症候群の最も頻度の高い危険因子として認識されている。 血管内光コヒーレンス断層撮影(IVOCT)は,TCFAを同定し,被膜厚を評価し,プラークの脆弱性を評価する機会を与える。 IVOCT画像から脂肪性プラークを検出し,線維性キャップ厚を評価する自動手法を開発した。 本研究は41例の77病変の4,360 ivoct画像フレームを分析した。 セグメンテーション性能を向上させるために、前処理は、生極(r,theta)IVOCT画像のルーメンセグメンテーション、画素シフト、ノイズフィルタリングを含む。 deeplab-v3+ディープラーニングモデルを用いて,脂質性プラーク画素の分類を行った。 脂質検出後, 特殊な動的プログラムアルゴリズムを用いて繊維性キャップの外縁を自動的に検出し, 被膜厚を評価した。 油脂プラークの感度は85.8%,A線ジス係数は0.837であった。 自動ソフトウェア編集後の2人のアナリスト間での脂質角測定を比較することで,Bland-Altman分析(差6.7+/-17度,平均196度)による良好な一致を得た。 検出された脂質プラークから線維性キャップを正確に検出した。 自動分析は5.5%のフレームに対して大きな修正を必要とした。 さらに,Bland-Altman 分析による2つの分析者 (4.2+/-14.6 micron; 平均175 micron) 間の線維性キャップ厚の一致が良好であった。 本研究では, ivoct画像における線維性キャップ定量化の完全自動化法を開発し, 分析者による判定と良好に一致した。 この手法は、高度に自動化され、反復可能で、包括的なTCFAの評価を可能にする大きな可能性を秘めている。

Thin-cap fibroatheroma (TCFA) and plaque rupture have been recognized as the most frequent risk factor for thrombosis and acute coronary syndrome. Intravascular optical coherence tomography (IVOCT) can identify TCFA and assess cap thickness, which provides an opportunity to assess plaque vulnerability. We developed an automated method that can detect lipidous plaque and assess fibrous cap thickness in IVOCT images. This study analyzed a total of 4,360 IVOCT image frames of 77 lesions among 41 patients. To improve segmentation performance, preprocessing included lumen segmentation, pixel-shifting, and noise filtering on the raw polar (r, theta) IVOCT images. We used the DeepLab-v3 plus deep learning model to classify lipidous plaque pixels. After lipid detection, we automatically detected the outer border of the fibrous cap using a special dynamic programming algorithm and assessed the cap thickness. Our method provided excellent discriminability of lipid plaque with a sensitivity of 85.8% and A-line Dice coefficient of 0.837. By comparing lipid angle measurements between two analysts following editing of our automated software, we found good agreement by Bland-Altman analysis (difference 6.7+/-17 degree; mean 196 degree). Our method accurately detected the fibrous cap from the detected lipid plaque. Automated analysis required a significant modification for only 5.5% frames. Furthermore, our method showed a good agreement of fibrous cap thickness between two analysts with Bland-Altman analysis (4.2+/-14.6 micron; mean 175 micron), indicating little bias between users and good reproducibility of the measurement. We developed a fully automated method for fibrous cap quantification in IVOCT images, resulting in good agreement with determinations by analysts. The method has great potential to enable highly automated, repeatable, and comprehensive evaluations of TCFAs.
翻訳日:2022-04-22 16:38:06 公開日:2022-04-21
# (参考訳) octopus --光学コヒーレンス断層撮影用プラークおよびステント分析ソフトウェア

OCTOPUS -- optical coherence tomography plaque and stent analysis software ( http://arxiv.org/abs/2204.10212v1 )

ライセンス: CC BY 4.0
Juhwan Lee, Justin N. Kim, Yazan Gharaibeh, Vladislav N. Zimin, Luis A. P. Dallan, Gabriel T. R. Pereira, Armando Vergara-Martel, Chaitanya Kolluru, Ammar Hoori, Hiram G. Bezerra, and David L. Wilson(参考訳) 血管内光コヒーレンス断層法(IVOCT)は,他の画像法と比較して,経皮的冠動脈インターベンションを誘導する上で大きな利点がある。 IVOCT研究を支援するために,光コヒーレンス断層撮影用PlaqUeとStent(OCTOPUS)解析ソフトウェアを開発した。 画像解析結果を自動化するために、ソフトウェアは、事前処理、ディープラーニングプラークセグメンテーション、ステントストラットの機械学習識別、プルバックの登録など、いくつかの重要なアルゴリズムステップを含む。 インタラクティブな可視化とセグメントの手動編集がソフトウェアに含まれていた。 定量には、ステント展開特性(ステントストラットの奇形化など)、ストラットレベル分析、カルシウム角、カルシウム厚測定などがある。 インタラクティブな視覚化には、(x,y)解剖学、顔、およびオプションのオーバーレイを伴う縦方向のビューが含まれる。 下位のプラーク分割アルゴリズムは優れたピクセル単位の結果(感度86.2%、F1スコア0.781)を得た。 OCTOPUSを34種類の新しいプルバックに適用し, 自動セグメンテーションにより, 13%と23%のフレームが, 詳細なルーメンと石灰化ラベリングのために手動でタッチアップする必要が生じた。 最大3.8%のプラークピクセルが修正され、平均編集時間は7.5秒/フレームとなり、手作業による解析に比べて約80%削減された。 ステント分析では,感度と精度は90%以上であり,各ストラットは高い感度 (94%) と特異性 (90%) で被覆または検出された。 IVOCT画像における定量的プラークおよびステント解析のための高度自動化ソフトウェアパッケージOCTOPUSの導入と臨床応用について検討した。 このソフトウェアは現在研究目的のオフラインツールとして使用されているが、組込みアルゴリズムはリアルタイムな治療計画にも有用である。

Compared with other imaging modalities, intravascular optical coherence tomography (IVOCT) has significant advantages for guiding percutaneous coronary interventions. To aid IVOCT research studies, we developed the Optical Coherence TOmography PlaqUe and Stent (OCTOPUS) analysis software. To automate image analysis results, the software includes several important algorithmic steps: pre-processing, deep learning plaque segmentation, machine learning identification of stent struts, and registration of pullbacks. Interactive visualization and manual editing of segmentations were included in the software. Quantifications include stent deployment characteristics (e.g., stent strut malapposition), strut level analysis, calcium angle, and calcium thickness measurements. Interactive visualizations include (x,y) anatomical, en face, and longitudinal views with optional overlays. Underlying plaque segmentation algorithm yielded excellent pixel-wise results (86.2% sensitivity and 0.781 F1 score). Using OCTOPUS on 34 new pullbacks, we determined that following automated segmentation, only 13% and 23% of frames needed any manual touch up for detailed lumen and calcification labeling, respectively. Only up to 3.8% of plaque pixels were modified, leading to an average editing time of only 7.5 seconds/frame, an approximately 80% reduction compared to manual analysis. Regarding stent analysis, sensitivity and precision were both greater than 90%, and each strut was successfully classified as either covered or uncovered with high sensitivity (94%) and specificity (90%). We introduced and evaluated the clinical application of a highly automated software package, OCTOPUS, for quantitative plaque and stent analysis in IVOCT images. The software is currently used as an offline tool for research purposes; however, the software's embedded algorithms may also be useful for real-time treatment planning.
翻訳日:2022-04-22 16:23:10 公開日:2022-04-21
# (参考訳) サイレント問題 - 機械学習モデルの失敗 - 機械学習モデルの診断と修正方法

The Silent Problem -- Machine Learning Model Failure -- How to Diagnose and Fix Ailing Machine Learning Models ( http://arxiv.org/abs/2204.10227v1 )

ライセンス: CC BY 4.0
Michele Bennett, Jaya Balusu, Karin Hayes, Ewa J. Kleczyk(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、患者の医療提供方法、患者が医療提供者と対話する方法、医療情報を医療提供者と患者の両方に伝達する方法を大きく変えた。 事前パンデミックをトレーニングし、テストした分析モデルは、もはや期待に届かず、MLが過去の出来事が将来繰り返されるという基本的な原則に依存することを前提に、信頼できない、無関係な学習(ML)モデルを提供する。 mlは2つの重要な分解原理に直面した: 概念ドリフト(concept drift)、変数の基本的な特性と特性が変化する場合とデータドリフト、データ分布、確率、共変量、および他の変数関係が変化する場合であり、どちらもモデル障害の主な原因である。 したがって,既存のモデルにおけるドリフトの検出と診断は必須事項となっている。 そして、もっと重要なことは、ドリフトが避けられない意識認識への私たちの考え方のシフトであり、モデル構築には意図的なレジリエンス、失敗から素早くオフセットして回復する能力、積極的な堅牢性、ドリフトやディスラプションに弱いモデルの開発による失敗の回避が不可欠です。

The COVID-19 pandemic has dramatically changed how healthcare is delivered to patients, how patients interact with healthcare providers, and how healthcare information is disseminated to both healthcare providers and patients. Analytical models that were trained and tested pre-pandemic may no longer be performing up to expectations, providing unreliable and irrelevant learning (ML) models given that ML depends on the basic principle that what happened in the past are likely to repeat in the future. ML faced to two important degradation principles, concept drift, when the underlying properties and characteristics of the variables change and data drift, when the data distributions, probabilities, co-variates, and other variable relationships change, both of which are prime culprits of model failure. Therefore, detecting and diagnosing drift in existing models is something that has become an imperative. And perhaps even more important is a shift in our mindset towards a conscious recognition that drift is inevitable, and model building must incorporate intentional resilience, the ability to offset and recover quickly from failure, and proactive robustness, avoiding failure by developing models that are less vulnerable to drift and disruption.
翻訳日:2022-04-22 16:01:48 公開日:2022-04-21
# (参考訳) NIST CTS話者認識チャレンジ

The NIST CTS Speaker Recognition Challenge ( http://arxiv.org/abs/2204.10228v1 )

ライセンス: CC0 1.0
Seyed Omid Sadjadi, Craig Greenberg, Elliot Singer, Lisa Mason, Douglas Reynolds(参考訳) アメリカ国立標準技術研究所(NIST)は2020年8月からCTSチャレンジの第2回を実施中である。 CTS Challengeの現在のイテレーションは、LCCが収集したCall My Net 2(CMN2)とMulti-Language Speech(MLS)コーパスの未公開部分から抽出した電話データを用いて、リーダーボード形式の話者認識評価である。 CTS Challengeは現在、SRE19 CTS Challengeと同じような方法で組織されており、プログレスとテストという2つの評価サブセットを使用して、オープンなトレーニング条件のみを提供する。 SRE19 Challengeとは異なり、当初トレーニングや開発セットはリリースされておらず、NISTはCTS Challengeの両サブセットのリーダーボードを公開している。 トライアルのどのサブセット(すなわちプログレスまたはテスト)が、参加者に挑戦するためには未知であり、各システムがトライアルのすべてのアウトプットを含む必要がある。 CTSチャレンジは、通常のSRE(SRE21など)への出入口の前提条件として、引き続き実施される。 2020年8月以降、学界と産業界から合計53の組織(33チーム)がCTSチャレンジに参加し、4400以上の有効なシステムアウトプットを提出している。 本稿では,CTSチャレンジにおけるシステム性能の評価と解析について概説する。 CTS Challengeの結果は、パフォーマンスが著しく向上したことを示している。 1)話者埋め込み抽出のためのresnetsのような大規模で複雑なニューラルネットワークアーキテクチャを用いて抽出された話者埋め込みと角マージン損失 2)広範囲なデータ拡張 3)多数のラベル付き話者からの自社独自の膨大なデータの使用。 4)長期の微調整。

The US National Institute of Standards and Technology (NIST) has been conducting a second iteration of the CTS challenge since August 2020. The current iteration of the CTS Challenge is a leaderboard-style speaker recognition evaluation using telephony data extracted from the unexposed portions of the Call My Net 2 (CMN2) and Multi-Language Speech (MLS) corpora collected by the LDC. The CTS Challenge is currently organized in a similar manner to the SRE19 CTS Challenge, offering only an open training condition using two evaluation subsets, namely Progress and Test. Unlike in the SRE19 Challenge, no training or development set was initially released, and NIST has publicly released the leaderboards on both subsets for the CTS Challenge. Which subset (i.e., Progress or Test) a trial belongs to is unknown to challenge participants, and each system submission needs to contain outputs for all of the trials. The CTS Challenge has also served, and will continue to do so, as a prerequisite for entrance to the regular SREs (such as SRE21). Since August 2020, a total of 53 organizations (forming 33 teams) from academia and industry have participated in the CTS Challenge and submitted more than 4400 valid system outputs. This paper presents an overview of the evaluation and several analyses of system performance for some primary conditions in the CTS Challenge. The CTS Challenge results thus far indicate remarkable improvements in performance due to 1) speaker embeddings extracted using large-scale and complex neural network architectures such as ResNets along with angular margin losses for speaker embedding extraction, 2) extensive data augmentation, 3) the use of large amounts of in-house proprietary data from a large number of labeled speakers, 4) long-duration fine-tuning.
翻訳日:2022-04-22 15:54:06 公開日:2022-04-21
# (参考訳) 危機関連ソーシャルメディアの言語間問合せに基づく要約:トランスフォーマーを用いた抽象的アプローチ

Cross-Lingual Query-Based Summarization of Crisis-Related Social Media: An Abstractive Approach Using Transformers ( http://arxiv.org/abs/2204.10230v1 )

ライセンス: CC BY 4.0
Fedor Vitiugin and Carlos Castillo(参考訳) 危機時にソーシャルメディアから収集された適切でタイムリーな情報は、緊急管理のための貴重なリソースとなる。 しかし、特に複数の言語でのソーシャルメディア投稿を扱う場合、この情報を抽出することは難しい課題である。 本研究では,ソーシャルメディア投稿から危機関連情報を検索・要約するための言語横断手法を提案する。 本稿では,構造化クエリによる多様な情報要求を統一的に表現する方法と,それらの情報ニーズに対応する要約を作成する方法について述べる。 この方法は多言語トランスフォーマー埋め込みに基づいている。 クエリは組込み言語でサポートされている言語のひとつで書かれており、抽出された文は他の言語でサポートされている。 抽象要約はトランスフォーマーによって作成される。 クラウドソーシング評価者や緊急管理専門家が実施した評価は,10言語にわたる大規模災害5件において,Twitterから抽出したコレクションに対して実施したものであり,我々のアプローチの柔軟性を示している。 生成された要約は、既存の最先端の手法よりも集中的、構造化され、一貫性があると見なされ、専門家は、既存の最先端の手法によって作成された要約と比較する。

Relevant and timely information collected from social media during crises can be an invaluable resource for emergency management. However, extracting this information remains a challenging task, particularly when dealing with social media postings in multiple languages. This work proposes a cross-lingual method for retrieving and summarizing crisis-relevant information from social media postings. We describe a uniform way of expressing various information needs through structured queries and a way of creating summaries answering those information needs. The method is based on multilingual transformers embeddings. Queries are written in one of the languages supported by the embeddings, and the extracted sentences can be in any of the other languages supported. Abstractive summaries are created by transformers. The evaluation, done by crowdsourcing evaluators and emergency management experts, and carried out on collections extracted from Twitter during five large-scale disasters spanning ten languages, shows the flexibility of our approach. The generated summaries are regarded as more focused, structured, and coherent than existing state-of-the-art methods, and experts compare them favorably against summaries created by existing, state-of-the-art methods.
翻訳日:2022-04-22 15:40:08 公開日:2022-04-21
# (参考訳) 2021年nist話者認識評価

The 2021 NIST Speaker Recognition Evaluation ( http://arxiv.org/abs/2204.10242v1 )

ライセンス: CC0 1.0
Seyed Omid Sadjadi and Craig Greenberg and Elliot Singer and Lisa Mason and Douglas Reynolds(参考訳) 2021話者認識評価 (2021 Speaker Recognition Evaluation, SRE21) は、1996年からアメリカ合衆国国立標準技術研究所 (NIST) が実施している評価シリーズの最新サイクルである。 NISTによる2番目の大規模マルチモーダル話者・個人認識評価(最初のものはSRE19)である。 sre19と同様に、オーディオとオーディオによるビジュアルの2つのコア評価トラックと、オプションのビジュアルトラックが特徴だった。 固定的でオープンなトレーニング条件の提供に加えて、Linguistic Data Consortium (LDC)によって北米外で収集されたWeCanTalkと呼ばれる新しいマルチモーダル(オーディオ、ビデオ、セルフィー画像)と多言語コーパス(多言語話者付きコーパス)のおかげで、コミュニティに新たな課題も導入した。 これらの課題には 1)異なるドメイン(例えば、テレフォニー対ビデオ)からの登録とテストセグメントを持つ試行(ターゲットおよび非ターゲット)、及び 2) 異なる言語(言語間トライアル)で話される参加とテストセグメントによる試験(ターゲットと非ターゲット)。 本稿では,タスク,評価基準,データ,評価プロトコル,結果とシステム性能分析を含むSRE21の概要について述べる。 学術・産業の23の組織(計15チーム)がSRE21に参加し、158の有効なシステムアウトプットを提出した。 Evaluation results indicate: audio-visual fusion produce substantial gains in performance over audio-only or visual-only systems; top performing speaker and face recognition systems exhibited comparable performance under the matched domain conditions present in this evaluation; and, the use of complex neural network architectures (e.g., ResNet) along with angular losses with margin, data augmentation, as well as long duration fine-tuning contributed to notable performance improvements for the audio-only speaker recognition task.

The 2021 Speaker Recognition Evaluation (SRE21) was the latest cycle of the ongoing evaluation series conducted by the U.S. National Institute of Standards and Technology (NIST) since 1996. It was the second large-scale multimodal speaker/person recognition evaluation organized by NIST (the first one being SRE19). Similar to SRE19, it featured two core evaluation tracks, namely audio and audio-visual, as well as an optional visual track. In addition to offering fixed and open training conditions, it also introduced new challenges for the community, thanks to a new multimodal (i.e., audio, video, and selfie images) and multilingual (i.e., with multilingual speakers) corpus, termed WeCanTalk, collected outside North America by the Linguistic Data Consortium (LDC). These challenges included: 1) trials (target and non-target) with enrollment and test segments originating from different domains (i.e., telephony versus video), and 2) trials (target and non-target) with enrollment and test segments spoken in different languages (i.e., cross-lingual trials). This paper presents an overview of SRE21 including the tasks, performance metric, data, evaluation protocol, results and system performance analyses. A total of 23 organizations (forming 15 teams) from academia and industry participated in SRE21 and submitted 158 valid system outputs. Evaluation results indicate: audio-visual fusion produce substantial gains in performance over audio-only or visual-only systems; top performing speaker and face recognition systems exhibited comparable performance under the matched domain conditions present in this evaluation; and, the use of complex neural network architectures (e.g., ResNet) along with angular losses with margin, data augmentation, as well as long duration fine-tuning contributed to notable performance improvements for the audio-only speaker recognition task.
翻訳日:2022-04-22 15:21:43 公開日:2022-04-21
# (参考訳) CMS ECALにおけるエネルギークラスタリングのためのディープラーニング技術

Deep learning techniques for energy clustering in the CMS ECAL ( http://arxiv.org/abs/2204.10277v1 )

ライセンス: CC BY 4.0
Davide Valsecchi(参考訳) CMSにおける電子と光子の再構成は、電磁気量計(ECAL)の異なる結晶における入射粒子によって堆積されたエネルギーのトポロジカルクラスタリングに依存する。 これらのクラスターは、ECALの電磁シャワーの期待したトポロジーに従って、隣接する結晶を凝集することによって形成される。 上流の物質(ビームパイプ、トラッカー、支持構造)の存在により、電子や光子が熱量計に到達する前にシャワーを浴び始める。 この効果は3.8TのCMS磁場と組み合わされ、一次の周囲の複数のクラスターにエネルギーが拡散する。 物理解析に最適なエネルギー分解能を達成するためには、これらの衛星クラスターに含まれるエネルギーを回収することが不可欠である。 歴史的に衛星クラスターは、追加の積み上げ相互作用(pu)からスプリアスエネルギーの堆積を取り除くことを試みない純粋トポロジカルアルゴリズムを用いて一次クラスターに関連付けられている。 このアルゴリズムの性能は、平均PUレベルが大きく、ECAL検出器の老朽化によるノイズレベルの増加により、LHC Run 3 (2022+)で劣化することが期待されている。 グラフニューラルネットワーク(GNN)や自己認識アルゴリズムといった最先端のディープラーニングアーキテクチャを活用する新しい手法が研究されている。 これらのより洗練されたモデルはエネルギー収集を改善し、PUとノイズに対する耐性を高め、LHCラン1と2で達成された電子と光子エネルギーの分解能を維持するのに役立つ。 この研究は、モデルのトレーニングの課題と、この新しいアプローチがECALエネルギー測定とグローバルCMS光子と電子再構成で使われる粒子識別ステップを統一する機会をカバーします。

The reconstruction of electrons and photons in CMS depends on topological clustering of the energy deposited by an incident particle in different crystals of the electromagnetic calorimeter (ECAL). These clusters are formed by aggregating neighbouring crystals according to the expected topology of an electromagnetic shower in the ECAL. The presence of upstream material (beampipe, tracker and support structures) causes electrons and photons to start showering before reaching the calorimeter. This effect, combined with the 3.8T CMS magnetic field, leads to energy being spread in several clusters around the primary one. It is essential to recover the energy contained in these satellite clusters in order to achieve the best possible energy resolution for physics analyses. Historically satellite clusters have been associated to the primary cluster using a purely topological algorithm which does not attempt to remove spurious energy deposits from additional pileup interactions (PU). The performance of this algorithm is expected to degrade during LHC Run 3 (2022+) because of the larger average PU levels and the increasing levels of noise due to the ageing of the ECAL detector. New methods are being investigated that exploit state-of-the-art deep learning architectures like Graph Neural Networks (GNN) and self-attention algorithms. These more sophisticated models improve the energy collection and are more resilient to PU and noise, helping to preserve the electron and photon energy resolution achieved during LHC Runs 1 and 2. This work will cover the challenges of training the models as well the opportunity that this new approach offers to unify the ECAL energy measurement with the particle identification steps used in the global CMS photon and electron reconstruction.
翻訳日:2022-04-22 15:05:30 公開日:2022-04-21
# PoIレコメンデーションシステムにおける位置情報サービスからの消費者からのフィードバック

Using consumer feedback from location-based services in PoI recommender systems for people with autism ( http://arxiv.org/abs/2204.09969v1 )

ライセンス: Link先を確認
Noemi Mauro, Liliana Ardissono, Stefano Cocomazzi and Federica Cena(参考訳) 自閉症スペクトラム障害の患者にPoI(Points of Interest)を提案する際には、ノイズ、明るさ、および場所の知覚に影響を及ぼす他の特徴に対する慣用的な感覚の逆転があることを考慮する必要がある。 したがって、レコメンダシステムはこれらの側面を扱う必要がある。 しかし,PoIsに関するセンサデータの検索は,ほとんどの地理情報サーバがデータ提供に失敗するため,真の課題である。 さらに、アドホックなクラウドソーシングキャンペーンは、大きな地理的領域をカバーし、持続可能性の欠如を保証していない。 そこで我々は,位置情報サービスによって収集された消費者のフィードバックから,世界中のレビューを自発的に投稿する場所に関する感覚データを抽出した。 具体的には,poisに関するレビューから感覚データを抽出するモデルと,ユーザ嗜好と互換性情報の両方を考慮して項目評価を予測するレコメンダシステムへの統合を提案する。 我々は,多種多様な推薦アルゴリズムに組み込むことで,自閉症とニューロタイプの人々によるアプローチを検証した。 テストでは、クラウドソーシングキャンペーンに組み込まれたデータセットと、tripadvisorレビューから抽出したデータセットを使用しました。 その結果,TripAdvisorデータを用いた場合,アルゴリズムは高い精度とランキングを得ることができた。 さらに、これらの2つのデータセットを共同で使用することにより、アルゴリズムはパフォーマンスをさらに向上する。 これらの結果は,インクルーシブレコメンダシステムの開発において,信頼性の高い情報源としての消費者フィードバックの利用を促進する。

When suggesting Points of Interest (PoIs) to people with autism spectrum disorders, we must take into account that they have idiosyncratic sensory aversions to noise, brightness and other features that influence the way they perceive places. Therefore, recommender systems must deal with these aspects. However, the retrieval of sensory data about PoIs is a real challenge because most geographical information servers fail to provide this data. Moreover, ad-hoc crowdsourcing campaigns do not guarantee to cover large geographical areas and lack sustainability. Thus, we investigate the extraction of sensory data about places from the consumer feedback collected by location-based services, on which people spontaneously post reviews from all over the world. Specifically, we propose a model for the extraction of sensory data from the reviews about PoIs, and its integration in recommender systems to predict item ratings by considering both user preferences and compatibility information. We tested our approach with autistic and neurotypical people by integrating it into diverse recommendation algorithms. For the test, we used a dataset built in a crowdsourcing campaign and another one extracted from TripAdvisor reviews. The results show that the algorithms obtain the highest accuracy and ranking capability when using TripAdvisor data. Moreover, by jointly using these two datasets, the algorithms further improve their performance. These results encourage the use of consumer feedback as a reliable source of information about places in the development of inclusive recommender systems.
翻訳日:2022-04-22 14:55:55 公開日:2022-04-21
# 密度演算子とTr(\rho A):量子情報処理のためのランダム係数純粋状態の高次統計を爆発させる

Beyond the density operator and Tr(\rho A): Exploiting the higher-order statistics of random-coefficient pure states for quantum information processing ( http://arxiv.org/abs/2204.10031v1 )

ライセンス: Link先を確認
Yannick Deville, Alain Deville(参考訳) 2種類の状態は量子力学、すなわち(決定論的-係数)純粋状態と統計混合において広く用いられている。 密度演算子は、それぞれに関連付けることができる。 ここでは、以前より制限されたフレームワークで導入した第3のタイプの状態に対処します。 これらの状態は、決定論的ケト係数のそれぞれを確率変数に置き換えることで純粋に一般化する。 したがって、それらをランダム係数純粋状態(RCPS)と呼ぶ。 我々はそれらの性質とそれらの関係を通常の状態の両タイプで解析する。 我々はrcpsが密度演算子やそれらと関連付ける可観測性の平均よりもずっとリッチな情報を持っていることを示す。 これは、後者の演算子がランダム状態係数の2階統計のみを利用するのに対して、上位の統計には追加情報が含まれるためである。 この情報は,実測結果のランダム確率の2次および高次統計を用いて,RCPSに対して提案する多重準備手順を用いて実際にアクセスすることができる。 これらの高階統計の展開は、高度な量子情報処理タスクを実行するための非常に一般的なアプローチへの道を開く。 本稿では, 量子プロセスのパラメータを推定し, 量子プロセストモグラフィーと関連付けるという, 一般的な例で, このアプローチの妥当性を解説する。 このパラメータ推定は、非盲検(すなわち教師なし)モードまたは盲検(すなわち教師なし)モードで行われる。 この問題は、RCPSの密度演算子 \rho と、検討された物理量に対応する演算子 A の平均値 Tr(\rho A) のみを用いることで解決できないことを示す。 我々は,2次統計に加えて,状態係数の4次統計パラメータを活用することで,この問題の解決に成功した。 数値テストはこの結果を検証する。

Two types of states are widely used in quantum mechanics, namely (deterministic-coefficient) pure states and statistical mixtures. A density operator can be associated with each of them. We here address a third type of states, that we previously introduced in a more restricted framework. These states generalize pure ones by replacing each of their deterministic ket coefficients by a random variable. We therefore call them Random-Coefficient Pure States, or RCPS. We analyze their properties and their relationships with both types of usual states. We show that RCPS contain much richer information than the density operator and mean of observables that we associate with them. This occurs because the latter operator only exploits the second-order statistics of the random state coefficients, whereas their higher-order statistics contain additional information. That information can be accessed in practice with the multiple-preparation procedure that we propose for RCPS, by using second-order and higher-order statistics of associated random probabilities of measurement outcomes. Exploiting these higher-order statistics opens the way to a very general approach for performing advanced quantum information processing tasks. We illustrate the relevance of this approach with a generic example, dealing with the estimation of parameters of a quantum process and thus related to quantum process tomography. This parameter estimation is performed in the non-blind (i.e. supervised) or blind (i.e. unsupervised) mode. We show that this problem cannot be solved by using only the density operator \rho of an RCPS and the associated mean value Tr(\rho A) of the operator A that corresponds to the considered physical quantity. We succeed in solving this problem by exploiting a fourth-order statistical parameter of state coefficients, in addition to second-order statistics. Numerical tests validate this result.
翻訳日:2022-04-22 14:55:32 公開日:2022-04-21
# 楕円曲線の転位

Murmurations of elliptic curves ( http://arxiv.org/abs/2204.10140v1 )

ライセンス: Link先を確認
Yang-Hui He, Kyu-Hwan Lee, Thomas Oliver, Alexey Pozdnyakov(参考訳) 与えられたランクの固定導体範囲における素数 p に対する楕円曲線の$p$th Dirichlet係数の平均値について検討する。 この平均をプロットすると衝撃的な振動パターンが生まれ、その詳細はランクによって異なる。 この観測に基づいて,楕円曲線をランクに応じて分類する目的で,様々なデータ科学実験を行う。

We investigate the average value of the $p$th Dirichlet coefficients of elliptic curves for a prime p in a fixed conductor range with given rank. Plotting this average yields a striking oscillating pattern, the details of which vary with the rank. Based on this observation, we perform various data-scientific experiments with the goal of classifying elliptic curves according to their ranks.
翻訳日:2022-04-22 14:55:03 公開日:2022-04-21
# 化学空間の教師なしクラスタリングによる正確な分子軌道ベース機械学習エネルギー

Accurate Molecular-Orbital-Based Machine Learning Energies via Unsupervised Clustering of Chemical Space ( http://arxiv.org/abs/2204.09831v1 )

ライセンス: Link先を確認
Lixue Cheng, Jiace Sun, Thomas F. Miller III(参考訳) 分子軌道ベース機械学習(MOB-ML)を用いたエネルギー予測において,教師なしクラスタリングアルゴリズムを導入する。 本研究は, ガウス混合モデル (GMM) によるクラスタを完全自動で決定し, ユーザ特定パラメータの必要性と追加分類器の訓練の両面を排除し, 従来のクラスタリング手法 (J. Chem. Theory Comput., 15, 6668 (2019)) を単純化する。 GMMによる教師なしクラスタリングの結果は、フロンティア分子軌道の化学的に直感的なグルーピングを正確に再現し、多くのトレーニング例で性能を向上する利点がある。 教師付きまたは教師なしのクラスタリングから得られたクラスタはさらにスケーラブルなガウス過程回帰(gpr)または線形回帰(lr)と組み合わせて、各クラスタに局所回帰モデルを生成して分子エネルギーを正確に学習する。 回帰器とクラスタリングの4つの組み合わせのうち、GMMとスケーラブルな正確なガウスプロセス回帰(GMM/GPR)を組み合わせることは、MOB-MLの最も効率的なトレーニングプロトコルである。 薬物様分子の熱的データセットにおける分子エネルギー学習の数値実験は、MOB-MLの他のトレーニングプロトコル、すなわち、クラスタリングなしでGPR(RC/GPR)とGPRを組み合わせた教師付き回帰クラスタリングよりも、GMM/GPRの精度、伝達性、学習効率が向上したことを示している。 GMM/GPRは、同じベンチマークデータセットの文献と比較すると、最高の分子エネルギー予測を提供する。 低スケールでは、GMM/GPRは6500QM7b-T分子のスケーラブルな正確なGPRと比較して、ウォールクロックのトレーニング時間において10.4倍のスピードアップがある。

We introduce an unsupervised clustering algorithm to improve training efficiency and accuracy in predicting energies using molecular-orbital-based machine learning (MOB-ML). This work determines clusters via the Gaussian mixture model (GMM) in an entirely automatic manner and simplifies an earlier supervised clustering approach [J. Chem. Theory Comput., 15, 6668 (2019)] by eliminating both the necessity for user-specified parameters and the training of an additional classifier. Unsupervised clustering results from GMM have the advantage of accurately reproducing chemically intuitive groupings of frontier molecular orbitals and having improved performance with an increasing number of training examples. The resulting clusters from supervised or unsupervised clustering is further combined with scalable Gaussian process regression (GPR) or linear regression (LR) to learn molecular energies accurately by generating a local regression model in each cluster. Among all four combinations of regressors and clustering methods, GMM combined with scalable exact Gaussian process regression (GMM/GPR) is the most efficient training protocol for MOB-ML. The numerical tests of molecular energy learning on thermalized datasets of drug-like molecules demonstrate the improved accuracy, transferability, and learning efficiency of GMM/GPR over not only other training protocols for MOB-ML, i.e., supervised regression-clustering combined with GPR(RC/GPR) and GPR without clustering. GMM/GPR also provide the best molecular energy predictions compared with the ones from literature on the same benchmark datasets. With a lower scaling, GMM/GPR has a 10.4-fold speedup in wall-clock training time compared with scalable exact GPR with a training size of 6500 QM7b-T molecules.
翻訳日:2022-04-22 14:54:35 公開日:2022-04-21
# インメモリコンピューティングのためのMRAMに基づくアナログシグモノイド関数

MRAM-based Analog Sigmoid Function for In-memory Computing ( http://arxiv.org/abs/2204.09918v1 )

ライセンス: Link先を確認
Md Hasibul Amin, Mohammed Elbtity, Mohammadreza Mohammadi, Ramtin Zand(参考訳) 2つのスピン軌道トルク磁気抵抗ランダムアクセスメモリ(sot-mram)とcmosインバータを用いた超越活性化関数のアナログ実装を提案する。 提案したアナログニューロン回路は1.8-27倍の消費電力を消費し,2.5-4931倍の面積を占める。 さらに、開発したニューロンは、中間信号変換ユニットを必要とせずに、memristive crossbarsと容易に統合することができる。 アーキテクチャレベルの分析では、SOT-MRAMベースのクロスバーと共にSOT-MRAMニューロンを使用する完全なアナログインメモリ・コンピューティング(IMC)回路が、アナログメモリクロスバーとデジタルニューロンとの混合信号実装と比較して、それぞれ1.1倍、12倍、13.3倍の電力、遅延、エネルギーの削減を達成できることが示されている。 最後に、クロスレイヤー解析により、ニューロン内のデバイスレベルパラメータの変動がmnist分類における多層パーセプトロン(mlp)の精度にどのように影響するかを示す。

We propose an analog implementation of the transcendental activation function leveraging two spin-orbit torque magnetoresistive random-access memory (SOT-MRAM) devices and a CMOS inverter. The proposed analog neuron circuit consumes 1.8-27x less power, and occupies 2.5-4931x smaller area, compared to the state-of-the-art analog and digital implementations. Moreover, the developed neuron can be readily integrated with memristive crossbars without requiring any intermediate signal conversion units. The architecture-level analyses show that a fully-analog in-memory computing (IMC) circuit that use our SOT-MRAM neuron along with an SOT-MRAM based crossbar can achieve more than 1.1x, 12x, and 13.3x reduction in power, latency, and energy, respectively, compared to a mixed-signal implementation with analog memristive crossbars and digital neurons. Finally, through cross-layer analyses, we provide a guide on how varying the device-level parameters in our neuron can affect the accuracy of multilayer perceptron (MLP) for MNIST classification.
翻訳日:2022-04-22 14:54:02 公開日:2022-04-21
# 産業センサネットワークにおけるハイブリッドクラウドエッジ協調データ異常検出

Hybrid Cloud-Edge Collaborative Data Anomaly Detection in Industrial Sensor Networks ( http://arxiv.org/abs/2204.09942v1 )

ライセンス: Link先を確認
Tao Yang, Jinming Wang, Weijie Hao, Qiang Yang, Wenhai Wang(参考訳) 産業制御システム(ICS)は、物理的システムに大惨事を引き起こすサイバー物理攻撃の増大に直面している。 産業センサネットワークにおける効率的な異常検出モデルは、ICSの運用状態に関連するセンサデータのため、ICSの信頼性とセキュリティを高めるために不可欠である。 本稿では,クラウド・エッジ協調型産業用センサネットワークにおけるハイブリッド異常検出手法を提案する。 ハイブリッドアプローチは、エッジにデプロイされたセンサデータ検出モデルと、クラウドにデプロイされたセンサデータ分析モデルで構成される。 ガウスアルゴリズムとベイジアンアルゴリズムに基づくセンサデータ検出モデルは、異常センサデータをリアルタイムで検出し、クラウドにアップロードすることで、通常のセンサデータをフィルタリングし、トラフィック負荷を低減する。 グラフ畳み込みネットワーク、残差アルゴリズム、長期短期記憶ネットワーク(gcrl)に基づくセンサデータ解析モデルは、空間的および時間的特徴を効果的に抽出し、攻撃を正確に識別することができる。 提案手法は,ベンチマークデータセットとベースライン異常検出モデルを用いて評価する。 実験の結果、提案手法は、既存のモデルと比較して、総じて11.19%のリコールが増加し、14.29%のF1スコアが改善された。

Industrial control systems (ICSs) are facing increasing cyber-physical attacks that can cause catastrophes in the physical system. Efficient anomaly detection models in the industrial sensor networks are essential for enhancing ICS reliability and security, due to the sensor data is related to the operational state of the ICS. Considering the limited availability of computing resources, this paper proposes a hybrid anomaly detection approach in cloud-edge collaboration industrial sensor networks. The hybrid approach consists of sensor data detection models deployed at the edges and a sensor data analysis model deployed in the cloud. The sensor data detection model based on Gaussian and Bayesian algorithms can detect the anomalous sensor data in real-time and upload them to the cloud for further analysis, filtering the normal sensor data and reducing traffic load. The sensor data analysis model based on Graph convolutional network, Residual algorithm and Long short-term memory network (GCRL) can effectively extract the spatial and temporal features and then identify the attack precisely. The proposed hybrid anomaly detection approach is evaluated using a benchmark dataset and baseline anomaly detection models. The experimental results show that the proposed approach can achieve an overall 11.19% increase in Recall and an impressive 14.29% improvement in F1-score, compared with the existing models.
翻訳日:2022-04-22 14:53:40 公開日:2022-04-21
# 距離空間における完全類似性探索のための学習インデックス

A Learned Index for Exact Similarity Search in Metric Spaces ( http://arxiv.org/abs/2204.10028v1 )

ライセンス: Link先を確認
Yao Tian, Tingyun Yan, Xi Zhao, Kai Huang, Xiaofang Zhou(参考訳) インデックス化は、大規模なデータベースで効率的なクエリ処理をサポートする効果的な方法である。 近年、学習インデックスの概念は、従来のインデックス構造を機械学習モデルに置き換え、補うことで、ストレージと検索コストを削減するために積極的に研究されている。 しかし、高次元距離空間における高精度で効率的な類似性クエリ処理は未解決の課題である。 本稿では,データクラスタリングとピボットベースのデータ変換技術を用いて,距離空間における類似性クエリ処理を効率的に行うための学習インデックスを構築するために,LIMSと呼ばれる新しいインデックス手法を提案する。 基礎となるデータはクラスタに分割され、各クラスタは比較的均一なデータ分布に従う。 データの再分配は、各クラスタに少数のピボットを使用することで実現される。 同様のデータはコンパクトな領域にマッピングされ、マッピングされた値は完全順序数である。 ディスク上の各データレコードの位置を近似する機械学習モデルを開発した。 効率的なアルゴリズムは、LIMSに基づく範囲クエリと最も近い隣のクエリを処理し、動的更新を伴うインデックスメンテナンスのために設計されている。 実世界および合成データセットに関する広範な実験は、limが従来のインデックスや最先端の学習インデックスよりも優れていることを示している。

Indexing is an effective way to support efficient query processing in large databases. Recently the concept of learned index has been explored actively to replace or supplement traditional index structures with machine learning models to reduce storage and search costs. However, accurate and efficient similarity query processing in high-dimensional metric spaces remains to be an open challenge. In this paper, a novel indexing approach called LIMS is proposed to use data clustering and pivot-based data transformation techniques to build learned indexes for efficient similarity query processing in metric spaces. The underlying data is partitioned into clusters such that each cluster follows a relatively uniform data distribution. Data redistribution is achieved by utilizing a small number of pivots for each cluster. Similar data are mapped into compact regions and the mapped values are totally ordinal. Machine learning models are developed to approximate the position of each data record on the disk. Efficient algorithms are designed for processing range queries and nearest neighbor queries based on LIMS, and for index maintenance with dynamic updates. Extensive experiments on real-world and synthetic datasets demonstrate the superiority of LIMS compared with traditional indexes and state-of-the-art learned indexes.
翻訳日:2022-04-22 14:53:19 公開日:2022-04-21
# グラフニューラルネットワークに対するトポロジー攻撃の検出

Detecting Topology Attacks against Graph Neural Networks ( http://arxiv.org/abs/2204.10072v1 )

ライセンス: Link先を確認
Senrong Xu, Yuan Yao, Liangyue Li, Wei Yang, Feng Xu, Hanghang Tong(参考訳) グラフニューラルネットワーク(GNN)は多くの実アプリケーションで広く使われており、最近の研究でトポロジ攻撃に対する脆弱性が明らかにされている。 この問題に対処するため、既存の取り組みは主にGNNの堅牢性向上に向けられているが、そのような攻撃の検出にはほとんど注意が払われていない。 本研究では,GNNに対するトポロジ攻撃による被害者ノード検出問題について検討する。 我々のアプローチは、GNNの本質的なメッセージパッシングの性質に根ざした重要な観測に基づいている。 すなわち、被害者ノードの近傍は、2つの競合するグループ力を持つ傾向があり、それぞれ、ノード分類結果を元のラベルとターゲットラベルにプッシュする。 そこで本研究では,各ノードの近傍変動の効果的な測定を意図的に設計し,被害者ノードを検出することを提案する。 実世界の4つのデータセットと既存の5つのトポロジーアタックの広範な実験結果から,提案手法の有効性と有効性が示された。

Graph neural networks (GNNs) have been widely used in many real applications, and recent studies have revealed their vulnerabilities against topology attacks. To address this issue, existing efforts have mainly been dedicated to improving the robustness of GNNs, while little attention has been paid to the detection of such attacks. In this work, we study the victim node detection problem under topology attacks against GNNs. Our approach is built upon the key observation rooted in the intrinsic message passing nature of GNNs. That is, the neighborhood of a victim node tends to have two competing group forces, pushing the node classification results towards the original label and the targeted label, respectively. Based on this observation, we propose to detect victim nodes by deliberately designing an effective measurement of the neighborhood variance for each node. Extensive experimental results on four real-world datasets and five existing topology attacks show the effectiveness and efficiency of the proposed detection approach.
翻訳日:2022-04-22 14:52:03 公開日:2022-04-21
# シークエンシャルレコメンデーションのための学習可能なモデル強化自己教師付き学習

Learnable Model Augmentation Self-Supervised Learning for Sequential Recommendation ( http://arxiv.org/abs/2204.10128v1 )

ライセンス: Link先を確認
Yongjing Hao, Pengpeng Zhao, Xuefeng Xian, Guanfeng Liu, Deqing Wang, Lei Zhao, Yanchi Liu and Victor S. Sheng(参考訳) Sequential Recommendationは、ユーザの振る舞いに基づいて次の項目を予測することを目的としている。 近年,推薦性能を改善するために自己監視学習(SSL)が提案されている。 しかし、既存のSSLメソッドのほとんどは、元のシーケンスのシーケンス相関をなくす均一なデータ拡張スキームを使用している。 そこで本稿では,Learningable Model Augmentation Self-supervised learning for sequence Recommendation (LMA4Rec)を提案する。 具体的には、LMA4Recはまず、ビューを生成するためのデータ拡張の補足方法として、モデル拡張を利用する。 次に、LMA4Recは学習可能なBernoulliドロップアウトを使用してモデル拡張学習操作を実装します。 次に、コントラストビュー間の自己教師あり学習を用いて、元のシーケンスから自己教師あり信号を抽出する。 最後に、LMA4Rec法は、ベースライン法と比較してシーケンシャルレコメンデーション性能を効果的に向上することを示す。

Sequential Recommendation aims to predict the next item based on user behaviour. Recently, Self-Supervised Learning (SSL) has been proposed to improve recommendation performance. However, most of existing SSL methods use a uniform data augmentation scheme, which loses the sequence correlation of an original sequence. To this end, in this paper, we propose a Learnable Model Augmentation self-supervised learning for sequential Recommendation (LMA4Rec). Specifically, LMA4Rec first takes model augmentation as a supplementary method for data augmentation to generate views. Then, LMA4Rec uses learnable Bernoulli dropout to implement model augmentation learnable operations. Next, self-supervised learning is used between the contrastive views to extract self-supervised signals from an original sequence. Finally, experiments on three public datasets show that the LMA4Rec method effectively improves sequential recommendation performance compared with baseline methods.
翻訳日:2022-04-22 14:51:42 公開日:2022-04-21
# Bias(Stress)-Test Fairnessアルゴリズムのためのサンドボックスツール

A Sandbox Tool to Bias(Stress)-Test Fairness Algorithms ( http://arxiv.org/abs/2204.10233v1 )

ライセンス: Link先を確認
Nil-Jana Akpinar, Manish Nagireddy, Logan Stapleton, Hao-Fei Cheng, Haiyi Zhu, Steven Wu, Hoda Heidari(参考訳) ml予測における不公平さの低減の重要性の高まりに動機づけられたfair-ml研究者は、アルゴリズムによる「フェアネス・エンハンシング(fairness-enhancing)」レメディエーションの広範なスイートを提示した。 しかし、既存のアルゴリズムのほとんどは、観測された不公平さの源を知らない。 その結果、現在、各アルゴリズムの介入が不公平の根本原因を和らげる可能性のある条件を特定するための指針の枠組みが欠如している。 このギャップを埋めるために、観察的不公平の原因となる基盤となるバイアス(トレーニングデータや設計選択など)を調査します。 バイアスインジェクションサンドボックスツールを用いて,様々なバイアスの公平性への影響を調査し,特定のバイアスの存在下でのアルゴリズム的治療の有効性を評価する。 この過程をアルゴリズム的介入のバイアス(ストレス)テストと呼ぶ。 既存のツールキットとは異なり、当社はmlパイプラインにバイアスを事実上注入するコントロール環境を提供します。 このスタイリッシュな設定は、観測データを越えて、バイアスのないベンチマークに対して公正な介入をテストする、明確な能力を提供します。 特に、バイアスインジェクションの前にバイアスド・セッティングの介入後に生じる予測とバイアスインジェクションの真のラベルを比較することで、与えられた治療が注入されたバイアスを緩和できるかどうかをテストできる。 本稿では,合成データに関する概念実証事例研究を通じて,ツールキットの有用性について述べる。 実験分析では,シミュレーションによって得られる洞察の種類を示す。

Motivated by the growing importance of reducing unfairness in ML predictions, Fair-ML researchers have presented an extensive suite of algorithmic "fairness-enhancing" remedies. Most existing algorithms, however, are agnostic to the sources of the observed unfairness. As a result, the literature currently lacks guiding frameworks to specify conditions under which each algorithmic intervention can potentially alleviate the underpinning cause of unfairness. To close this gap, we scrutinize the underlying biases (e.g., in the training data or design choices) that cause observational unfairness. We present a bias-injection sandbox tool to investigate fairness consequences of various biases and assess the effectiveness of algorithmic remedies in the presence of specific types of bias. We call this process the bias(stress)-testing of algorithmic interventions. Unlike existing toolkits, ours provides a controlled environment to counterfactually inject biases in the ML pipeline. This stylized setup offers the distinct capability of testing fairness interventions beyond observational data and against an unbiased benchmark. In particular, we can test whether a given remedy can alleviate the injected bias by comparing the predictions resulting after the intervention in the biased setting with true labels in the unbiased regime -- that is, before any bias injection. We illustrate the utility of our toolkit via a proof-of-concept case study on synthetic data. Our empirical analysis showcases the type of insights that can be obtained through our simulations.
翻訳日:2022-04-22 14:51:29 公開日:2022-04-21
# 証明可能な一般化を伴う量子機械学習による動的シミュレーション

Dynamical simulation via quantum machine learning with provable generalization ( http://arxiv.org/abs/2204.10269v1 )

ライセンス: Link先を確認
Joe Gibbs, Zo\"e Holmes, Matthias C. Caro, Nicholas Ezzell, Hsin-Yuan Huang, Lukasz Cincio, Andrew T. Sornborger, and Patrick J. Coles(参考訳) 動的シミュレーションと量子機械学習 (qml) は独立して量子アドバンテージの応用として注目されているが、qmlを使って動的シミュレーションを強化する可能性は十分に検討されていない。 本稿では,量子ハードウェア上で量子力学をシミュレートするqml法を提案する。 我々は、機械学習モデルが未知のデータに対して行う誤差を制限した一般化境界を用いて、このフレームワーク内のアルゴリズムのトレーニングデータ要求を厳格に分析する。 これにより、我々のアルゴリズムは、キュービットとデータ要求の両方の観点から、リソース効率が保証される。 私たちの数値は問題サイズの効率的なスケーリングを示し、ibmq-bogotaのロータライズよりも20倍長いスケールをシミュレートします。

Much attention has been paid to dynamical simulation and quantum machine learning (QML) independently as applications for quantum advantage, while the possibility of using QML to enhance dynamical simulations has not been thoroughly investigated. Here we develop a framework for using QML methods to simulate quantum dynamics on near-term quantum hardware. We use generalization bounds, which bound the error a machine learning model makes on unseen data, to rigorously analyze the training data requirements of an algorithm within this framework. This provides a guarantee that our algorithm is resource-efficient, both in terms of qubit and data requirements. Our numerics exhibit efficient scaling with problem size, and we simulate 20 times longer than Trotterization on IBMQ-Bogota.
翻訳日:2022-04-22 14:51:06 公開日:2022-04-21
# 進化的リカレントニューラルネットワークと不確実性低減手法を用いた自己適応システムの戦術ボラティリティの対応

Addressing Tactic Volatility in Self-Adaptive Systems Using Evolved Recurrent Neural Networks and Uncertainty Reduction Tactics ( http://arxiv.org/abs/2204.10308v1 )

ライセンス: Link先を確認
Aizaz Ul Haq, Niranjana Deshpande, AbdElRahman ElSaid, Travis Desell, Daniel E. Krutz(参考訳) 自己適応システムは、しばしば戦術を使って適応を行う。 戦術的な例としては、侵入が検出された場合のさらなるセキュリティ対策の実施、温度閾値を超えた場合の冷却機構の活性化などがある。 戦術のボラティリティは現実世界のシステムで発生し、そのレイテンシやコストなどの戦術の属性の変動挙動として定義される。 戦術的ボラティリティを効果的に説明できないシステムは、実世界の環境のダイナミクスに対する効率性と弾力性に悪影響を及ぼす。 戦術的ボラティリティに対するシステムの効率性を高めるために,進化型リカレントニューラルネットワーク(ernn)を用いた戦術的ボラティリティ認識(tva-e)プロセスを提案する。 tva-eはまた、不確実性低減戦術を利用して意思決定プロセスにさらなる情報を提供し、不確実性を減らす最初の既知のプロセスでもある。 TVA-Eは、一般的な適応プロセスと容易に統合され、既存の多くの自己適応システムに即座に利益をもたらす。 I) eRNNは効果的な予測メカニズムであり、II) TVA-Eは戦術的ボラティリティを考慮した既存の最先端プロセスの改善であり、III) 戦術的ボラティリティを考慮した不確実性削減戦術は有用である。 開発されたデータセットとツールはhttps://tacticvolatility.github.io/で見ることができる。

Self-adaptive systems frequently use tactics to perform adaptations. Tactic examples include the implementation of additional security measures when an intrusion is detected, or activating a cooling mechanism when temperature thresholds are surpassed. Tactic volatility occurs in real-world systems and is defined as variable behavior in the attributes of a tactic, such as its latency or cost. A system's inability to effectively account for tactic volatility adversely impacts its efficiency and resiliency against the dynamics of real-world environments. To enable systems' efficiency against tactic volatility, we propose a Tactic Volatility Aware (TVA-E) process utilizing evolved Recurrent Neural Networks (eRNN) to provide accurate tactic predictions. TVA-E is also the first known process to take advantage of uncertainty reduction tactics to provide additional information to the decision-making process and reduce uncertainty. TVA-E easily integrates into popular adaptation processes enabling it to immediately benefit a large number of existing self-adaptive systems. Simulations using 52,106 tactic records demonstrate that: I) eRNN is an effective prediction mechanism, II) TVA-E represents an improvement over existing state-of-the-art processes in accounting for tactic volatility, and III) Uncertainty reduction tactics are beneficial in accounting for tactic volatility. The developed dataset and tool can be found at https://tacticvolatility.github.io/
翻訳日:2022-04-22 14:50:52 公開日:2022-04-21
# 再現性向上のためのパラメトリックレベルセット(PalenTIR)

Parametric Level-sets Enhanced To Improve Reconstruction (PaLEnTIR) ( http://arxiv.org/abs/2204.09815v1 )

ライセンス: Link先を確認
Ege Ozsar, Misha Kilmer, Eric Miller, Eric de Sturler, Arvind Saibaba(参考訳) 本稿では,PalenTIR(PaLS)モデルを用いて,2次元および3次元の断片的定数物体の復元と復元について検討する。 本論文の主な貢献は,複数の未知のコントラストを持つ部分的定数オブジェクトを持つシーンを復元するために,単一レベルセット関数のみを必要とする新しい PaLS の定式化である。 本モデルは,マルチコントラスト,マルチオブジェクト問題に対する現在のアプローチに対して,それぞれが複数のレベル集合とコントラスト等級の明示的な推定を必要とする,明確な利点を与える。 コントラスト上の上界と下界が与えられると、コントラストの分布を持つオブジェクトを復元することができ、与えられたシーンにおけるコントラストの数やその値を知る必要がなくなる。 空間的に異なるコントラスト限界を見つけるための反復的なプロセスを提供する。 放射基底関数(RBF)を用いるほとんどの PaLS 法とは対照的に,我々のモデルは非等方基底関数を用いて,与えられた複雑性の PaLS モデルが近似可能な形状のクラスを拡張する。 最後に、PaLEnTIRはパラメータ識別プロセスの一部として必要となるヤコビ行列の条件付けを改善し、その結果、PaLS展開係数の大きさを制御し、基底関数の中心を固定し、新しいパラメータ化によって提供されるパラメトリック対イメージマッピングの特異性を調整することにより最適化手法を高速化する。 本稿では,2次元および3次元のX線CT,拡散光トモグラフィ(DOT),ノイズ発生,デコンボリューション問題を用いて,新しい手法の性能を示す。 実験的なスパースCTデータと異なる種類のノイズを伴うシミュレーションデータに適用し、提案手法をさらに検証した。

In this paper, we consider the restoration and reconstruction of piecewise constant objects in two and three dimensions using PaLEnTIR, a significantly enhanced Parametric level set (PaLS) model relative to the current state-of-the-art. The primary contribution of this paper is a new PaLS formulation which requires only a single level set function to recover a scene with piecewise constant objects possessing multiple unknown contrasts. Our model offers distinct advantages over current approaches to the multi-contrast, multi-object problem, all of which require multiple level sets and explicit estimation of the contrast magnitudes. Given upper and lower bounds on the contrast, our approach is able to recover objects with any distribution of contrasts and eliminates the need to know either the number of contrasts in a given scene or their values. We provide an iterative process for finding these space-varying contrast limits. Relative to most PaLS methods which employ radial basis functions (RBFs), our model makes use of non-isotropic basis functions, thereby expanding the class of shapes that a PaLS model of a given complexity can approximate. Finally, PaLEnTIR improves the conditioning of the Jacobian matrix required as part of the parameter identification process and consequently accelerates the optimization methods by controlling the magnitude of the PaLS expansion coefficients, fixing the centers of the basis functions, and the uniqueness of parametric to image mappings provided by the new parameterization. We demonstrate the performance of the new approach using both 2D and 3D variants of X-ray computed tomography, diffuse optical tomography (DOT), denoising, deconvolution problems. Application to experimental sparse CT data and simulated data with different types of noise are performed to further validate the proposed method.
翻訳日:2022-04-22 14:50:09 公開日:2022-04-21
# ChildPredictor: 歪んだ学習を伴う子どもの顔予測フレームワーク

ChildPredictor: A Child Face Prediction Framework with Disentangled Learning ( http://arxiv.org/abs/2204.09962v1 )

ライセンス: Link先を確認
Yuzhi Zhao, Lai-Man Po, Xuehui Wang, Qiong Yan, Wei Shen, Yujia Zhang, Wei Liu, Chun-Kit Wong, Chiu-Sing Pang, Weifeng Ou, Wing-Yin Yu, Buhua Liu(参考訳) 子供の出現は両親から受け継がれるため、それを予測することが可能である。 リアルな子供の顔を予測することは、年齢変化の顔認識、血縁確認、行方不明の子供の識別など、多くの社会問題を解くのに役立つかもしれない。 これは画像から画像への翻訳タスクと見なすことができる。 既存のアプローチでは、イメージ・ツー・イメージ翻訳のドメイン情報は「スタイル」、すなわち画像の内容とスタイルの分離によって解釈できる。 しかし、子供と親の顔の輪郭が同じではないため、子供の顔の予測にはそのような分離は不適切である。 この問題に対処するため,子どもの顔の表情を予測するための学習戦略を提案する。 子どもの顔は遺伝的要因(例えば、顔の輪郭など)、外部要因(口ひげや眼鏡などの予測とは無関係な顔の属性)、多様性要因(各子どもの個人的特性)によって決定されると仮定する。 本研究では,親の遺伝的要因から子どもの遺伝的要因へのマッピングとして予測を定式化し,外部および異種要因と区別する。 正確な遺伝的要因を入手し,マッピングを行うために,育児予測フレームワークを提案する。 人間の顔を遺伝子因子にエンコーダで転送し、ジェネレータで戻す。 そして、マッピング機能を用いて、両親と子供の遺伝的要因の関係を学習する。 生成した顔が現実的なものであることを確かめるために、大規模なファミリーフェイスデータベースを収集し、ChildPredictorをトレーニングし、FF-Databaseバリデーションセットで評価する。 実験の結果, 子どもの表情の現実的・多彩な予測において, 幼児予測が他の画像から画像への翻訳手法よりも優れていることが示された。 実装コードはhttps://github.com/zhaoyuzhi/childpredictorにある。

The appearances of children are inherited from their parents, which makes it feasible to predict them. Predicting realistic children's faces may help settle many social problems, such as age-invariant face recognition, kinship verification, and missing child identification. It can be regarded as an image-to-image translation task. Existing approaches usually assume domain information in the image-to-image translation can be interpreted by "style", i.e., the separation of image content and style. However, such separation is improper for the child face prediction, because the facial contours between children and parents are not the same. To address this issue, we propose a new disentangled learning strategy for children's face prediction. We assume that children's faces are determined by genetic factors (compact family features, e.g., face contour), external factors (facial attributes irrelevant to prediction, such as moustaches and glasses), and variety factors (individual properties for each child). On this basis, we formulate predictions as a mapping from parents' genetic factors to children's genetic factors, and disentangle them from external and variety factors. In order to obtain accurate genetic factors and perform the mapping, we propose a ChildPredictor framework. It transfers human faces to genetic factors by encoders and back by generators. Then, it learns the relationship between the genetic factors of parents and children through a mapping function. To ensure the generated faces are realistic, we collect a large Family Face Database to train ChildPredictor and evaluate it on the FF-Database validation set. Experimental results demonstrate that ChildPredictor is superior to other well-known image-to-image translation methods in predicting realistic and diverse child faces. Implementation codes can be found at https://github.com/zhaoyuzhi/ChildPredictor.
翻訳日:2022-04-22 14:49:39 公開日:2022-04-21
# FastDiff:高品質音声合成のための高速条件拡散モデル

FastDiff: A Fast Conditional Diffusion Model for High-Quality Speech Synthesis ( http://arxiv.org/abs/2204.09934v1 )

ライセンス: Link先を確認
Rongjie Huang, Max W. Y. Lam, Jun Wang, Dan Su, Dong Yu, Yi Ren, Zhou Zhao(参考訳) denoising diffusion probabilistic models (ddpms) は、最近多くの生成的タスクにおいて主要な性能を達成している。 しかし, 逐次サンプリングコストは音声合成への応用を阻害した。 本稿では,高品質音声合成のための高速条件拡散モデルであるFastDiffを提案する。 FastDiffは、様々な受容的フィールドパターンのタイムアウェアな位置可変畳み込みを使って、適応条件による長期的依存を効率的にモデル化する。 生成品質を犠牲にすることなくサンプリングステップを低減するために、ノイズスケジュール予測器も採用する。 我々は,FastDiffに基づくエンドツーエンドのテキスト音声合成器FastDiff-TTSを設計し,中間特徴のない高忠実な音声波形を生成する(メルスペクトル)。 我々のFastDiffの評価は、高品質(MOS 4.28)音声サンプルを用いた最先端の成果を示す。 また、FastDiffはV100 GPUでリアルタイムよりも58倍高速なサンプリング速度を実現し、拡散モデルが初めて音声合成デプロイメントに適用できる。 さらに,FastDiffは未知話者のメル-スペクトログラムの逆変換をうまく一般化し,FastDiff-TTSはエンドツーエンドの音声合成において他の競合手法よりも優れていた。 オーディオサンプルは \url{https://FastDiff.github.io/} で入手できる。

Denoising diffusion probabilistic models (DDPMs) have recently achieved leading performances in many generative tasks. However, the inherited iterative sampling process costs hindered their applications to speech synthesis. This paper proposes FastDiff, a fast conditional diffusion model for high-quality speech synthesis. FastDiff employs a stack of time-aware location-variable convolutions of diverse receptive field patterns to efficiently model long-term time dependencies with adaptive conditions. A noise schedule predictor is also adopted to reduce the sampling steps without sacrificing the generation quality. Based on FastDiff, we design an end-to-end text-to-speech synthesizer, FastDiff-TTS, which generates high-fidelity speech waveforms without any intermediate feature (e.g., Mel-spectrogram). Our evaluation of FastDiff demonstrates the state-of-the-art results with higher-quality (MOS 4.28) speech samples. Also, FastDiff enables a sampling speed of 58x faster than real-time on a V100 GPU, making diffusion models practically applicable to speech synthesis deployment for the first time. We further show that FastDiff generalized well to the mel-spectrogram inversion of unseen speakers, and FastDiff-TTS outperformed other competing methods in end-to-end text-to-speech synthesis. Audio samples are available at \url{https://FastDiff.github.io/}.
翻訳日:2022-04-22 14:47:54 公開日:2022-04-21
# 検出器の信頼性ニューラル生成モデリングに向けて

Towards Reliable Neural Generative Modeling of Detectors ( http://arxiv.org/abs/2204.09947v1 )

ライセンス: Link先を確認
Lucio Anderlini, Matteo Barbetti, Denis Derkach, Nikita Kazeev, Artem Maevskiy, Sergei Mokhnenko(参考訳) 大型ハドロン衝突型加速器と次世代衝突型加速器による将来のデータの光度の増加は、前例のない量のシミュレーションイベントを発生させる必要がある。 このような大規模生産は、かなりの量の貴重な計算資源を必要とする。 これにより、イベント生成と検出器応答のシミュレーションに新しいアプローチを使う必要が生じる。 本稿では,LHCb実験イベントのシミュレーションにおけるGAN(Generative Adversarial Network)の適用について論じる。 我々はgansの適用における主な落とし穴を強調し、体系的効果を詳細に研究する。 この結果は、LHCbチェレンコフ検出器のGeant4シミュレーションに基づいている。

The increasing luminosities of future data taking at Large Hadron Collider and next generation collider experiments require an unprecedented amount of simulated events to be produced. Such large scale productions demand a significant amount of valuable computing resources. This brings a demand to use new approaches to event generation and simulation of detector responses. In this paper, we discuss the application of generative adversarial networks (GANs) to the simulation of the LHCb experiment events. We emphasize main pitfalls in the application of GANs and study the systematic effects in detail. The presented results are based on the Geant4 simulation of the LHCb Cherenkov detector.
翻訳日:2022-04-22 14:47:33 公開日:2022-04-21
# ピッチシフトデータ拡張を用いた非パラレル音声変換を用いた低音源テキスト音声のクロススピーカ感情伝達

Cross-Speaker Emotion Transfer for Low-Resource Text-to-Speech Using Non-Parallel Voice Conversion with Pitch-Shift Data Augmentation ( http://arxiv.org/abs/2204.10020v1 )

ライセンス: Link先を確認
Ryo Terashima, Ryuichi Yamamoto, Eunwoo Song, Yuma Shirahata, Hyun-Wook Yoon, Jae-Min Kim, Kentaro Tachibana(参考訳) 音声変換(VC)によるデータ拡張は、ターゲット話者の中立データのみが利用可能である場合、低音源表現型音声合成(TTS)に成功している。 このアプローチにはVCの品質が不可欠だが,低リソースシナリオではデータ量に制限があるため,安定したVCモデルを学ぶことは困難である。 そこで本研究では,ピッチシフトとvc技術を組み合わせた新しいデータ拡張手法を提案する。 ピッチシフトデータ拡張は、様々なピッチダイナミクスのカバレッジを可能にするため、ターゲット話者の中立データの1,000発しか使用できない場合でも、VCモデルとTSモデルのトレーニングを大幅に安定化する。 提案手法を用いたFastSpeech 2 ベースの感情的 TTS システムは,従来の方法と比較して自然さと感情的類似性を改善した。

Data augmentation via voice conversion (VC) has been successfully applied to low-resource expressive text-to-speech (TTS) when only neutral data for the target speaker are available. Although the quality of VC is crucial for this approach, it is challenging to learn a stable VC model because the amount of data is limited in low-resource scenarios, and highly expressive speech has large acoustic variety. To address this issue, we propose a novel data augmentation method that combines pitch-shifting and VC techniques. Because pitch-shift data augmentation enables the coverage of a variety of pitch dynamics, it greatly stabilizes training for both VC and TTS models, even when only 1,000 utterances of the target speaker's neutral data are available. Subjective test results showed that a FastSpeech 2-based emotional TTS system with the proposed method improved naturalness and emotional similarity compared with conventional methods.
翻訳日:2022-04-22 14:47:23 公開日:2022-04-21
# 高速畳み込み層を有するリカレントニューラルネットワークによる物理モデリング

Physical Modeling using Recurrent Neural Networks with Fast Convolutional Layers ( http://arxiv.org/abs/2204.10125v1 )

ライセンス: Link先を確認
Julian D. Parker and Sebastian J. Schlecht and Rudolf Rabenstein and Maximilian Sch\"afer(参考訳) 音響・機械・電気系の離散時間モデリングは、信号処理文学において顕著なトピックである。 このようなモデルは、通常または偏微分方程式の項で与えられる数学的モデルを、確立された手法を用いて離散化することによって主に導かれる。 最近の研究は、電気回路などのスカラー値によって記述される集中状態を持つシステムの場合、データからモデルを自動的に構築するために機械学習の手法を適用している。 本研究では,同様の手法が集中状態よりも空間分布を持つシステムのモデルをどのように構築できるかを検討する。 いくつかの新しい繰り返しニューラルネットワーク構造を記述し、それらがモーダル手法の拡張とみなすことができることを示す。 概念実証として、3つの物理システムのための合成データを生成し、提案するネットワーク構造をこのデータで訓練し、システムの振る舞いを再現できることを示す。

Discrete-time modeling of acoustic, mechanical and electrical systems is a prominent topic in the musical signal processing literature. Such models are mostly derived by discretizing a mathematical model, given in terms of ordinary or partial differential equations, using established techniques. Recent work has applied the techniques of machine-learning to construct such models automatically from data for the case of systems which have lumped states described by scalar values, such as electrical circuits. In this work, we examine how similar techniques are able to construct models of systems which have spatially distributed rather than lumped states. We describe several novel recurrent neural network structures, and show how they can be thought of as an extension of modal techniques. As a proof of concept, we generate synthetic data for three physical systems and show that the proposed network structures can be trained with this data to reproduce the behavior of these systems.
翻訳日:2022-04-22 14:47:06 公開日:2022-04-21
# (参考訳) 顔分析に基づくBMI予測モデルに基づくバイアスの検討

An Examination of Bias of Facial Analysis based BMI Prediction Models ( http://arxiv.org/abs/2204.10262v1 )

ライセンス: CC BY 4.0
Hera Siddiqui, Ajita Rattani, Karl Ricanek, Twyla Hill(参考訳) 肥満は今日世界が直面している最も重要な公衆衛生問題の一つだ。 最近のトレンドは、肥満と闘うために顔画像を用いてBMIを予測する介入ツールの開発である。 これらの研究の多くは、主にコーカサス人の被験者からなるBMI注釈付き顔画像データセットを使用した。 顔に基づく性別、年齢分類、顔認識システムのバイアス評価に関する研究は、これらの技術が女性、浅黒い肌の人、そして高齢者に不利に働くことを示唆している。 顔分析に基づくBMI予測ツールのバイアスは、これまで研究されていない。 本稿では、コーカサス系およびアフリカ系アメリカ人の男性および女性を対象に、顔分析に基づくBMI予測モデルのバイアスを評価する。 修正MORPH-IIデータセットの性別、人種、BMIバランスに関する実験的調査では、BMI予測の誤差率は黒人男性が最も高く、白人女性が最も高いことが示唆された。 さらに、体重と相関した心理関連顔の特徴から、BMIが増加するにつれて、顔領域の変化は黒人男性や白人女性にとってより顕著であることが示唆された。 これは、黒人男性向け顔分析ベースのbmi予測ツールの誤差率が低い理由であり、白人女性では最高である。

Obesity is one of the most important public health problems that the world is facing today. A recent trend is in the development of intervention tools that predict BMI using facial images for weight monitoring and management to combat obesity. Most of these studies used BMI annotated facial image datasets that mainly consisted of Caucasian subjects. Research on bias evaluation of face-based gender-, age-classification, and face recognition systems suggest that these technologies perform poorly for women, dark-skinned people, and older adults. The bias of facial analysis-based BMI prediction tools has not been studied until now. This paper evaluates the bias of facial-analysis-based BMI prediction models across Caucasian and African-American Males and Females. Experimental investigations on the gender, race, and BMI balanced version of the modified MORPH-II dataset suggested that the error rate in BMI prediction was least for Black Males and highest for White Females. Further, the psychology-related facial features correlated with weight suggested that as the BMI increases, the changes in the facial region are more prominent for Black Males and the least for White Females. This is the reason for the least error rate of the facial analysis-based BMI prediction tool for Black Males and highest for White Females.
翻訳日:2022-04-22 14:44:33 公開日:2022-04-21
# 機械学習システムのリスク

The Risks of Machine Learning Systems ( http://arxiv.org/abs/2204.09852v1 )

ライセンス: Link先を確認
Samson Tan, Araz Taeihagh, Kathy Baxter(参考訳) 機械学習(ML)システムがデプロイされるスピードとスケールは、多くの研究がネガティブな影響の可能性を強調しているにもかかわらず、加速している。 人を傷つける前に、提案されたMLシステムからリスクを管理する企業や規制当局が明らかに必要である。 これを達成するために、民間および公共セクターのアクターはまず、提案されたMLシステムによって引き起こされるリスクを特定する必要がある。 システム全体のリスクは、その直接的および間接的な影響に影響される。 しかし、MLのリスク/インパクト評価のための既存のフレームワークは、しばしばリスクの抽象的な概念に対処する。 本稿では,MLシステムによって引き起こされる第1および第2次リスクの分類と,その寄与要因の2つの構成要素からなるMLシステムリスクを特定するための文脈依存フレームワークを用いて,このギャップを解決することを提案する。 1次リスクはMLシステムの側面に起因するが、2次リスクは1次リスクの結果に起因する。 これらの結果は、設計と開発の選択から生じるシステム障害である。 さまざまなタイプのMLシステムにおいて、さまざまなリスクが出現する可能性があること、それぞれのリスクに影響を与える要因、そしてシステムが現実世界と相互作用する際の第1次リスクが第2次効果に与える影響について検討する。 本稿では,機械学習システムリスクフレームワーク(MLSR)に実際の事象と先行研究がどのように適合するかを示す。 MLSRは技術やドメインではなくMLシステムで運用されており、システムの設計、実装、ユースケースがすべてそのリスクに寄与していることを認識している。 そうすることで、倫理的AIコミュニティ(例えば倫理的/人権リスク)で一般的に議論されるリスクとシステムレベルのリスク(例えば、アプリケーション、設計、制御リスク)を統一し、MLシステムの全体的リスク評価の道を開く。

The speed and scale at which machine learning (ML) systems are deployed are accelerating even as an increasing number of studies highlight their potential for negative impact. There is a clear need for companies and regulators to manage the risk from proposed ML systems before they harm people. To achieve this, private and public sector actors first need to identify the risks posed by a proposed ML system. A system's overall risk is influenced by its direct and indirect effects. However, existing frameworks for ML risk/impact assessment often address an abstract notion of risk or do not concretize this dependence. We propose to address this gap with a context-sensitive framework for identifying ML system risks comprising two components: a taxonomy of the first- and second-order risks posed by ML systems, and their contributing factors. First-order risks stem from aspects of the ML system, while second-order risks stem from the consequences of first-order risks. These consequences are system failures that result from design and development choices. We explore how different risks may manifest in various types of ML systems, the factors that affect each risk, and how first-order risks may lead to second-order effects when the system interacts with the real world. Throughout the paper, we show how real events and prior research fit into our Machine Learning System Risk framework (MLSR). MLSR operates on ML systems rather than technologies or domains, recognizing that a system's design, implementation, and use case all contribute to its risk. In doing so, it unifies the risks that are commonly discussed in the ethical AI community (e.g., ethical/human rights risks) with system-level risks (e.g., application, design, control risks), paving the way for holistic risk assessments of ML systems.
翻訳日:2022-04-22 14:27:40 公開日:2022-04-21
# レジリエントなロボットチーム:分散制御、変化検出、学習を統合するレビュー

Resilient robot teams: a review integrating decentralised control, change-detection, and learning ( http://arxiv.org/abs/2204.10063v1 )

ライセンス: Link先を確認
David M. Bossens, Sarvapali Ramchurn, Danesh Tarapore(参考訳) レビューの目的: 本論文は、レジリエントなロボットチームにおける分散制御、変化検出、学習の機会と課題をレビューする。 最近の知見:外因性断層検出法は,回復液を用いた総合的検出や特定診断を行うことができる。 ロボットチームは、動的異常の特定や追跡、動的環境の協調マッピングなど、環境の変化を検出するためのアクティブで分散的なセンシングを実行することができる。 分散制御のためのレジリエントな手法は、知覚-行動-コミュニケーションループの学習、マルチエージェント強化学習、具体化進化、オンライン適応によるオフライン進化、明示的なタスク割り当て、swarm roboticsにおけるスティグマジーにおいて開発された。 まとめ: レジリエントなロボットチームにとっての課題は、変更検出と試行錯誤学習の手法の統合、制約された評価時間下での信頼性の高いパフォーマンス評価の取得、レジリエントなロボットチームの安全性の向上、与えられた環境摂動への迅速な適応を示す理論的結果、現実的で説得力のあるケーススタディを設計することである。

Purpose of review: This paper reviews opportunities and challenges for decentralised control, change-detection, and learning in the context of resilient robot teams. Recent findings: Exogenous fault detection methods can provide a generic detection or a specific diagnosis with a recovery solution. Robot teams can perform active and distributed sensing for detecting changes in the environment, including identifying and tracking dynamic anomalies, as well as collaboratively mapping dynamic environments. Resilient methods for decentralised control have been developed in learning perception-action-communication loops, multi-agent reinforcement learning, embodied evolution, offline evolution with online adaptation, explicit task allocation, and stigmergy in swarm robotics. Summary: Remaining challenges for resilient robot teams are integrating change-detection and trial-and-error learning methods, obtaining reliable performance evaluations under constrained evaluation time, improving the safety of resilient robot teams, theoretical results demonstrating rapid adaptation to given environmental perturbations, and designing realistic and compelling case studies.
翻訳日:2022-04-22 14:27:04 公開日:2022-04-21
# 本物の衣服を片腕で折り畳むための学習:クラウドベースのロボティクス研究を事例として

Learning to Fold Real Garments with One Arm: A Case Study in Cloud-Based Robotics Research ( http://arxiv.org/abs/2204.10297v1 )

ライセンス: Link先を確認
Ryan Hoque, Kaushik Shivakumar, Shrey Aeron, Gabriel Deza, Aditya Ganapathi, Adrian Wong, Johnny Lee, Andy Zeng, Vincent Vanhoucke, Ken Goldberg(参考訳) 自律的な織物操作はロボット工学における長年の課題であるが、ロボットハードウェアのコストと多様性のために進歩を評価することは困難である。 物理ロボットに対する制御ポリシの低レイテンシリモート実行を可能にするクラウドロボティクスプラットフォームであるReachを用いて,物理ハードウェア上でのファブリック操作アルゴリズムのシステマティックなベンチマークを行う。 4つの学習ベースアルゴリズムを試作し, エキスパートアクション, キーポイント, 報酬関数, 動的動作をモデル化し, 一つのロボットアームでクラップしたtシャツを折り畳むタスクにおいて, 学習フリーと逆ダイナミクスの4つのアルゴリズムと比較した。 データ収集、モデルトレーニング、ポリシー評価のライフサイクル全体は、ロボットワークセルへの物理的アクセスなしに遠隔で実行される。 その結果, 模倣学習と解析手法を組み合わせた新しいアルゴリズムは, 折り畳み作業における人間レベルの性能の84%を達成した。 すべてのデータ、コード、モデル、補足材料について、https://sites.google.com/berkeley.edu/cloudfoldingを参照してください。

Autonomous fabric manipulation is a longstanding challenge in robotics, but evaluating progress is difficult due to the cost and diversity of robot hardware. Using Reach, a cloud robotics platform that enables low-latency remote execution of control policies on physical robots, we present the first systematic benchmarking of fabric manipulation algorithms on physical hardware. We develop 4 novel learning-based algorithms that model expert actions, keypoints, reward functions, and dynamic motions, and we compare these against 4 learning-free and inverse dynamics algorithms on the task of folding a crumpled T-shirt with a single robot arm. The entire lifecycle of data collection, model training, and policy evaluation is performed remotely without physical access to the robot workcell. Results suggest a new algorithm combining imitation learning with analytic methods achieves 84% of human-level performance on the folding task. See https://sites.google.com/berkeley.edu/cloudfolding for all data, code, models, and supplemental material.
翻訳日:2022-04-22 14:26:43 公開日:2022-04-21
# 完全テスト時間rgb-d埋め込みによるunseenオブジェクトインスタンスセグメンテーション

Unseen Object Instance Segmentation with Fully Test-time RGB-D Embeddings Adaptation ( http://arxiv.org/abs/2204.09847v1 )

ライセンス: Link先を確認
Lu Zhang, Siqi Zhang, Xu Yang, Zhiyong Liu(参考訳) 動作中に新しい環境に遭遇する可能性があるため、見えない物体を分離することはロボットにとって重要な能力である。 近年,大規模合成データのRGB-D機能を活用し,実世界のシナリオにモデルを直接適用することが一般的である。 しかし、深度データにはある程度の一般化能力があるにもかかわらず、Sim2Realギャップによるドメインシフトは避けられず、未確認のオブジェクトインスタンスセグメンテーション(UOIS)モデルに重要な課題をもたらす。 そこで本論文では,Sim2Realドメイン間の適応プロセスを再強調する。 具体的には,BatchNorm層のパラメータに基づいて,完全テスト時間RGB-D埋め込み適応(FTEA)を行うフレームワークを提案する。 テスト時間バックプロパゲーションのための学習目標を構築するために,明示的な分類層を使わずに実現可能な,新しい非パラメトリックエントロピー目的を提案する。 さらに,テスト時間における情報伝達を促進するため,モーダリティ間知識蒸留モジュールを設計する。 提案手法は,大規模合成トレーニングデータの再検討やアノテーションを必要とせず,テストタイムで効率的に実施することができる。 提案手法は,大幅な時間節約に加えて,重なり合いと境界値のセグメンテーション結果を常に改善し,実世界の2つのRGB-D画像データセットの最先端性能を実現する。 われわれの研究がテスト時間適応に注意を向け、目に見えない環境でロボットの知覚に期待できる方向を明らかにすることを願っている。

Segmenting unseen objects is a crucial ability for the robot since it may encounter new environments during the operation. Recently, a popular solution is leveraging RGB-D features of large-scale synthetic data and directly applying the model to unseen real-world scenarios. However, even though depth data have fair generalization ability, the domain shift due to the Sim2Real gap is inevitable, which presents a key challenge to the unseen object instance segmentation (UOIS) model. To tackle this problem, we re-emphasize the adaptation process across Sim2Real domains in this paper. Specifically, we propose a framework to conduct the Fully Test-time RGB-D Embeddings Adaptation (FTEA) based on parameters of the BatchNorm layer. To construct the learning objective for test-time back-propagation, we propose a novel non-parametric entropy objective that can be implemented without explicit classification layers. Moreover, we design a cross-modality knowledge distillation module to encourage the information transfer during test time. The proposed method can be efficiently conducted with test-time images, without requiring annotations or revisiting the large-scale synthetic training data. Besides significant time savings, the proposed method consistently improves segmentation results on both overlap and boundary metrics, achieving state-of-the-art performances on two real-world RGB-D image datasets. We hope our work could draw attention to the test-time adaptation and reveal a promising direction for robot perception in unseen environments.
翻訳日:2022-04-22 14:26:27 公開日:2022-04-21
# 間質性肺疾患の認識と分類のための効率的なエンド・ツー・エンド深層ニューラルネットワーク

An Efficient End-to-End Deep Neural Network for Interstitial Lung Disease Recognition and Classification ( http://arxiv.org/abs/2204.09909v1 )

ライセンス: Link先を確認
Masum Shah Junayed, Afsana Ahsan Jeny, Md Baharul Islam, Ikhtiar Ahmed, A F M Shahen Shah(参考訳) 自動間質性肺疾患 (ilds) 分類法は, 診断過程における臨床医の補助に不可欠である。 ILDパターンの検出と分類は難しい問題である。 本稿では,end-to-end deep convolution neural network (cnn) を提案する。 提案モデルでは、カーネルサイズが異なる4つの畳み込み層と、Rectified Linear Unit(ReLU)アクティベーション関数と、最終特徴写像サイズに等しい大きさのバッチ正規化と最大プーリングと、さらに4つの高密度層からなる。 分類的クロスエントロピーを最小限にするためにADAMオプティマイザを使用した。 128のCTスキャンと5つのクラスからなる21328の画像パッチからなるデータセットを用いて、提案モデルのトレーニングと評価を行う。 比較研究により、提示されたモデルは、トレーニング済みのCNNと同一データセット上の5倍のクロスバリデーションより優れていた。 ildsパターンの分類において、提案手法は99.09%の精度スコアと97.9%の平均fスコアを達成し、3つの事前訓練済みcnnを上回った。 これらの結果は,提案モデルが比較的精度,リコール,fスコア,精度が高いことを示している。

The automated Interstitial Lung Diseases (ILDs) classification technique is essential for assisting clinicians during the diagnosis process. Detecting and classifying ILDs patterns is a challenging problem. This paper introduces an end-to-end deep convolution neural network (CNN) for classifying ILDs patterns. The proposed model comprises four convolutional layers with different kernel sizes and Rectified Linear Unit (ReLU) activation function, followed by batch normalization and max-pooling with a size equal to the final feature map size well as four dense layers. We used the ADAM optimizer to minimize categorical cross-entropy. A dataset consisting of 21328 image patches of 128 CT scans with five classes is taken to train and assess the proposed model. A comparison study showed that the presented model outperformed pre-trained CNNs and five-fold cross-validation on the same dataset. For ILDs pattern classification, the proposed approach achieved the accuracy scores of 99.09% and the average F score of 97.9%, outperforming three pre-trained CNNs. These outcomes show that the proposed model is relatively state-of-the-art in precision, recall, f score, and accuracy.
翻訳日:2022-04-22 14:23:56 公開日:2022-04-21
# 映像復元のための2段階フレームワークのプログレッシブトレーニング

Progressive Training of A Two-Stage Framework for Video Restoration ( http://arxiv.org/abs/2204.09924v1 )

ライセンス: Link先を確認
Meisong Zheng, Qunliang Xing, Minglang Qiao, Mai Xu, Lai Jiang, Huaida Liu and Ying Chen(参考訳) 広範に研究されている課題として、ビデオ復元は、ノイズ、ぼかし、圧縮アーティファクトなどの潜在的な劣化を伴うビデオの品質を高めることを目的としている。 ビデオ修復のうち、圧縮されたビデオ品質向上とビデオ超解像は、実用シナリオにおいて重要な価値を持つ2つの主要なタックである。 近年、ニューラルネットワークやトランスフォーマは、シーケンス・トゥ・シーケンス・モデリングの素晴らしい能力によって、この分野で研究の関心が高まっている。 しかし、これらのモデルのトレーニングはコストがかかるだけでなく、比較的収束が難しく、勾配が爆発し、問題が消える。 これらの問題に対処するため,マルチフレームリカレントネットワークと単一フレームトランスを含む2段階のフレームワークを提案する。 さらに,移動学習や進行訓練などの複数の訓練戦略を開発し,訓練時間を短縮し,モデル性能を向上させる。 以上の技術的貢献から得られたソリューションは、2つのチャンピオンを獲得し、圧縮ビデオ課題の超高解像度化と品質向上のNTIRE 2022で優勝した。

As a widely studied task, video restoration aims to enhance the quality of the videos with multiple potential degradations, such as noises, blurs and compression artifacts. Among video restorations, compressed video quality enhancement and video super-resolution are two of the main tacks with significant values in practical scenarios. Recently, recurrent neural networks and transformers attract increasing research interests in this field, due to their impressive capability in sequence-to-sequence modeling. However, the training of these models is not only costly but also relatively hard to converge, with gradient exploding and vanishing problems. To cope with these problems, we proposed a two-stage framework including a multi-frame recurrent network and a single-frame transformer. Besides, multiple training strategies, such as transfer learning and progressive training, are developed to shorten the training time and improve the model performance. Benefiting from the above technical contributions, our solution wins two champions and a runner-up in the NTIRE 2022 super-resolution and quality enhancement of compressed video challenges.
翻訳日:2022-04-22 14:23:36 公開日:2022-04-21
# フラット指向性検出器を用いた光音響トモグラフィの可視性学習について

On Learning the Invisible in Photoacoustic Tomography with Flat Directionally Sensitive Detector ( http://arxiv.org/abs/2204.10001v1 )

ライセンス: Link先を確認
Bolin Pan, Marta M. Betcke(参考訳) フラットセンサを用いた光音響トモグラフィ(PAT)では,2種類のデータに定期的に遭遇する。 1つ目は有限センサを使用することであり、特に興味のある領域がセンサーに対して相対的に大きい場合や、センサーから遠く離れている場合、知覚可能である。 本稿では,センサの入射波面方向に対する感度の変化に起因する第2のタイプに着目し,感度のコーンによって2値としてモデル化する。 このような可視性条件は、フーリエ領域において、画像とデータをボウタイに制限することで、フォワード演算子の範囲に対応するものと類似する。 画像およびデータ領域における可視範囲は、波面方向マッピングによって関連付けられる。 我々は、画像中の可視波面と見えない波面を分離するために、全PATデータの表現のために、ウェッジ制限された曲線分解を適用した。 高速近似演算子と深層ニューラルネットワークアーキテクチャを最適に組み合わせ,可視係数の再構成を行い,類似データのトレーニングセットから可視係数を学習する効率的な学習再構成手法を提案する。

In photoacoustic tomography (PAT) with flat sensor, we routinely encounter two types of limited data. The first is due to using a finite sensor and is especially perceptible if the region of interest is large relatively to the sensor or located farther away from the sensor. In this paper, we focus on the second type caused by a varying sensitivity of the sensor to the incoming wavefront direction which can be modelled as binary i.e. by a cone of sensitivity. Such visibility conditions result, in Fourier domain, in a restriction of both the image and the data to a bowtie, akin to the one corresponding to the range of the forward operator. The visible ranges, in image and data domains, are related by the wavefront direction mapping. We adapt the wedge restricted Curvelet decomposition, we previously proposed for the representation of the full PAT data, to separate the visible and invisible wavefronts in the image. We optimally combine fast approximate operators with tailored deep neural network architectures into efficient learned reconstruction methods which perform reconstruction of the visible coefficients and the invisible coefficients are learned from a training set of similar data.
翻訳日:2022-04-22 14:23:18 公開日:2022-04-21
# 画像復元のための未ペアデータから学ぶ:変分ベイズアプローチ

Learn from Unpaired Data for Image Restoration: A Variational Bayes Approach ( http://arxiv.org/abs/2204.10090v1 )

ライセンス: Link先を確認
Dihan Zheng, Xiaowen Zhang, Kaisheng Ma, Chenglong Bao(参考訳) ペア化されたトレーニングデータの収集は実際は難しいが、未ペアのサンプルは広く存在する。 現在のアプローチは、破損したデータとクリーンなデータの関係を探索することで、未完成のサンプルから合成トレーニングデータを生成することを目的としている。 本研究は,差分分布から抽出したデータから,結合確率密度関数の深部生成法であるLUD-VAEを提案する。 我々のアプローチは、クリーンで破損したデータドメインが条件に依存しない、慎重に設計された確率的グラフィカルモデルに基づいている。 変分推論を用いて,エビデンスローバウンド(ELBO)を最大化し,結合確率密度関数を推定する。 さらに、ELBOは推論不変仮定の下でペア化されたサンプルなしで計算可能であることを示す。 この性質は、未ペアの設定における我々のアプローチの数学的根拠を提供する。 最後に,lud-vaeが生成する合成データを用いて,実世界画像のデノイジングと超解像タスクに適用し,モデルを訓練する。 実験結果は,他の学習可能な手法と比較して,本手法の利点を検証した。

Collecting paired training data is difficult in practice, but the unpaired samples broadly exist. Current approaches aim at generating synthesized training data from the unpaired samples by exploring the relationship between the corrupted and clean data. This work proposes LUD-VAE, a deep generative method to learn the joint probability density function from data sampled from marginal distributions. Our approach is based on a carefully designed probabilistic graphical model in which the clean and corrupted data domains are conditionally independent. Using variational inference, we maximize the evidence lower bound (ELBO) to estimate the joint probability density function. Furthermore, we show that the ELBO is computable without paired samples under the inference invariant assumption. This property provides the mathematical rationale of our approach in the unpaired setting. Finally, we apply our method to real-world image denoising and super-resolution tasks and train the models using the synthetic data generated by the LUD-VAE. Experimental results validate the advantages of our method over other learnable approaches.
翻訳日:2022-04-22 14:22:58 公開日:2022-04-21
# GAF-NAU:画素幅ハイパースペクトル画像分類のための周辺注意U-Netを符号化したグラミアン角場

GAF-NAU: Gramian Angular Field encoded Neighborhood Attention U-Net for Pixel-Wise Hyperspectral Image Classification ( http://arxiv.org/abs/2204.10099v1 )

ライセンス: Link先を確認
Sidike Paheding, Abel A. Reyes, Anush Kasaragod, Thomas Oommen(参考訳) ハイパースペクトラル画像(hsi)分類は、hsiに含まれる豊富なスペクトル情報が興味のある対象を特定するのに大きく役立つため、ハイパースペクトラルコミュニティで最も活発な研究領域である。 しかしながら、材料と対応するスペクトルプロファイルの間の固有の非線形性は、hsi分類において2つの大きな課題をもたらす。 多くの高度なディープラーニング手法は、ピクセルベースの代替ではなく、領域/パッチベースのアプローチの観点からこれらの問題に対処しようと試みてきた。 しかし、パッチベースのアプローチは、固定空間ウィンドウ内の対象画素の近傍ピクセルが同じクラスに属することを仮定する。 そして、この仮定は必ずしも真実ではない。 この問題に対処するため、画素ベースのHSI分類のための新しいディープラーニングアーキテクチャ(Gramian Angular Field encoded Neighborhood Attention U-Net(GAF-NAU)を提案する。 提案手法では,2d-cnnに基づく分類を行うために,生のターゲット画素を中心とした領域やパッチを必要とせず,hsi内の1d画素ベクトルをグラニアン角場(gaf)を用いて2dの角特徴空間に変換し,それを新しい近傍注意ネットワークに埋め込むことにより,hsi分類タスクに有用な関連する特徴を強調しつつ,無関係な角特徴を抑制する。 3つの公開HSIデータセットの評価結果から,提案モデルの有効性が示された。

Hyperspectral image (HSI) classification is the most vibrant area of research in the hyperspectral community due to the rich spectral information contained in HSI can greatly aid in identifying objects of interest. However, inherent non-linearity between materials and the corresponding spectral profiles brings two major challenges in HSI classification: interclass similarity and intraclass variability. Many advanced deep learning methods have attempted to address these issues from the perspective of a region/patch-based approach, instead of a pixel-based alternate. However, the patch-based approaches hypothesize that neighborhood pixels of a target pixel in a fixed spatial window belong to the same class. And this assumption is not always true. To address this problem, we herein propose a new deep learning architecture, namely Gramian Angular Field encoded Neighborhood Attention U-Net (GAF-NAU), for pixel-based HSI classification. The proposed method does not require regions or patches centered around a raw target pixel to perform 2D-CNN based classification, instead, our approach transforms 1D pixel vector in HSI into 2D angular feature space using Gramian Angular Field (GAF) and then embed it to a new neighborhood attention network to suppress irrelevant angular feature while emphasizing on pertinent features useful for HSI classification task. Evaluation results on three publicly available HSI datasets demonstrate the superior performance of the proposed model.
翻訳日:2022-04-22 14:22:40 公開日:2022-04-21
# 非一様ぼけを伴う深部モデルに基づく超解像

Deep Model-Based Super-Resolution with Non-uniform Blur ( http://arxiv.org/abs/2204.10109v1 )

ライセンス: Link先を確認
Charles Laroche and Andr\'es Almansa and Matias Tassano(参考訳) 非一様ぼかしを持つ超解像の最先端手法を提案する。 単一画像のスーパーレゾリューション法は、ぼやけた、サブサンプリングされた、ノイズの多い測定から高解像度の画像を復元することを求める。 優れた性能にもかかわらず、既存の技術は通常、均一なぼやけたカーネルを前提としている。 したがって、これらの手法は非一様ぼけのより一般的な場合に対してうまく一般化しない。 そこで本稿では,より現実的で計算に難解な空間変動ボケの事例について述べる。 そこで本研究では,線形化admm分割法に基づく高速深部プラグ・アンド・プレイアルゴリズムを提案する。 次に、反復アルゴリズムをひとつのネットワークに展開し、エンドツーエンドでトレーニングします。 このようにして、最適化スキームに関わるパラメータを手動で調整する難しさを克服する。 提案アルゴリズムは,空間的に異なるブラーカーネル,ノイズレベル,スケールファクタの大規模なファミリに対して,単一トレーニング後に顕著な性能を示す。

We propose a state-of-the-art method for super-resolution with non-uniform blur. Single-image super-resolution methods seek to restore a high-resolution image from blurred, subsampled, and noisy measurements. Despite their impressive performance, existing techniques usually assume a uniform blur kernel. Hence, these techniques do not generalize well to the more general case of non-uniform blur. Instead, in this paper, we address the more realistic and computationally challenging case of spatially-varying blur. To this end, we first propose a fast deep plug-and-play algorithm, based on linearized ADMM splitting techniques, which can solve the super-resolution problem with spatially-varying blur. Second, we unfold our iterative algorithm into a single network and train it end-to-end. In this way, we overcome the intricacy of manually tuning the parameters involved in the optimization scheme. Our algorithm presents remarkable performance and generalizes well after a single training to a large family of spatially-varying blur kernels, noise levels and scale factors.
翻訳日:2022-04-22 14:22:12 公開日:2022-04-21
# メラノーマ分類のための複数EffNet/ResNetアーキテクチャ

Multiple EffNet/ResNet Architectures for Melanoma Classification ( http://arxiv.org/abs/2204.10142v1 )

ライセンス: Link先を確認
Jiaqi Xue, Chentian Ma, Li Li, Xuan Wen(参考訳) メラノーマは最も悪性の皮膚腫瘍であり、通常は正常の臼歯から癌になるが、早期の良性と悪性の鑑別は困難である。 そのため、多くの機械学習手法が補助的な予測を試みている。 しかし, これらの手法は, 疑わしい腫瘍の画像データに注意を払い, 画像分類の精度の向上に注力するが, 実際の臨床診断における患者レベルのコンテキスト情報の重要性を無視する。 そこで本研究では,effnetとresnetに基づく新しいメラノーマ分類モデルを提案する。 当モデルでは, 同一患者の画像だけでなく, 患者レベルの文脈情報も検討した。 実験の結果,提案モデルが0.981 ACCを達成した。 さらに、モデル全体のROC値は0.976であり、従来の最先端手法よりも優れていることに留意する。

Melanoma is the most malignant skin tumor and usually cancerates from normal moles, which is difficult to distinguish benign from malignant in the early stage. Therefore, many machine learning methods are trying to make auxiliary prediction. However, these methods attach more attention to the image data of suspected tumor, and focus on improving the accuracy of image classification, but ignore the significance of patient-level contextual information for disease diagnosis in actual clinical diagnosis. To make more use of patient information and improve the accuracy of diagnosis, we propose a new melanoma classification model based on EffNet and Resnet. Our model not only uses images within the same patient but also consider patient-level contextual information for better cancer prediction. The experimental results demonstrated that the proposed model achieved 0.981 ACC. Furthermore, we note that the overall ROC value of the model is 0.976 which is better than the previous state-of-the-art approaches.
翻訳日:2022-04-22 14:21:57 公開日:2022-04-21
# Thy Neighbors氏との共有: クロスインスタンス一貫性による単一ビュー再構築

Share With Thy Neighbors: Single-View Reconstruction by Cross-Instance Consistency ( http://arxiv.org/abs/2204.10310v1 )

ライセンス: Link先を確認
Tom Monnier, Matthew Fisher, Alexei A. Efros, Mathieu Aubry(参考訳) 単一ビュー再構築へのアプローチは通常、視点アノテーション、シルエット、背景の欠如、同じインスタンスの複数のビュー、テンプレートの形状、対称性に依存する。 異なるオブジェクトインスタンスのイメージ間の一貫性を明確に活用することで、これらの監督と仮説をすべて回避します。 その結果,同じ対象カテゴリを表現したラベルなし画像の膨大なコレクションから学習することができる。 私たちの主な貢献は、クロスインスタンス一貫性を活用する2つのアプローチです。 一 プログレッシブ・コンディショニング、カリキュラム学習の方法によるカテゴリーから事例までモデルを徐々に専門化する訓練戦略 (ii)形状又はテクスチャの類似したインスタンス間の一貫性を強制する損失。 提案手法の成功には, イメージを明示的な形状, テクスチャ, ポーズ, 背景に分解する構造化オートエンコーディングアーキテクチャ, 微分レンダリングの適合した定式化, 3dとポーズ学習を交互に交互に行う新しい最適化スキームなども重要である。 当社のアプローチであるUNICORNは,さまざまな合成ShapeNetデータセット – 監視対象として複数のビューを必要とするメソッドの古典的なベンチマーク – と,既知のテンプレートやシルエットアノテーションを必要とする標準的なリアルタイムベンチマーク(Pascal3D+ Car, CUB-200)を比較しています。 また、シルエットが利用できず、画像がオブジェクトの周りにトリミングされない、より挑戦的な実世界のコレクション(compcars、lsun)に適用する可能性も示しています。

Approaches to single-view reconstruction typically rely on viewpoint annotations, silhouettes, the absence of background, multiple views of the same instance, a template shape, or symmetry. We avoid all of these supervisions and hypotheses by leveraging explicitly the consistency between images of different object instances. As a result, our method can learn from large collections of unlabelled images depicting the same object category. Our main contributions are two approaches to leverage cross-instance consistency: (i) progressive conditioning, a training strategy to gradually specialize the model from category to instances in a curriculum learning fashion; (ii) swap reconstruction, a loss enforcing consistency between instances having similar shape or texture. Critical to the success of our method are also: our structured autoencoding architecture decomposing an image into explicit shape, texture, pose, and background; an adapted formulation of differential rendering, and; a new optimization scheme alternating between 3D and pose learning. We compare our approach, UNICORN, both on the diverse synthetic ShapeNet dataset - the classical benchmark for methods requiring multiple views as supervision - and on standard real-image benchmarks (Pascal3D+ Car, CUB-200) for which most methods require known templates and silhouette annotations. We also showcase applicability to more challenging real-world collections (CompCars, LSUN), where silhouettes are not available and images are not cropped around the object.
翻訳日:2022-04-22 14:21:43 公開日:2022-04-21
# sintra: 単一のマルチトラック音楽セグメントからインスピレーションモデルを学ぶ

SinTra: Learning an inspiration model from a single multi-track music segment ( http://arxiv.org/abs/2204.09917v1 )

ライセンス: Link先を確認
Qingwei Song, Qiwei Sun, Dongsheng Guo, Haiyong Zheng(参考訳) 本稿では,複数トラックの単一セグメントから学習し,任意の長さのバーを持つ多節のコヒーレント,美的,可変多声楽曲を生成する,自己回帰型逐次生成モデルであるsintraを提案する。 本課題は,生成したサンプルの関連性を確保し,音楽の訓練を行うため,新しいピッチグループ表現を提案する。 マルチスケールのトレーニング戦略を持つtransformer-xlのピラミッドからなるsintraは、単一のトレーニング音楽セグメントの音符間の音楽構造と相対的な位置関係の両方を学習することができる。 さらに、トラック間の相関を維持するために、コンボリューション演算を用いてマルチトラック音楽を処理する。 SinTraを主観的研究と客観的指標の両方で評価した。 比較の結果,本フレームワークは音楽変換器よりも1つの音楽セグメントから情報を学習できることがわかった。 また、SinTraとその変種、すなわち1段目のSinTraと1段目のSinTraの比較は、ピラミッド構造が過度にフラグメントされた音符を効果的に抑制できることを示している。

In this paper, we propose SinTra, an auto-regressive sequential generative model that can learn from a single multi-track music segment, to generate coherent, aesthetic, and variable polyphonic music of multi-instruments with an arbitrary length of bar. For this task, to ensure the relevance of generated samples and training music, we present a novel pitch-group representation. SinTra, consisting of a pyramid of Transformer-XL with a multi-scale training strategy, can learn both the musical structure and the relative positional relationship between notes of the single training music segment. Additionally, for maintaining the inter-track correlation, we use the convolution operation to process multi-track music, and when decoding, the tracks are independent to each other to prevent interference. We evaluate SinTra with both subjective study and objective metrics. The comparison results show that our framework can learn information from a single music segment more sufficiently than Music Transformer. Also the comparison between SinTra and its variant, i.e., the single-stage SinTra with the first stage only, shows that the pyramid structure can effectively suppress overly-fragmented notes.
翻訳日:2022-04-22 14:21:15 公開日:2022-04-21
# (参考訳) 骨格グラフラプラシアンと自己監督視点の相違による教師なしの人間行動認識

Unsupervised Human Action Recognition with Skeletal Graph Laplacian and Self-Supervised Viewpoints Invariance ( http://arxiv.org/abs/2204.10312v1 )

ライセンス: CC BY 4.0
Giancarlo Paoletti, Jacopo Cavazza, Cigdem Beyan, Alessio Del Bue(参考訳) 本稿では,スケルトンに基づく非教師なし行動認識問題に対する新しいエンドツーエンド手法を提案する。 グラフラプラシアン正則化(graph laplacian regularization)を用いた畳み込みオートエンコーダ(convolutional autoencoder)を用いた新しいアーキテクチャを提案する。 我々のアプローチは、カメラビュー間の一般化を保証する自己教師付き勾配逆層を含むことにより、視点の変化に対して堅牢である。 提案手法は,NTU-60 と NTU-120 の大規模データセットで検証され,クロスオブジェクト,クロスビュー,クロスセットプロトコルの非教師なしスケルトンベースのアプローチよりも優れていた。 教師なしではあるが、学習可能な表現により、いくつかの教師付き骨格に基づく行動認識法を超越することさえ可能である。 コードはwww.github.com/iit-pavis/uhar_skeletal_laplacianで入手できる。

This paper presents a novel end-to-end method for the problem of skeleton-based unsupervised human action recognition. We propose a new architecture with a convolutional autoencoder that uses graph Laplacian regularization to model the skeletal geometry across the temporal dynamics of actions. Our approach is robust towards viewpoint variations by including a self-supervised gradient reverse layer that ensures generalization across camera views. The proposed method is validated on NTU-60 and NTU-120 large-scale datasets in which it outperforms all prior unsupervised skeleton-based approaches on the cross-subject, cross-view, and cross-setup protocols. Although unsupervised, our learnable representation allows our method even to surpass a few supervised skeleton-based action recognition methods. The code is available in: www.github.com/IIT-PAVIS/UHAR_Skeletal_Laplacian
翻訳日:2022-04-22 14:20:05 公開日:2022-04-21
# 注意関係グラフ蒸留を用いた深部ニューラルネットワークのバックドアトリガー除去

Eliminating Backdoor Triggers for Deep Neural Networks Using Attention Relation Graph Distillation ( http://arxiv.org/abs/2204.09975v1 )

ライセンス: Link先を確認
Jun Xia, Ting Wang, Jieping Ding, Xian Wei, Mingsong Chen(参考訳) 人工知能(ai)技術の繁栄により、より多くのバックドアが敵によって設計され、ディープニューラルネットワーク(dnn)を攻撃する。 最新の方法であるニューラルアテンション蒸留(NAD)は、DNNからのバックドアトリガーを効果的に消し去ることができるが、同じ順序のアテンション特徴(注意マップ)を用いたバックドアディフェンスに焦点を当てているため、未確認のアタック成功率(ASR)と低分類のACC(ACC)とを併せ持つ。 本稿では,アテンションリレーショナルグラフ蒸留(ARGD)と呼ばれる新しいバックドアディフェンスフレームワークを紹介し,アテンションリレーショナルグラフ(ARG)を用いて,アテンション特徴と異なる順序との相関性について検討する。 知識蒸留における教師モデルと学生モデルの両方のARGのアライメントに基づいて、ARGDはNADよりもバックドアトリガーを根絶することができる。 総合的な実験の結果、最新の6つのバックドア攻撃に対して、ARGDはNADを94.85%減少させ、ACCを3.23%改善させることができる。

Due to the prosperity of Artificial Intelligence (AI) techniques, more and more backdoors are designed by adversaries to attack Deep Neural Networks (DNNs).Although the state-of-the-art method Neural Attention Distillation (NAD) can effectively erase backdoor triggers from DNNs, it still suffers from non-negligible Attack Success Rate (ASR) together with lowered classification ACCuracy (ACC), since NAD focuses on backdoor defense using attention features (i.e., attention maps) of the same order. In this paper, we introduce a novel backdoor defense framework named Attention Relation Graph Distillation (ARGD), which fully explores the correlation among attention features with different orders using our proposed Attention Relation Graphs (ARGs). Based on the alignment of ARGs between both teacher and student models during knowledge distillation, ARGD can eradicate more backdoor triggers than NAD. Comprehensive experimental results show that, against six latest backdoor attacks, ARGD outperforms NAD by up to 94.85% reduction in ASR, while ACC can be improved by up to 3.23%.
翻訳日:2022-04-22 13:59:58 公開日:2022-04-21
# 敵攻撃を超えた機械学習モデルのロバスト性

Robustness of Machine Learning Models Beyond Adversarial Attacks ( http://arxiv.org/abs/2204.10046v1 )

ライセンス: Link先を確認
Sebastian Scher and Andreas Tr\"ugler(参考訳) 機械学習モデルの堅牢性を正しく定量化することは、特定のタスクに対する適合性を判断する上で中心的な側面であり、最終的にはモデルに対する信頼を生み出す。 敵の攻撃シナリオの外で「自然に」発生する摂動に対してMLモデルのロバスト性を決定する上で、反ファクトに基づく敵のロバスト性と密接に関連するメトリクスが必ずしも有効ではないことを示す。 さらに, 実世界のロバスト性を決定するには, 原理上の汎用的ロバスト性指標が不十分であると主張する。 代わりに、アプリケーションごとに個別に入力データの摂動をモデル化する柔軟なアプローチを提案する。 これは、現実の摂動が予測を変える可能性を計算する確率論的アプローチと組み合わせられ、トレーニングされた機械学習モデルの堅牢性に関する定量的情報を与える。 この方法は分類器の内部へのアクセスを必要としないため、原則としてブラックボックスモデルで機能する。 しかし、これはモンテカルロサンプリングに基づいており、従って小さな次元の入力空間にのみ適している。 2つのデータセットと分析可能なケースについて、我々のアプローチを説明します。 最後に,実世界のロバスト性を高次元入力空間でどのように計算するか,あるいは推定するかについて考察する。

Correctly quantifying the robustness of machine learning models is a central aspect in judging their suitability for specific tasks, and thus, ultimately, for generating trust in the models. We show that the widely used concept of adversarial robustness and closely related metrics based on counterfactuals are not necessarily valid metrics for determining the robustness of ML models against perturbations that occur "naturally", outside specific adversarial attack scenarios. Additionally, we argue that generic robustness metrics in principle are insufficient for determining real-world-robustness. Instead we propose a flexible approach that models possible perturbations in input data individually for each application. This is then combined with a probabilistic approach that computes the likelihood that a real-world perturbation will change a prediction, thus giving quantitative information of the robustness of the trained machine learning model. The method does not require access to the internals of the classifier and thus in principle works for any black-box model. It is, however, based on Monte-Carlo sampling and thus only suited for input spaces with small dimensions. We illustrate our approach on two dataset, as well as on analytically solvable cases. Finally, we discuss ideas on how real-world robustness could be computed or estimated in high-dimensional input spaces.
翻訳日:2022-04-22 13:59:33 公開日:2022-04-21
# (参考訳) planes vs. chairs: 3d cuesを使わずに3d形状学習するカテゴリー

Planes vs. Chairs: Category-guided 3D shape learning without any 3D cues ( http://arxiv.org/abs/2204.10235v1 )

ライセンス: CC BY 4.0
Zixuan Huang, Stefan Stojanov, Anh Thai, Varun Jampani, James M. Rehg(参考訳) 単一のRGB画像から暗黙的な3次元形状表現を学習する新しい3次元形状再構成法を提案する。 提案手法では、視点アノテーションを使わずに複数のオブジェクトカテゴリの単一ビュー画像を用いて、複数のオブジェクトカテゴリを3次元の監督なしに学習させる。 このような最小限の監督の下での学習を容易にするために、新しい分類的計量学習アプローチで形状学習を導くためにカテゴリラベルを用いる。 また, 対向的・視点的正則化手法を用いて, 視点と形状の影響をさらに解消する。 3次元の手がかりのない単一モデルを用いた大規模(50以上のカテゴリ)単視点形状予測の最初の結果を得た。 また,単視型3次元形状再構成におけるクラス情報の利点を初めて検証し,定量化した。 本研究では,ShapeNet-13,ShapeNet-55,Pascal3D+の最先端手法よりも優れた性能を実現する。

We present a novel 3D shape reconstruction method which learns to predict an implicit 3D shape representation from a single RGB image. Our approach uses a set of single-view images of multiple object categories without viewpoint annotation, forcing the model to learn across multiple object categories without 3D supervision. To facilitate learning with such minimal supervision, we use category labels to guide shape learning with a novel categorical metric learning approach. We also utilize adversarial and viewpoint regularization techniques to further disentangle the effects of viewpoint and shape. We obtain the first results for large-scale (more than 50 categories) single-viewpoint shape prediction using a single model without any 3D cues. We are also the first to examine and quantify the benefit of class information in single-view supervised 3D shape reconstruction. Our method achieves superior performance over state-of-the-art methods on ShapeNet-13, ShapeNet-55 and Pascal3D+.
翻訳日:2022-04-22 13:58:19 公開日:2022-04-21
# 色変化型皮膚セグメンテーション

Color Invariant Skin Segmentation ( http://arxiv.org/abs/2204.09882v1 )

ライセンス: Link先を確認
Han Xu, Abhijit Sarkar, A. Lynn Abbott(参考訳) 本稿では,カラー情報に頼らずに画像中の肌を自動的に検出する問題に対処する。 この研究の主な動機は、より軽い皮膚のトーンにかなり偏ったトレーニングデータセットを使用しても、皮膚のトーン全体にわたって一貫性のある結果を達成することである。 従来の皮膚検出法では,色覚をほぼ排他的に用いており,そのような情報がない場合にも有効に機能する新しいアプローチを提案する。 この作業の重要な側面は、トレーニング中に戦略的に適用される拡張によるデータセットの修復であり、一般化を促進するために色不変特徴学習(color invariant feature learning)を目標としている。 我々は,この概念を2つのアーキテクチャを用いて実証し,実験結果から,ベンチマークECUデータセットのほとんどのFitzpatrickスキントーンに対する精度とリコールの改善が示された。 さらにrfwデータセットを用いて実験を行い,提案手法が異なる民族間でより一貫して機能することを示し,肌色に基づくバイアスの可能性を低減した。 本研究の有効性を実証するため, グレースケール画像と非拘束照明下で得られた画像と人工フィルタを用いて広範囲な実験を行った。 ソースコード:https://github.com/HanXuMartin/Color-Invariant-Skin-Segmentation

This paper addresses the problem of automatically detecting human skin in images without reliance on color information. A primary motivation of the work has been to achieve results that are consistent across the full range of skin tones, even while using a training dataset that is significantly biased toward lighter skin tones. Previous skin-detection methods have used color cues almost exclusively, and we present a new approach that performs well in the absence of such information. A key aspect of the work is dataset repair through augmentation that is applied strategically during training, with the goal of color invariant feature learning to enhance generalization. We have demonstrated the concept using two architectures, and experimental results show improvements in both precision and recall for most Fitzpatrick skin tones in the benchmark ECU dataset. We further tested the system with the RFW dataset to show that the proposed method performs much more consistently across different ethnicities, thereby reducing the chance of bias based on skin color. To demonstrate the effectiveness of our work, extensive experiments were performed on grayscale images as well as images obtained under unconstrained illumination and with artificial filters. Source code: https://github.com/HanXuMartin/Color-Invariant-Skin-Segmentation
翻訳日:2022-04-22 13:55:56 公開日:2022-04-21
# 多層2.5次元運動場学習による教師なし映像補間

Unsupervised Video Interpolation by Learning Multilayered 2.5D Motion Fields ( http://arxiv.org/abs/2204.09900v1 )

ライセンス: Link先を確認
Ziang Cheng, Shihao Jiang, Hongdong Li(参考訳) ビデオフレーム補間問題は、既存の時間的に疎いフレーム間で新しいフレームを補間することにより、低フレームレートビデオの時間分解能を高めることである。 本稿では,ビデオフレーム補間に対する自己教師型アプローチを提案する。 ビデオはレイヤーのセットとしてポーズします。 各レイヤは2つの暗黙のニューラルネットワークでパラメータ化され、ひとつは静的フレームを学習し、もうひとつはビデオダイナミクスに対応する時間変化する動き場を学習する。 それらは共に、擬似深さチャネルを持つシーンの閉塞のないサブセットを表す。 層間閉塞をモデル化するために、すべての層が2.5D空間に持ち上げられ、前面層が遠い層を閉塞する。 これは各層に深さチャネルを割り当て、それを 'pseudo-deepth' と呼び、その部分的な順序は層間の閉塞を定義する。 擬似深度は、完全に微分可能なSoftMin関数を通じて可視値に変換され、より近い層が遠くの層よりも可視になる。 一方,有効な動きを保証する時間変化型神経速度場上で定義される通常の微分可能方程式 (ode) を解いてビデオ動作のパラメータ化を行う。 この暗黙的な神経表現は、映像を時空連続体として学習し、任意の時間分解能でフレーム補間を可能にする。 本手法は,実世界のデータセットにおいて,基礎的真理ラベルを必要とする最先端技術と同等の性能が得られることを示す。

The problem of video frame interpolation is to increase the temporal resolution of a low frame-rate video, by interpolating novel frames between existing temporally sparse frames. This paper presents a self-supervised approach to video frame interpolation that requires only a single video. We pose the video as a set of layers. Each layer is parameterized by two implicit neural networks -- one for learning a static frame and the other for a time-varying motion field corresponding to video dynamics. Together they represent an occlusion-free subset of the scene with a pseudo-depth channel. To model inter-layer occlusions, all layers are lifted to the 2.5D space so that the frontal layer occludes distant layers. This is done by assigning each layer a depth channel, which we call `pseudo-depth', whose partial order defines the occlusion between layers. The pseudo-depths are converted to visibility values through a fully differentiable SoftMin function so that closer layers are more visible than layers in a distance. On the other hand, we parameterize the video motions by solving an ordinary differentiable equation (ODE) defined on a time-varying neural velocity field that guarantees valid motions. This implicit neural representation learns the video as a space-time continuum, allowing frame interpolation at any temporal resolution. We demonstrate the effectiveness of our method on real-world datasets, where our method achieves comparable performance to state-of-the-arts that require ground truth labels for training.
翻訳日:2022-04-22 13:55:36 公開日:2022-04-21
# プロトタイプを超えて:Few-shotセグメンテーションのためのDivide-and-conquerプロキシ

Beyond the Prototype: Divide-and-conquer Proxies for Few-shot Segmentation ( http://arxiv.org/abs/2204.09903v1 )

ライセンス: Link先を確認
Chunbo Lang, Binfei Tu, Gong Cheng, Junwei Han(参考訳) 少数の濃密なラベル付けされたサンプルしか与えられていない未確認のオブジェクトをセグメント化することを目的としているFew-shotのセグメンテーションは、コミュニティから広く注目を集めている。 既存のアプローチは、通常、メタ推論を実行するためのプロトタイプ学習パラダイムに従い、画像マスクペアのサポートから基礎となる情報を十分に活用できないため、不完全なオブジェクト、曖昧な境界、邪魔者アクティベーションなど、さまざまなセグメンテーション障害が発生する。 この目的のために, 分割・分散の精神を生かした, シンプルかつ多目的なフレームワークを提案する。 具体的には、注釈付き支持画像上に新しい自己推論方式を最初に実装し、その後、粗いセグメンテーションマスクを異なる特性を持つ複数の領域に分割する。 効果的なマスク平均プーリング操作を利用することで、サポートによって引き起こされる一連のプロキシが導出され、それぞれが上記の課題の克服に特定の役割を果たす。 さらに,類似の属性を持つプロキシを統合して識別力を高める一意な並列デコーダ構造を考案する。 提案手法はDCP(disvision-and-conquer proxies)と呼ばれるもので,オブジェクト自身だけでなく,"episode"レベルでのガイドとして,適切な信頼性の高い情報の開発を可能にする。 PASCAL-5iとCOCO-20iの大規模な実験は、従来のプロトタイプベースのアプローチ(平均で最大5〜10%)よりもDCPの方が優れていることを示す。 コードはgithub.com/chunbolang/DCPで入手できる。

Few-shot segmentation, which aims to segment unseen-class objects given only a handful of densely labeled samples, has received widespread attention from the community. Existing approaches typically follow the prototype learning paradigm to perform meta-inference, which fails to fully exploit the underlying information from support image-mask pairs, resulting in various segmentation failures, e.g., incomplete objects, ambiguous boundaries, and distractor activation. To this end, we propose a simple yet versatile framework in the spirit of divide-and-conquer. Specifically, a novel self-reasoning scheme is first implemented on the annotated support image, and then the coarse segmentation mask is divided into multiple regions with different properties. Leveraging effective masked average pooling operations, a series of support-induced proxies are thus derived, each playing a specific role in conquering the above challenges. Moreover, we devise a unique parallel decoder structure that integrates proxies with similar attributes to boost the discrimination power. Our proposed approach, named divide-and-conquer proxies (DCP), allows for the development of appropriate and reliable information as a guide at the "episode" level, not just about the object cues themselves. Extensive experiments on PASCAL-5i and COCO-20i demonstrate the superiority of DCP over conventional prototype-based approaches (up to 5~10% on average), which also establishes a new state-of-the-art. Code is available at github.com/chunbolang/DCP.
翻訳日:2022-04-22 13:55:12 公開日:2022-04-21
# マンモグラム分類のためのグラフ畳み込みネットワークを用いた領域不変モデル

Domain Invariant Model with Graph Convolutional Network for Mammogram Classification ( http://arxiv.org/abs/2204.09954v1 )

ライセンス: Link先を確認
Churan Wang, Jing Li, Xinwei Sun, Fandong Zhang, Yizhou Yu, Yizhou Wang(参考訳) 安全性が重要なため,od試料のロバスト性を実現するため,画像ベース診断が望まれる。 この目的に向けた自然な方法は、病変関連領域のマクロな特性(マージン、形状など)と顕微鏡的な画像ベースの特徴(テクスチャなど)からなる臨床疾患関連の特徴のみを捉えることである。 しかし、このような疾患に関連する特徴は、OOD一般化を無効にしながら、学習中にデータ依存的(しかし無関係な)バイアスと織り込まれていることが多い。 この問題を解決するために,複数のドメインから不変な疾患関連機能のみを利用する新しいフレームワーク,すなわちグラフ畳み込みネットワーク(DIM-GCN)を提案する。 具体的には,潜伏変数を病原性その他の疾患関連部位に明示的に分解し,互いに絡み合うことを証明可能なベイズネットワークを提案する。 そこで本研究では,各領域のエンコーダがドメイン非依存型と非依存型という2つのブランチを持つ変分自動エンコーダに基づいて,目的関数を再構成する。 観察した臨床特性を,グラフ畳み込みネットワーク(gcn)による再構築の目標として活用した。 最後に, 疾患関連機能のみを実装した。 本手法の有効性と有用性は,マンモグラム良悪性診断において他者よりも優れたOOD一般化性能により実証された。

Due to its safety-critical property, the image-based diagnosis is desired to achieve robustness on out-of-distribution (OOD) samples. A natural way towards this goal is capturing only clinically disease-related features, which is composed of macroscopic attributes (e.g., margins, shapes) and microscopic image-based features (e.g., textures) of lesion-related areas. However, such disease-related features are often interweaved with data-dependent (but disease irrelevant) biases during learning, disabling the OOD generalization. To resolve this problem, we propose a novel framework, namely Domain Invariant Model with Graph Convolutional Network (DIM-GCN), which only exploits invariant disease-related features from multiple domains. Specifically, we first propose a Bayesian network, which explicitly decomposes the latent variables into disease-related and other disease-irrelevant parts that are provable to be disentangled from each other. Guided by this, we reformulate the objective function based on Variational Auto-Encoder, in which the encoder in each domain has two branches: the domain-independent and -dependent ones, which respectively encode disease-related and -irrelevant features. To better capture the macroscopic features, we leverage the observed clinical attributes as a goal for reconstruction, via Graph Convolutional Network (GCN). Finally, we only implement the disease-related features for prediction. The effectiveness and utility of our method are demonstrated by the superior OOD generalization performance over others on mammogram benign/malignant diagnosis.
翻訳日:2022-04-22 13:54:43 公開日:2022-04-21
# クロスレベルマルチモーダル融合による表現理解

Referring Expression Comprehension via Cross-Level Multi-Modal Fusion ( http://arxiv.org/abs/2204.09957v1 )

ライセンス: Link先を確認
Peihan Miao, Wei Su, Lian Wang, Yongjian Fu, Xi Li(参考訳) 視覚言語タスクにおける重要かつ困難な問題として、表現理解(REC)は、与えられた参照表現によって指定された対象対象をローカライズすることを目的としている。 近年、最先端のREC手法のほとんどは、視覚および言語エンコーダに含まれる固有階層情報を見越しながら、主にマルチモーダル融合に焦点を当てている。 視覚的, テキスト的階層情報を必要とすること, エンコーダが本質的に特徴を階層的に抽出することを考えると, 視覚的, 言語的エンコーダの各層に含まれるリッチな階層情報を有効に活用することを提案する。 そこで我々は,多層構造の視覚的特徴とテキスト的特徴を段階的に統合する,クロスレベル多モード融合(CMF)フレームワークを設計する。 RefCOCO、RefCOCO+、RefCOCOg、ReferItGameデータセットの実験結果は、提案したフレームワークが最先端の手法よりも大幅なパフォーマンス向上を実現していることを示している。

As an important and challenging problem in vision-language tasks, referring expression comprehension (REC) aims to localize the target object specified by a given referring expression. Recently, most of the state-of-the-art REC methods mainly focus on multi-modal fusion while overlooking the inherent hierarchical information contained in visual and language encoders. Considering that REC requires visual and textual hierarchical information for accurate target localization, and encoders inherently extract features in a hierarchical fashion, we propose to effectively utilize the rich hierarchical information contained in different layers of visual and language encoders. To this end, we design a Cross-level Multi-modal Fusion (CMF) framework, which gradually integrates visual and textual features of multi-layer through intra- and inter-modal. Experimental results on RefCOCO, RefCOCO+, RefCOCOg, and ReferItGame datasets demonstrate the proposed framework achieves significant performance improvements over state-of-the-art methods.
翻訳日:2022-04-22 13:54:17 公開日:2022-04-21
# DGECN - エンド・ツー・エンド6次元空間推定のためのエッジ畳み込みネットワーク

DGECN: A Depth-Guided Edge Convolutional Network for End-to-End 6D Pose Estimation ( http://arxiv.org/abs/2204.09983v1 )

ライセンス: Link先を確認
Tuo Cao, Fei Luo, Yanping Fu, Wenxiao Zhang, Shengjie Zheng, Chunxia Xiao(参考訳) 単眼の6Dポーズ推定はコンピュータビジョンの基本課題である。 既存の作業では、対応を確立し、RANSACアルゴリズムを使用して6自由度(6DoF)のポーズを計算することで、2段階のパイプラインを採用することが多い。 近年の研究では、RANSACアルゴリズムを統合して、エンドツーエンドの6Dポーズ推定を実現している。 しかし,これらの多くは3次元空間の幾何学的特徴をほとんど考慮せず,微分可能なransacアルゴリズムを実行する際に位相的手がかりを無視する。 そこで我々は6次元ポーズ推定のためのDGECN(Depth-Guided Edge Convolutional Network)を提案する。 1) 対応抽出法とそれを用いたRANSACアルゴリズムの両方を幾何学的情報で導くために, 推定深度情報の利点を生かした。 2) 推定深度マップの不確かさを利用して, 出力6Dポーズの精度とロバスト性を向上する。 3) 2d-3d対応間の位相関係を探索するために,エッジ畳み込みによる微分可能なpnpアルゴリズムを提案する。 実験により,提案するネットワークは,有効性と効率の両面で,現在の作業よりも優れていることが示された。

Monocular 6D pose estimation is a fundamental task in computer vision. Existing works often adopt a two-stage pipeline by establishing correspondences and utilizing a RANSAC algorithm to calculate 6 degrees-of-freedom (6DoF) pose. Recent works try to integrate differentiable RANSAC algorithms to achieve an end-to-end 6D pose estimation. However, most of them hardly consider the geometric features in 3D space, and ignore the topology cues when performing differentiable RANSAC algorithms. To this end, we proposed a Depth-Guided Edge Convolutional Network (DGECN) for 6D pose estimation task. We have made efforts from the following three aspects: 1) We take advantages ofestimated depth information to guide both the correspondences-extraction process and the cascaded differentiable RANSAC algorithm with geometric information. 2)We leverage the uncertainty ofthe estimated depth map to improve accuracy and robustness ofthe output 6D pose. 3) We propose a differentiable Perspective-n-Point(PnP) algorithm via edge convolution to explore the topology relations between 2D-3D correspondences. Experiments demonstrate that our proposed network outperforms current works on both effectiveness and efficiency.
翻訳日:2022-04-22 13:53:58 公開日:2022-04-21
# 任意ビット幅ネットワーク:結合層幅量子化と適応推論アプローチ

Arbitrary Bit-width Network: A Joint Layer-Wise Quantization and Adaptive Inference Approach ( http://arxiv.org/abs/2204.09992v1 )

ライセンス: Link先を確認
Chen Tang, Haoyu Zhai, Kai Ouyang, Zhi Wang, Yifei Zhu, Wenwu Zhu(参考訳) 従来のモデル量子化法では、異なるデータサンプルに対して固定量子化スキームを使用しており、様々なサンプル間の固有の「認識困難」の違いを無視している。 異なる量子化スキームで異なるデータサンプルを供給し,細粒度層レベルでデータ依存動的推論を実現することを提案する。 しかし、ビット幅と層の組み合わせが指数関数的に増加しており、このような広い探索空間において単一のモデルを訓練し、実際に使用することが極めて困難であるため、この適応推論を変更可能な層ワイド量子化スキームで実現することは困難である。 そこで本研究では,単一のディープネットワークのビット幅を異なるデータサンプルに対して実行時に変化させることができる任意のビット幅ネットワーク(abn)を提案する。 具体的には、まず、各層を複数のビット幅で割り当てて、必要に応じて異なる定量化が可能な重み共有層量子化可能な「スーパーネットワーク」を構築する。 スーパーネットワークはビット幅と層の組み合わせをかなり多く提供し、それぞれが推論中に無数のモデルを再訓練したり保存したりすることなく使用できる。 第二に、よく訓練されたスーパーネットワークに基づいて、各層のビット幅選択決定をマルコフ決定プロセス(MDP)としてモデル化し、適応推論戦略により解決する。 実験の結果,超ネットワークは精度の低下を伴わずに構築でき,各層のビット幅割り当てを調整して様々な入力をリアルタイムで処理できることがわかった。 imagenet分類では、36.2%のbitopsを節約しながら、1.1%のtop1精度向上を達成している。

Conventional model quantization methods use a fixed quantization scheme to different data samples, which ignores the inherent "recognition difficulty" differences between various samples. We propose to feed different data samples with varying quantization schemes to achieve a data-dependent dynamic inference, at a fine-grained layer level. However, enabling this adaptive inference with changeable layer-wise quantization schemes is challenging because the combination of bit-widths and layers is growing exponentially, making it extremely difficult to train a single model in such a vast searching space and use it in practice. To solve this problem, we present the Arbitrary Bit-width Network (ABN), where the bit-widths of a single deep network can change at runtime for different data samples, with a layer-wise granularity. Specifically, first we build a weight-shared layer-wise quantizable "super-network" in which each layer can be allocated with multiple bit-widths and thus quantized differently on demand. The super-network provides a considerably large number of combinations of bit-widths and layers, each of which can be used during inference without retraining or storing myriad models. Second, based on the well-trained super-network, each layer's runtime bit-width selection decision is modeled as a Markov Decision Process (MDP) and solved by an adaptive inference strategy accordingly. Experiments show that the super-network can be built without accuracy degradation, and the bit-widths allocation of each layer can be adjusted to deal with various inputs on the fly. On ImageNet classification, we achieve 1.1% top1 accuracy improvement while saving 36.2% BitOps.
翻訳日:2022-04-22 13:51:54 公開日:2022-04-21
# ラベルを減らす: 人物再識別のためのペアアクティブラーニングのサポート

Towards Fewer Labels: Support Pair Active Learning for Person Re-identification ( http://arxiv.org/abs/2204.10008v1 )

ライセンス: Link先を確認
Dapeng Jin, Minxian Li(参考訳) 教師付き学習に基づく人物再識別(re-id)には大量の手作業によるラベル付きデータが必要である。 本研究では,大規模人物識別のための手動ラベリングコストを低減させる支援ペアアクティブラーニング(SPAL)フレームワークを提案する。 サポートペアは最も有益な関係を提供し、差別的な特徴学習をサポートすることができる。 具体的には、まず、サポートペアを反復的に発見し、人間のアノテーションを必要とする2つの不確実性選択戦略を設計する。 その後,ラベル付きサポートペアの関連を他のラベル付きサンプルに伝達する制約付きクラスタリングアルゴリズムを導入する。 さらに,教師なしコントラスト損失と教師なしサポートペア損失からなるハイブリッド学習戦略を提案し,識別的再識別特徴表現を学習する。 提案する全体的なフレームワークは,重要なサポートペアをマイニングし,活用することにより,ラベリングコストを効果的に削減することができる。 大規模人物再帰ベンチマークにおける最先端の能動学習手法よりも,提案手法が優れていることを示す実験が盛んである。

Supervised-learning based person re-identification (re-id) require a large amount of manual labeled data, which is not applicable in practical re-id deployment. In this work, we propose a Support Pair Active Learning (SPAL) framework to lower the manual labeling cost for large-scale person reidentification. The support pairs can provide the most informative relationships and support the discriminative feature learning. Specifically, we firstly design a dual uncertainty selection strategy to iteratively discover support pairs and require human annotations. Afterwards, we introduce a constrained clustering algorithm to propagate the relationships of labeled support pairs to other unlabeled samples. Moreover, a hybrid learning strategy consisting of an unsupervised contrastive loss and a supervised support pair loss is proposed to learn the discriminative re-id feature representation. The proposed overall framework can effectively lower the labeling cost by mining and leveraging the critical support pairs. Extensive experiments demonstrate the superiority of the proposed method over state-of-the-art active learning methods on large-scale person re-id benchmarks.
翻訳日:2022-04-22 13:51:24 公開日:2022-04-21
# ステレオビデオ超解像のための新しいデータセットと変換器

A New Dataset and Transformer for Stereoscopic Video Super-Resolution ( http://arxiv.org/abs/2204.10039v1 )

ライセンス: Link先を確認
Hassan Imani, Md Baharul Islam, Lai-Kuan Wong(参考訳) ステレオビデオ超解像(SVSR)は,高解像度映像を再構成することで低解像度映像の空間分解能を高めることを目的としている。 SVSRの鍵となる課題は、立体的一貫性と時間的一貫性を維持することである。 立体像超解像の研究はいくつかあるが、ステレオビデオ超解像の研究はほとんどない。 本稿では,SVSR のトランスフォーマーモデル,すなわち Trans-SVSR を提案する。 Trans-SVSRは、時空間の畳み込み自己保持層と、異なるビデオフレーム間の相関を発見し、特徴を整列する光フローベースのフィードフォワード層である。 立体視を融合させるために、横断視情報を用いて重要な相違を考慮するパララックスアテンション機構(PAM)を用いる。 SVSRタスクに適したベンチマークデータセットがないため、プロのステレオカメラで撮影した71個のフルHDステレオビデオを含む新しいステレオビデオデータセットSVSR-Setを収集した。 収集されたデータセットに関する広範な実験と、他の2つのデータセットは、trans-svsrが最先端の方法に比べて競争力のある性能を達成できることを示しています。 プロジェクトコードと追加結果はhttps://github.com/h-deep/trans-svsr/で入手できる。

Stereo video super-resolution (SVSR) aims to enhance the spatial resolution of the low-resolution video by reconstructing the high-resolution video. The key challenges in SVSR are preserving the stereo-consistency and temporal-consistency, without which viewers may experience 3D fatigue. There are several notable works on stereoscopic image super-resolution, but there is little research on stereo video super-resolution. In this paper, we propose a novel Transformer-based model for SVSR, namely Trans-SVSR. Trans-SVSR comprises two key novel components: a spatio-temporal convolutional self-attention layer and an optical flow-based feed-forward layer that discovers the correlation across different video frames and aligns the features. The parallax attention mechanism (PAM) that uses the cross-view information to consider the significant disparities is used to fuse the stereo views. Due to the lack of a benchmark dataset suitable for the SVSR task, we collected a new stereoscopic video dataset, SVSR-Set, containing 71 full high-definition (HD) stereo videos captured using a professional stereo camera. Extensive experiments on the collected dataset, along with two other datasets, demonstrate that the Trans-SVSR can achieve competitive performance compared to the state-of-the-art methods. Project code and additional results are available at https://github.com/H-deep/Trans-SVSR/
翻訳日:2022-04-22 13:51:08 公開日:2022-04-21
# 絶対的誤り: 負の決定論的情報による弱い教師付き物体検出の促進

Absolute Wrong Makes Better: Boosting Weakly Supervised Object Detection via Negative Deterministic Information ( http://arxiv.org/abs/2204.10068v1 )

ライセンス: Link先を確認
Guanchun Wang, Xiangrong Zhang, Zelin Peng, Xu Tang, Huiyu Zhou, Licheng Jiao(参考訳) 弱教師付きオブジェクト検出(WSOD)は、画像レベルのラベル(画像全体のインスタンスのカテゴリなど)をオブジェクト検出器のトレーニングに使用する、困難なタスクである。 既存の多くのメソッドはMIL(Multiple Case Learning)パラダイムに従っており、有望なパフォーマンスを実現している。 しかし、決定論的情報の欠如は、部分的な支配と欠落に繋がる。 本稿は,WSODにおける決定論的情報の特定と活用に焦点を当てる。 負のインスタンス(すなわち全く間違ったインスタンス)が、以前の研究の多くで無視され、通常は貴重な決定論的情報を含んでいることを発見した。 そこで本研究では,WSOD改善のための負決定性情報(NDI)に基づく手法,すなわちNDI-WSODを提案する。 具体的には,NDIの収集と活用の2段階からなる。 収集段階では,NDIをオンラインの負のインスタンスから識別し,蒸留するプロセスをいくつか設計する。 評価段階において,抽出したNDIを用いて,新たな負のコントラスト学習機構と負のガイド付きインスタンス選択戦略を構築し,それぞれが部分支配と欠落するインスタンスの問題に対処する。 VOC 2007 や VOC 2012 や MS COCO などの公開ベンチマークによる実験結果から,本手法が良好な性能を発揮することが示された。

Weakly supervised object detection (WSOD) is a challenging task, in which image-level labels (e.g., categories of the instances in the whole image) are used to train an object detector. Many existing methods follow the standard multiple instance learning (MIL) paradigm and have achieved promising performance. However, the lack of deterministic information leads to part domination and missing instances. To address these issues, this paper focuses on identifying and fully exploiting the deterministic information in WSOD. We discover that negative instances (i.e. absolutely wrong instances), ignored in most of the previous studies, normally contain valuable deterministic information. Based on this observation, we here propose a negative deterministic information (NDI) based method for improving WSOD, namely NDI-WSOD. Specifically, our method consists of two stages: NDI collecting and exploiting. In the collecting stage, we design several processes to identify and distill the NDI from negative instances online. In the exploiting stage, we utilize the extracted NDI to construct a novel negative contrastive learning mechanism and a negative guided instance selection strategy for dealing with the issues of part domination and missing instances, respectively. Experimental results on several public benchmarks including VOC 2007, VOC 2012 and MS COCO show that our method achieves satisfactory performance.
翻訳日:2022-04-22 13:50:43 公開日:2022-04-21
# OSSO:外部からの骨格形状の確認

OSSO: Obtaining Skeletal Shape from Outside ( http://arxiv.org/abs/2204.10129v1 )

ライセンス: Link先を確認
Marilyn Keller, Silvia Zuffi, Michael J. Black and Sergi Pujades(参考訳) 我々は、人体の3d表面から、任意の姿勢で、人の解剖学的骨格を推測する問題、すなわち、外側から内側(骨)を予測する問題(皮膚)に対処する。 これは医学やバイオメカニクスに多くの応用がある。 既存の最先端のバイオメカニカルスケルトンは詳細であるが、新しい科目への一般化は容易ではない。 さらに、骨格を予測するコンピュータビジョンとグラフィックスの手法は、典型的にはヒューリスティックであり、データから学ばず、完全な3Dボディサーフェスを活用せず、地上の真実に対して検証されない。 私たちの知る限りでは、osso(外部からの骨格形状の取得)と呼ばれるシステムは、実データから3dボディ表面から内部骨格へのマッピングを最初に学んだシステムです。 dxa(d-ray absorptiometry)スキャンは男性1000人、女性1000人を対象に行います。 これらに対して,体表面を捉えるためにパラメトリック3dボディシェイプモデル(star)と,骨を捉えるための新しい部分ベースの3dスケルトンモデルに適合する。 これは内外のトレーニングペアを提供する。 ポーズ正規化空間におけるPCAを用いた全骨格の統計的変動をモデル化する。 次に,身体形状パラメータから骨格形状パラメータへの回帰器の訓練を行い,身体的可能性の制約を満たすために骨格を洗練する。 任意の3Dボディ形状とポーズを与えられたOSSOは、内部の現実的な骨格を予測する。 従来の研究とは対照的に,ホールドアウトdxaスキャンによる骨格形状の精度を定量的に評価した。 また, 多様な3次元体から3次元骨格予測を行った。 体形から骨格を推測するコードはhttps://osso.is.tue.mpg.de/で研究され、Biobank Returned Datasetとして、対の外部表面(皮膚)と骨格(骨)メッシュのデータセットが利用可能である。 この研究はイギリスのバイオバンク資源を用いて行われている。

We address the problem of inferring the anatomic skeleton of a person, in an arbitrary pose, from the 3D surface of the body; i.e. we predict the inside (bones) from the outside (skin). This has many applications in medicine and biomechanics. Existing state-of-the-art biomechanical skeletons are detailed but do not easily generalize to new subjects. Additionally, computer vision and graphics methods that predict skeletons are typically heuristic, not learned from data, do not leverage the full 3D body surface, and are not validated against ground truth. To our knowledge, our system, called OSSO (Obtaining Skeletal Shape from Outside), is the first to learn the mapping from the 3D body surface to the internal skeleton from real data. We do so using 1000 male and 1000 female dual-energy X-ray absorptiometry (DXA) scans. To these, we fit a parametric 3D body shape model (STAR) to capture the body surface and a novel part-based 3D skeleton model to capture the bones. This provides inside/outside training pairs. We model the statistical variation of full skeletons using PCA in a pose-normalized space. We then train a regressor from body shape parameters to skeleton shape parameters and refine the skeleton to satisfy constraints on physical plausibility. Given an arbitrary 3D body shape and pose, OSSO predicts a realistic skeleton inside. In contrast to previous work, we evaluate the accuracy of the skeleton shape quantitatively on held-out DXA scans, outperforming the state-of-the-art. We also show 3D skeleton prediction from varied and challenging 3D bodies. The code to infer a skeleton from a body shape is available for research at https://osso.is.tue.mpg.de/, and the dataset of paired outer surface (skin) and skeleton (bone) meshes is available as a Biobank Returned Dataset. This research has been conducted using the UK Biobank Resource.
翻訳日:2022-04-22 13:50:21 公開日:2022-04-21
# 高速でフレキシブルでロバストな低光画像強調に向けて

Toward Fast, Flexible, and Robust Low-Light Image Enhancement ( http://arxiv.org/abs/2204.10137v1 )

ライセンス: Link先を確認
Long Ma, Tengyu Ma, Risheng Liu, Xin Fan, Zhongxuan Luo(参考訳) 既存の低照度画像強調技術は、視覚的品質と計算効率の両方を扱うのが難しいだけでなく、未知の複雑なシナリオでは一般的に無効である。 本稿では,現実の低照度シナリオにおける高速でフレキシブルで堅牢な鮮明化を実現するための,自己校正イルミネーション(SCI)学習フレームワークを開発する。 具体的には,重み共有による逐次照明学習プロセスを確立し,その処理を行う。 カスケードパターンの計算負担を考慮すると、各ステージの結果の収束を実現する自己校正モジュールを構築し、単一の基本ブロックのみを推論に使用するゲイン(これは以前の作業では利用されていない)を生成し、計算コストを大幅に削減する。 次に、教師なしのトレーニング損失を定義し、一般的な場面に適応できるモデル能力を高める。 さらに,動作に敏感な適応性(異なる単純な操作条件下での安定した性能)やモデル非関連な一般性(照明に基づく既存の作業に応用して性能を向上させる)を含む,SCI固有の特性(既存の作業の欠落)を総合的に探究する。 最後に、多くの実験とアブレーション研究は、我々の品質と効率の両面で優位性を示している。 低照度顔検出と夜間セマンティクスセグメンテーションの応用は、sciの潜在実用的価値を完全に明らかにしている。 ソースコードはhttps://github.com/vis-opt-group/sciで入手できる。

Existing low-light image enhancement techniques are mostly not only difficult to deal with both visual quality and computational efficiency but also commonly invalid in unknown complex scenarios. In this paper, we develop a new Self-Calibrated Illumination (SCI) learning framework for fast, flexible, and robust brightening images in real-world low-light scenarios. To be specific, we establish a cascaded illumination learning process with weight sharing to handle this task. Considering the computational burden of the cascaded pattern, we construct the self-calibrated module which realizes the convergence between results of each stage, producing the gains that only use the single basic block for inference (yet has not been exploited in previous works), which drastically diminishes computation cost. We then define the unsupervised training loss to elevate the model capability that can adapt to general scenes. Further, we make comprehensive explorations to excavate SCI's inherent properties (lacking in existing works) including operation-insensitive adaptability (acquiring stable performance under the settings of different simple operations) and model-irrelevant generality (can be applied to illumination-based existing works to improve performance). Finally, plenty of experiments and ablation studies fully indicate our superiority in both quality and efficiency. Applications on low-light face detection and nighttime semantic segmentation fully reveal the latent practical values for SCI. The source code is available at https://github.com/vis-opt-group/SCI.
翻訳日:2022-04-22 13:49:47 公開日:2022-04-21
# 芸術的特徴整形術における回転不変特徴を用いた一症例

A case for using rotation invariant features in state of the art feature matchers ( http://arxiv.org/abs/2204.10144v1 )

ライセンス: Link先を確認
Georg B\"okman, Fredrik Kahl(参考訳) 本研究の目的は, バックボーンCNNを, 翻訳や画像回転と等価なステアブルCNNに置き換えることで, アート・フィーチャー・マーカ(LoFTR)の状態をより堅牢に回転させることができることを示すことである。 通常の照明および視点整合シーケンスの性能を低下させることなく, このブーストが得られた。

The aim of this paper is to demonstrate that a state of the art feature matcher (LoFTR) can be made more robust to rotations by simply replacing the backbone CNN with a steerable CNN which is equivariant to translations and image rotations. It is experimentally shown that this boost is obtained without reducing performance on ordinary illumination and viewpoint matching sequences.
翻訳日:2022-04-22 13:49:23 公開日:2022-04-21
# smartportraits: 状態推定、再構成、合成のための人間の肖像画の奥行き駆動ハンドヘルドスマートフォンデータセット

SmartPortraits: Depth Powered Handheld Smartphone Dataset of Human Portraits for State Estimation, Reconstruction and Synthesis ( http://arxiv.org/abs/2204.10211v1 )

ライセンス: Link先を確認
Anastasiia Kornilova, Marsel Faizullin, Konstantin Pakulev, Andrey Sadkov, Denis Kukushkin, Azat Akhmetyanov, Timur Akhtyamov, Hekmat Taherinejad, Gonzalo Ferrer(参考訳) 本稿では,手持ち型スマートフォンと外部高画質深度カメラを用いて,実環境および非制御環境に記録された人物像の1000種類の映像系列のデータセットを提案する。 収集されたデータセットは、異なるポーズや場所でキャプチャされた200人を含み、その主な目的は、スマートフォンから得られた生測値と、状態推定、3D再構成、ビュー合成などの下流アプリケーションとのギャップを埋めることである。 データ収集に使用されるセンサーは、スマートフォンのカメラと慣性測定ユニット(IMU)、外部のAzure Kinect DKデプスカメラソフトウェアで、スマートフォンシステムにミリ秒以下の精度で同期する。 録音中、スマートフォンのフラッシュは周期的な二次的な雷源を提供するために使用される。 最上位者の正確なマスクと、そのカメラアライメント精度への影響を提供する。 評価のために,モーションキャプチャシステムを用いて,最先端カメラアライメント手法を複数比較した。 ポートレートキャプチャーのためのスマートフォンのビジュアル・慣性ベンチマークを行い、複数の手法で結果を報告し、データセット、ビュー合成および3D再構成タスクで利用可能なトラジェクトリのさらなる活用を動機づける。

We present a dataset of 1000 video sequences of human portraits recorded in real and uncontrolled conditions by using a handheld smartphone accompanied by an external high-quality depth camera. The collected dataset contains 200 people captured in different poses and locations and its main purpose is to bridge the gap between raw measurements obtained from a smartphone and downstream applications, such as state estimation, 3D reconstruction, view synthesis, etc. The sensors employed in data collection are the smartphone's camera and Inertial Measurement Unit (IMU), and an external Azure Kinect DK depth camera software synchronized with sub-millisecond precision to the smartphone system. During the recording, the smartphone flash is used to provide a periodic secondary source of lightning. Accurate mask of the foremost person is provided as well as its impact on the camera alignment accuracy. For evaluation purposes, we compare multiple state-of-the-art camera alignment methods by using a Motion Capture system. We provide a smartphone visual-inertial benchmark for portrait capturing, where we report results for multiple methods and motivate further use of the provided trajectories, available in the dataset, in view synthesis and 3D reconstruction tasks.
翻訳日:2022-04-22 13:48:16 公開日:2022-04-21
# HEATGait:グラフ畳み込みに基づく歩行認識におけるホップ抽出適応手法

HEATGait: Hop-Extracted Adjacency Technique in Graph Convolution based Gait Recognition ( http://arxiv.org/abs/2204.10238v1 )

ライセンス: Link先を確認
Md. Bakhtiar Hasan, Tasnim Ahmed, Md. Hasanul Kabir(参考訳) 歩行を用いた生体認証は邪魔にならない性質から有望な分野となっている。 時空間グラフを用いた歩行特徴のエレガント抽出のためのモデルに基づく歩行認識手法の最近のアプローチ しかし、既存の手法は、しばしば、偏重み付けをもたらす関節間の長距離関係を抽出するマルチスケール演算子に依存している。 本稿では,既存のマルチスケールグラフ畳み込みを改善し,効率的なホップ抽出手法を用いてこの問題を緩和する歩行認識システムであるheatgaitを提案する。 CASIA-B歩行データセット上でのモデルベース歩行認識において,ResGCNを用いた最先端性能を実現する強力な特徴抽出器を提案する。

Biometric authentication using gait has become a promising field due to its unobtrusive nature. Recent approaches in model-based gait recognition techniques utilize spatio-temporal graphs for the elegant extraction of gait features. However, existing methods often rely on multi-scale operators for extracting long-range relationships among joints resulting in biased weighting. In this paper, we present HEATGait, a gait recognition system that improves the existing multi-scale graph convolution by efficient hop-extraction technique to alleviate the issue. Combined with preprocessing and augmentation techniques, we propose a powerful feature extractor that utilizes ResGCN to achieve state-of-the-art performance in model-based gait recognition on the CASIA-B gait dataset.
翻訳日:2022-04-22 13:47:55 公開日:2022-04-21
# (参考訳) SpaceE: エンティティ空間における関係線形変換による知識グラフの埋め込み

SpaceE: Knowledge Graph Embedding by Relational Linear Transformation in the Entity Space ( http://arxiv.org/abs/2204.10245v1 )

ライセンス: CC BY 4.0
Jinxing Yu, Yunfeng Cai, Mingming Sun, Ping Li(参考訳) TransEやRotatEのような翻訳距離に基づく知識グラフ埋め込み(KGE)法は、知識グラフにおける関係をベクトル空間における翻訳や回転としてモデル化する。 翻訳と回転はともに単射であり、異なるベクトルの変換または回転は異なる結果をもたらす。 知識グラフでは、異なる実体は同一の実体と関係があるかもしれない。 このような非インジェクティブ関係パターンは、既存の翻訳距離に基づくkge法における変換や回転操作によってうまくモデル化できない。 この課題に対処するため、線形変換として関係をモデル化するSpaceEと呼ばれる翻訳距離に基づくKGE手法を提案する。 提案された空間は、知識グラフの実体と関係の両方を行列として埋め込み、特異線型変換に対する非インジェクティブ関係を自然にモデル化する。 理論的には、SpaceEは、対称性、スキュー対称性、反転、アベリア構成、非アベリア構成を含む複数の望ましい関係パターンを推論できる完全表現モデルである。 リンク予測データセットにおける実験の結果は、spaceeが以前の多くの翻訳距離に基づく知識グラフ埋め込み法、特に多くの非インジェクティブ関係を持つデータセットを実質的に上回っていることを示している。 コードはpaddlepaddle deep learning platform https://www.paddlepaddle.org.cn.で入手できる。

Translation distance based knowledge graph embedding (KGE) methods, such as TransE and RotatE, model the relation in knowledge graphs as translation or rotation in the vector space. Both translation and rotation are injective; that is, the translation or rotation of different vectors results in different results. In knowledge graphs, different entities may have a relation with the same entity; for example, many actors starred in one movie. Such a non-injective relation pattern cannot be well modeled by the translation or rotation operations in existing translation distance based KGE methods. To tackle the challenge, we propose a translation distance-based KGE method called SpaceE to model relations as linear transformations. The proposed SpaceE embeds both entities and relations in knowledge graphs as matrices and SpaceE naturally models non-injective relations with singular linear transformations. We theoretically demonstrate that SpaceE is a fully expressive model with the ability to infer multiple desired relation patterns, including symmetry, skew-symmetry, inversion, Abelian composition, and non-Abelian composition. Experimental results on link prediction datasets illustrate that SpaceE substantially outperforms many previous translation distance based knowledge graph embedding methods, especially on datasets with many non-injective relations. The code is available based on the PaddlePaddle deep learning platform https://www.paddlepaddle.org.cn.
翻訳日:2022-04-22 13:46:10 公開日:2022-04-21
# ニューラルトピックモデリングはクラスタリングより優れているか? トピックのコンテキスト埋め込みによるクラスタリングに関する実証的研究

Is Neural Topic Modelling Better than Clustering? An Empirical Study on Clustering with Contextual Embeddings for Topics ( http://arxiv.org/abs/2204.09874v1 )

ライセンス: Link先を確認
Zihan Zhang, Meng Fang, Ling Chen, Mohammad-Reza Namazi-Rad(参考訳) 最近の研究は、BERT埋め込みのような事前訓練された単語埋め込みをニューラルトピックモデル(NTM)に組み込み、高度に一貫性のあるトピックを生成する。 しかし、高品質なコンテキスト化されたドキュメント表現では、一貫性と解釈可能なトピックを得るために、本当に高度なニューラルネットワークが必要か? 本稿では,高品質な文の埋め込みを適切な単語選択手法で直接クラスタリングすることで,NTMよりも一貫性と多種多様なトピックを生成できることを示す。

Recent work incorporates pre-trained word embeddings such as BERT embeddings into Neural Topic Models (NTMs), generating highly coherent topics. However, with high-quality contextualized document representations, do we really need sophisticated neural models to obtain coherent and interpretable topics? In this paper, we conduct thorough experiments showing that directly clustering high-quality sentence embeddings with an appropriate word selecting method can generate more coherent and diverse topics than NTMs, achieving also higher efficiency and simplicity.
翻訳日:2022-04-22 13:24:09 公開日:2022-04-21
# テキスト生成の参照フリー評価におけるスプリアス相関

Spurious Correlations in Reference-Free Evaluation of Text Generation ( http://arxiv.org/abs/2204.09890v1 )

ライセンス: Link先を確認
Esin Durmus, Faisal Ladhak, Tatsunori Hashimoto(参考訳) モデルベース、参照フリーの評価指標は、自然言語生成(nlg)システムを評価するための高速でコスト効率の良いアプローチとして提案されている。 近年の有望な結果にもかかわらず、要約とダイアログ生成の基準フリー評価指標が、単語重複、パープレキシティ、長さなどの尺度と急激な相関に依拠している可能性が示唆されている。 さらに,テキスト要約では,現在最先端の抽象要約システムをランク付けする場合,これらの指標がエラー率が高いことを観察する。 評価指標を明示的に設計し,参照不要な評価の急激な特徴を避けることで,これらの誤差を軽減できることを示す。

Model-based, reference-free evaluation metrics have been proposed as a fast and cost-effective approach to evaluate Natural Language Generation (NLG) systems. Despite promising recent results, we find evidence that reference-free evaluation metrics of summarization and dialog generation may be relying on spurious correlations with measures such as word overlap, perplexity, and length. We further observe that for text summarization, these metrics have high error rates when ranking current state-of-the-art abstractive summarization systems. We demonstrate that these errors can be mitigated by explicitly designing evaluation metrics to avoid spurious features in reference-free evaluation.
翻訳日:2022-04-22 13:23:59 公開日:2022-04-21
# 質問応答に基づく要約評価指標のベンチマーク回答検証手法

Benchmarking Answer Verification Methods for Question Answering-Based Summarization Evaluation Metrics ( http://arxiv.org/abs/2204.10206v1 )

ライセンス: Link先を確認
Daniel Deutsch and Dan Roth(参考訳) 質問応答に基づく要約評価メトリクスは、QAモデルの予測が正しいかどうかを自動的に判断する必要がある。 本研究では,従来のQAベースのメトリクスと,BERTScoreとLERCの2つの高度なテキスト比較手法を用いて,語彙的回答検証手法をベンチマークする。 LERCは,一部の設定では他の手法よりも優れており,他の設定では語彙重複と統計的に区別できない。 しかし、我々の実験は、検証性能の改善が必ずしもQAベースのメトリクス品質に必ずしも変換されないことを明らかにしている。 シナリオによっては、悪い検証方法(または全く使わない)を使用することは、データセットの特性に起因する結果である最高の検証方法と同等のパフォーマンスを持つ。

Question answering-based summarization evaluation metrics must automatically determine whether the QA model's prediction is correct or not, a task known as answer verification. In this work, we benchmark the lexical answer verification methods which have been used by current QA-based metrics as well as two more sophisticated text comparison methods, BERTScore and LERC. We find that LERC out-performs the other methods in some settings while remaining statistically indistinguishable from lexical overlap in others. However, our experiments reveal that improved verification performance does not necessarily translate to overall QA-based metric quality: In some scenarios, using a worse verification method -- or using none at all -- has comparable performance to using the best verification method, a result that we attribute to properties of the datasets.
翻訳日:2022-04-22 13:23:49 公開日:2022-04-21
# 自動要約評価指標の再検討システム-レベル相関

Re-Examining System-Level Correlations of Automatic Summarization Evaluation Metrics ( http://arxiv.org/abs/2204.10216v1 )

ライセンス: Link先を確認
Daniel Deutsch and Rotem Dror and Dan Roth(参考訳) システムレベルの相関により, 要約品質の人的判断を再現する自動要約評価指標を確実に定量化する。 システムレベルの相関の定義が、実際にシステムを評価するためのメトリクスの使用方法と矛盾する2つの方法を特定し、この切り離しを正すための変更を提案する。 まず,人間によって判断されるサマリーのサブセットではなく,全テストセットを用いて自動測定値のシステムスコアを計算する。 この小さな変化がシステムレベルの相関関係をより正確に見積もることを示す。 第2に,実際に一般的に見られる自動スコアの小さな差によって分離されたシステム対のみの相関を計算することを提案する。 これにより、現実的なシナリオにおいて、ROUGEと人間の判断の相関関係の最良の推定が0に近いことを示すことができる。 分析の結果,システムスコアの差が小さい場合に,より高品質な人的判断を収集し,自動測定値を改善する必要性が示唆された。

How reliably an automatic summarization evaluation metric replicates human judgments of summary quality is quantified by system-level correlations. We identify two ways in which the definition of the system-level correlation is inconsistent with how metrics are used to evaluate systems in practice and propose changes to rectify this disconnect. First, we calculate the system score for an automatic metric using the full test set instead of the subset of summaries judged by humans, which is currently standard practice. We demonstrate how this small change leads to more precise estimates of system-level correlations. Second, we propose to calculate correlations only on pairs of systems that are separated by small differences in automatic scores which are commonly observed in practice. This allows us to demonstrate that our best estimate of the correlation of ROUGE to human judgments is near 0 in realistic scenarios. The results from the analyses point to the need to collect more high-quality human judgments and to improve automatic metrics when differences in system scores are small.
翻訳日:2022-04-22 13:23:31 公開日:2022-04-21
# diffcse: 差異に基づく文埋め込みのコントラスト学習

DiffCSE: Difference-based Contrastive Learning for Sentence Embeddings ( http://arxiv.org/abs/2204.10298v1 )

ライセンス: Link先を確認
Yung-Sung Chuang, Rumen Dangovski, Hongyin Luo, Yang Zhang, Shiyu Chang, Marin Solja\v{c}i\'c, Shang-Wen Li, Wen-tau Yih, Yoon Kim, James Glass(参考訳) 文埋め込み学習のための教師なしコントラスト学習フレームワークであるDiffCSEを提案する。 DiffCSEは、原文と編集文との差に敏感な文埋め込みを学習し、原文を確率的にマスキングし、その後、仮面言語モデルからサンプリングすることにより、編集文を得る。 diffsce は同変コントラスト学習 (dangovski et al., 2021) の例であり, コントラスト学習を一般化し, ある種の増補に非感受性で他の「調和」タイプの増補に敏感な表現を学ぶ。 DiffCSEは、教師なし文表現学習法において、意味的テキスト類似性タスクにおける2.3の絶対点において、教師なしのSimCSEよりも優れていることを示す。

We propose DiffCSE, an unsupervised contrastive learning framework for learning sentence embeddings. DiffCSE learns sentence embeddings that are sensitive to the difference between the original sentence and an edited sentence, where the edited sentence is obtained by stochastically masking out the original sentence and then sampling from a masked language model. We show that DiffSCE is an instance of equivariant contrastive learning (Dangovski et al., 2021), which generalizes contrastive learning and learns representations that are insensitive to certain types of augmentations and sensitive to other "harmful" types of augmentations. Our experiments show that DiffCSE achieves state-of-the-art results among unsupervised sentence representation learning methods, outperforming unsupervised SimCSE by 2.3 absolute points on semantic textual similarity tasks.
翻訳日:2022-04-22 13:23:15 公開日:2022-04-21
# 純極線形時間論理における時限拡張ゴールの計画:標準計画への多項式還元

Planning for Temporally Extended Goals in Pure-Past Linear Temporal Logic: A Polynomial Reduction to Standard Planning ( http://arxiv.org/abs/2204.09960v1 )

ライセンス: Link先を確認
Giuseppe De Giacomo, Marco Favorito, Francesco Fuggitti(参考訳) PPLTL(Pure-Past LTL)で表される時間拡張目標について検討した。 PPLTLは、フォーマルメソッドの文献のように洗練されたタスクを表現できるのに対して、決定論的および非決定論的ドメイン(FOND)におけるプランニングの最悪の計算複雑性は、古典的な到達可能性の目標と同じである。 しかし, PPLTL目標の計画理論はよく理解されているものの, 実用ツールについては特に研究されていない。 本稿では,PLTLの目標を達成するための実際のツールの構築において,大きな前進を遂げる。 PPLTL目標の計画を標準計画に多項式変換する手法を考案する。 本稿では, 翻訳の形式的正確性, 複雑さ, 実用性について比較実験を行った。 その結果,FD や MyND といった最先端のツールが PPLTL の目標をシームレスに扱えるようになり,従来の到達性目標に対する印象的な性能を維持した。

We study temporally extended goals expressed in Pure-Past LTL (PPLTL). PPLTL is particularly interesting for expressing goals since it allows to express sophisticated tasks as in the Formal Methods literature, while the worst-case computational complexity of Planning in both deterministic and nondeterministic domains (FOND) remains the same as for classical reachability goals. However, while the theory of planning for PPLTL goals is well understood, practical tools have not been specifically investigated. In this paper, we make a significant leap forward in the construction of actual tools to handle PPLTL goals. We devise a technique to polynomially translate planning for PPLTL goals into standard planning. We show the formal correctness of the translation, its complexity, and its practical effectiveness through some comparative experiments. As a result, our translation enables state-of-the-art tools, such as FD or MyND, to handle PPLTL goals seamlessly, maintaining the impressive performances they have for classical reachability goals.
翻訳日:2022-04-22 13:21:22 公開日:2022-04-21
# 抽象的議論における初期集合の再考

Revisiting initial sets in abstract argumentation ( http://arxiv.org/abs/2204.09985v1 )

ライセンス: Link先を確認
Matthias Thimm(参考訳) xu と cayrol、すなわち抽象的議論フレームワークにおける空でない最小許容集合によって初期集合の概念を再検討する。 初期集合は抽象的議論フレームワークの競合を分析し、ある引数が受け入れられる理由を説明するための単純な概念である。 初期集合の構造に関する新たな知見に寄与し、原フレームワークの初期集合とその誘導還元の反復的選択に基づいて、任意の許容集合に対して単純な非決定論的構成原理を考案する。 特に、この構成原理により、既存の許容性に基づく意味論の多くを特徴づけ、拡張の構造に関する構成的な説明を提供する。 また,初期集合の計算複雑性に関する問題についても検討する。

We revisit the notion of initial sets by Xu and Cayrol, i.e., non-empty minimal admissible sets in abstract argumentation frameworks. Initial sets are a simple concept for analysing conflicts in an abstract argumentation framework and to explain why certain arguments can be accepted. We contribute with new insights on the structure of initial sets and devise a simple non-deterministic construction principle for any admissible set, based on iterative selection of initial sets of the original framework and its induced reducts. In particular, we characterise many existing admissibility-based semantics via this construction principle, thus providing a constructive explanation on the structure of extensions. We also investigate certain problems related to initial sets with respect to their computational complexity.
翻訳日:2022-04-22 13:21:03 公開日:2022-04-21
# 高速advprop

Fast AdvProp ( http://arxiv.org/abs/2204.09838v1 )

ライセンス: Link先を確認
Jieru Mei, Yucheng Han, Yutong Bai, Yixiao Zhang, Yingwei Li, Xianhang Li, Alan Yuille, Cihang Xie(参考訳) adversarial propagation (advprop)は、adversarial例を利用して認識モデルを改善する効果的な方法である。 それにもかかわらず、AdvPropのトレーニング速度は非常に遅い。 a) 反対例を生成するには,追加の前方及び後方パスが必要である。 b) 元のサンプルと、その逆のサンプルの両方が訓練に使用される(すなわち、2$\times$ data)。 本稿では,advpropの高価なトレーニングコンポーネントを積極的に改良し,バニラトレーニングと同程度の安価化を図るfast advpropを提案する。 特に、Fast AdvPropにおける我々の修正は、非交互学習がパフォーマンス改善の鍵であり、他のトレーニングレシピ(例えば、ペアのクリーンで逆行的なトレーニングサンプル、マルチステップの逆行攻撃)は大幅に単純化されるという仮説によって導かれる。 我々の経験的結果は、バニラトレーニングベースラインと比較して、Fast AdvPropは、余分なトレーニングコストを伴わずに、様々なビジュアルベンチマークでパフォーマンスをモデル化できることを示している。 さらに、より大規模なモデルを使用する場合、高速なAdvPropスケールが向上し、既存のデータ拡張メソッド(MixupやCutMixなど)と互換性があり、オブジェクト検出などの他の認識タスクに容易に適応できます。 コードは、https://github.com/meijieru/fast_advprop.comで入手できる。

Adversarial Propagation (AdvProp) is an effective way to improve recognition models, leveraging adversarial examples. Nonetheless, AdvProp suffers from the extremely slow training speed, mainly because: a) extra forward and backward passes are required for generating adversarial examples; b) both original samples and their adversarial counterparts are used for training (i.e., 2$\times$ data). In this paper, we introduce Fast AdvProp, which aggressively revamps AdvProp's costly training components, rendering the method nearly as cheap as the vanilla training. Specifically, our modifications in Fast AdvProp are guided by the hypothesis that disentangled learning with adversarial examples is the key for performance improvements, while other training recipes (e.g., paired clean and adversarial training samples, multi-step adversarial attackers) could be largely simplified. Our empirical results show that, compared to the vanilla training baseline, Fast AdvProp is able to further model performance on a spectrum of visual benchmarks, without incurring extra training cost. Additionally, our ablations find Fast AdvProp scales better if larger models are used, is compatible with existing data augmentation methods (i.e., Mixup and CutMix), and can be easily adapted to other recognition tasks like object detection. The code is available here: https://github.com/meijieru/fast_advprop.
翻訳日:2022-04-22 13:20:16 公開日:2022-04-21
# テクスチャ分類改善のためのマルチスケール分析

Multiscale Analysis for Improving Texture Classification ( http://arxiv.org/abs/2204.09841v1 )

ライセンス: Link先を確認
Steve T. M. Ataky and Diego Saqui and Jonathan de Matos and Alceu S. Britto Jr. and Alessandro L. Koerich(参考訳) 画像からの情報は、複数の異なる空間スケールで発生する。 画像ピラミッド多重解像度表現は空間スケールのスペクトル上での画像解析と操作に有用なデータ構造である。 本稿では,ガウス・ラプラキアピラミッドを用いて,テクスチャの異なる空間周波数帯域を別々に扱う。 まず,入力画像としてガウス・ラプラキアピラミッドの3つのレベルに対応する3つの画像を生成し,本質的詳細をキャプチャする。 次に, 生体インスパイアされたテクスチャ記述子, 情報理論測度, グレーレベル共起行列特徴, ハリリック統計特徴から抽出した特徴を特徴ベクトルに集約した。 このような集約は、個々の記述子を別々に使用するのとは異なり、テクスチャを最大限に特徴付ける特徴を生み出すことを目的としており、関連するテキスト情報を失い、分類性能を低下させる可能性がある。 テクスチャと病理画像データセットの実験結果から,提案手法の利点を最先端のアプローチと比較した。 これらの知見は,複数の画像解析の重要性を強調し,上記の記述子が相補的であることを裏付けるものである。

Information from an image occurs over multiple and distinct spatial scales. Image pyramid multiresolution representations are a useful data structure for image analysis and manipulation over a spectrum of spatial scales. This paper employs the Gaussian-Laplacian pyramid to treat different spatial frequency bands of a texture separately. First, we generate three images corresponding to three levels of the Gaussian-Laplacian pyramid for an input image to capture intrinsic details. Then we aggregate features extracted from gray and color texture images using bio-inspired texture descriptors, information-theoretic measures, gray-level co-occurrence matrix features, and Haralick statistical features into a single feature vector. Such an aggregation aims at producing features that characterize textures to their maximum extent, unlike employing each descriptor separately, which may lose some relevant textural information and reduce the classification performance. The experimental results on texture and histopathologic image datasets have shown the advantages of the proposed method compared to state-of-the-art approaches. Such findings emphasize the importance of multiscale image analysis and corroborate that the descriptors mentioned above are complementary.
翻訳日:2022-04-22 13:19:51 公開日:2022-04-21
# マルチモーダル物体検出のための弱アライメント機能融合

Weakly Aligned Feature Fusion for Multimodal Object Detection ( http://arxiv.org/abs/2204.09848v1 )

ライセンス: Link先を確認
Lu Zhang, Zhiyong Liu, Xiangyu Zhu, Zhan Song, Xu Yang, Zhen Lei, Hong Qiao(参考訳) 実世界のシナリオにおいて、正確でロバストな物体検出を実現するために、色、熱、深さなどの様々な画像が組み込まれている。 しかし、マルチモーダルデータはしばしば位置シフトの問題に悩まされる。つまり、画像対は厳密に整列せず、1つのオブジェクトが異なるモードで異なる位置を持つようにする。 ディープラーニング手法では,マルチモーダルな特徴を融合させることが困難であり,畳み込みニューラルネットワーク(CNN)のトレーニングが難解である。 本稿では、位置ずれ問題に対処するために、アライメント領域CNN(AR-CNN)と呼ばれる汎用マルチモーダル検出器を提案する。 まず、隣接した類似性制約を持つ領域特徴(RF)アライメントモジュールを、2つのモード間の位置シフトを一貫して予測し、クロスモーダルRFを適応的にアライメントするように設計する。 第2に,予期しないシフトパターンに対するロバスト性を改善するために,新たなroiジッタ戦略を提案する。 第3に,より信頼性の高い機能を選択し,機能の再重み付けによってより有用でない機能を抑制する,新しいマルチモーダル機能融合手法を提案する。 さらに, 境界ボックスの配置と関係性の構築により, KAIST-Pairedという新しいマルチモーダルラベルを提供する。 2次元および3次元オブジェクト検出、RGB-T、RGB-Dデータセットに関する大規模な実験により、本手法の有効性とロバスト性を実証した。

To achieve accurate and robust object detection in the real-world scenario, various forms of images are incorporated, such as color, thermal, and depth. However, multimodal data often suffer from the position shift problem, i.e., the image pair is not strictly aligned, making one object has different positions in different modalities. For the deep learning method, this problem makes it difficult to fuse multimodal features and puzzles the convolutional neural network (CNN) training. In this article, we propose a general multimodal detector named aligned region CNN (AR-CNN) to tackle the position shift problem. First, a region feature (RF) alignment module with adjacent similarity constraint is designed to consistently predict the position shift between two modalities and adaptively align the cross-modal RFs. Second, we propose a novel region of interest (RoI) jitter strategy to improve the robustness to unexpected shift patterns. Third, we present a new multimodal feature fusion method that selects the more reliable feature and suppresses the less useful one via feature reweighting. In addition, by locating bounding boxes in both modalities and building their relationships, we provide novel multimodal labeling named KAIST-Paired. Extensive experiments on 2-D and 3-D object detection, RGB-T, and RGB-D datasets demonstrate the effectiveness and robustness of our method.
翻訳日:2022-04-22 13:19:34 公開日:2022-04-21
# (参考訳) doodlenet: 熱色セマンティクスセグメンテーションのためのdouble deeplab強化機能融合

DooDLeNet: Double DeepLab Enhanced Feature Fusion for Thermal-color Semantic Segmentation ( http://arxiv.org/abs/2204.10266v1 )

ライセンス: CC BY 4.0
Oriel Frigo, Lucien Martin-Gaff\'e, Catherine Wacongne(参考訳) 本稿では,RGBとLWIRの熱画像の機能融合のための新しいアプローチを提案する。 本研究では,DouDLeNetを提案する。DouDLeNetは熱・色調の専用エンコーダデコーダと最終セグメンテーションのための共有デコーダを備えた2重DeepLabアーキテクチャである。 特徴融合のための2つの戦略、信頼重み付けと相関重み付けを組み合わせる。 MFデータセット上で,最先端の平均IoU値について報告する。

In this paper we present a new approach for feature fusion between RGB and LWIR Thermal images for the task of semantic segmentation for driving perception. We propose DooDLeNet, a double DeepLab architecture with specialized encoder-decoders for thermal and color modalities and a shared decoder for final segmentation. We combine two strategies for feature fusion: confidence weighting and correlation weighting. We report state-of-the-art mean IoU results on the MF dataset.
翻訳日:2022-04-22 13:17:26 公開日:2022-04-21
# cnll : 連続的雑音ラベル学習のための半教師付きアプローチ

CNLL: A Semi-supervised Approach For Continual Noisy Label Learning ( http://arxiv.org/abs/2204.09881v1 )

ライセンス: Link先を確認
Nazmul Karim, Umar Khalid, Ashkan Esmaeili and Nazanin Rahnavard(参考訳) 連続学習の課題は、破滅的な忘れに対処できるアルゴリズムを慎重に設計することである。 しかし、現実のシナリオでは避けられないノイズラベルは、状況を悪化させているようだ。 ノイズラベル下での継続的学習の問題に対処する研究はほとんどないが、長いトレーニング時間と複雑なトレーニングスキームは、ほとんどの場合、その応用を制限する。 対照的に、コスト効率と精度の両立したオンラインデータストリームを効果的に浄化する簡単な浄化手法を提案する。 精製後,半教師方式で微調整を行い,すべてのサンプルの参加を保証する。 この方法でのトレーニングは、最先端(SOTA)のパフォーマンスをもたらすよりよい表現を学ぶのに役立ちます。 MNIST, CIFAR10, CIFAR100の3つのベンチマークデータセットの広範な実験を通じて, 提案手法の有効性を示す。 従来のSOTA法よりも20%のノイズでCIFAR10の24.8%の性能向上を実現した。 私たちのコードは公開されています。

The task of continual learning requires careful design of algorithms that can tackle catastrophic forgetting. However, the noisy label, which is inevitable in a real-world scenario, seems to exacerbate the situation. While very few studies have addressed the issue of continual learning under noisy labels, long training time and complicated training schemes limit their applications in most cases. In contrast, we propose a simple purification technique to effectively cleanse the online data stream that is both cost-effective and more accurate. After purification, we perform fine-tuning in a semi-supervised fashion that ensures the participation of all available samples. Training in this fashion helps us learn a better representation that results in state-of-the-art (SOTA) performance. Through extensive experimentation on 3 benchmark datasets, MNIST, CIFAR10 and CIFAR100, we show the effectiveness of our proposed approach. We achieve a 24.8% performance gain for CIFAR10 with 20% noise over previous SOTA methods. Our code is publicly available.
翻訳日:2022-04-22 13:02:27 公開日:2022-04-21
# ゆらぎに基づく外乱検出

Fluctuation-based Outlier Detection ( http://arxiv.org/abs/2204.10007v1 )

ライセンス: Link先を確認
Xusheng Du, Enguang Zuo, Zhenzhen He, Jiong Yu(参考訳) 外乱検出は機械学習において重要なトピックであり、広範囲のアプリケーションで使われている。 外れ値 (outlier) は数が少なく、ほとんどのオブジェクトから逸脱するオブジェクトである。 これら2つの性質の結果として、外乱率は揺らぎと呼ばれるメカニズムの影響を受けやすいことを示す。 本稿では,低線形時間複雑性を実現し,遠距離,密度,孤立測度を使わずにゆらぎの概念に基づく異常検出を行う,ゆらぎに基づく異常検出(fbod)手法を提案する。 既存の方法と根本的に異なる。 FBODはまずランダムリンクを用いてユークリッド構造データセットをグラフに変換し、それからグラフの接続に応じて特徴値を伝搬する。 最後に、オブジェクトと隣人のゆらぎの差を比較することで、FBODはオブジェクトがより大きい差を外れ値として決定する。 FBODを8つの実世界の表グラフデータセットと3つのビデオデータセットで7つの最先端アルゴリズムと比較した実験の結果、FBODはほとんどのケースでライバルより優れており、FBODは最速のアルゴリズムの実行時間の5%しか持たないことがわかった。 実験コードは、https://github.com/fluctuationod/fluctuation-based-outlier-detectionで利用可能である。

Outlier detection is an important topic in machine learning and has been used in a wide range of applications. Outliers are objects that are few in number and deviate from the majority of objects. As a result of these two properties, we show that outliers are susceptible to a mechanism called fluctuation. This article proposes a method called fluctuation-based outlier detection (FBOD) that achieves a low linear time complexity and detects outliers purely based on the concept of fluctuation without employing any distance, density or isolation measure. Fundamentally different from all existing methods. FBOD first converts the Euclidean structure datasets into graphs by using random links, then propagates the feature value according to the connection of the graph. Finally, by comparing the difference between the fluctuation of an object and its neighbors, FBOD determines the object with a larger difference as an outlier. The results of experiments comparing FBOD with seven state-of-the-art algorithms on eight real-world tabular datasets and three video datasets show that FBOD outperforms its competitors in the majority of cases and that FBOD has only 5% of the execution time of the fastest algorithm. The experiment codes are available at: https://github.com/FluctuationOD/Fluctuation-based-Outlier-Detection.
翻訳日:2022-04-22 13:02:11 公開日:2022-04-21
# LiDARオブジェクト検出ネットワークにおける領域ギャップの理解

Understanding the Domain Gap in LiDAR Object Detection Networks ( http://arxiv.org/abs/2204.10024v1 )

ライセンス: Link先を確認
Jasmine Richter, Florian Faion, Di Feng, Paul Benedikt Becker, Piotr Sielecki and Claudius Glaeser(参考訳) 自律運転を実現するために、ニューラルネットワークはオープンワールドにおいて確実に機能する必要がある。 しかし、オープンワールドは広く、継続的に変化しているため、このドメインを正確に表現したトレーニングデータセットを収集し、注釈付けすることは技術的には不可能である。 したがって、トレーニングデータセットと理解すべきオープンワールドとの間には、常にドメインギャップがある。 本研究では,物体検出ネットワークにおける高分解能と低分解能のLiDARセンサ間の領域ギャップについて検討する。 センサ分解能ドメインギャップを他の効果とは独立に研究できるユニークなデータセットを用いて,推論ドメインギャップとトレーニングドメインギャップという,2つの異なるドメインギャップを示す。 推論領域ギャップは、オブジェクトごとのLiDAR点数に強く依存しているのに対して、トレーニング領域ギャップはそのような依存を示さない。 これらのfndingsは、これらの推論とドメインギャップのトレーニングを閉じるために異なるアプローチが必要であることを示している。

In order to make autonomous driving a reality, artificial neural networks have to work reliably in the open-world. However, the open-world is vast and continuously changing, so it is not technically feasible to collect and annotate training datasets which accurately represent this domain. Therefore, there are always domain gaps between training datasets and the open-world which must be understood. In this work, we investigate the domain gaps between high-resolution and low-resolution LiDAR sensors in object detection networks. Using a unique dataset, which enables us to study sensor resolution domain gaps independent of other effects, we show two distinct domain gaps - an inference domain gap and a training domain gap. The inference domain gap is characterised by a strong dependence on the number of LiDAR points per object, while the training gap shows no such dependence. These fndings show that different approaches are required to close these inference and training domain gaps.
翻訳日:2022-04-22 13:01:50 公開日:2022-04-21
# 人の検出をより堅牢にするためにニューロンのカバレッジは必要か?

Is Neuron Coverage Needed to Make Person Detection More Robust? ( http://arxiv.org/abs/2204.10027v1 )

ライセンス: Link先を確認
Svetlana Pavlitskaya, \c{S}iyar Y{\i}km{\i}\c{s} and J. Marius Z\"ollner(参考訳) 自律運転のような安全およびセキュリティクリティカルな領域におけるディープニューラルネットワーク(DNN)の利用の増加は、その体系的なテストの必要性を高めている。 Coverage-Guided Testing (CGT) は、事前に定義されたカバレッジ基準に従って突然変異やファジッシングを適用し、誤った振る舞いを引き起こすインプットを見つけるアプローチである。 神経カバレッジ指標の導入により、CGTは近年DNNにも適用されている。 本研究では,混雑したシーンにおける人物検出作業にCGTを適用した。 提案したパイプラインは、人検出にYOLOv3を使用し、サンプリングと突然変異によるDNNバグの発見と、更新されたトレーニングセットでのその後のDNN再トレーニングを含む。 バグとなるためには、クリーンな入力に比べて大きなパフォーマンス低下を引き起こすために、変更画像が必要である。 CGTに従って、バグ定義のカバレッジを増大させる追加の要件も検討する。 複数種類のロバスト性を探究するため,本手法では,自然画像変換,汚職,およびデダロス攻撃によって生じる敵の例を含む。 提案したフレームワークでは,DNNの誤動作が数千件報告されている。 再訓練されたモデルのmAP性能の相対的な変化は、異なる堅牢性タイプに対して平均26.21\%から64.24\%に到達した。 しかし, 調査対象の指標が強靭性向上に有効であることを示す証拠は見つかっていない。

The growing use of deep neural networks (DNNs) in safety- and security-critical areas like autonomous driving raises the need for their systematic testing. Coverage-guided testing (CGT) is an approach that applies mutation or fuzzing according to a predefined coverage metric to find inputs that cause misbehavior. With the introduction of a neuron coverage metric, CGT has also recently been applied to DNNs. In this work, we apply CGT to the task of person detection in crowded scenes. The proposed pipeline uses YOLOv3 for person detection and includes finding DNN bugs via sampling and mutation, and subsequent DNN retraining on the updated training set. To be a bug, we require a mutated image to cause a significant performance drop compared to a clean input. In accordance with the CGT, we also consider an additional requirement of increased coverage in the bug definition. In order to explore several types of robustness, our approach includes natural image transformations, corruptions, and adversarial examples generated with the Daedalus attack. The proposed framework has uncovered several thousand cases of incorrect DNN behavior. The relative change in mAP performance of the retrained models reached on average between 26.21\% and 64.24\% for different robustness types. However, we have found no evidence that the investigated coverage metrics can be advantageously used to improve robustness.
翻訳日:2022-04-22 13:01:36 公開日:2022-04-21
# btranspose:自己教師付き事前訓練によるポーズ推定のためのボトルネックトランスフォーマー

BTranspose: Bottleneck Transformers for Human Pose Estimation with Self-Supervised Pre-Training ( http://arxiv.org/abs/2204.10209v1 )

ライセンス: Link先を確認
Kaushik Balakrishnan, Devesh Upadhyay(参考訳) 2次元人間のポーズ推定のタスクは、キーポイントの数が典型的には大きい(約17)ため、入力画像から関連する特徴をキャプチャできる堅牢なニューラルネットワークアーキテクチャとトレーニングパイプラインを使用する必要があるため、難しい。 これらの特徴を集約して正確なヒートマップの予測を行い、人体の一部の最終キーポイントを推測する。 文献上の多くの論文では、バックボーンにcnnベースのアーキテクチャを使用し、そして/またはそれをトランスフォーマーと組み合わせることで、特徴を集約して最終的なキーポイント予測を[1]にする。 本稿では,cnnとマルチヘッド自己注意(mhsa)層を効果的に結合した,最近提案されているボトルネックトランスフォーマ[2]をトランスフォーマエンコーダに統合し,2次元ポーズ推定のタスクに適用する。 DINO自己教師型学習法[3]を用いて,異なるバックボーンアーキテクチャを事前学習し,この事前学習により全体の予測精度が向上することが確認された。 我々はモデルBTransposeと呼び、COCO検証セットでは実験によって76.4のAPが達成され、[1]などの他の手法と競合し、ネットワークパラメータがより少ないことを示す。 さらに、MHSAブロックとTransformerエンコーダ層の両方で予測される最後のキーポイントの依存関係を提示し、ネットワークが中・高レベルの画像サブリージョンについて手がかりを提供する。

The task of 2D human pose estimation is challenging as the number of keypoints is typically large (~ 17) and this necessitates the use of robust neural network architectures and training pipelines that can capture the relevant features from the input image. These features are then aggregated to make accurate heatmap predictions from which the final keypoints of human body parts can be inferred. Many papers in literature use CNN-based architectures for the backbone, and/or combine it with a transformer, after which the features are aggregated to make the final keypoint predictions [1]. In this paper, we consider the recently proposed Bottleneck Transformers [2], which combine CNN and multi-head self attention (MHSA) layers effectively, and we integrate it with a Transformer encoder and apply it to the task of 2D human pose estimation. We consider different backbone architectures and pre-train them using the DINO self-supervised learning method [3], this pre-training is found to improve the overall prediction accuracy. We call our model BTranspose, and experiments show that on the COCO validation set, our model achieves an AP of 76.4, which is competitive with other methods such as [1] and has fewer network parameters. Furthermore, we also present the dependencies of the final predicted keypoints on both the MHSA block and the Transformer encoder layers, providing clues on the image sub-regions the network attends to at the mid and high levels.
翻訳日:2022-04-22 13:01:14 公開日:2022-04-21
# 時空間検出変換器を用いた未来の物体予測

Learning Future Object Prediction with a Spatiotemporal Detection Transformer ( http://arxiv.org/abs/2204.10321v1 )

ライセンス: Link先を確認
Adam Tonderski, Joakim Johnander, Christoffer Petersson, and Kalle {\AA}str\"om(参考訳) 将来のビデオフレームで見えるすべてのオブジェクトが予測されるという難しい問題である、将来のオブジェクト予測について検討する。 本稿では、検出変換器を訓練して、未来のオブジェクトを直接出力することで、この問題を解決することを提案する。 未来を正確に予測するためには、他の物体とエゴカメラの両方のシーンのダイナミクスを捉える必要がある。 既存の検出トランスを2つの方法で拡張し,シーンダイナミクスをキャプチャする。 まず,複数のフレームを時空間的に処理できる3つのメカニズムを実験する。 第2に,エゴモーション情報をクロスアテンションによってモデルに与える。 どちらも将来のオブジェクト予測性能を大幅に向上させることを示す。 最終アプローチでは,100msの予測地平線において,力学を捉え,オラクルに匹敵する予測を行い,予測地平線を長くするベースラインを上回っている。

We explore future object prediction -- a challenging problem where all objects visible in a future video frame are to be predicted. We propose to tackle this problem end-to-end by training a detection transformer to directly output future objects. In order to make accurate predictions about the future, it is necessary to capture the dynamics in the scene, both of other objects and of the ego-camera. We extend existing detection transformers in two ways to capture the scene dynamics. First, we experiment with three different mechanisms that enable the model to spatiotemporally process multiple frames. Second, we feed ego-motion information to the model via cross-attention. We show that both of these cues substantially improve future object prediction performance. Our final approach learns to capture the dynamics and make predictions on par with an oracle for 100 ms prediction horizons, and outperform baselines for longer prediction horizons.
翻訳日:2022-04-22 13:00:46 公開日:2022-04-21
# SelfD: Webから学習する大規模運転ポリシー

SelfD: Self-Learning Large-Scale Driving Policies From the Web ( http://arxiv.org/abs/2204.10320v1 )

ライセンス: Link先を確認
Jimuyang Zhang and Ruizhao Zhu and Eshed Ohn-Bar(参考訳) インターネット上で自由に利用できる膨大なエゴ中心のナビゲーションデータを効果的に活用することで、一般化されたインテリジェントシステム、すなわち、視点、プラットフォーム、環境条件、シナリオ、地理的位置を堅牢にスケールすることができる。 しかし、複雑な3D推論や計画作業において、そのような大量のラベルのない非常に多様なデータを直接活用することは困難である。 その結果、研究者は主に、究極のナビゲーション目的を考慮しない様々な補助ピクセルおよび画像レベルのコンピュータビジョンタスクに焦点を合わせてきた。 本稿では,多量のオンライン単眼画像を用いて,スケーラブル運転を学習するためのフレームワークであるselfdを紹介する。 私たちの重要なアイデアは、ラベルなしのデータから模倣エージェントを学ぶときに反復的な半教師付きトレーニングを活用することです。 制約のない視点、シーン、カメラパラメータを扱うために、私たちは、バードアイビュー(BEV)空間で計画を直接学習するイメージベースモデルを訓練する。 次に,ラベルのないデータを用いて,自己学習による初期訓練モデルの意思決定知識と頑健性を高める。 特に,「仮説的」計画に基づくデータ拡張を通じて,多種多様な実演データを完全に活用できる擬似ラベル方式を提案する。 公開されているYouTubeビデオの大規模なデータセットを使用して、SelfDをトレーニングし、その一般化のメリットを、困難なナビゲーションシナリオ全体で包括的に分析します。 追加のデータ収集やアノテーションの労力を必要とせずに、SelfDはnuScenes、Argoverse、Waymo、CARLAのパフォーマンス評価を駆動する一貫した改善(最大24%)を実証している。

Effectively utilizing the vast amounts of ego-centric navigation data that is freely available on the internet can advance generalized intelligent systems, i.e., to robustly scale across perspectives, platforms, environmental conditions, scenarios, and geographical locations. However, it is difficult to directly leverage such large amounts of unlabeled and highly diverse data for complex 3D reasoning and planning tasks. Consequently, researchers have primarily focused on its use for various auxiliary pixel- and image-level computer vision tasks that do not consider an ultimate navigational objective. In this work, we introduce SelfD, a framework for learning scalable driving by utilizing large amounts of online monocular images. Our key idea is to leverage iterative semi-supervised training when learning imitative agents from unlabeled data. To handle unconstrained viewpoints, scenes, and camera parameters, we train an image-based model that directly learns to plan in the Bird's Eye View (BEV) space. Next, we use unlabeled data to augment the decision-making knowledge and robustness of an initially trained model via self-training. In particular, we propose a pseudo-labeling step which enables making full use of highly diverse demonstration data through "hypothetical" planning-based data augmentation. We employ a large dataset of publicly available YouTube videos to train SelfD and comprehensively analyze its generalization benefits across challenging navigation scenarios. Without requiring any additional data collection or annotation efforts, SelfD demonstrates consistent improvements (by up to 24%) in driving performance evaluation on nuScenes, Argoverse, Waymo, and CARLA.
翻訳日:2022-04-22 13:00:19 公開日:2022-04-21
# 教師なし異常検出アルゴリズムの大規模評価

A Revealing Large-Scale Evaluation of Unsupervised Anomaly Detection Algorithms ( http://arxiv.org/abs/2204.09825v1 )

ライセンス: Link先を確認
Maxime Alvarez, Jean-Charles Verdier, D'Jeff K. Nkashama, Marc Frappier, Pierre-Martin Tardif, Froduald Kabanza(参考訳) 異常検出には、銀行詐欺検出やサイバー脅威検出から機器のメンテナンスや健康モニタリングまで、多くの応用がある。 しかしながら、与えられたアプリケーションに適したアルゴリズムを選択することは、しばしば異常検出アルゴリズムに関する文献から知らされる、設計上の困難な決定である。 我々は,最も一般的な教師なし異常検出法12を精査した。 これまでのところ、関心のクラスや肯定的なクラスの選択、トレーニングとテストデータの分割、ハイパーパラメータの選択など、一貫性のないプロトコルを使って比較されていることが、あいまいな評価につながっています。 この結果から,広範に使用されている5つの表付きデータセット上での12手法の相対的性能の更新と精度向上のために,コヒーレント評価プロトコルを定義した。 評価では,全てのデータセットで他よりも優れる手法を特定できないが,顕著な点を認識し,相対的な性能に関する誤った知識を再考する。

Anomaly detection has many applications ranging from bank-fraud detection and cyber-threat detection to equipment maintenance and health monitoring. However, choosing a suitable algorithm for a given application remains a challenging design decision, often informed by the literature on anomaly detection algorithms. We extensively reviewed twelve of the most popular unsupervised anomaly detection methods. We observed that, so far, they have been compared using inconsistent protocols - the choice of the class of interest or the positive class, the split of training and test data, and the choice of hyperparameters - leading to ambiguous evaluations. This observation led us to define a coherent evaluation protocol which we then used to produce an updated and more precise picture of the relative performance of the twelve methods on five widely used tabular datasets. While our evaluation cannot pinpoint a method that outperforms all the others on all datasets, it identifies those that stand out and revise misconceived knowledge about their relative performances.
翻訳日:2022-04-22 12:58:07 公開日:2022-04-21
# 進化的双レベル最適化によるサポートベクターマシンによる不均衡分類問題処理

Handling Imbalanced Classification Problems With Support Vector Machines via Evolutionary Bilevel Optimization ( http://arxiv.org/abs/2204.10231v1 )

ライセンス: Link先を確認
Alejandro Rosales-P\'erez, Salvador Garc\'ia, and Francisco Herrera(参考訳) サポートベクトルマシン(SVM)は、バイナリ分類問題に対処する一般的な学習アルゴリズムである。 それらは伝統的に各クラスに等しく誤分類コストを課すが、実世界の問題は不均一なクラス分布を持つことがある。 本稿では、EBCS-SVMについて紹介する。 EBCS-SVMは、サポートベクトルを同時に学習し、カーネルパラメータと誤分類コストからなるSVMハイパーパラメータを最適化することで、不均衡な分類問題に対処する。 結果として生じる最適化問題は、下位レベルがサポートベクターと上位レベルがハイパーパラメータを決定するバイレベル問題である。 この最適化問題は、上層における進化的アルゴリズム(EA)と下層における逐次最小最適化(SMO)を用いて解決される。 これら2つの手法はネスト方式で動作し、最適な支持ベクトルはハイパーパラメータの探索を導くのに役立ち、より低いレベルは以前の成功した解に基づいて初期化される。 提案手法は,70の非平衡分類データセットを用いて評価し,いくつかの最先端手法と比較した。 ベイズテストによって支持された実験結果は、高度に不均衡なデータセットを扱う場合のEBCS-SVMの有効性の証拠となった。

Support vector machines (SVMs) are popular learning algorithms to deal with binary classification problems. They traditionally assume equal misclassification costs for each class; however, real-world problems may have an uneven class distribution. This article introduces EBCS-SVM: evolutionary bilevel cost-sensitive SVMs. EBCS-SVM handles imbalanced classification problems by simultaneously learning the support vectors and optimizing the SVM hyperparameters, which comprise the kernel parameter and misclassification costs. The resulting optimization problem is a bilevel problem, where the lower level determines the support vectors and the upper level the hyperparameters. This optimization problem is solved using an evolutionary algorithm (EA) at the upper level and sequential minimal optimization (SMO) at the lower level. These two methods work in a nested fashion, that is, the optimal support vectors help guide the search of the hyperparameters, and the lower level is initialized based on previous successful solutions. The proposed method is assessed using 70 datasets of imbalanced classification and compared with several state-of-the-art methods. The experimental results, supported by a Bayesian test, provided evidence of the effectiveness of EBCS-SVM when working with highly imbalanced datasets.
翻訳日:2022-04-22 12:57:54 公開日:2022-04-21
# 量子力学学習のための分布外一般化

Out-of-distribution generalization for learning quantum dynamics ( http://arxiv.org/abs/2204.10268v1 )

ライセンス: Link先を確認
Matthias C. Caro, Hsin-Yuan Huang, Nicholas Ezzell, Joe Gibbs, Andrew T. Sornborger, Lukasz Cincio, Patrick J. Coles, Zo\"e Holmes(参考訳) 一般化バウンダリは、量子機械学習(QML)のトレーニングデータ要求を評価する重要なツールである。 最近の研究は、同じデータ分布からトレーニングデータとテストデータが引き出されると仮定される量子ニューラルネットワーク(QNN)の分布内一般化の保証を確立している。 しかし、現在、qmlの分布外一般化の結果はなく、トレーニング分布とは異なる分布から引き出されたデータでも、トレーニングされたモデルがうまく機能するように要求される。 本稿では,未知のユニタリをqnnを用いて学習するタスクと,幅広いトレーニングおよびテスト分布のクラスに対して,分散の一般化を実証する。 特に,製品状態トレーニングデータのみを使用して,絡み合った状態に対するユニタリの動作を学習できることが示されている。 ハイゼンベルクスピン鎖の進化は、製品訓練状態のみを用いて学習できることを示し、これを数値的に説明する。 生成物の状態は単一量子ビットゲートのみを用いて準備できるため、近未来の量子コンピュータと量子実験を用いて量子力学を学習し、量子回路の古典的および量子的コンパイルのための新しい手法をさらに開放する。

Generalization bounds are a critical tool to assess the training data requirements of Quantum Machine Learning (QML). Recent work has established guarantees for in-distribution generalization of quantum neural networks (QNNs), where training and testing data are assumed to be drawn from the same data distribution. However, there are currently no results on out-of-distribution generalization in QML, where we require a trained model to perform well even on data drawn from a distribution different from the training distribution. In this work, we prove out-of-distribution generalization for the task of learning an unknown unitary using a QNN and for a broad class of training and testing distributions. In particular, we show that one can learn the action of a unitary on entangled states using only product state training data. We numerically illustrate this by showing that the evolution of a Heisenberg spin chain can be learned using only product training states. Since product states can be prepared using only single-qubit gates, this advances the prospects of learning quantum dynamics using near term quantum computers and quantum experiments, and further opens up new methods for both the classical and quantum compilation of quantum circuits.
翻訳日:2022-04-22 12:57:33 公開日:2022-04-21
# TorchSparse: 効率的なポイントクラウド推論エンジン

TorchSparse: Efficient Point Cloud Inference Engine ( http://arxiv.org/abs/2204.10319v1 )

ライセンス: Link先を確認
Haotian Tang, Zhijian Liu, Xiuyu Li, Yujun Lin, Song Han(参考訳) ポイントクラウドでのディープラーニングは、AR/VRと自動運転の幅広い応用により、注目を集めている。 これらのアプリケーションは、リアルタイムユーザエクスペリエンスを提供し、ユーザの安全を確保するために、低レイテンシと高い精度を必要とする。 従来の濃密なワークロードとは異なり、ポイントクラウドのばらばらで不規則な性質は、汎用ハードウェア上でスパースcnnを効率的に実行する上で大きな課題となる。 さらに,既存の2次元画像のスパース加速技術は3次元点雲に変換されない。 本稿では,GPU上でのスパース畳み込み計算を高速化する高性能クラウド推論エンジンであるTorchSparseを紹介する。 TorchSparseはスパース畳み込みの2つのボトルネック、すなわち不規則な計算とデータ移動を直接最適化する。 適応行列乗算群を貿易計算に応用し、行列乗算を1.4-1.5倍高速化する。 また、ベクトル化、量子化、融合した局所的メモリアクセスを採用することでデータ移動を最適化し、メモリ移動コストを2.7倍削減する。 TorchSparseは3つのベンチマークデータセットで7つの代表的なモデルを評価し、最先端のMinkowskiEngineとSpConvでそれぞれ1.6倍と1.5倍のエンドツーエンドのスピードアップを達成した。

Deep learning on point clouds has received increased attention thanks to its wide applications in AR/VR and autonomous driving. These applications require low latency and high accuracy to provide real-time user experience and ensure user safety. Unlike conventional dense workloads, the sparse and irregular nature of point clouds poses severe challenges to running sparse CNNs efficiently on the general-purpose hardware. Furthermore, existing sparse acceleration techniques for 2D images do not translate to 3D point clouds. In this paper, we introduce TorchSparse, a high-performance point cloud inference engine that accelerates the sparse convolution computation on GPUs. TorchSparse directly optimizes the two bottlenecks of sparse convolution: irregular computation and data movement. It applies adaptive matrix multiplication grouping to trade computation for better regularity, achieving 1.4-1.5x speedup for matrix multiplication. It also optimizes the data movement by adopting vectorized, quantized and fused locality-aware memory access, reducing the memory movement cost by 2.7x. Evaluated on seven representative models across three benchmark datasets, TorchSparse achieves 1.6x and 1.5x measured end-to-end speedup over the state-of-the-art MinkowskiEngine and SpConv, respectively.
翻訳日:2022-04-22 12:54:59 公開日:2022-04-21
# 文書レベル関係抽出のためのマスク画像再構成ネットワーク

A Masked Image Reconstruction Network for Document-level Relation Extraction ( http://arxiv.org/abs/2204.09851v1 )

ライセンス: Link先を確認
Liang Zhang, Yidong Cheng(参考訳) 文書レベルの関係抽出は、文書内のエンティティ間の関係を抽出することを目的としている。 文レベルの関係抽出では、複雑な関係三重項を抽出するために複数の文に対する推論が必要となる。 従来の研究は通常、関係の相関関係に関わらず、言及レベルやエンティティレベルのドキュメントグラフの情報伝達を通じて完全な推論を行う。 本論文では,マスク付き画像再構成ネットワーク(DRE-MIR)に基づく文書レベルの関係抽出モデルを提案する。 具体的には、まずエンコーダモジュールを利用してエンティティの機能を取得し、その機能に基づいてentity-pairマトリックスを構築します。 その後、エンティティペア行列を画像として検討し、ランダムにマスクし、推論モジュールを通して復元し、関係間の相関関係をキャプチャする。 本稿では,DocRED,CDR,GDAの3つの公開文書レベルの関係抽出データセットについて検討する。 実験により,本モデルがこれらの3つのデータセットの最先端性能を達成し,推定過程における雑音に対する優れた頑健性を示した。

Document-level relation extraction aims to extract relations among entities within a document. Compared with its sentence-level counterpart, Document-level relation extraction requires inference over multiple sentences to extract complex relational triples. Previous research normally complete reasoning through information propagation on the mention-level or entity-level document-graphs, regardless of the correlations between the relationships. In this paper, we propose a novel Document-level Relation Extraction model based on a Masked Image Reconstruction network (DRE-MIR), which models inference as a masked image reconstruction problem to capture the correlations between relationships. Specifically, we first leverage an encoder module to get the features of entities and construct the entity-pair matrix based on the features. After that, we look on the entity-pair matrix as an image and then randomly mask it and restore it through an inference module to capture the correlations between the relationships. We evaluate our model on three public document-level relation extraction datasets, i.e. DocRED, CDR, and GDA. Experimental results demonstrate that our model achieves state-of-the-art performance on these three datasets and has excellent robustness against the noises during the inference process.
翻訳日:2022-04-22 12:54:16 公開日:2022-04-21
# (参考訳) 法外強化学習におけるガウス混合批判の再考--サンプルベースアプローチ

Revisiting Gaussian mixture critic in off-policy reinforcement learning: a sample-based approach ( http://arxiv.org/abs/2204.10256v1 )

ライセンス: CC BY 4.0
Bobak Shahriari, Abbas Abdolmaleki, Arunkumar Byravan, Abe Friesen, Siqi Liu, Jost Tobias Springenberg, Nicolas Heess, Matt Hoffman, Martin Riedmiller(参考訳) 分散ポリシ評価を利用するアクター批判アルゴリズムは、多くの困難な制御タスクにおいて、非分配的なアルゴリズムよりも優れていることがしばしば示されている。 この挙動の例としては、DDPGとMPOを比較したD4PGとDMPOアルゴリズムがある[Barth-Maron et al., 2018; Hoffman et al., 2020]。 しかし、両エージェントは価値推定に関してC51の批判に依存しており、C51のアプローチの大きな欠点は、政策が達成できる最小値と最大値に関する事前知識と、分布推定の解決を固定するビンの数である。 タスクのDeepMindコントロールスイートは、標準化された報酬とエピソードの長さを使用しているため、スイート全体をこれらのハイパーパラメータの単一設定で解決することができるが、そうではないことが多い。 本稿では,ガウシアンとガウシアンを混合した天然の代替法と,オフ政治体制で学習するための単純なサンプルベース損失関数を再検討する。 本研究では,多種多様な課題 (ヒューマノイド, 犬, 四重極, マニピュレータドメインなど) において, その性能を実証的に評価し, 分散ハイパーパラメータの必要性を排除し, 最先端のパフォーマンスを達成できることを実証する。 最後に、Acmeエージェントリポジトリに実装を提供します。

Actor-critic algorithms that make use of distributional policy evaluation have frequently been shown to outperform their non-distributional counterparts on many challenging control tasks. Examples of this behavior include the D4PG and DMPO algorithms as compared to DDPG and MPO, respectively [Barth-Maron et al., 2018; Hoffman et al., 2020]. However, both agents rely on the C51 critic for value estimation.One major drawback of the C51 approach is its requirement of prior knowledge about the minimum andmaximum values a policy can attain as well as the number of bins used, which fixes the resolution ofthe distributional estimate. While the DeepMind control suite of tasks utilizes standardized rewards and episode lengths, thus enabling the entire suite to be solved with a single setting of these hyperparameters, this is often not the case. This paper revisits a natural alternative that removes this requirement, namelya mixture of Gaussians, and a simple sample-based loss function to train it in an off-policy regime. We empirically evaluate its performance on a broad range of continuous control tasks and demonstrate that it eliminates the need for these distributional hyperparameters and achieves state-of-the-art performance on a variety of challenging tasks (e.g. the humanoid, dog, quadruped, and manipulator domains). Finallywe provide an implementation in the Acme agent repository.
翻訳日:2022-04-22 12:52:47 公開日:2022-04-21
# サファーエージェントインセンティブのためのパス特異的対象物

Path-Specific Objectives for Safer Agent Incentives ( http://arxiv.org/abs/2204.10018v1 )

ライセンス: Link先を確認
Sebastian Farquhar, Ryan Carey, Tom Everitt(参考訳) ナイーブインセンティブが安全でない安全エージェントを訓練するための一般的な枠組みを提案する。 例えば、操り手や欺き手は報酬を改善するが避けるべきである。 エージェントは必要に応じて期待したリターンを最大化する。 我々は、エンドへの手段として使用すべきでない状態の'デリケート'な部分で設定を正式に記述する。 次に、因果影響図解析を用いて、状態の繊細な部分によって媒介されない期待リターンに対する行動の因果効果を最大化するようエージェントを訓練する。 結果として生じるエージェントは、繊細な状態を制御するインセンティブを持たない。 さらに、フレームワークが既存の提案を統一し、一般化する方法を示します。

We present a general framework for training safe agents whose naive incentives are unsafe. As an example, manipulative or deceptive behaviour can improve rewards but should be avoided. Most approaches fail here: agents maximize expected return by any means necessary. We formally describe settings with 'delicate' parts of the state which should not be used as a means to an end. We then train agents to maximize the causal effect of actions on the expected return which is not mediated by the delicate parts of state, using Causal Influence Diagram analysis. The resulting agents have no incentive to control the delicate state. We further show how our framework unifies and generalizes existing proposals.
翻訳日:2022-04-22 12:36:46 公開日:2022-04-21
# テキストセマンティクスを最大限活用して生物医学的視覚処理を改善する

Making the Most of Text Semantics to Improve Biomedical Vision--Language Processing ( http://arxiv.org/abs/2204.09817v1 )

ライセンス: Link先を確認
Benedikt Boecking, Naoto Usuyama, Shruthi Bannur, Daniel C. Castro, Anton Schwaighofer, Stephanie Hyland, Maria Wetscherek, Tristan Naumann, Aditya Nori, Javier Alvarez-Valle, Hoifung Poon, and Ozan Oktay(参考訳) 放射線画像や報告など、バイオメディシンのマルチモーダルデータは多い。 このデータを大規模に解釈することは、臨床医療の改善と臨床研究の加速に不可欠である。 複雑な意味を持つバイオメディカルテキストは、一般的なドメインと比較して視覚言語モデリングにおいてさらなる課題をもたらし、以前の研究ではドメイン固有の言語理解に欠ける不十分な適応モデルを用いてきた。 本稿では,原則付きテキスト意味モデリングが,自己教師あり視覚言語処理におけるコントラスト学習を実質的に改善できることを示す。 我々は,その改良された語彙と新しい言語事前学習目標を通じて,放射線学的自然言語推論の最先端結果を達成する言語モデルをリリースする。 さらに,より優れたテキストモデリングに焦点をあてた自己教師付き共同視覚言語アプローチを提案する。 それは、新しいドメイン特化言語モデルを活用することで、幅広い公開可能なベンチマークで、アート結果の新たな状態を確立します。 我々は,生物医学的視覚言語処理における複雑な意味モデルの研究を容易にするために,放射線科医による局所的にアライメントされた句の接地アノテーションを用いた新しいデータセットをリリースする。 この新たなデータセットを含む幅広い評価により、我々のコントラスト学習アプローチは、グローバルアライメント目的のみを使用しても、セグメンテーションタスクにおける従来の手法よりも優れていることが示されている。

Multi-modal data abounds in biomedicine, such as radiology images and reports. Interpreting this data at scale is essential for improving clinical care and accelerating clinical research. Biomedical text with its complex semantics poses additional challenges in vision-language modelling compared to the general domain, and previous work has used insufficiently adapted models that lack domain-specific language understanding. In this paper, we show that principled textual semantic modelling can substantially improve contrastive learning in self-supervised vision--language processing. We release a language model that achieves state-of-the-art results in radiology natural language inference through its improved vocabulary and novel language pretraining objective leveraging semantics and discourse characteristics in radiology reports. Further, we propose a self-supervised joint vision--language approach with a focus on better text modelling. It establishes new state of the art results on a wide range of publicly available benchmarks, in part by leveraging our new domain-specific language model. We release a new dataset with locally-aligned phrase grounding annotations by radiologists to facilitate the study of complex semantic modelling in biomedical vision--language processing. A broad evaluation, including on this new dataset, shows that our contrastive learning approach, aided by textual-semantic modelling, outperforms prior methods in segmentation tasks, despite only using a global-alignment objective.
翻訳日:2022-04-22 12:36:37 公開日:2022-04-21
# SimMC: 教師なしの人物再同定のためのスケルトン表現の簡単なマスキングコントラスト学習

SimMC: Simple Masked Contrastive Learning of Skeleton Representations for Unsupervised Person Re-Identification ( http://arxiv.org/abs/2204.09826v1 )

ライセンス: Link先を確認
Haocong Rao and Chunyan Miao(参考訳) 骨格に基づく人物再識別(re-ID)の最近の進歩は、手作りの骨格記述子または深層学習パラダイムを用いた骨格表現学習を通じて、印象的なパフォーマンスを得る。 しかし、トレーニングには骨格前モデリングとラベル情報が必要であるため、これらの手法の適用性が制限される。 本稿では,非教師付き骨格に基づく人物再IDに着目し,非ラベル付き3次元骨格から人物再IDの効果的な表現を学習するための汎用的簡易マスケッドコントラスト学習(SimMC)フレームワークを提案する。 具体的には、各骨格配列内の骨格特徴を完全に活用するために、まず、マスク付きプロトタイプコントラスト学習(MPC)方式を考案し、最も典型的な骨格特徴(骨格のプロトタイプ)を、生の配列からランダムにマスキングされた異なるサブシーケンスからクラスタリングし、その特徴と異なるプロトタイプの類似性を対比し、ラベルを使わずに識別的骨格表現を学習する。 そこで,同一シーケンス内の異なるサブシーケンスが,運動連続性の性質により強い相関関係を享受することが多いことを考慮し,サブシーケンス間のシーケンス内パターン一貫性を捉えるためのマスク付きイントラシーケンスコントラスト学習(mic)を提案し,個人再識別のためのより効果的なスケルトン表現の学習を促す。 広範な実験により、提案されたsimmcが最先端のスケルトンベース手法よりも優れていることが確認された。 さらに,既存のモデルの性能向上におけるスケーラビリティと効率性を示す。 私たちのコードはhttps://github.com/kali-hac/simmcで利用可能です。

Recent advances in skeleton-based person re-identification (re-ID) obtain impressive performance via either hand-crafted skeleton descriptors or skeleton representation learning with deep learning paradigms. However, they typically require skeletal pre-modeling and label information for training, which leads to limited applicability of these methods. In this paper, we focus on unsupervised skeleton-based person re-ID, and present a generic Simple Masked Contrastive learning (SimMC) framework to learn effective representations from unlabeled 3D skeletons for person re-ID. Specifically, to fully exploit skeleton features within each skeleton sequence, we first devise a masked prototype contrastive learning (MPC) scheme to cluster the most typical skeleton features (skeleton prototypes) from different subsequences randomly masked from raw sequences, and contrast the inherent similarity between skeleton features and different prototypes to learn discriminative skeleton representations without using any label. Then, considering that different subsequences within the same sequence usually enjoy strong correlations due to the nature of motion continuity, we propose the masked intra-sequence contrastive learning (MIC) to capture intra-sequence pattern consistency between subsequences, so as to encourage learning more effective skeleton representations for person re-ID. Extensive experiments validate that the proposed SimMC outperforms most state-of-the-art skeleton-based methods. We further show its scalability and efficiency in enhancing the performance of existing models. Our codes are available at https://github.com/Kali-Hac/SimMC.
翻訳日:2022-04-22 12:35:50 公開日:2022-04-21
# 教師なし人物再同定のためのマルチスケール知識蒸留

Multi-scale Knowledge Distillation for Unsupervised Person Re-Identification ( http://arxiv.org/abs/2204.09931v1 )

ライセンス: Link先を確認
Long Lan, Xiao Teng, Haoang Chi, Xiang Zhang(参考訳) 教師なしの人物の再識別は、コンピュータビジョンにおける挑戦的で有望な課題である。 現在、教師なしの人物再同定手法は擬似ラベルの訓練によって大きな改善を遂げている。 しかし、外見やラベルノイズは教師なしの方法では明らかに研究されていない。 グローバルな特徴の外観ノイズの影響を緩和するため,2つのローカルな視点から特徴を考慮し,マルチスケールな特徴を生成する。 ラベルノイズをフィルタする知識蒸留法について検討し, 教師モデルから教師モデルを反復的に学習し, 教師モデルを用いて生徒モデルの学習を指導する。 この設定では,教師モデルは教師モデルの監督において急速に収束し,教師モデルが大きく苦しむため,騒音ラベルの干渉を低減することができる。 特徴学習におけるノイズを慎重に処理した後、我々のマルチスケール知識蒸留は教師なしの再同定に非常に有効であることが証明された。 3つの人気人物再同定データセットに対する大規模な実験により,本手法の優位性を実証した。 特に,ResNet-50 を用いた Market-1501 ベンチマークでは,85.7% の @mAP あるいは 94.3% の @Rank-1 が完全に教師なしの環境で達成されている。

Unsupervised person re-identification is a challenging and promising task in the computer vision. Nowadays unsupervised person re-identification methods have achieved great improvements by training with pseudo labels. However, the appearance and label noise are less explicitly studied in the unsupervised manner. To relieve the effects of appearance noise the global features involved, we also take into account the features from two local views and produce multi-scale features. We explore the knowledge distillation to filter label noise, Specifically, we first train a teacher model from noisy pseudo labels in a iterative way, and then use the teacher model to guide the learning of our student model. In our setting, the student model could converge fast in the supervision of the teacher model thus reduce the interference of noisy labels as the teacher model greatly suffered. After carefully handling the noises in the feature learning, Our multi-scale knowledge distillation are proven to be very effective in the unsupervised re-identification. Extensive experiments on three popular person re-identification datasets demonstrate the superiority of our method. Especially, our approach achieves a state-of-the-art accuracy 85.7% @mAP or 94.3% @Rank-1 on the challenging Market-1501 benchmark with ResNet-50 under the fully unsupervised setting.
翻訳日:2022-04-22 12:35:19 公開日:2022-04-21
# R2-Trans:Fine-Grained Visual Categorization with Redundancy Reduction

R2-Trans:Fine-Grained Visual Categorization with Redundancy Reduction ( http://arxiv.org/abs/2204.10095v1 )

ライセンス: Link先を確認
Yu Wang, Shuo Ye, Shujian Yu, Xinge You(参考訳) FGVCは、クラス内の大きな多様性と微妙なクラス間差異が主な課題である類似のサブカテゴリを識別することを目的としている。 既存のFGVC法は通常、訓練されたモデルで見つかる識別領域を選択するが、他の潜在的な識別情報を無視する傾向がある。 一方、ViTにおける画像パッチのシーケンス間の大きな相互作用により、結果として得られるクラストークンには多くの冗長な情報が含まれており、FGVCの性能にも影響を及ぼす可能性がある。 本稿では,fgvcに対して,環境指標における部分的かつ十分な識別情報を同時に活用し,かつ,目的に対してクラストケンの冗長情報を圧縮する新しい手法を提案する。 具体的には、バッチ内のハイウェイト領域の比率を算出し、マスキング閾値を適応的に調整し、入力空間における背景情報の適度な抽出を実現する。 さらに,我々は情報ボトルネック~(ib)アプローチを用いてネットワークを誘導し,機能空間における最小限の表現を学習する。 3つの広く使われているベンチマークデータセットの実験結果は、我々のアプローチが他の最先端のアプローチやベースラインモデルよりも優れたパフォーマンスを達成できることを確認した。

Fine-grained visual categorization (FGVC) aims to discriminate similar subcategories, whose main challenge is the large intraclass diversities and subtle inter-class differences. Existing FGVC methods usually select discriminant regions found by a trained model, which is prone to neglect other potential discriminant information. On the other hand, the massive interactions between the sequence of image patches in ViT make the resulting class-token contain lots of redundant information, which may also impacts FGVC performance. In this paper, we present a novel approach for FGVC, which can simultaneously make use of partial yet sufficient discriminative information in environmental cues and also compress the redundant information in class-token with respect to the target. Specifically, our model calculates the ratio of high-weight regions in a batch, adaptively adjusts the masking threshold and achieves moderate extraction of background information in the input space. Moreover, we also use the Information Bottleneck~(IB) approach to guide our network to learn a minimum sufficient representations in the feature space. Experimental results on three widely-used benchmark datasets verify that our approach can achieve outperforming performance than other state-of-the-art approaches and baseline models.
翻訳日:2022-04-22 12:35:00 公開日:2022-04-21
# MedFACT:特徴クラスタリングによる患者の健康表現学習における医療特徴相関のモデル化

MedFACT: Modeling Medical Feature Correlations in Patient Health Representation Learning via Feature Clustering ( http://arxiv.org/abs/2204.10011v1 )

ライセンス: Link先を確認
Xinyu Ma, Xu Chu, Yasha Wang, Hailong Yu, Liantao Ma, Wen Tang and Junfeng Zhao(参考訳) 医療予測タスクでは、医療的特徴の相関を活用し、患者の健康表現を改善することが不可欠である。 既存の手法では、データのみから特徴相関を推定したり、タスク固有の医療知識を導入して推定の質を高めようとする。 しかしながら、そのような手法は、訓練サンプル不足による特徴相関の推定が難しいか、特定の知識に依存するため他のタスクに一般化できないかのどちらかである。 すべての医学的特徴が強い相関関係にあるわけではないことを明らかにする医学研究がある。 そこで,これらの課題に対処するために,強い相関性を持つ特徴をグループ分けし,グループ的に特徴相関を学習し,一般性を損なうことなく学習の複雑さを低減することを期待する。 本稿では,一般的な患者の健康表現学習フレームワークであるMedFACTを提案する。 本研究は, 時間的特徴パターンとカーネル法, グループ間の相関関係の強いクラスタ特徴の類似性を測定することで相関関係を推定する。 特徴群はさらに相関グラフとして定式化され,グラフ畳み込みネットワークを用いて,より優れた表現学習のためのグループ間特徴対話を行う。 2つの実世界のデータセットの実験は、MedFACTの優位性を示している。 発見された医学的発見は文献によって確認され、貴重な医学的洞察と説明を提供する。

In healthcare prediction tasks, it is essential to exploit the correlations between medical features and learn better patient health representations. Existing methods try to estimate feature correlations only from data, or increase the quality of estimation by introducing task-specific medical knowledge. However, such methods either are difficult to estimate the feature correlations due to insufficient training samples, or cannot be generalized to other tasks due to reliance on specific knowledge. There are medical research revealing that not all the medical features are strongly correlated. Thus, to address the issues, we expect to group up strongly correlated features and learn feature correlations in a group-wise manner to reduce the learning complexity without losing generality. In this paper, we propose a general patient health representation learning framework MedFACT. We estimate correlations via measuring similarity between temporal patterns of medical features with kernel methods, and cluster features with strong correlations into groups. The feature group is further formulated as a correlation graph, and we employ graph convolutional networks to conduct group-wise feature interactions for better representation learning. Experiments on two real-world datasets demonstrate the superiority of MedFACT. The discovered medical findings are also confirmed by literature, providing valuable medical insights and explanations.
翻訳日:2022-04-22 12:33:34 公開日:2022-04-21
# DropMessage: グラフニューラルネットワークのためのランダムドロップの統合

DropMessage: Unifying Random Dropping for Graph Neural Networks ( http://arxiv.org/abs/2204.10037v1 )

ライセンス: Link先を確認
Taoran Fang, Zhiqing Xiao, Chunping Wang, Jiarong Xu, Xuan Yang, Yang Yang(参考訳) グラフニューラルネットワーク(GNN)は、グラフ表現学習のための強力なツールである。 急速な発展にもかかわらず、gnnはオーバーフィッティング、オーバースムーシング、非ロバストネスといったいくつかの課題にも直面している。 以前の研究は、これらの問題はランダムな落下法によって軽減され、入力の一部をランダムにマスキングすることでモデルにノイズを統合することができることを示している。 しかし、GNNのランダムドロップに関するいくつかの未解決問題はまだ解決されていない。 まず、異なるデータセットとモデルの発散を考慮して、すべてのケースに適した普遍的な方法を見つけることが困難である。 第二に、GNNに導入されるランダムノイズはパラメータの不完全なカバレッジと不安定なトレーニングプロセスを引き起こす。 本稿では,メッセージマトリクス上で直接ドロップ操作を実行し,任意のメッセージ通過gnnに適用可能な,dropmessageと呼ばれる新しいランダムドロップ方式を提案する。 さらに,DropMessageの優位性について,サンプルの分散を減らしてトレーニングプロセスを安定化させ,情報理論の観点から情報の多様性を保ち,他の手法の理論的上限となるようにした。 また,既存のランダムドロップ手法をフレームワークに統合し,GNNへの影響を解析する。 提案手法を評価するために,5つの公開データセットと2つの産業データセットのバックボーンモデルを用いた複数タスクを対象とした実験を行った。 実験の結果,DropMessageは有効性と一般化の両方の利点があることがわかった。

Graph Neural Networks (GNNs) are powerful tools for graph representation learning. Despite their rapid development, GNNs also faces some challenges, such as over-fitting, over-smoothing, and non-robustness. Previous works indicate that these problems can be alleviated by random dropping methods, which integrate noises into models by randomly masking parts of the input. However, some open-ended problems of random dropping on GNNs remain to solve. First, it is challenging to find a universal method that are suitable for all cases considering the divergence of different datasets and models. Second, random noises introduced to GNNs cause the incomplete coverage of parameters and unstable training process. In this paper, we propose a novel random dropping method called DropMessage, which performs dropping operations directly on the message matrix and can be applied to any message-passing GNNs. Furthermore, we elaborate the superiority of DropMessage: it stabilizes the training process by reducing sample variance; it keeps information diversity from the perspective of information theory, which makes it a theoretical upper bound of other methods. Also, we unify existing random dropping methods into our framework and analyze their effects on GNNs. To evaluate our proposed method, we conduct experiments that aims for multiple tasks on five public datasets and two industrial datasets with various backbone models. The experimental results show that DropMessage has both advantages of effectiveness and generalization.
翻訳日:2022-04-22 12:33:14 公開日:2022-04-21
# ハイブリッドディープニューラルネットワークを用いた交通流予測のための不完全データからの時空間特徴の学習

Learning spatiotemporal features from incomplete data for traffic flow prediction using hybrid deep neural networks ( http://arxiv.org/abs/2204.10222v1 )

ライセンス: Link先を確認
Mehdi Mehdipour Ghazi, Amin Ramezani, Mehdi Siahi, Mostafa Mehdipour Ghazi(参考訳) データ駆動モデルを用いた都市交通流予測は,高速道路の渋滞防止や経路計画において重要な役割を果たす。 これらの手法は、異なるタイムスタンプの交通記録局から収集したデータを用いて、将来の交通状況を予測する。 したがって、データ収集、送信、ストレージ、および抽出技術は、トラフィックフローモデルの性能に大きな影響を与える可能性がある。 一方で、包括的なデータベースは、深層学習法のような複雑で信頼性の高い予測モデルを使用する機会を提供することができる。 しかし、これらの手法のほとんどは、欠落した値と外れ値を扱うのに困難である。 本研究では,カリフォルニア高速道路性能測定システム (pems) における交通流予測のためのハイブリッド深層ニューラルネットワークに着目した。 提案するネットワークは、各局に記録されたデータにおける時間的依存関係を考慮するためのリカレントニューラルネットワーク(RNN)と、隣接局の空間的相関を考慮した畳み込みニューラルネットワーク(CNN)の組み合わせに基づいている。 直列接続と並列接続を持つ様々なアーキテクチャ構成は、rnnとcnnに基づいて検討され、いくつかの一般的なデータインプテーション技術は、欠落した値に対するハイブリッドネットワークの堅牢性を調べるために使用される。 PeMSの2つの異なるデータセットで実施された包括的分析から,提案手法を用いたシリーズ並列ハイブリッドネットワークは,不完全なテストデータに適用した場合に,トラフィックフローの予測における最小誤差を達成し,不完全なトレーニングデータと不完全なトレーニングデータの両方において,21%の欠落率まで堅牢であることが示された。

Urban traffic flow prediction using data-driven models can play an important role in route planning and preventing congestion on highways. These methods utilize data collected from traffic recording stations at different timestamps to predict the future status of traffic. Hence, data collection, transmission, storage, and extraction techniques can have a significant impact on the performance of the traffic flow model. On the other hand, a comprehensive database can provide the opportunity for using complex, yet reliable predictive models such as deep learning methods. However, most of these methods have difficulties in handling missing values and outliers. This study focuses on hybrid deep neural networks to predict traffic flow in the California Freeway Performance Measurement System (PeMS) with missing values. The proposed networks are based on a combination of recurrent neural networks (RNNs) to consider the temporal dependencies in the data recorded in each station and convolutional neural networks (CNNs) to take the spatial correlations in the adjacent stations into account. Various architecture configurations with series and parallel connections are considered based on RNNs and CNNs, and several prevalent data imputation techniques are used to examine the robustness of the hybrid networks to missing values. A comprehensive analysis performed on two different datasets from PeMS indicates that the proposed series-parallel hybrid network with the mean imputation technique achieves the lowest error in predicting the traffic flow and is robust to missing values up until 21% missing ratio in both complete and incomplete training data scenarios when applied to an incomplete test data.
翻訳日:2022-04-22 12:32:52 公開日:2022-04-21
# 連続値干渉の因果推定におけるスケーラブル感度と不確かさ解析

Scalable Sensitivity and Uncertainty Analysis for Causal-Effect Estimates of Continuous-Valued Interventions ( http://arxiv.org/abs/2204.10022v1 )

ライセンス: Link先を確認
Andrew Jesson and Alyson Douglas and Peter Manshausen and Nicolai Meinshausen and Philip Stier and Yarin Gal and Uri Shalit(参考訳) 気候科学、医療、経済学などの分野において、観測データから連続的価値の介入の効果を推定することは極めて重要である。 最近の研究は、高次元の大規模データから平均および個別レベルの線量応答曲線をスケーラブルに推定できるように、ニューラルネットワークアーキテクチャと正規化関数を設計することに焦点を当てている。 このような手法は、無知性(全ての共起変数が観察される)と肯定性(与えられた共変量によって記述される単位ごとに全ての処理レベルが観察される)を仮定する。 スケーラブルな感度と不確実性解析を開発することで、これらの仮定が緩和された場合の見積による無知を理解することができます。 そこで我々は, 連続処理効果限界感度モデル(CMSM)を開発し, 観測データと研究者が定義した隠れ共役レベルの両方に適合する導出境界を導出する。 本研究では,境界と不確実性を考慮した深層モデルから導出するスケーラブルなアルゴリズムを導入し,高次元・大規模観測データに対してその境界を効率的に推定する。 本手法は合成実験と実世界実験の両方を用いて検証する。 後者については、過去15年間の衛星観測により、人為的放射が雲の性質に与える影響を気候学的に評価することに関心のある気候学者と共同で研究している。

Estimating the effects of continuous-valued interventions from observational data is critically important in fields such as climate science, healthcare, and economics. Recent work focuses on designing neural-network architectures and regularization functions to allow for scalable estimation of average and individual-level dose response curves from high-dimensional, large-sample data. Such methodologies assume ignorability (all confounding variables are observed) and positivity (all levels of treatment can be observed for every unit described by a given covariate value), which are especially challenged in the continuous treatment regime. Developing scalable sensitivity and uncertainty analyses that allow us to understand the ignorance induced in our estimates when these assumptions are relaxed receives less attention. Here, we develop a continuous treatment-effect marginal sensitivity model (CMSM) and derive bounds that agree with both the observed data and a researcher-defined level of hidden confounding. We introduce a scalable algorithm to derive the bounds and uncertainty-aware deep models to efficiently estimate these bounds for high-dimensional, large-sample observational data. We validate our methods using both synthetic and real-world experiments. For the latter, we work in concert with climate scientists interested in evaluating the climatological impacts of human emissions on cloud properties using satellite observations from the past 15 years: a finite-data problem known to be complicated by the presence of a multitude of unobserved confounders.
翻訳日:2022-04-22 12:32:08 公開日:2022-04-21
# (参考訳) 知的製造のための特徴異常検出システム(FADS)

Feature anomaly detection system (FADS) for intelligent manufacturing ( http://arxiv.org/abs/2204.10318v1 )

ライセンス: CC BY 4.0
Anthony Garland, Kevin Potter, Matt Smith(参考訳) 産業の自動化や部品の品質保証には異常検出が重要であり、いくつかの例から見て、部品の異常を容易に検出できるが、人間や人間の能力以上で実行できる汎用的な自動システムの設計は依然として課題である。 本稿では,事前学習された畳み込みニューラルネットワーク(cnn)を活用して,畳み込みフィルタの活性化を観測して名目入力の統計モデルを生成する,fads(feature-based anomaly detection system)と呼ばれる単純な新しい異常検出アルゴリズムを提案する。 推測中、システムは新しい入力の畳み込みフィルタのアクティベーションを、期待値の範囲外であり、したがって異常となる可能性のある統計モデルとフラグのアクティベーションと比較する。 事前トレーニングネットワークを使用することで、FADSは、CNN重み付けのチューニングを必要とせず、他の機械学習アプローチと類似した異常検出の優れたパフォーマンスを示す。 本稿では,加法的に製造された格子のカスタムデータセット上でプロセスパラメータの変化を検出することによってFADS能力を示す。 fadsローカライズアルゴリズムは、表面で見えるテクスチャの違いがプロセスパラメータの変化を検出するのに使用できることを示した。 さらに,MVTec異常検出データセットなどのベンチマークデータセット上でFADSをテストし,良好な結果を報告する。

Anomaly detection is important for industrial automation and part quality assurance, and while humans can easily detect anomalies in components given a few examples, designing a generic automated system that can perform at human or above human capabilities remains a challenge. In this work, we present a simple new anomaly detection algorithm called FADS (feature-based anomaly detection system) which leverages pretrained convolutional neural networks (CNN) to generate a statistical model of nominal inputs by observing the activation of the convolutional filters. During inference the system compares the convolutional filter activation of the new input to the statistical model and flags activations that are outside the expected range of values and therefore likely an anomaly. By using a pretrained network, FADS demonstrates excellent performance similar to or better than other machine learning approaches to anomaly detection while at the same time FADS requires no tuning of the CNN weights. We demonstrate FADS ability by detecting process parameter changes on a custom dataset of additively manufactured lattices. The FADS localization algorithm shows that textural differences that are visible on the surface can be used to detect process parameter changes. In addition, we test FADS on benchmark datasets, such as the MVTec Anomaly Detection dataset, and report good results.
翻訳日:2022-04-22 12:29:48 公開日:2022-04-21
# 作業記憶による変換表現を用いた階層的ビデオ分解

Working memory inspired hierarchical video decomposition with transformative representations ( http://arxiv.org/abs/2204.10105v1 )

ライセンス: Link先を確認
Binjie Qin, Haohao Mao, Ruipeng Zhang, Yueqi Zhu, Song Ding, Xu Chen(参考訳) ビデオ分解は、コンピュータビジョン、機械学習、医用画像の複雑な背景から、例えばx線冠動脈造影(xca)の複雑でノイズの多い背景から、移動コントラストで満たされた血管を抽出するために非常に重要である。 しかし、動的背景、重なり合う異種環境、複雑なノイズによって生じる課題は、ビデオ分解にも存在する。 これらの問題を解決するために,視覚・認知神経科学の観点から感覚層と制御層間の変換表現を統合し,解釈可能かつ高性能な階層的深層構造を提供するために,ビデオ分解タスクにフレキシブルな視覚ワーキングメモリモデルを導入する。 具体的には、構造規則化センサ層として機能するロバストPCAアンローリングネットワークは、XCAをスパース/ローランク構造表現に分解し、ノイズと複雑な背景から移動コントラスト満載の容器を分離する。 その後、バックプロジェクションモジュールによるパッチ繰り返し畳み込みLSTMネットワークは、作業記憶における制御層の非構造的ランダム表現を具現化し、時空間的に分解された非局所パッチを、異種血管の検索と干渉抑制のために直交部分空間に繰り返し投影する。 このビデオ分解深層構造は、複雑な背景干渉に対する移動物体の不均一な強度プロファイルとジオメトリを効果的に復元する。 提案手法は, 高精度な移動コントラスト充填容器抽出において, 高い柔軟性と計算効率で, 最先端の手法を著しく上回ることを示す。

Video decomposition is very important to extract moving foreground objects from complex backgrounds in computer vision, machine learning, and medical imaging, e.g., extracting moving contrast-filled vessels from the complex and noisy backgrounds of X-ray coronary angiography (XCA). However, the challenges caused by dynamic backgrounds, overlapping heterogeneous environments and complex noises still exist in video decomposition. To solve these problems, this study is the first to introduce a flexible visual working memory model in video decomposition tasks to provide interpretable and high-performance hierarchical deep architecture, integrating the transformative representations between sensory and control layers from the perspective of visual and cognitive neuroscience. Specifically, robust PCA unrolling networks acting as a structure-regularized sensor layer decompose XCA into sparse/low-rank structured representations to separate moving contrast-filled vessels from noisy and complex backgrounds. Then, patch recurrent convolutional LSTM networks with a backprojection module embody unstructured random representations of the control layer in working memory, recurrently projecting spatiotemporally decomposed nonlocal patches into orthogonal subspaces for heterogeneous vessel retrieval and interference suppression. This video decomposition deep architecture effectively restores the heterogeneous profiles of intensity and the geometries of moving objects against the complex background interferences. Experiments show that the proposed method significantly outperforms state-of-the-art methods in accurate moving contrast-filled vessel extraction with excellent flexibility and computational efficiency.
翻訳日:2022-04-22 12:12:24 公開日:2022-04-21
# クラスタ割り当ての順応による対数コントラスト学習

Adversarial Contrastive Learning by Permuting Cluster Assignments ( http://arxiv.org/abs/2204.10314v1 )

ライセンス: Link先を確認
Muntasir Wahed and Afrina Tabassum and Ismini Lourentzou(参考訳) コントラスト学習は効果的な自己指導型表現学習技術として人気を集めている。 いくつかの研究方向は従来のコントラスト的アプローチを改善し、例えば、プロトタイプ的なコントラスト的手法はインスタンス間のセマンティックな類似性をよりよく捉え、クラスタのプロトタイプやクラスタの割り当てを考慮して計算負担を削減する。 我々の知る限りでは、前回の作業では堅牢性、クラスタ単位のセマンティックな類似性、計算効率を共同で検討することはなかった。 本研究では,クラスタ割り当ての順列を組み込んだ対向コントラストフレームワークであるswaroを提案する。 複数のベンチマークデータセットと様々なホワイトボックスやブラックボックス攻撃に対するSwARoの評価を行い、最先端のベースラインに対する一貫した改善を得た。

Contrastive learning has gained popularity as an effective self-supervised representation learning technique. Several research directions improve traditional contrastive approaches, e.g., prototypical contrastive methods better capture the semantic similarity among instances and reduce the computational burden by considering cluster prototypes or cluster assignments, while adversarial instance-wise contrastive methods improve robustness against a variety of attacks. To the best of our knowledge, no prior work jointly considers robustness, cluster-wise semantic similarity and computational efficiency. In this work, we propose SwARo, an adversarial contrastive framework that incorporates cluster assignment permutations to generate representative adversarial samples. We evaluate SwARo on multiple benchmark datasets and against various white-box and black-box attacks, obtaining consistent improvements over state-of-the-art baselines.
翻訳日:2022-04-22 12:11:55 公開日:2022-04-21
# (参考訳) ディープラーニングは非パラメトリック回帰(nonparametric regression)を満たしている。

Deep Learning meets Nonparametric Regression: Are Weight-Decayed DNNs Locally Adaptive? ( http://arxiv.org/abs/2204.09664v2 )

ライセンス: CC BY 4.0
Kaiqi Zhang and Yu-Xiang Wang(参考訳) 本研究では,古典的非パラメトリック回帰問題のレンズからニューラルネットワーク(NN)の理論を考察し,不均一な滑らかさを持つ関数を適応的に推定するNNの能力に着目した。 既存の作業では、関数空間とサンプルサイズに基づいてNNアーキテクチャをチューニングする必要がある。 深層ReLUネットワークの"Parallel NN"変種を考えると、標準ウェイト崩壊は、エンドツーエンドの学習関数基底の係数ベクトルである辞書の$\ell_p$-sparsity(0<p<1$)の促進と同値であることを示す。 この等価性を用いて、ウェイト崩壊のみをチューニングすることにより、パラレルNNはベソフクラスとBVクラスの両方のミニマックスレートに任意に近似する推定誤差を達成できることを示す。 特に、NNがより深くなるにつれて、ミニマックスに指数関数的に近づく。 私たちの研究は、なぜ奥行きが重要か、なぜnnがカーネルメソッドよりも強力なのか、新しい光を当てています。

We study the theory of neural network (NN) from the lens of classical nonparametric regression problems with a focus on NN's ability to adaptively estimate functions with heterogeneous smoothness -- a property of functions in Besov or Bounded Variation (BV) classes. Existing work on this problem requires tuning the NN architecture based on the function spaces and sample sizes. We consider a "Parallel NN" variant of deep ReLU networks and show that the standard weight decay is equivalent to promoting the $\ell_p$-sparsity ($0<p<1$) of the coefficient vector of an end-to-end learned function bases, i.e., a dictionary. Using this equivalence, we further establish that by tuning only the weight decay, such Parallel NN achieves an estimation error arbitrarily close to the minimax rates for both the Besov and BV classes. Notably, it gets exponentially closer to minimax optimal as the NN gets deeper. Our research sheds new lights on why depth matters and how NNs are more powerful than kernel methods.
翻訳日:2022-04-22 12:10:14 公開日:2022-04-21
# すべてのトークンが同じではない:Token Clustering Transformerによる人間中心のビジュアル分析

Not All Tokens Are Equal: Human-centric Visual Analysis via Token Clustering Transformer ( http://arxiv.org/abs/2204.08680v3 )

ライセンス: Link先を確認
Wang Zeng, Sheng Jin, Wentao Liu, Chen Qian, Ping Luo, Wanli Ouyang, and Xiaogang Wang(参考訳) ビジョントランスフォーマーは多くのコンピュータビジョンタスクで大きな成功を収めた。 ほとんどの方法は、画像を正規および固定されたグリッドに分割し、各セルをトークンとして扱うことで視覚トークンを生成する。 しかし、全ての領域が人間中心の視覚タスクにおいて等しく重要であるわけではない。例えば、人間の体は多くのトークンを持つ微妙な表現を必要とするが、画像背景はいくつかのトークンでモデル化できる。 そこで本研究では,トークンをフレキシブルな形状と大きさの異なる場所からマージ可能な,プログレッシブクラスタリングによってトークンをマージする,Token Clustering Transformer (TCFormer) という新しいビジョントランスフォーマーを提案する。 tcformerのトークンは重要な領域に焦点を合わせるだけでなく、意味概念に合うようにトークン形状を調整したり、重要な詳細情報を含む領域に対して詳細な解決を行うことができる。 大規模な実験によると、TCFormerは、COCO-WholeBodyの全身ポーズ推定や3DPWの3Dヒューマンメッシュ再構築など、さまざまな挑戦的な人間中心のタスクやデータセットにおいて、一貫してその成果を上げている。 コードはhttps://github.com/zengwang430521/TCFormer.gitで入手できる。

Vision transformers have achieved great successes in many computer vision tasks. Most methods generate vision tokens by splitting an image into a regular and fixed grid and treating each cell as a token. However, not all regions are equally important in human-centric vision tasks, e.g., the human body needs a fine representation with many tokens, while the image background can be modeled by a few tokens. To address this problem, we propose a novel Vision Transformer, called Token Clustering Transformer (TCFormer), which merges tokens by progressive clustering, where the tokens can be merged from different locations with flexible shapes and sizes. The tokens in TCFormer can not only focus on important areas but also adjust the token shapes to fit the semantic concept and adopt a fine resolution for regions containing critical details, which is beneficial to capturing detailed information. Extensive experiments show that TCFormer consistently outperforms its counterparts on different challenging human-centric tasks and datasets, including whole-body pose estimation on COCO-WholeBody and 3D human mesh reconstruction on 3DPW. Code is available at https://github.com/zengwang430521/TCFormer.git
翻訳日:2022-04-22 12:06:14 公開日:2022-04-21
# 物体検出におけるインクリメンタル学習のためのミスアノテーションのモデル化

Modeling Missing Annotations for Incremental Learning in Object Detection ( http://arxiv.org/abs/2204.08766v2 )

ライセンス: Link先を確認
Fabio Cermelli, Antonino Geraci, Dario Fontanel, Barbara Caputo(参考訳) オブジェクト検出の分野での最近の進歩にもかかわらず、一般的なアーキテクチャは、時間とともに新たなカテゴリを段階的に検出するのに相応しい。 彼らは、元のトレーニングデータなしでパラメータを更新しながら、既に学んだことを忘れてしまう。 従来の研究は、主に知識蒸留フレームワークを採用したオブジェクト検出タスクにおける標準分類手法を拡張した。 しかし、オブジェクト検出は、見過ごされている追加の問題をもたらしていると主張する。 新しいクラスに属するオブジェクトはアノテーションによって学習されるが、入力にまだ存在する可能性のある他のオブジェクトに対する監督がなければ、モデルはそれらをバックグラウンド領域に関連付けることを学ぶ。 標準知識蒸留フレームワークを再考し,これらの欠落したアノテーションを扱うことを提案する。 提案手法は,Pascal-VOCデータセットのすべての設定において,最先端の手法よりも優れている。 さらに、他のベースラインよりも優れたインスタンスセグメンテーションの拡張を提案する。 コードはここにある。 https://github.com/fcdl94/MMA

Despite the recent advances in the field of object detection, common architectures are still ill-suited to incrementally detect new categories over time. They are vulnerable to catastrophic forgetting: they forget what has been already learned while updating their parameters in absence of the original training data. Previous works extended standard classification methods in the object detection task, mainly adopting the knowledge distillation framework. However, we argue that object detection introduces an additional problem, which has been overlooked. While objects belonging to new classes are learned thanks to their annotations, if no supervision is provided for other objects that may still be present in the input, the model learns to associate them to background regions. We propose to handle these missing annotations by revisiting the standard knowledge distillation framework. Our approach outperforms current state-of-the-art methods in every setting of the Pascal-VOC dataset. We further propose an extension to instance segmentation, outperforming the other baselines. Code can be found here: https://github.com/fcdl94/MMA
翻訳日:2022-04-22 12:05:53 公開日:2022-04-21
# 半監督点雲の補修における事前蒸留法

Reconstruction-Aware Prior Distillation for Semi-supervised Point Cloud Completion ( http://arxiv.org/abs/2204.09186v2 )

ライセンス: Link先を確認
Zhaoxin Fan, Yulin He, Zhicheng Wang, Kejian Wu, Hongyan Liu and Jun He(参考訳) 現実世界のセンサーでスキャンされた点雲は常に不完全で不規則でノイズが多いため、点雲完了タスクはますます重要になる。 多くのポイントクラウド補完手法が提案されているが、そのほとんどはトレーニングのために大量のペアの完全不完全ポイントクラウドを必要とする。 そこで本研究では, 大規模データセットへの依存を減らすために, 2段階のトレーニング方式を活用し, 再資源化型事前蒸留半教師付きポイントクラウド補完法であるrapdを提案する。 トレーニングステージ1では、リコンストラクション・アウェアプリトレーニングプロセスを使用して、いわゆるディープ・セマンティクス・プリアーを、未ペイド完全および未ペイド不完全点雲の両方から学習する。 トレーニング段階2では,エンコーダデコーダをベースとしたコンプリートネットワークを,少数のペアのトレーニングサンプルのみを用いてネットワークに蒸留することにより,半教師付き事前蒸留プロセスを導入する。 自己教師付き補完モジュールがさらに導入され、多数の未ペア不完全点雲の価値が発掘され、ネットワークの性能が向上する。 いくつかの広く使われているデータセットに対する大規模な実験により、最初の半教師付きポイントクラウド補完法であるRADは、相同性および異種性の両方のシナリオにおいて、以前の手法よりも優れた性能を発揮することが示された。

Point clouds scanned by real-world sensors are always incomplete, irregular, and noisy, making the point cloud completion task become increasingly more important. Though many point cloud completion methods have been proposed, most of them require a large number of paired complete-incomplete point clouds for training, which is labor exhausted. In contrast, this paper proposes a novel Reconstruction-Aware Prior Distillation semi-supervised point cloud completion method named RaPD, which takes advantage of a two-stage training scheme to reduce the dependence on a large-scale paired dataset. In training stage 1, the so-called deep semantic prior is learned from both unpaired complete and unpaired incomplete point clouds using a reconstruction-aware pretraining process. While in training stage 2, we introduce a semi-supervised prior distillation process, where an encoder-decoder-based completion network is trained by distilling the prior into the network utilizing only a small number of paired training samples. A self-supervised completion module is further introduced, excavating the value of a large number of unpaired incomplete point clouds, leading to an increase in the network's performance. Extensive experiments on several widely used datasets demonstrate that RaPD, the first semi-supervised point cloud completion method, achieves superior performance to previous methods on both homologous and heterologous scenarios.
翻訳日:2022-04-22 12:05:39 公開日:2022-04-21
# 逐次的点雲:調査

Sequential Point Clouds: A Survey ( http://arxiv.org/abs/2204.09337v2 )

ライセンス: Link先を確認
Haiyan Wang, Yingli Tian(参考訳) point cloudは、現実世界のアプリケーションと同様に、ますます研究の注目を集めている。 しかし、これらのアプリケーション(例えば、自律運転やロボット操作)の多くは、静的ポイントクラウドデータが提供できる情報はまだ限られているため、実際にはシーケンシャルポイントクラウド(すなわち4次元)に基づいている。 最近、研究者はシーケンシャル・ポイント・クラウドにより多くの努力を払っている。 本稿では,ダイナミックフロー推定,オブジェクト検出_&トラッキング,ポイントクラウドセグメンテーション,ポイントクラウド予測など,逐次的ポイントクラウド研究のためのディープラーニングベースの手法の広範なレビューを行う。 本稿では,提案手法の定量的評価結果を,公開ベンチマークデータセット上でさらに要約し,比較する。 最後に,現在の逐次クラウド研究における課題について議論し,今後の研究方向性について考察する。

Point cloud has drawn more and more research attention as well as real-world applications. However, many of these applications (e.g. autonomous driving and robotic manipulation) are actually based on sequential point clouds (i.e. four dimensions) because the information of the static point cloud data could provide is still limited. Recently, researchers put more and more effort into sequential point clouds. This paper presents an extensive review of the deep learning-based methods for sequential point cloud research including dynamic flow estimation, object detection \& tracking, point cloud segmentation, and point cloud forecasting. This paper further summarizes and compares the quantitative results of the reviewed methods over the public benchmark datasets. Finally, this paper is concluded by discussing the challenges in the current sequential point cloud research and pointing out insightful potential future research directions.
翻訳日:2022-04-22 12:05:12 公開日:2022-04-21
# 安全四足ナビゲーションのための学習フォワードダイナミクスモデルとインフォームド・トラック・サンプラー

Learning Forward Dynamics Model and Informed Trajectory Sampler for Safe Quadruped Navigation ( http://arxiv.org/abs/2204.08647v3 )

ライセンス: Link先を確認
Yunho Kim, Chanyoung Kim, Jemin Hwangbo(参考訳) 様々な複雑な環境での自律的な四脚ロボットナビゲーションでは、典型的なSOTAシステムは、階層的な方法で4つの主要なモジュール(マッパー、グローバルプランナー、ローカルプランナー、コマンドトラッキングコントローラ)で構成されている。 本稿では,グローバルプランナから粗い計画経路を追跡するための速度計画を生成するために,ロバストで安全なローカルプランナを構築する。 従来の作業ではウェイポイントベースの手法(例えば、Proportional-Differential Controlや純粋な追跡)を使用していた。 しかし,グローバルプランナーは粗い不正確なモデルを使い,ローカルプランナーはグローバルプランを十分に追跡できないという2つの理由から,幾何学的に複雑で狭い環境で頻繁に衝突する。 現在、ディープラーニング手法は、より正確な経験から安全性とパス実現可能性を学ぶことができるため、魅力的な代替手段である。 しかし、既存のディープラーニング手法では、長い地平線を計画することはできない。 本研究では,FDM(Learning forward dynamics model),オンラインサンプリングベースモデル予測コントローラ,ITS(Information trajectory sampler)の3つの革新的な要素からなる学習ベースの完全自律ナビゲーションフレームワークを提案する。 このフレームワークを使うことで、四足歩行ロボットは衝突することなく様々な複雑な環境で自律的に移動でき、ベースライン方式よりもスムーズなコマンドプランを生成することができる。 さらに,提案手法は計画経路上の予期せぬ障害を積極的に処理し,回避することができる。 プロジェクトページ https://awesomericky.github.io/projects/fdm_its_navigation/

For autonomous quadruped robot navigation in various complex environments, a typical SOTA system is composed of four main modules -- mapper, global planner, local planner, and command-tracking controller -- in a hierarchical manner. In this paper, we build a robust and safe local planner which is designed to generate a velocity plan to track a coarsely planned path from the global planner. Previous works used waypoint-based methods (e.g. Proportional-Differential control and pure pursuit) which simplify the path tracking problem to local point-goal navigation. However, they suffer from frequent collisions in geometrically complex and narrow environments because of two reasons; the global planner uses a coarse and inaccurate model and the local planner is unable to track the global plan sufficiently well. Currently, deep learning methods are an appealing alternative because they can learn safety and path feasibility from experience more accurately. However, existing deep learning methods are not capable of planning for a long horizon. In this work, we propose a learning-based fully autonomous navigation framework composed of three innovative elements: a learned forward dynamics model (FDM), an online sampling-based model-predictive controller, and an informed trajectory sampler (ITS). Using our framework, a quadruped robot can autonomously navigate in various complex environments without a collision and generate a smoother command plan compared to the baseline method. Furthermore, our method can reactively handle unexpected obstacles on the planned path and avoid them. Project page https://awesomericky.github.io/projects/FDM_ITS_navigation/.
翻訳日:2022-04-22 12:04:49 公開日:2022-04-21
# (参考訳) 音響誘導セマンティックビデオ生成

Sound-Guided Semantic Video Generation ( http://arxiv.org/abs/2204.09273v2 )

ライセンス: CC BY 4.0
Seung Hyun Lee, Gyeongrok Oh, Wonmin Byeon, Jihyun Bae, Chanyoung Kim, Won Jeong Ryoo, Sang Ho Yoon, Jinkyu Kim, Sangpil Kim(参考訳) StyleGANの最近の成功は、事前訓練されたStyleGAN潜伏空間がリアルなビデオ生成に有用であることを示している。 しかし、ビデオ内の生成された動きは、StyleGAN潜伏空間の方向と大きさを決定するのが難しいため、意味的に意味がない。 本稿では,マルチモーダル(音声テキスト)埋め込み空間を活用し,リアルな映像を生成する枠組みを提案する。 サウンドがシーンのテンポラリなコンテキストを提供すると、フレームワークは音と意味的に一致するビデオを生成することを学びます。 まず,我々の音響インバージョンモジュールは,音声を直接StyleGAN潜在空間にマッピングする。 次に、CLIPベースのマルチモーダル埋め込み空間を組み込んで、オーディオと視覚の関係をさらに深める。 最後に、提案するフレーム生成器は、対応する音と整合する潜在空間における軌跡を学習し、階層的に映像を生成する。 音声誘導映像生成タスク用に,新しい高分解能ランドスケープビデオデータセット (audio-visual pair) を提供する。 実験の結果,本モデルは映像品質の面で最先端の手法よりも優れていた。 さらに,本手法の有効性を検証するために,映像編集や映像編集などいくつかの応用例を示す。

The recent success in StyleGAN demonstrates that pre-trained StyleGAN latent space is useful for realistic video generation. However, the generated motion in the video is usually not semantically meaningful due to the difficulty of determining the direction and magnitude in the StyleGAN latent space. In this paper, we propose a framework to generate realistic videos by leveraging multimodal (sound-image-text) embedding space. As sound provides the temporal contexts of the scene, our framework learns to generate a video that is semantically consistent with sound. First, our sound inversion module maps the audio directly into the StyleGAN latent space. We then incorporate the CLIP-based multimodal embedding space to further provide the audio-visual relationships. Finally, the proposed frame generator learns to find the trajectory in the latent space which is coherent with the corresponding sound and generates a video in a hierarchical manner. We provide the new high-resolution landscape video dataset (audio-visual pair) for the sound-guided video generation task. The experiments show that our model outperforms the state-of-the-art methods in terms of video quality. We further show several applications including image and video editing to verify the effectiveness of our method.
翻訳日:2022-04-22 12:02:20 公開日:2022-04-21
# 状況知覚誘導型イメージマットリング

Situational Perception Guided Image Matting ( http://arxiv.org/abs/2204.09276v2 )

ライセンス: Link先を確認
Bo Xu and Jiake Xie and Han Huang and Ziwen Li and Cheng Lu and Yong Tang and Yandong Guo(参考訳) ほとんどの自動マット方式は、前景を背景から切り離そうとしている。 しかし、既存のマッティングデータセットの量と主観バイアスが不十分であるため、与えられた画像におけるオブジェクトからオブジェクトへの関係とオブジェクトから環境への意味的関係を十分に探求することは困難である。 本稿では,マットアノテーションの主観的偏見を緩和し,視覚的・テクスチャ的タスクから抽出したより優れたグローバル・サリエンシのための十分な状況認識情報をキャプチャする状況認識ガイド画像マッチング(SPG-IM)手法を提案する。 SPG-IMは画像マッチングの主観的性質と高価なアノテーションを補うことにより、オブジェクト間やオブジェクト間サリエンシをよりよく関連付けることができる。 また,テキストセマンティックトランスフォーメーション(TST)モジュールを導入し,意味的特徴ストリームを効果的に変換し,統合して視覚的表現を導く。 さらに,多スケールの受容場と焦点を適応的に切り替えてグローバル・ローカルの細部を拡大するために,適応的焦点変換(AFT)リファインメントネットワークを提案する。 広範な実験により,視覚からテキストへのタスクにおける状況知覚指導の有効性が示され,本モデルは最先端手法を上回っている。 また、モデルにおける異なるコンポーネントの重要性を分析する。 コードはまもなくリリースされる。

Most automatic matting methods try to separate the salient foreground from the background. However, the insufficient quantity and subjective bias of the current existing matting datasets make it difficult to fully explore the semantic association between object-to-object and object-to-environment in a given image. In this paper, we propose a Situational Perception Guided Image Matting (SPG-IM) method that mitigates subjective bias of matting annotations and captures sufficient situational perception information for better global saliency distilled from the visual-to-textual task. SPG-IM can better associate inter-objects and object-to-environment saliency, and compensate the subjective nature of image matting and its expensive annotation. We also introduce a textual Semantic Transformation (TST) module that can effectively transform and integrate the semantic feature stream to guide the visual representations. In addition, an Adaptive Focal Transformation (AFT) Refinement Network is proposed to adaptively switch multi-scale receptive fields and focal points to enhance both global and local details. Extensive experiments demonstrate the effectiveness of situational perception guidance from the visual-to-textual tasks on image matting, and our model outperforms the state-of-the-art methods. We also analyze the significance of different components in our model. The code will be released soon.
翻訳日:2022-04-22 11:46:19 公開日:2022-04-21
# マルチモーダルアスペクトに基づく感性分析のためのビジョンランゲージ事前学習

Vision-Language Pre-Training for Multimodal Aspect-Based Sentiment Analysis ( http://arxiv.org/abs/2204.07955v2 )

ライセンス: Link先を確認
Yan Ling, Jianfei Yu, Rui Xia(参考訳) 近年,感情分析における重要な課題として,マルチモーダル・アスペクトベース感性分析(MABSA)が注目されている。 しかし 前回のアプローチは (i)クロスモーダルアライメントを無視する、別々に事前学習された視覚及びテキストモデルを使用する。 (II) 一般的な事前学習タスクで事前訓練された視覚言語モデルを用いて, 微粒な側面, 意見, 微粒なアライメントの同定に不適である。 これらの制約に対処するため,MABSA(VLPMABSA)のためのタスク固有のビジョンランゲージ事前学習フレームワークを提案する。 さらに,言語,視覚,マルチモーダルモダリティからタスク固有のプリトレーニングタスクを3種類設計した。 実験結果から,本手法は3つのMABSAサブタスクに対する最先端アプローチよりも優れていた。 さらなる分析は、各事前学習タスクの有効性を示す。 ソースコードはhttps://github.com/NUSTM/VLP-MABSAで公開されている。

As an important task in sentiment analysis, Multimodal Aspect-Based Sentiment Analysis (MABSA) has attracted increasing attention in recent years. However, previous approaches either (i) use separately pre-trained visual and textual models, which ignore the crossmodal alignment or (ii) use vision-language models pre-trained with general pre-training tasks, which are inadequate to identify finegrained aspects, opinions, and their alignments across modalities. To tackle these limitations, we propose a task-specific Vision-Language Pre-training framework for MABSA (VLPMABSA), which is a unified multimodal encoder-decoder architecture for all the pretraining and downstream tasks. We further design three types of task-specific pre-training tasks from the language, vision, and multimodal modalities, respectively. Experimental results show that our approach generally outperforms the state-of-the-art approaches on three MABSA subtasks. Further analysis demonstrates the effectiveness of each pretraining task. The source code is publicly released at https://github.com/NUSTM/VLP-MABSA.
翻訳日:2022-04-22 11:45:42 公開日:2022-04-21
# NICO++: ドメインの一般化のためのベンチマークの改善を目指す

NICO++: Towards Better Benchmarking for Domain Generalization ( http://arxiv.org/abs/2204.08040v2 )

ライセンス: Link先を確認
Xingxuan Zhang, Yue He, Renzhe Xu, Han Yu, Zheyan Shen, Peng Cui(参考訳) 現代のディープニューラルネットワークが独立かつ同一に分散した(I.I.D.)データで達成した顕著な性能にもかかわらず、それらは分散シフトの下でクラッシュする可能性がある。 ドメイン一般化(DG)に関する現在の評価手法の多くは、限られたドメイン数に対する妥協として、Left-one-out戦略を採用している。 dgアルゴリズムを包括的に評価するためのより合理的な評価手法とともに,広範なラベル付きドメインであるnico++を用いた大規模ベンチマークを提案する。 DGデータセットを評価するために,共変量シフトと概念シフトを定量化する2つの指標を提案する。 データ構築の観点からの2つの新しい一般化境界は、限定された概念シフトと重要な共変量シフトが一般化の評価能力を好むことを示すために提案されている。 NICO++は広範な実験を通じて、現在のDGデータセットと比較して優れた評価能力を示し、モデル選択におけるオラクル知識の漏洩による不公平さを軽減することに寄与している。

Despite the remarkable performance that modern deep neural networks have achieved on independent and identically distributed (I.I.D.) data, they can crash under distribution shifts. Most current evaluation methods for domain generalization (DG) adopt the leave-one-out strategy as a compromise on the limited number of domains. We propose a large-scale benchmark with extensive labeled domains named NICO++ along with more rational evaluation methods for comprehensively evaluating DG algorithms. To evaluate DG datasets, we propose two metrics to quantify covariate shift and concept shift, respectively. Two novel generalization bounds from the perspective of data construction are proposed to prove that limited concept shift and significant covariate shift favor the evaluation capability for generalization. Through extensive experiments, NICO++ shows its superior evaluation capability compared with current DG datasets and its contribution in alleviating unfairness caused by the leak of oracle knowledge in model selection.
翻訳日:2022-04-22 11:45:25 公開日:2022-04-21
# 文法的数の利用に関する調査

Probing for the Usage of Grammatical Number ( http://arxiv.org/abs/2204.08831v2 )

ライセンス: Link先を確認
Karim Lasri, Tiago Pimentel, Alessandro Lenci, Thierry Poibeau, Ryan Cotterell(参考訳) 探究の中心的な探求は、事前訓練されたモデルがその表現の中で言語特性をエンコードする方法を明らかにすることである。 しかし、エンコーディングは、予測を行う際に、モデルがそれに依存しない可能性がある。 本稿では、モデルが実際に使用しているエンコーディングを見つけ、使用法に基づく探索設定を導入する。 まず,言語特性を用いずには解決できない行動課題を選択する。 そして、モデルの表現を介入することで、プロパティを除去しようとします。 我々は、エンコーディングがモデルによって使用される場合、その削除が選択された動作タスクのパフォーマンスに影響を及ぼすと論じる。 ケーススタディでは,BERTが文法的数値をエンコードする方法と,このエンコーディングを用いて数値合意課題を解決する方法に焦点をあてる。 実験により,BERTは文法的な数値を線形に符号化して正しい振舞いの出力を生成する。 また、BERTは名詞と動詞の文法的な数値を別々に符号化している。 最後に,文法的数に関する情報が名詞から頭動詞に伝達される層を同定する。

A central quest of probing is to uncover how pre-trained models encode a linguistic property within their representations. An encoding, however, might be spurious-i.e., the model might not rely on it when making predictions. In this paper, we try to find encodings that the model actually uses, introducing a usage-based probing setup. We first choose a behavioral task which cannot be solved without using the linguistic property. Then, we attempt to remove the property by intervening on the model's representations. We contend that, if an encoding is used by the model, its removal should harm the performance on the chosen behavioral task. As a case study, we focus on how BERT encodes grammatical number, and on how it uses this encoding to solve the number agreement task. Experimentally, we find that BERT relies on a linear encoding of grammatical number to produce the correct behavioral output. We also find that BERT uses a separate encoding of grammatical number for nouns and verbs. Finally, we identify in which layers information about grammatical number is transferred from a noun to its head verb.
翻訳日:2022-04-22 11:45:06 公開日:2022-04-21