このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220713となっている論文です。

PDF登録状況(公開日: 20220713)

TitleAuthorsAbstract論文公表日・翻訳日
# 商用量子乱数発生器の独立品質評価

Independent quality assessment of a commercial quantum random number generator ( http://arxiv.org/abs/2004.04996v2 )

ライセンス: Link先を確認
Mikhail Petrov, Igor Radchenko, Damian Steiger, Renato Renner, Matthias Troyer and Vadim Makarov(参考訳) 商用量子光学乱数生成器のハードウェアとファームウェアをid quantiqueからリバースエンジニアリングし,テストし,解析する。 出力データの99%は、半導体材料の光子吸収のランダムなタイミングと、衝撃電離による雪崩のランダムな成長である。 これらの過程がコンポーネントの初期純粋状態の測定と一致するという強い仮定の下で、本解析は生成したランダム性の予測不能を示唆する。 また,検出器電子回路における不完全性や,このデバイスに特有の内部処理アルゴリズムからの小さな非ランダムな寄与も見いだした。 本研究は,商用量子光学的ランダムネス源の設計品質を,製造者の協力なしに,かつ工学的資料にアクセスせずに検証できることを示す。

We reverse-engineer, test and analyse hardware and firmware of the commercial quantum-optical random number generator Quantis from ID Quantique. We show that > 99% of its output data originates in physically random processes: random timing of photon absorption in a semiconductor material, and random growth of avalanche owing to impact ionisation. Under a strong assumption that these processes correspond to a measurement of an initially pure state of the components, our analysis implies the unpredictability of the generated randomness. We have also found minor non-random contributions from imperfections in detector electronics and an internal processing algorithm, specific to this particular device. Our work shows that the design quality of a commercial quantum-optical randomness source can be verified without cooperation of the manufacturer and without access to the engineering documentation.
翻訳日:2023-05-25 06:26:09 公開日:2022-07-13
# su(2)-in-su(1,1)ネスト干渉計による高感度・損失耐性量子計測

SU(2)-in-SU(1,1) Nested Interferometer for Highly Sensitive, Loss-Tolerant Quantum Metrology ( http://arxiv.org/abs/2004.14266v2 )

ライセンス: Link先を確認
Wei Du, Jia Kong, Jun Jia, Sheng Ming, Chun-Hua Yuan, J.F.Chen, Z.Y.Ou, Morgan W. Mitchell, and Weiping Zhang(参考訳) 我々は,SU(2)干渉計,例えばマッハ・ツェンダーまたはミッチェルソン干渉計を,SU(1,1)干渉計,すなわちビームスプリッタの代わりにパラメトリック増幅器を備えたマッハ・ツェンダー干渉計内にネストする新しい干渉計トポロジーに関する実験的および理論的結果を示す。 このsu(2)-in-su(1,1)ネスト干渉計(sisni)は、高信号対雑音比(snr)、標準量子限界(sql)を超える感度、例えば検出器における干渉計外部の光子損失に対する耐性を同時に達成する。 rb蒸気中における4波混合(fwm)によるパラメトリック増幅を用いたsisniと、レーザフェードマッハツェンダーsu(2)干渉計を実装した。 我々は、SNR2.2dBによる経路長感度を、従来の損失耐性干渉計よりも2桁のパワーレベル(すなわちSNR)で観測する。 実験により最適なFWMゲインが得られ、FWMプロセスの最小量子ノイズモデルと一致している。 その結果、高出力干渉計(例えば重力波干渉計)の実用的感度を高める方法が示唆され、効率的な検出器が使用できない波長での高感度量子エンハンス干渉測定が可能となった。

We present experimental and theoretical results on a new interferometer topology that nests a SU(2) interferometer, e.g., a Mach-Zehnder or Michelson interferometer, inside a SU(1,1) interferometer, i.e., a Mach-Zehnder interferometer with parametric amplifiers in place of beam splitters. This SU(2)-in-SU(1,1) nested interferometer (SISNI) simultaneously achieves high signal-to-noise ratio (SNR), sensitivity beyond the standard quantum limit (SQL) and tolerance to photon losses external to the interferometer, e.g., in detectors. We implement a SISNI using parametric amplification by four-wave mixing (FWM) in Rb vapor and a laser-fed Mach-Zehnder SU(2) interferometer. We observe path-length sensitivity with SNR 2.2 dB beyond the SQL at power levels (and thus SNR) 2 orders of magnitude beyond those of previous loss-tolerant interferometers. We find experimentally the optimal FWM gains and find agreement with a minimal quantum noise model for the FWM process. The results suggest ways to boost the in-practice sensitivity of high-power interferometers, e.g., gravitational wave interferometers, and may enable high-sensitivity, quantum-enhanced interferometry at wavelengths for which efficient detectors are not available.
翻訳日:2023-05-21 19:38:51 公開日:2022-07-13
# ポスト量子ステアリングは情報処理にとって量子よりも強力な資源である

Post-quantum steering is a stronger-than-quantum resource for information processing ( http://arxiv.org/abs/2102.06581v2 )

ライセンス: Link先を確認
Paulo J. Cavalcanti, John H. Selby, Jamie Sikora, Thomas D. Galley, and Ana Bel\'en Sainz(参考訳) 本稿では,量子後ステアリングが情報処理において,量子よりも強力なリソースである最初の例を示す。 さらに,後量子ステアリング現象は,無符号原理によって許される単なる数学的好奇心に留まらず,量子論を超えた構成理論に出現する可能性があり,その研究が根本的な意味を持つことを示した。 これらの結果は、Witworldと呼ばれる新しい構成一般確率論を、量子領域を超えてステアリングとその応用を探索するための直感的で有用なツールであることが証明された、強力な量子後特徴で定式化することによって示される。

We present the first instance where post-quantum steering is a stronger-than-quantum resource for information processing -- remote state preparation. In addition, we show that the phenomenon of post-quantum steering is not just a mere mathematical curiosity allowed by the no-signalling principle, but it may arise within compositional theories beyond quantum theory, hence making its study fundamentally relevant. We show these results by formulating a new compositional general probabilistic theory -- which we call Witworld -- with strong post-quantum features, which proves to be a intuitive and useful tool for exploring steering and its applications beyond the quantum realm.
翻訳日:2023-04-11 08:09:10 公開日:2022-07-13
# 連続変数計測に基づく量子計算のための流れ条件

Flow conditions for continuous variable measurement-based quantum computing ( http://arxiv.org/abs/2104.00572v3 )

ライセンス: Link先を確認
Robert I. Booth and Damian Markham(参考訳) 測定ベースの量子コンピューティング(MBQC)では、エンタングル状態の一連の測定と修正によって計算が行われる。 フローと関連する概念は、過去の測定結果に対する補正の依存性を特徴づける強力な手法である。 CV-flowと呼ばれる連続変数グラフ状態を用いた量子計算のためのフローベース手法を提案する。 これらは、qubit mbqc の因果フローと g-flow の概念に着想を得ているが、同等ではない。 また,CVフローを持つMBQCは無限スケズ極限において任意にユニタリを近似し,無限次元設定では避けられない収束の問題に対処することを示した。 本研究では, CV-MBQC計算を宮崎らの回路抽出法に類似した回路形式に変換する手法と, Mhalla と Perdrix の qubit バージョンに基づいて, CV-flow が存在する場合に, CV-flow を求める効率的なアルゴリズムを提案する。 この結果と手法は,主局所次元の量子計算におけるMBQCの場合にまで自然に拡張する。

In measurement-based quantum computing (MBQC), computation is carried out by a sequence of measurements and corrections on an entangled state. Flow, and related concepts, are powerful techniques for characterising the dependence of the corrections on previous measurement results. We introduce flow-based methods for quantum computation with continuous-variable graph states, which we call CV-flow. These are inspired by, but not equivalent to, the notions of causal flow and g-flow for qubit MBQC. We also show that an MBQC with CV-flow approximates a unitary arbitrarily well in the infinite-squeezing limit, addressing issues of convergence which are unavoidable in the infinite-dimensional setting. In developing our proofs, we provide a method for converting a CV-MBQC computation into a circuit form, analogous to the circuit extraction method of Miyazaki et al, and an efficient algorithm for finding CV-flow when it exists based on the qubit version by Mhalla and Perdrix. Our results and techniques naturally extend to the cases of MBQC for quantum computation with qudits of prime local dimension.
翻訳日:2023-04-05 22:22:29 公開日:2022-07-13
# reshape: hypergraph製品コードのためのデコーダ

ReShape: a decoder for hypergraph product codes ( http://arxiv.org/abs/2105.02370v2 )

ライセンス: Link先を確認
Armanda O. Quintavalle, Earl T. Campbell(参考訳) 復号アルゴリズムの設計は、フォールトトレラント量子コンピュータの開発において重要な技術要素である。 量子デコーダの設計は古典的デコーダアルゴリズムに触発されることが多いが、古典的デコーダから量子デコーダを構築する一般的な原則は存在しない。 任意の古典的な符号が与えられると、ハイパーグラフ製品を使って量子コードを構築し、ハイパーグラフ製品コードを生成することができます。 ここで、これらの古典符号のデコーダも持ち上げられることを示す。 すなわち、関連する古典符号に対する最小ウェイトデコーダへのオラクルアクセスが与えられた場合、対応する$[n,k,d]]$量子コードは、$(d-1)/2$より小さいウェイトエラーに対して効率的に復号することができる。 量子デコーダは古典的なデコーダへの$O(k)$オラクルコールと$O(n^2)$古典的なリソースのみを必要とする。 リフトとデコーダの正しさ証明は純粋に代数的性質を持ち、超グラフ積符号空間のいくつかの新しいホモロジー不変量の発見に寄与する。 デコーダは対向誤差に対して完璧に機能するが、より現実的な確率的ノイズモデルには適さないため、誤り訂正しきい値の確立には使用できない。

The design of decoding algorithms is a significant technological component in the development of fault-tolerant quantum computers. Often design of quantum decoders is inspired by classical decoding algorithms, but there are no general principles for building quantum decoders from classical decoders. Given any pair of classical codes, we can build a quantum code using the hypergraph product, yielding a hypergraph product code. Here we show we can also lift the decoders for these classical codes. That is, given oracle access to a minimum weight decoder for the relevant classical codes, the corresponding $[[n,k,d]]$ quantum code can be efficiently decoded for any error of weight smaller than $(d-1)/2$. The quantum decoder requires only $O(k)$ oracle calls to the classical decoder and $O(n^2)$ classical resources. The lift and the correctness proof of the decoder have a purely algebraic nature that draws on the discovery of some novel homological invariants of the hypergraph product codespace. While the decoder works perfectly for adversarial errors, it is not suitable for more realistic stochastic noise models and therefore can not be used to establish an error correcting threshold.
翻訳日:2023-04-01 12:57:30 公開日:2022-07-13
# 量子確率の模倣:ベルの定理とトシレルソン境界を超えて

Imitating quantum probabilities: Beyond Bell's theorem and Tsirelson bounds ( http://arxiv.org/abs/2105.12728v4 )

ライセンス: Link先を確認
Marek Czachor and Kamil Nalikowski(参考訳) m. czachor, arithmetic loophole in bell's theorem: overlooked threat to entangled-state quantum cryptography, acta phys で議論された一重項状態相関の局所隠れ変数モデル。 ポロだ 139, 70-83 (2021) は、解の無限階層に基づく局所隠れ変数モデルの無限階層の特別な場合である。 ベル型不等式の違反は「言語の融合」問題であり、階層の異なるが隣接するレベルを混合した結果である。 非結合レベルの混合は、tsirelson境界を超える違反をもたらす。

Local hidden-variable model of singlet-state correlations discussed in M. Czachor, Arithmetic loophole in Bell's Theorem: Overlooked threat to entangled-state quantum cryptography, Acta Phys. Polon. A 139, 70-83 (2021), is shown to be a particular case of an infinite hierarchy of local hidden-variable models based on an infinite hierarchy of calculi. Violation of Bell-type inequalities is shown to be a `confusion of languages' problem, a result of mixing different but neighboring levels of the hierarchy. Mixing of non-neighboring levels results in violations beyond the Tsirelson bounds.
翻訳日:2023-03-29 20:33:07 公開日:2022-07-13
# 量子熱力学における熱力学変数間の一般化された不確かさ関係

Generalized uncertainty relation between thermodynamic variables in quantum thermodynamics ( http://arxiv.org/abs/2107.14424v2 )

ライセンス: Link先を確認
Z. Abuali, F. H. Kamin, R. J. S. Afonso, D. O. Soares-Pinto, and S. Salimi(参考訳) 熱力学状態の記述は、弱いカップリング状態における時間に依存しない集中変数と広範な変数を使用することで可能となる。 しかし、古典的あるいは量子的なケースでは、統計的なゆらぎが熱力学的極限ではなく大きな影響を持つ有限系を扱う場合や、系とその環境の結合がエネルギーの大きさである場合、このことは明らかではない。 一方で、近年では、物理量のゆらぎがパラメータの正確な推定において重要な役割を果たすように、メートル法が量子構造に拡張されている。 メトロロジーツールを用いることで、任意の線形結合スケールの系の内部エネルギーと温度の不確実性関係を導き出し、2つの研究分野の間に重要な関係を示すことができる。 我々の研究は、一般化ギブスアンサンブル(gge)による量子シナリオにおける全てのカップリングレジームに対する集中的および広範囲な熱力学的不確実性関係の一般化に焦点をあてている。 まず,全体gge状態に対する集中的および広範囲の量間の基本的な限界を示し,システムの自由度を推定し,関心体系における不確実性関係を評価する。 その後、文献にすでに存在する結果を裏付ける一連の例を行い、その方法の汎用性を示した。

The description of thermodynamic states turns possible by using time-independent intensive and extensive variables in the weak coupling regime. However, neither classical nor quantum cases make this an obvious task when one is dealing with finite systems whose statistical fluctuations have a significant impact, i.e., not in the thermodynamic limit, or when the coupling between a system and its environment is of their energy magnitude. On the other hand, in recent years, metrology has been extended to the quantum regime in such a way that the fluctuation of physical quantities plays a crucial role in the precise estimation of parameters. Using metrology tools, it is possible to derive an uncertainty relation between the internal energy and temperature of systems for arbitrary linear coupling scales, showing an important connection between the two research fields. Our work is dedicated to the generalization of the thermodynamic uncertainty relations between an intensive and an extensive quantity for all coupling regimes in the quantum scenario through the generalized Gibbs ensemble (GGE). First, we demonstrate a fundamental limit between the intensive and extensive quantity for a total GGE state, which makes it possible to take the trace of the degrees of freedom of one of the systems and evaluate the uncertainty relation in the system of interest. After that, we performed a series of examples to corroborate the results already existing in the literature, thus showing the versatility of our method.
翻訳日:2023-03-20 09:12:12 公開日:2022-07-13
# コヒーレンス誘起量子力

Coherence-induced quantum forces ( http://arxiv.org/abs/2109.03543v2 )

ライセンス: Link先を確認
Tarek A. Elsayed(参考訳) 相関支援トンネルの現象を説明するモデルを紹介し,より広い文脈で表現する。 このモデルは、干渉効果によって生じる相関物質の破片間の純粋量子の性質の有効力の存在を仮定する。 この力の大きさは、異なる場所間のコヒーレンス量に依存し、完全な超流動状態におけるフラグメントの最大値に達し、フラグメントがmott絶縁状態にあるときに完全に消滅する。 この力は、ボーム量子ポテンシャル(bohmian quantum potential)の項でも説明できる。 簡単なポテンシャル構造, トリプルウェル・ハーモニックトラップ, 光格子を通した冷媒原子輸送におけるこの力の影響について述べる。

We introduce a model that explains the phenomenon of correlation-assisted tunneling and puts it in a broader context. This model assumes the existence of an effective force of pure quantum nature between nearby fragments of correlated matter that results due to interference effects. The magnitude of this force depends on the amount of coherence between different locations; it attains a maximum value for fragments in a perfect superfluid state and disappears entirely when the fragments are in the Mott Insulator state. The force can also be explained in terms of the Bohmian quantum potential. We illustrate the implications of this force on the transport of cold atoms through simple potential structures, the triple-well harmonic trap and optical lattices.
翻訳日:2023-03-15 20:42:33 公開日:2022-07-13
# 超伝導量子プロセッサを用いた量子臨界

Quantum criticality using a superconducting quantum processor ( http://arxiv.org/abs/2109.10909v2 )

ライセンス: Link先を確認
Maxime Dupont and Joel E. Moore(参考訳) 量子臨界性は相互作用する多くの量子粒子の集合的挙動から生じ、しばしば物質の異なる相間の遷移に現れる。 これは凝縮物質物理学の基盤の1つであり、動的に駆動される現象を利用してノイズの多い中間スケール(NISQ)量子デバイスにアクセスする。 プログラム可能な超伝導量子チップ上での1次元量子イジングモデルの臨界特性を,Kibble-Zurekプロセスを用いて探索し,スケーリング法則を求め,ハードウェアに固有のエラーの原因があるにもかかわらず,臨界指数を推定する。 さらに, NISQ コンピュータの改良 (より多くの量子ビット, ノイズの少ない) によって, それらの普遍的な物理特性の計算が強化されるかを検討する。 一パラメータ雑音モデルは、不完全な効果を捉えて実験データを再生する。 その系統的な研究によると、このノイズは温度に似ており、システムに新しい長さのスケールをもたらす。 我々は,事前の知識なしに直接騒音を考慮し,修正されたスケーリング則の検証を成功に導いた。 ノイズに対して透過的な物理特性を抽出するためのデータ分析を行う。 不完全な量子ハードウェアが物質の量子状態の真の性質をどのように修飾するかを理解することによって、量子臨界性や潜在的に他の現象やアルゴリズムに対処するために、NISQプロセッサのパワーを著しく向上させる。

Quantum criticality emerges from the collective behavior of many interacting quantum particles, often at the transition between different phases of matter. It is one of the cornerstones of condensed matter physics, which we access on noisy intermediate-scale (NISQ) quantum devices by leveraging a dynamically driven phenomenon. We probe the critical properties of the one-dimensional quantum Ising model on a programmable superconducting quantum chip via a Kibble-Zurek process, obtain scaling laws, and estimate critical exponents despite inherent sources of errors on the hardware. In addition, we investigate how the improvement of NISQ computers (more qubits, less noise) will consolidate the computation of those universal physical properties. A one-parameter noise model captures the effect of imperfections and reproduces the experimental data. Its systematic study reveals that the noise, analogously to temperature, induces a new length scale in the system. We introduce and successfully verify modified scaling laws, directly accounting for the noise without any prior knowledge. It makes data analyses for extracting physical properties transparent to noise. By understanding how imperfect quantum hardware modifies the genuine properties of quantum states of matter, we enhance the power of NISQ processors considerably for addressing quantum criticality and potentially other phenomena and algorithms.
翻訳日:2023-03-14 01:10:04 公開日:2022-07-13
# TFermion:量子化学のための量子位相推定アルゴリズムの非クリフォードゲートコスト評価ライブラリ

TFermion: A non-Clifford gate cost assessment library of quantum phase estimation algorithms for quantum chemistry ( http://arxiv.org/abs/2110.05899v2 )

ライセンス: Link先を確認
Pablo A. M. Casares, Roberto Campos, M. A. Martin-Delgado(参考訳) 量子位相推定は量子化学において最も有用な量子計算アルゴリズムの1つであり、効率的な実装の設計に多大な努力が注がれている。 本稿では,任意の分子に対して,そのようなアルゴリズムのTゲートコストを推定するためのライブラリTFermionを紹介する。 使用例として,数分子のtゲートコストを推定し,ガウス法と平面波法を用いて同一のテイラー化アルゴリズムを比較した。

Quantum Phase Estimation is one of the most useful quantum computing algorithms for quantum chemistry and as such, significant effort has been devoted to designing efficient implementations. In this article, we introduce TFermion, a library designed to estimate the T-gate cost of such algorithms, for an arbitrary molecule. As examples of usage, we estimate the T-gate cost of a few simple molecules and compare the same Taylorization algorithms using Gaussian and plane-wave basis.
翻訳日:2023-03-11 17:01:33 公開日:2022-07-13
# エンタングル状態のサブフェムト秒光制御

Sub-femtosecond optical control of entangled states ( http://arxiv.org/abs/2110.06668v2 )

ライセンス: Link先を確認
Farshad Shobeiry, Patrick Fross, Hemkumar Srinivas, Thomas Pfeifer, Robert Moshammer, Anne Harth(参考訳) 絡み合いは古典物理学と量子を区別する最も魅力的な側面の1つである。 これは、工学的な量子システムに依存する量子情報処理のバックボーンである。 また、原子や分子のような自然の系にも存在し、多くの実験的な例で、主に絡み合った光子対や質量粒子間の絡み合いの例で示されている。 それでも自然システムにおける絡み合いの制御は証明されていない。 一方、人工的に作製された量子システムでは、絡み合いの生成と操作は、現在2段階の幅広いシステム(例えば、閉じ込められたイオン、超伝導、半導体システム)で実装されている量子コンピューティングの中心にある。 しかし、これらの過程は比較的遅い: 絡み合いの発生と制御の時間スケールは、閉じ込められたイオン量子系の場合のいくつかの {\mu} から超伝導系における数十 n までの範囲である。 本稿では,超高速光制御による自然システムにおける大粒子間の絡み合いの制御について,工学系よりも高速な時間スケールで述べる。 調整可能な相対遅延と数光子相互作用を施すことにより, 単一水素分子中の電子交絡状態のフェムト秒以下の制御を実証する。 この分子の絡み合いは、H2の光解離において放出されたプロトンに対して非対称電子放出において明らかにされる。 これらの結果は, THz 速度での絡み合いに基づく操作への道を開くことを期待する。

Entanglement is one of the most fascinating aspects distinguishing quantum from classical physics. It is the backbone of quantum information processing which relies on engineered quantum systems. It also exists in natural systems such as atoms and molecules, showcased in many experimental instances mostly in the form of entangled photon pairs and a few examples of entanglement between massive particles. Nevertheless, the control of entanglement in natural systems has never been demonstrated. In artificially prepared quantum systems, on the other hand, the creation and manipulation of entanglement lies at the heart of quantum computing currently implemented in a wide array of two-level systems (e.g. trapped ions, superconducting and semiconductor systems). These processes are, however, relatively slow: the time scale of the entanglement generation and control ranges from a couple of {\mu}s in case of trapped-ion quantum systems down to tens of ns in superconducting systems. In this letter, we show ultrafast optical control of entanglement between massive fundamental particles in a natural system on a time scale faster than that available to engineered systems. We demonstrate the sub-femtosecond control of electronic entangled states in a single hydrogen molecule by applying few-photon interactions with adjustable relative delays. This molecular entanglement is revealed in the asymmetric electron emission with respect to the ejected proton in the photodissociation of H2. We anticipate that these results open the way to entanglement-based operations at THz speed.
翻訳日:2023-03-11 14:42:18 公開日:2022-07-13
# 超伝導量子ビット系のバンタブラックシールド

Vantablack Shielding of Superconducting Qubit Systems ( http://arxiv.org/abs/2110.09603v2 )

ライセンス: Link先を確認
J.M. Kitzman, J.R. Lane, T. Stefanski, N.R. Beysengulov, D. Tan, K.W. Murch and J. Pollanen(参考訳) 超伝導量子ビット系における回路量子電磁力学(cqed)の実験は通常、光子吸収材料でコーティングされた放射シールドを用いて高い量子ビットコヒーレンスと低いマイクロ波共振器損失を達成する。 本稿では,CQEDシステムのための赤外線遮蔽材料として,Vantablackの性能に関する予備的な結果を示す。 我々は, 標準エポキシ系赤外線吸収材料であるバークレーブラックを被覆したシールドに収容された単一接合トランスモン量子ビットのコヒーレンス特性と残留励起状態(あるいは有効クビット温度)を, バンタブラックで被覆されたシールド内の同じクビットのコヒーレンスと有効温度と比較した。 複数のキュービットコヒーレンス測定の統計的分析から,vantablackでコーティングした放射シールドの性能は,標準コーティングと同等であることが判明した。 しかし,バンタブラックコーティングシールドでは,クビットの有効温度が高いことが判明した。 これらの結果は, 超伝導量子ビット実験のための赤外線遮蔽材としてのvantablackの性能を最適化するために改善が必要であろうことを示唆する。 最後に、vantablackの性能をより正確に定量化し、より複雑なcqedシステムのコヒーレンスを改善するための将来の実験について述べる。

Circuit quantum electrodynamics (cQED) experiments on superconducting qubit systems typically employ radiation shields coated in photon absorbing materials to achieve high qubit coherence and low microwave resonator losses. In this work, we present preliminary results on the performance of Vantablack as a novel infrared (IR) shielding material for cQED systems. We compare the coherence properties and residual excited state population (or effective qubit temperature) of a single-junction transmon qubit housed in a shield coated with a standard epoxy-based IR absorbing material, i.e. Berkeley Black, to the coherence and effective temperature of the same qubit in a shield coated in Vantablack. Based on a statistical analysis of multiple qubit coherence measurements we find that the performance of the radiation shield coated with Vantablack is comparable in performance to the standard coating. However, we find that in the Vantablack coated shield the qubit has a higher effective temperature. These results indicate that improvements are likely required to optimize the performance of Vantablack as an IR shielding material for superconducting qubit experiments and we discuss possible routes for such improvements. Finally we describe possible future experiments to more precisely quantify the performance of Vantablack to improve the coherences of more complex cQED systems.
翻訳日:2023-03-11 03:59:50 公開日:2022-07-13
# 量子ネットワーク理論

Quantum networks theory ( http://arxiv.org/abs/2110.10587v2 )

ライセンス: Link先を確認
Pablo Arrighi, Am\'elia Durbec, Matt Wilson(参考訳) 離散系上の量子論の形式論は2つの重要な方法で拡張される。 まず、テンソルとトレースアウトが一般化され、システムはほぼ任意の論理述語に従ってロバストな方法で分割できる。 第二に、量子進化は、ノードが重ね合わせでマージ、分割、再接続を許されるように、ネットワーク構成に作用するように一般化される。 ここで提示された数学的枠組みは、多くの補題を通して固い根拠に固定されている。 実際、量子論において標準的なユニタリ性、完全肯定性、トレース保存、非シグナリング因果性、局所性、ローカライズビリティという概念の間の親しみやすい相互関係が、系の分割が論理的かつ動的になるにつれて破壊されることを恐れていたかもしれない。 このような相互関係は、一貫性と理解という2つの新しい概念によって実現される。

The formalism of quantum theory over discrete systems is extended in two significant ways. First, tensors and traceouts are generalized, so that systems can be partitioned according to almost arbitrary logical predicates in a robust manner. Second, quantum evolutions are generalized to act over network configurations, in such a way that nodes be allowed to merge, split and reconnect coherently in a superposition. The hereby presented mathematical framework is anchored on solid grounds through numerous lemmas. Indeed, one might have feared that the familiar interrelations between the notions of unitarity, complete positivity, trace-preservation, non-signalling causality, locality and localizability that are standard in quantum theory be jeopardized as the partitioning of systems becomes both logical and dynamical. Such interrelations in fact carry through, albeit two new notions become instrumental: consistency and comprehension.
翻訳日:2023-03-11 00:01:53 公開日:2022-07-13
# 統計的位相推定のためのランダム量子アルゴリズム

A randomized quantum algorithm for statistical phase estimation ( http://arxiv.org/abs/2110.12071v2 )

ライセンス: Link先を確認
Kianna Wan and Mario Berta and Earl T. Campbell(参考訳) 位相推定はハミルトニアンの固有値を測定するための量子アルゴリズムである。 2つの特徴を持つランダム化位相推定アルゴリズムを提案し,厳密に解析する。 まず、我々のアルゴリズムはハミルトンの項数 L に依存しない複雑性を持つ。 第2に、qDRIFTなどの従来のL非依存アプローチとは異なり、回路深度を増大させることなく、より多くのデータサンプルを収集することで、アルゴリズムの全ての誤差源を抑えることができる。

Phase estimation is a quantum algorithm for measuring the eigenvalues of a Hamiltonian. We propose and rigorously analyse a randomized phase estimation algorithm with two distinctive features. First, our algorithm has complexity independent of the number of terms L in the Hamiltonian. Second, unlike previous L-independent approaches, such as those based on qDRIFT, all sources of error in our algorithm can be suppressed by collecting more data samples, without increasing the circuit depth.
翻訳日:2023-03-10 19:13:00 公開日:2022-07-13
# 超伝導コプラナー導波路共振器によるヘリウム表面の揺らぎの研究

Helium surface fluctuations investigated with superconducting coplanar waveguide resonator ( http://arxiv.org/abs/2111.02350v2 )

ライセンス: Link先を確認
N.R. Beysengulov, C.A. Mikolas, J.M. Kitzman, J.R. Lane, D. Edmunds, D.G. Rees, E.A. Henriksen, S.A. Lyon, J. Pollanen(参考訳) 液体ヘリウム表面に浮かぶ電子の面内運動状態とマイクロ波共振器との結合に関する最近の実験により、この動きのコヒーレンスに対するヘリウム表面のゆらぎの重要性が明らかになった。 本研究では、超流動ヘリウムを充填した超伝導コプラナー導波路(cpw)共振器の共振特性について検討し、共振器の電磁モード体積のかなりの割合を液体の表面ダイナミクスと結合させた。 本稿では, ヘリウム変動による実時間CPW共振器の周波数シフトについて, 電力スペクトル密度を用いて定量化し, 商用加速度計による測定との比較を行った。 cpw共振器の雑音に対する大きな寄与は,実験を行ったクライオスタット上でパルス管(pt)クライオクーラによって発生するヘリウム表面の機械的振動に起因することがわかった。

Recent experiments on the coupling of the in-plane motional state of electrons floating on the surface of liquid helium to a microwave resonator have revealed the importance of helium surface fluctuations to the coherence of this motion. Here we investigate these surface fluctuations by studying the resonance properties of a superconducting coplanar waveguide (CPW) resonator filled with superfluid helium, where a significant fraction of the resonator's electromagnetic mode volume is coupled to the surface dynamics of the liquid. We present preliminary results on real-time CPW resonator frequency shifts driven by helium fluctuations, which are quantified via their power spectral density and compared with measurements using a commercial accelerometer. We find that a considerable contribution to the CPW resonator noise originates from the mechanical vibrations of the helium surface generated by the pulse tube (PT) cryocooler on the cryostat on which the experiments were performed.
翻訳日:2023-03-09 06:51:20 公開日:2022-07-13
# $SO(3)_p$の既約表現からの$p$進量子ビットへのアプローチ

An approach to $p$-adic qubits from irreducible representations of $SO(3)_p$ ( http://arxiv.org/abs/2112.03362v3 )

ライセンス: Link先を確認
Ilaria Svampa, Stefano Mancini, Andreas Winter(参考訳) 我々は、volovichと彼の支持者によって始められ開発された$p$-adic量子力学の文脈で、$p$-adic量子ビット(p$-qubit)の概念を導入する。 このアプローチでは、物理学はユークリッド空間よりも3次元の$p$-進空間で行われる。 p$-進特殊直交群を記述する以前の研究に基づき、連続ユニタリ射影表現を分類するプログラムの概要を概説し、これは$p$-進角運動量の理論として解釈できる。 p$-進量子ビットは、最小の非自明な次元 2 の既約表現から生じる。

We introduce the notion of $p$-adic quantum bit ($p$-qubit) in the context of the $p$-adic quantum mechanics initiated and developed by Volovich and his followers. In this approach, physics takes place in three-dimensional $p$-adic space rather than Euclidean space. Based on our prior work describing the $p$-adic special orthogonal group, we outline a programme to classify its continuous unitary projective representations, which can be interpreted as a theory of $p$-adic angular momentum. The $p$-adic quantum bit arises from the irreducible representations of minimal nontrivial dimension two, of which we construct examples for all primes $p$.
翻訳日:2023-03-05 09:57:37 公開日:2022-07-13
# 単純高調波オシレータ波動関数における有効$\beta$値

The effective $\beta$ value in a Simple Harmonic Oscillator wave function ( http://arxiv.org/abs/2112.03672v3 )

ライセンス: Link先を確認
Chao-hui Wang, Long Tang, Ting-yan Li, Gong-ping Zheng, Jing-fu Hu, Cheng-qun Pang(参考訳) 単純な高調波発振器(SHO)波動関数を有効波動関数として用いる場合、SHO波動関数の非常に重要なパラメータは$\beta$値である。 座標空間と運動量空間におけるSHO波動関数の$\beta_{eff}$$$$(\beta_{ Effective}$)の解析式を得る。 この式は、$\beta_{eff}$ の挙動を比較するために、light meson system $(u\bar{u},~u\bar{s})$に適用される。 その結果、座標空間における$\beta_ {eff,\mathbf{r}}$ と運動量空間における$\beta_ {eff,\mathbf{p}}$ は基底状態において著しく異なるが、コーネルポテンシャルを持つ高励起状態においても同様である。

When a Simple Harmonic Oscillator (SHO) wave function is used as an effective wave function, a very important parameter in the SHO wave function is the effective $\beta$ value. We obtain the analytical expression of $\beta_{eff}$ ($\beta_{effective}$) of the SHO wave function in coordinate space and momentum space. The expression is applied to the light meson system $(u\bar{u},~u\bar{s})$ to compare the behavior of $\beta_{eff}$. The results show that $\beta_ {eff,\mathbf{r}}$ in coordinate space and $\beta_ {eff,\mathbf{p}}$ in momentum space are significantly different in the ground state, however, similar in the highly excited states with Cornell potential.
翻訳日:2023-03-05 09:47:04 公開日:2022-07-13
# 測定多体量子カオス系のダイナミクス

Dynamics of measured many-body quantum chaotic systems ( http://arxiv.org/abs/2112.08373v2 )

ライセンス: Link先を確認
A. Altland, M. Buchhold, S. Diehl, T. Micklitz(参考訳) 連続測定された多体カオス量子系の力学を考察する。 本研究では, 状態浄化の可観測性に着目し, 粒子数を指数関数的に長く監視する場合において, 強い測定速度と弱い測定速度の限界を解析的に記述する。 我々は,各相の安定性と対称性に関する情報を提供する効果的なレプリカ理論の構築により,限界レジームの解析を補完する。 解析結果は, 測定したsykモデルの正確な数値シミュレーションと比較検討した。

We consider the dynamics of continuously measured many-body chaotic quantum systems. Focusing on the observable of state purification, we analytically describe the limits of strong and weak measurement rate, where in the latter case monitoring up to time scales exponentially long in the numbers of particles is required. We complement the analysis of the limiting regimes with the construction of an effective replica theory providing information on the stability and the symmetries of the respective phases. The analytical results are tested by comparison to exact numerical simulations for a measured SYK model.
翻訳日:2023-03-04 11:38:06 公開日:2022-07-13
# 最適熱力学積分経路による量子R'enyiエントロピー

Quantum R\'enyi entropy by optimal thermodynamic integration paths ( http://arxiv.org/abs/2112.14199v2 )

ライセンス: Link先を確認
Miha Srdin\v{s}ek, Michele Casula, Rodolphe Vuilleumier(参考訳) エンタングルメントを定量化するためのよく確立された操作アプローチであるにもかかわらず、r\'enyiエントロピー計算は計算の複雑さに苦しめられている。 本稿では,r\'enyiエントロピーを正規化経路を用いて効率的に評価できる最適熱力学積分スキームに基づく理論的枠組みを提案する。 このアプローチはゆっくりと収束するゆらぎのある寄与を回避し、低分散推定をもたらす。 このようにして、モデルまたは第一原理ハミルトニアンの大きいシステムサイズと高いレベルの絡み合いが我々の手の届く範囲内にある。 本研究では, 1次元量子イジングモデルでこれを実証し, 2つの共有陽子が室温以上で絡み合っていることを発見し, 分岐エントロピーの評価を行った。

Despite being a well-established operational approach to quantify entanglement, R\'enyi entropy calculations have been plagued by their computational complexity. We introduce here a theoretical framework based on an optimal thermodynamic integration scheme, where the R\'enyi entropy can be efficiently evaluated using regularizing paths. This approach avoids slowly convergent fluctuating contributions and leads to low-variance estimates. In this way, large system sizes and high levels of entanglement in model or first-principles Hamiltonians are within our reach. We demonstrate it in the one-dimensional quantum Ising model and perform the evaluation of entanglement entropy in the formic acid dimer, by discovering that its two shared protons are entangled even above room temperature.
翻訳日:2023-03-03 01:46:05 公開日:2022-07-13
# 遺伝的アルゴリズムによる雑音量子チャネルのコヒーレント情報の超付加性探索

Exploring super-additivity of coherent information of noisy quantum channels through Genetic algorithms ( http://arxiv.org/abs/2201.03958v2 )

ライセンス: Link先を確認
Govind Lal Sidhardh, Mir Alimuddin, and Manik Banik(参考訳) 機械学習技術は、様々な課題を解決するために、基礎研究でますます使われている。 ここでは,量子通信シナリオにおいて重要な問題に対処するための手法について検討する。 ノイズの多い量子チャネルを介して量子情報を転送する際、チャネルの効用はその量子容量によって特徴づけられる。 しかし、量子チャネルはコヒーレント情報の超付加性と呼ばれる興味深い性質を示す。 これにより量子容量の計算は指数関数的に増加する探索空間上の最適化を伴う難しい計算問題となる。 本研究ではまず,量子状態を表すためにニューラルネットワークアンサッツを使用し,この問題に対処するための進化的最適化手法を適用する。 クビットパウリチャネルの3パラメータ空間内の領域は、コヒーレントな情報がこの超増感的特徴を示す。 我々は、高コヒーレントな情報を達成する量子符号を特徴付け、いくつかのパウリチャンネルの繰り返し符号より優れた非自明な量子符号を発見した。 いくつかのパウリチャネルでは、これらの符号は0.01のオーダーの非常に高い超加法的を示し、他のよく研究された量子チャネルの観測値よりもはるかに高い値を示す。 さらに,ニューラルネットワーク ansatz の学習性能を生 ansatz と比較し,3ショットの場合,高いコヒーレント情報の量子符号を求める際に,ニューラルネットワーク ansatz が生表現を上回ることを見出した。 また、進化アルゴリズムの学習性能を単純な粒子群最適化スキームと比較し、同等の性能を示す実験結果を示し、進化スキームと結合したニューラルネットワークのansatzは、高いコヒーレントな情報の非自明な量子コードを見つけるための有望なアプローチであることが示唆された。

Machine learning techniques are increasingly being used in fundamental research to solve various challenging problems. Here we explore one such technique to address an important problem in quantum communication scenario. While transferring quantum information through a noisy quantum channel, the utility of the channel is characterized by its quantum capacity. Quantum channels, however, display an intriguing property called super-additivity of coherent information. This makes the calculation of quantum capacity a hard computational problem involving optimization over an exponentially increasing search space. In this work, we first utilize a neural network ansatz to represent quantum states and then apply an evolutionary optimization scheme to address this problem. We find regions in the three-parameter space of qubit Pauli channels where coherent information exhibits this super-additivity feature. We characterised the quantum codes that achieves high coherent information, finding several non-trivial quantum codes that outperforms the repetition codes for some Pauli channels. For some Pauli channels, these codes displays very high super-additivity of the order of 0.01, much higher than the observed values in other well studied quantum channels. We further compared the learning performance of the Neural Network ansatz with the raw ansatz to find that in the three-shot case, the neural network ansatz outperforms the raw representation in finding quantum codes of high coherent information. We also compared the learning performance of the evolutionary algorithm with a simple Particle Swarm Optimisation scheme and show empirical results indicating comparable performance, suggesting that the Neural Network ansatz coupled with the evolutionary scheme is indeed a promising approach to finding non-trivial quantum codes of high coherent information.
翻訳日:2023-03-01 12:54:04 公開日:2022-07-13
# Holevo skew divergenceによる情報逆流の解析

Holevo skew divergence for the characterization of information backflow ( http://arxiv.org/abs/2201.07812v2 )

ライセンス: Link先を確認
Andrea Smirne, Nina Megier, Bassano Vacchini(参考訳) オープン量子系とその環境間の情報交換による非マルコフ効果の解釈は、最近、オープンシステム外の情報の保存を記述した量(Phys. Rev. Lett. 127, 030401 (2021)))によって、時間内のリバイバルが上限となるように、適切に正規化されたエントロピー量の観点から定式化されている。 ここでは,この理論のより広い数学的枠組みを詳述し,識別性定量化器とオープンシステムから情報の流れを関連付ける重要な性質を明らかにした。 正則性が適用できる特異な量子発散としてホールボ量を挙げ、この一般的な枠組みの中で、非マルコビアン性のいくつかの異なる量子化子がいかに相互に関連しているかを示す。 最後に,本分析を,全量の正確な評価が可能な2つの関連物理モデルに適用する。

The interpretation of non-Markovian effects as due to the information exchange between an open quantum system and its environment has been recently formulated in terms of properly regularized entropic quantities, as their revivals in time can be upper bounded by means of quantities describing the storage of information outside the open system [Phys. Rev. Lett. 127, 030401 (2021)]. Here, we elaborate on the wider mathematical framework of the theory, specifying the key properties that allow us to associate distinguishability quantifiers with the information flow from and towards the open system. We point to the Holevo quantity as a distinguished quantum divergence to which the formalism can be applied, and we show how several distinct quantifiers of non-Markovianity can be related to each other within this general framework. Finally, we apply our analysis to two relevant physical models in which an exact evaluation of all quantities can be performed.
翻訳日:2023-02-28 10:02:13 公開日:2022-07-13
# 量子放送チャンネル上の識別

Identification Over Quantum Broadcast Channels ( http://arxiv.org/abs/2201.11056v2 )

ライセンス: Link先を確認
Uzi Pereg, Johannes Rosenberger, Christian Deppe(参考訳) 量子放送チャンネル上の識別について検討する。 情報伝達タスクとは対照的に、デコーダは、選択したメッセージが送信されたかどうかのみを識別する。 この緩和により、コードサイズが2倍になる。 量子放送チャンネルに対して達成可能な識別領域を導出し、古典量子放送チャンネルのクラスに対する完全な特徴付けを行う。 結果はquantum erasure broadcast channelで実証された。 また、シングルモード純損失ボソニック放送チャンネルの識別容量領域が得られた。 単一ユーザの場合とは対照的に、識別子の容量領域は送信領域よりもかなり大きい可能性がある。

Identification over quantum broadcast channels is considered. As opposed to the information transmission task, the decoder only identifies whether a message of his choosing was sent or not. This relaxation allows for a double-exponential code size. An achievable identification region is derived for a quantum broadcast channel, and a full characterization for the class of classical-quantum broadcast channels. The results are demonstrated for the quantum erasure broadcast channel. Furthermore, the identification capacity region of the single-mode pure-loss bosonic broadcast channel is obtained as a consequence. In contrast to the single-user case, the capacity region for identification can be significantly larger than for transmission.
翻訳日:2023-02-27 20:26:44 公開日:2022-07-13
# 量子コンピューティングのためのオープンソースのモジュラーフレームワーク

An open-source modular framework for quantum computing ( http://arxiv.org/abs/2202.07017v2 )

ライセンス: Link先を確認
Stefano Carrazza, Stavros Efthymiou, Marco Lazzarin, Andrea Pasquale(参考訳) 本稿では,量子シミュレーションのためのオープンソースフレームワークqiboの開発状況と最近の技術的成果について述べる。 プロジェクトの目標を簡潔に概観した後、バージョン0.1.7でリリースされたバックエンド抽象化のためのモジュラーレイアウトを紹介します。 本稿では,量子状態ベクトルシミュレーションのためのハードウェアアクセラレータを中心に,バックエンド選択の利点について論じる。 最後に、現在利用可能なプリミティブとモデルをまとめます。

In this proceedings we describe the current development status and recent technical achievements of Qibo, an open-source framework for quantum simulation. After a concise overview of the project goal, we introduce the modular layout for backend abstraction released in version 0.1.7. We discuss the advantages of each backend choice with particular emphasis on hardware accelerators for quantum state vector simulation. Finally, we summarize the primitives and models currently available.
翻訳日:2023-02-25 20:38:20 公開日:2022-07-13
# レーザーによるチップスケール原子センシング・分光用蒸気セル

Laser-written vapor cells for chip-scale atomic sensing and spectroscopy ( http://arxiv.org/abs/2202.09213v2 )

ライセンス: Link先を確認
Vito Giovanni Lucivero, Andrea Zanoni, Giacomo Corrielli, Roberto Osellame and Morgan W. Mitchell(参考訳) フェムト秒レーザー加工によるアルカリ金属蒸気電池の作製について報告する。 このレーザー書き型蒸気セル(LWVC)技術は、任意の形状の3D内部体積を可能にし、フォトニック構造や光学部品と統合する可能性がある。 我々は、ルビジウムとバッファガスの吸収の両方に非蒸発性ゲッタを用いる。 これにより真空装置を使わずに大気下バッファーガス圧のセルを製造できる。 サブドップラー飽和吸収分光法と単一LWVCを用いた単ビーム光磁気計測を行った。 LWVC技術は、小型化された原子量子センサーと周波数基準に応用できるかもしれない。

We report the fabrication of alkali-metal vapor cells using femtosecond laser machining. This laser-written vapor-cell (LWVC) technology allows arbitrarily-shaped 3D interior volumes and has potential for integration with photonic structures and optical components. We use non-evaporable getters both to dispense rubidium and to absorb buffer gas. This enables us to produce cells with sub-atmospheric buffer gas pressures without vacuum apparatus. We demonstrate sub-Doppler saturated absorption spectroscopy and single beam optical magnetometry with a single LWVC. The LWVC technology may find application in miniaturized atomic quantum sensors and frequency references.
翻訳日:2023-02-24 17:33:04 公開日:2022-07-13
# 運動量空間における到着作用素の時間

Time of arrival operator in the momentum space ( http://arxiv.org/abs/2202.10393v3 )

ライセンス: Link先を確認
A.M. Schlichtinger, A. Jadczyk(参考訳) ある種の外部場が存在する場合、よく定義された自己随伴時間作用素が存在し、ハミルトニアンとの標準正準可換関係を満たすことが示されている。 例えば、非相対論的および相対論的ハミルトン多様体を持つ一様電場や重力場がある。 これらの作用素の物理的解釈は運動量空間に到着する時間の観点から提案される。

It is shown that in presence of certain external fields a well defined self-adjoint time operator exists, satisfying the standard canonical commutation relations with the Hamiltonian. Examples include uniform electric and gravitational fields with nonrelativistic and relativistic Hamiltonians. The physical intepretation of these operators is proposed in terms of time of arrival in the momentum space.
翻訳日:2023-02-24 08:05:58 公開日:2022-07-13
# フリーズ対称性で保護される一次元対称相

One-dimensional symmetric phases protected by frieze symmetries ( http://arxiv.org/abs/2202.12880v2 )

ライセンス: Link先を確認
Bram Vancraeynest-De Cuiper, Jacob C. Bridgeman, Nicolas Dewolf, Jutho Haegeman, Frank Verstraete(参考訳) 量子スピン鎖の対称性を保護した位相ギャップ位相を1次元のフリーズ空間群の存在下で行列積状態を用いて体系的に研究する。 ここで、一次元格子の空間対称性は追加の「垂直反射」と共に考慮され、これはオンサイト$\mathbb{Z}_2$対称性である。 我々は17個の異なる非自明な位相を同定し、正準形式を定義し、mps分析から得られた位相指標を群コホモロジー予測と比較する。 さらに,大域的オンサイト対称性を持つ対称性保護位相相に対して,時間反転およびパリティ対称性と組み合わせた明示的再正規化群固定点波動関数を構築する。 その過程で、スミス正規形式を用いて群コホモロジーをどのように計算できるかを示す。

We make a systematic study of symmetry-protected topological gapped phases of quantum spin chains in the presence of the frieze space groups in one dimension using matrix product states. Here, the spatial symmetries of the one-dimensional lattice are considered together with an additional 'vertical reflection', which we take to be an on-site $\mathbb{Z}_2$ symmetry. We identify seventeen distinct non-trivial phases, define canonical forms, and compare the topological indices obtained from the MPS analysis with the group cohomological predictions. We furthermore construct explicit renormalization group fixed-point wave functions for symmetry-protected topological phases with global on-site symmetries, possibly combined with time-reversal and parity symmetry. En route, we demonstrate how group cohomology can be computed using the Smith normal form.
翻訳日:2023-02-23 23:26:19 公開日:2022-07-13
# ハミルトニアンおよびリウヴィリアン学習によるトロッタライズドデジタル量子シミュレーションの特性と検証

Characterization and Verification of Trotterized Digital Quantum Simulation via Hamiltonian and Liouvillian Learning ( http://arxiv.org/abs/2203.15846v2 )

ライセンス: Link先を確認
Lorenzo Pastori, Tobias Olsacher, Christian Kokail, Peter Zoller(参考訳) デジタル量子シミュレーションの目標は、量子ゲートの列(トロタライゼーション(英語版)として知られる手順)を通じて、与えられた標的ハミルトンの力学を近似することである。 この近似の質は、単位シミュレーション時間当たりに必要な量子ゲートの数を管理するいわゆるトロッターステップによって制御できる。 トロッター化によって生じるストロボスコープ力学は、フロッケハミルトニアンと呼ばれる時間に依存しないハミルトニアンによって効果的に記述される。 本研究ではFloquet Hamiltonian Learningを提案し,実験により得られたFloquet Hamiltonian Order-by-order in the Trotter stepを再構築する。 この手順は効率的、すなわち、システムサイズを多項式的にスケールする多くの測定を必要とし、最先端の実験で容易に実装できる。 数値例を用いて,ディジタル量子シミュレータにおける異なるエラー源の特性評価から,デバイスの最適動作機構の決定まで,量子デバイスの検証の文脈において,いくつかの応用法を提案する。 提案プロトコルは,新しいタイプの量子ゲートのフィードバックループ設計とキャリブレーションの基礎となることを示す。 さらに、非ユニタリダイナミクスの場合にも拡張でき、フロッケ・リウヴィリアンの学習に用いられるため、nisq量子デバイスに存在する散逸過程を特徴づける方法を提供する。

The goal of digital quantum simulation is to approximate the dynamics of a given target Hamiltonian via a sequence of quantum gates, a procedure known as Trotterization. The quality of this approximation can be controlled by the so called Trotter step, that governs the number of required quantum gates per unit simulation time. The stroboscopic dynamics generated by Trotterization is effectively described by a time-independent Hamiltonian, referred to as the Floquet Hamiltonian. In this work, we propose Floquet Hamiltonian learning to reconstruct the experimentally realized Floquet Hamiltonian order-by-order in the Trotter step. This procedure is efficient, i.e., it requires a number of measurements that scales polynomially in the system size, and can be readily implemented in state-of-the-art experiments. With numerical examples, we propose several applications of our method in the context of verification of quantum devices: from the characterization of the distinct sources of errors in digital quantum simulators to determining the optimal operating regime of the device. We show that our protocol provides the basis for feedback-loop design and calibration of new types of quantum gates. Furthermore it can be extended to the case of non-unitary dynamics and used to learn Floquet Liouvillians, thereby offering a way of characterizing the dissipative processes present in NISQ quantum devices.
翻訳日:2023-02-20 09:05:39 公開日:2022-07-13
# アルゴリズムが政治広告の流通をどう形作るか:Facebook、Google、TikTokのケーススタディ

How Algorithms Shape the Distribution of Political Advertising: Case Studies of Facebook, Google, and TikTok ( http://arxiv.org/abs/2206.04720v2 )

ライセンス: Link先を確認
Orestis Papakyriakopoulos, Christelle Tessono, Arvind Narayanan, Mihir Kshirsagar(参考訳) オンラインプラットフォームは、選挙人への政治的情報の分配に影響を与え、民主主義を形成する上でますます重要な役割を果たす。 近年、政治キャンペーンはオンライン広告で有権者を狙うためのアルゴリズムツールに多くの時間を費やしている。 政治談話を形成する上でプラットフォームがどのように機能するかを理解することに対する一般の関心は決して高まっていないが、彼らの実践を理解するために必要な開示を行うための主要プラットフォームの取り組みは、非常に短い。 本研究では、Facebook、Google、TikTokによる2020年の米大統領選挙に関する80万以上の広告と250万のビデオを含むデータセットを収集し、分析する。 我々は、これらのプラットフォームがどのように政治広告の配信を増幅または緩和したかを批判的に評価するために、公開データの最初の大規模データ分析を行う。 我々は、プラットフォームと政治広告主が責任を負うことができるように、情報開示を改善する方法についての推奨を締めくくった。

Online platforms play an increasingly important role in shaping democracy by influencing the distribution of political information to the electorate. In recent years, political campaigns have spent heavily on the platforms' algorithmic tools to target voters with online advertising. While the public interest in understanding how platforms perform the task of shaping the political discourse has never been higher, the efforts of the major platforms to make the necessary disclosures to understand their practices falls woefully short. In this study, we collect and analyze a dataset containing over 800,000 ads and 2.5 million videos about the 2020 U.S. presidential election from Facebook, Google, and TikTok. We conduct the first large scale data analysis of public data to critically evaluate how these platforms amplified or moderated the distribution of political advertisements. We conclude with recommendations for how to improve the disclosures so that the public can hold the platforms and political advertisers accountable.
翻訳日:2023-02-19 17:40:46 公開日:2022-07-13
# 刑事司法リスクアセスメントの脚本をひっくり返す:連邦判決制度が被告に与えるリスクを評価するための定期的モデル

Flipping the Script on Criminal Justice Risk Assessment: An actuarial model for assessing the risk the federal sentencing system poses to defendants ( http://arxiv.org/abs/2205.13505v2 )

ライセンス: Link先を確認
Mikaela Meyer, Aaron Horowitz, Erica Marshall, and Kristian Lum(参考訳) 刑事司法制度では、被告が社会に犯すリスクを予測するためにアルゴリズム的リスク評価装置が用いられており、例えば、再会のリスクや、将来の裁判所の日に現れないリスクなどが挙げられる。 しかし、被告は刑事司法制度に危害を加える危険性もある。 これまでのところ、システムが個人に与えるリスクを考慮に入れるリスクアセスメントは存在していない。 我々は「スクリプトをフリップする」リスクアセスメント機器を開発する。 米国連邦判決判決に関するデータを用いて、判決に法的に無関係な要因が与えられた場合に、個人が特に長い判決を受ける可能性を予測するリスクアセスメントツールを構築します。 そこで我々は2段階モデリング手法を開発した。 我々の第一段階モデルは、どの文が「特に長い」かを決定するために使用される。 次に第2段階のモデルを用いて、法的に無関係であるべき特に長い要因としてフラグが付けられた判決を受けるリスクを予測する。 法的に無関係であるべき要因には、例えば、人種、裁判所の位置、および被告に関するその他の社会デポジット情報が含まれる。 本装置は、前房および仮釈放場面で使用されるリスクアセスメント機器と同等の予測精度を達成する。 モデリング手法の限界について議論し、様々な刑事司法設定における従来のリスクアセスメント手法が、クリエーターの多くの同じ制限や組込み価値システムにどう影響するかを強調する機会を利用する。

In the criminal justice system, algorithmic risk assessment instruments are used to predict the risk a defendant poses to society; examples include the risk of recidivating or the risk of failing to appear at future court dates. However, defendants are also at risk of harm from the criminal justice system. To date, there exists no risk assessment instrument that considers the risk the system poses to the individual. We develop a risk assessment instrument that "flips the script." Using data about U.S. federal sentencing decisions, we build a risk assessment instrument that predicts the likelihood an individual will receive an especially lengthy sentence given factors that should be legally irrelevant to the sentencing decision. To do this, we develop a two-stage modeling approach. Our first-stage model is used to determine which sentences were "especially lengthy." We then use a second-stage model to predict the defendant's risk of receiving a sentence that is flagged as especially lengthy given factors that should be legally irrelevant. The factors that should be legally irrelevant include, for example, race, court location, and other socio-demographic information about the defendant. Our instrument achieves comparable predictive accuracy to risk assessment instruments used in pretrial and parole contexts. We discuss the limitations of our modeling approach and use the opportunity to highlight how traditional risk assessment instruments in various criminal justice settings also suffer from many of the same limitations and embedded value systems of their creators.
翻訳日:2023-02-19 17:15:46 公開日:2022-07-13
# 森林火災管理のための意味センサネットワークオントロジーに基づく意思決定支援システム

Semantic Sensor Network Ontology based Decision Support System for Forest Fire Management ( http://arxiv.org/abs/2204.03059v2 )

ライセンス: Link先を確認
Ritesh Chandra, Kumar Abhishek, Sonali Agarwal, Navjot Singh(参考訳) 森林はすべての国にとって重要な資産である。 破壊されると環境に悪影響を及ぼす可能性があり、森林火災が主な原因の1つである。 火災予報は火災の危険を測定するために広く使われ、茂みの警告を発するために使用される。 また、緊急管理資源の需要を予測するためにも使用できる。 センサネットワークは、医療、環境モニタリング、ホームオートメーションなど、さまざまな産業におけるデータ収集と処理能力で人気を高めている。 セマンティックセンサーネットワークは、風速、温度、相対湿度などの様々な気候環境を収集できる。 しかし,センサが生成するデータストリームの処理に関わるさまざまな問題から,火災気象指標の推定は困難である。 そのため、森林火災検出の重要性は日々増大している。 基盤となるSemantic Sensor Network(SSN)オントロジーは、開発者は、火災天気指標の計算ルールと、変換データセットをResource Description Framework(RDF)に変換するために構築されている。 本研究は,火災気象指標の算出規則の策定に関わる様々なステップについて述べる。 さらに本研究では,火災の気象指標の経年変化を可視化するwebベースのマッピングインタフェースを提案する。 推論ルールの助けを借りて、SSNオントロジーを使用して意思決定支援システムを設計し、SPARQLを介してクエリする。 提案する火災管理システムは,状況に応じて行動し,オープンワールドの推論と一般意味論をサポートし,すべてのオントロジーに追従する。

The forests are significant assets for every country. When it gets destroyed, it may negatively impact the environment, and forest fire is one of the primary causes. Fire weather indices are widely used to measure fire danger and are used to issue bushfire warnings. It can also be used to predict the demand for emergency management resources. Sensor networks have grown in popularity in data collection and processing capabilities for a variety of applications in industries such as medical, environmental monitoring, home automation etc. Semantic sensor networks can collect various climatic circumstances like wind speed, temperature, and relative humidity. However, estimating fire weather indices is challenging due to the various issues involved in processing the data streams generated by the sensors. Hence, the importance of forest fire detection has increased day by day. The underlying Semantic Sensor Network (SSN) ontologies are built to allow developers to create rules for calculating fire weather indices and also the convert dataset into Resource Description Framework (RDF). This research describes the various steps involved in developing rules for calculating fire weather indices. Besides, this work presents a Web-based mapping interface to help users visualize the changes in fire weather indices over time. With the help of the inference rule, it designed a decision support system using the SSN ontology and query on it through SPARQL. The proposed fire management system acts according to the situation, supports reasoning and the general semantics of the open-world followed by all the ontologies
翻訳日:2023-02-19 16:08:20 公開日:2022-07-13
# De Quem e o Jogo? Disputas Narrativas no Fandom de World of Warcraft

De Quem e o Jogo? Disputas Narrativas no Fandom de World of Warcraft ( http://arxiv.org/abs/2207.06464v1 )

ライセンス: Link先を確認
Clara Andrade Pimentel, Joana Ziller, Philipe Melo(参考訳) デジタルゲームは、デジタルプラットフォームによるサイバーカルチャーの一部になりつつある。 このことを念頭に置いて、ファンやコンテンツプロデューサーとしてのworld of warcraft playerに関するいくつかの考察や、ファンワークパブリッシングプラットフォーム(当社とdeviantartのアーキヴ)におけるゲームに関する物語的論争にアプローチする。 我々はこれらのプラットフォーム上で収集されたファンフィクスとファンアートの膨大な集合を分析し、デジタルゲームだけでなく、演奏行為を超えて広がるファンプロダクションのネットワーク全体のテキスト性を示した。 我々の観察によると、World of Warcraftのファンダムは、主に男性とヘテロノルミズムである、という一般的な認識にもかかわらず、女性とLGBTQI+の人々は、大観衆であり、特に幻想的な宇宙において多くのコンテンツを生み出している。 創作された作品は、反抗的な身体とセクシュアリティの物語で特徴付けられる。 しかし、これらの主題や物語がファンダムに存在しているにもかかわらず、この内容は、男性芸術家や商業性のあるヘテロノミティブなファンアートを特権とするDeviantArtでは見えない。

Digital games are increasingly part of a cyberculture engendered by digital platforms. With this in mind, we approach in this work some considerations about World of Warcraft players as fans and content producers and the narrative disputes that emerge about the game on fan work publishing platforms (Archive of Our Own and DeviantArt). We analyzed a vast set of fanfics and fanarts collected on these platforms, showing a textuality that involves not only the digital game, but a whole network of fan production that expands beyond the act of playing. Our observations show that, despite the popular perception that World of Warcraft fandom is mostly male and heteronormative, women and LGBTQI+ people are a large participatory audience and produce a lot of content, especially in the fanfic universe. The works created are also quite marked by narratives of dissident bodies and sexualities. However, despite the presence of these subjects and narratives in the fandom, this content is made invisible in DeviantArt, which privileges male artists and heteronormative fanarts of a commercial nature.
翻訳日:2023-02-19 09:51:09 公開日:2022-07-13
# 政治エリートによるソーシャルメディア共有:非対称アメリカの例外主義

Social media sharing by political elites: An asymmetric American exceptionalism ( http://arxiv.org/abs/2207.06313v1 )

ライセンス: Link先を確認
Jana Lasser, Segun Taofeek Aroyehun, Almog Simchon, Fabio Carrella, David Garcia, Stephan Lewandowsky(参考訳) ソーシャルメディアプラットフォーム上での信頼できない情報の共有の増加は、現代の情報社会における大きな課題のひとつです。 政治エリートが広める情報は市民やメディアの談話を形成することが知られているため、特に政治家が共有する情報の質を調べることが重要である。 ここでは2016年以降、米国議会の共和党員が信頼できない情報源へのリンクをますます共有していることを示す。 共和党と民主党が投稿した信頼できない情報の比率は、急速に変化しており、バイデン大統領が選出されて以降、この格差は悪化している。 この政党間のばらつきは、ドイツやイギリスなど他の西欧の民主主義国では見られず、左派の格差は小さく、ほぼ一定であるため、アメリカ独自のものと思われる。

Increased sharing of untrustworthy information on social media platforms is one of the main challenges of our modern information society. Because information disseminated by political elites is known to shape citizen and media discourse, it is particularly important to examine the quality of information shared by politicians. Here we show that from 2016 onward, members of the Republican party in the U.S. Congress have been increasingly sharing links to untrustworthy sources. The proportion of untrustworthy information posted by Republicans versus Democrats is diverging at an accelerating rate, and this divergence has worsened since president Biden was elected. This divergence between parties seems to be unique to the U.S. as it cannot be observed in other western democracies such as Germany and the United Kingdom, where left-right disparities are smaller and have remained largely constant.
翻訳日:2023-02-19 09:50:49 公開日:2022-07-13
# Connected Vehicles: プライバシー分析

Connected Vehicles: A Privacy Analysis ( http://arxiv.org/abs/2207.06182v1 )

ライセンス: Link先を確認
Mark Quinlan, Jun Zhao, Andrew Simpson(参考訳) コンピュータ制御ソリューションの導入によって消費者機器の世界が永久に変化したように、エンジン制御ユニット(ecu)の導入は自動車を輸送製品から技術プラットフォームへと転換させた。 現代の車は、数年前には予測できなかった方法でデータを処理し、分析し、送信することができる。 これらの車には、携帯電話ネットワーク上のナビゲーションとインターネット接続を提供するテレマティクスシステムや、保険や製品開発のためのデータ記録装置が組み込まれている。 生産車両のテレマティクスシステムを調べ,関連するプライバシ関連の脅威を確認することを目的とする。 また、この分析がさらなる研究の基盤となる可能性についても検討する。

Just as the world of consumer devices was forever changed by the introduction of computer controlled solutions, the introduction of the engine control unit (ECU) gave rise to the automobile's transformation from a transportation product to a technology platform. A modern car is capable of processing, analysing and transmitting data in ways that could not have been foreseen only a few years ago. These cars often incorporate telematics systems, which are used to provide navigation and internet connectivity over cellular networks, as well as data-recording devices for insurance and product development purposes. We examine the telematics system of a production vehicle, and aim to ascertain some of the associated privacy-related threats. We also consider how this analysis might underpin further research.
翻訳日:2023-02-19 09:50:36 公開日:2022-07-13
# リングトラップにおける光と原子間の量子化された軌道角運動量の超放射移動

Superradiant transfer of quantized orbital angular momentum between light and atoms in a ring trap ( http://arxiv.org/abs/2205.04144v2 )

ライセンス: Link先を確認
Nicola Piovella, Gordon R.M. Robb, Romain Bachelard(参考訳) レーザービームからの軌道角運動量(OAM)は、約$\hbar$の量子単位において、リングトラップ内のボース・アインシュタイン凝縮体にコヒーレントに移動することができる。 光とマターのカップリングにより、個々のOAM状態間の原子の超放射移動が可能になる。 ポンプ光のリングパラメータと巻数を調整することで、特定の角運動量状態が蓄積される。 これにより、発光の制御は、原子環が散乱した光にその寄与を印加するため、ポンプとは異なるOAMで光を生成することができる。

The orbital angular momentum (OAM) from a laser beam can be coherently transferred to a Bose-Einstein condensate in a ring trap, in quantized units of $\hbar$. The light-matter coupling allows for the superradiant transfer of the atoms between the discrete OAM states. Tuning the ring parameters and winding number of the pump light, specific angular momentum states can be populated. This in turn allows control of the emission to generate light with OAM different from that of the pump, as the atomic ring imprints its contribution on the scattered light.
翻訳日:2023-02-13 20:37:16 公開日:2022-07-13
# 量子共変微分

Quantum covariant derivative ( http://arxiv.org/abs/2206.01716v3 )

ライセンス: Link先を確認
Ryan Requist(参考訳) パラメータ依存量子状態から導かれるベクトルや他の幾何学的対象を微分および平行移動するために必要とされるゲージおよび座標共変微分を導入する。 公式は接続の曲率とホロノミーに対して与えられる。 量子共変微分は、新しい幾何学的断熱摂動理論を導出するために用いられ、非線形応答特性の計算に効率的なツールを提供する。

The gauge- and coordinate-covariant derivative needed to differentiate and parallel transport tangent vectors and other geometric objects deriving from a parameter-dependent quantum state is introduced. Formulas are given for the curvature and holonomy of the connection. The quantum covariant derivative is used to derive a novel geometric adiabatic perturbation theory, providing an efficient tool for calculations of nonlinear response properties.
翻訳日:2023-02-10 20:18:28 公開日:2022-07-13
# PT対称性による高周波重力波検出器の感度向上

Boosting the sensitivity of high frequency gravitational wave detectors by PT-symmetry ( http://arxiv.org/abs/2206.13224v2 )

ライセンス: Link先を確認
Chuming Wang, Chunnong Zhao, Xiang Li, Enping Zhou, Haixing Miao, Yanbei Chen, Yiqiu Ma(参考訳) 中性子星の融合によって放射されるキロヘルツ重力波は、高密度核物質の物理やガンマ線バーストやブラックホール形成のような多くの重要な天体物理現象に関する豊富な情報を持っている。 現在のレーザー干渉計重力波検出器、例えばligo、virgo、kagraはキロヘルツ帯での信号応答が限られており、これらの重要な物理現象を捉えることができない。 本研究は、光機械式量子増幅器を実装することで、重力波検出器の高周波感度を高めるための代替プロトコルを提案する。 補助量子増幅器により、この設計はパリティタイム(pt)対称性の特徴を持ち、検出帯域がキロヘルツ範囲内で著しく拡大される。 本研究では,この設計の量子ノイズ制限感度と動的安定性を慎重に解析する。 その結果, 量子ノイズ制限感度は3khz付近で1桁向上し, 中性子星融合信号の将来の探索に向けた設計の可能性を示唆した。

The kilo-Hertz gravitational waves radiated by the neutron star merger remnants carry rich information about the physics of high-density nuclear matter states, and many important astrophysical phenomena such as gamma-ray bursts and black hole formation. Current laser interferometer gravitational wave detectors, such as LIGO, VIRGO, and KAGRA have limited signal response at the kilo-Hertz band, thereby unable to capture these important physical phenomena. This work proposes an alternative protocol for boosting the sensitivity of the gravitational wave detectors at high frequency by implementing an optomechanical quantum amplifier. With the auxiliary quantum amplifier, this design has the feature of Parity-Time (PT) symmetry so that the detection band will be significantly broadened within the kilo-Hertz range. In this work, we carefully analyze the quantum-noise-limited sensitivity and the dynamical stability of this design. Based on our protocol, our result shows that the quantum-noise-limited sensitivity will be improved by one order of magnitude around 3kHz, which indicates the potential of our design for a future search of neutron star merger signals.
翻訳日:2023-02-08 04:21:54 公開日:2022-07-13
# 準周期時間雑音を伴う異常フロッケアンダーソン絶縁体

Anomalous Floquet-Anderson Insulator with Quasiperiodic Temporal Noise ( http://arxiv.org/abs/2206.13926v2 )

ライセンス: Link先を確認
Peng Peng Zheng, Christopher I. Timms, Michael H. Kolodrubetz(参考訳) 時間周期駆動(フロケ)は、新しい対称性の破れと物質のトポロジカル位相を引き起こす。 近年,フロッケ駆動時の騒音に対して,異常フロッケ-アンダーソン絶縁体として知られる非定常フロッケ位相相が安定であることが判明した。 ここでは、異常なフロケ・アンダーソン絶縁体を1つの非共振周波数で摂動し、準周期的な2トーン駆動をもたらす。 我々の数値は、ロバストな位相は、ホワイトノイズよりも安定なトポロジカルポンピングで弱いノイズで生き残ることを示唆している。 トポロジカル・フェーズでは、粒子が微分化的に移動し、トポロジカル・トランスポートの安定化に直接寄与することを示す。 驚くべきことに、準周期ノイズがトポロジーを殺すのに十分強いとき、系は拡散力学を示し、準周期ノイズの相関構造が無関係になることを示す。

Time-periodic (Floquet) drive can give rise to novel symmetry breaking and topological phases of matter. Recently, we showed that a quintessential Floquet topological phase known as the anomalous Floquet-Anderson insulator is stable to noise on the timing of its Floquet drive. Here, we perturb the anomalous Floquet-Anderson insulator at a single incommensurate frequency, resulting in a quasiperiodic 2-tone drive. Our numerics indicate that a robust topological phase survives at weak noise with topological pumping that is more stable than the case of white noise. Within the topological phase, we show that particles move subdiffusively, which is directly responsible for stabilizing topological transport. Surprisingly, we discover that when quasiperiodic noise is sufficiently strong to kill topology, the system appears to exhibit diffusive dynamics, suggesting that the correlated structure of the quasiperiodic noise becomes irrelevant.
翻訳日:2023-02-07 10:12:59 公開日:2022-07-13
# 双極子結合核スピンの連続追跡、安定、大きな伸縮軌道

Continuously tracked, stable, large excursion trajectories of dipolar coupled nuclear spins ( http://arxiv.org/abs/2206.14945v2 )

ライセンス: Link先を確認
Ozgur Sahin, Hawraa Al Asadi, Paul Schindler, Arjun Pillai, Erica Sanchez, Matthew Markham, Mark Elo, Maxwell McAllister, Emanuel Druga, Christoph Fleckenstein, Marin Bukov, and Ashok Ajoy(参考訳) 固体中の双極子結合核スピンのブロッホ球軌道を励起し、安定し、連続的に追跡するための実験的アプローチを報告する。 ダイヤモンド中の超偏極13c核スピンのモデル系でこれらの結果を示す。 量子制御がなければ、スピン間カップリングはT2*=1.5msのスピン崩壊を引き起こす。 我々は,強いスピン間カップリングが存在する場合でも,T2'>27s以上の軌道を最大16度まで引張固体角度で保存する方法を解明した。 これは、スピンを長寿命の双極子多体状態に熱し、高度に安定な軌道で駆動する新しいスピン駆動戦略を利用する。 スピンの運動はブロッホ球面上の3次元において35s以上にわたって準連続的に追跡できることを示した。 このとき、スピンは68,000以上の公転軌道を完了し、高い安定性とエラーに対する堅牢性を示す。 このような剛性運動に対する過渡的アプローチを実験的に探索し、高い安定な「デザイナ」スピン軌道を設計できることを示す。 量子センシングにおける剛性スピン軌道の周期的駆動とポートエントによる強結合量子システムの安定化と干渉の新しい方法を提案する。

We report an experimental approach to excite, stabilize, and continuously track Bloch sphere orbits of dipolar-coupled nuclear spins in a solid. We demonstrate these results on a model system of hyperpolarized 13C nuclear spins in diamond. Without quantum control, inter-spin coupling leads to rapid spin decay in T2*=1.5ms. We elucidate a method to preserve trajectories for over T2'>27s at excursion solid angles up to 16 degrees, even in the presence of strong inter-spin coupling. This exploits a novel spin driving strategy that thermalizes the spins to a long-lived dipolar many-body state, while driving them in highly stable orbits. We show that motion of the spins can be quasi-continuously tracked for over 35s in three dimensions on the Bloch sphere. In this time the spins complete >68,000 closed precession orbits, demonstrating high stability and robustness against error. We experimentally probe the transient approach to such rigid motion, and thereby show the ability to engineer highly stable "designer" spin trajectories. Our results suggest new ways to stabilize and interrogate strongly-coupled quantum systems through periodic driving and portend powerful applications of rigid spin orbits in quantum sensing.
翻訳日:2023-02-07 07:10:53 公開日:2022-07-13
# ハダマール検定と近似振幅制約を用いた半定義型量子プログラミング

Quantum Semidefinite Programming with the Hadamard Test and Approximate Amplitude Constraints ( http://arxiv.org/abs/2206.14999v2 )

ライセンス: Link先を確認
Taylor L. Patti, Jean Kossaifi, Anima Anandkumar, and Susanne F. Yelin(参考訳) 半有限プログラムは、難しい組合せ問題を近似するなど、幅広い応用の最適化手法である。 n=2^n$変数と$m=2^n$制約を持つ半定値プログラムを解くために、n$ qubits、一定の回路準備数、および$o(n^2)$期待値のみを使用する半定値プログラムのための変分量子アルゴリズムを導入する。 効率的な最適化は、目的行列を補助量子ビット上で適切にパラメータ化されたユニタリ条件として符号化することで達成される。 アダマールテストにより、指数的に多くの期待値を推定するのではなく、1つの期待値のみを推定することで、目的関数を最適化することができる。 同様に、半定値プログラミングの制約は、2番目のアダマールテストを実装することで効果的に実施でき、さらに$\sim n^2/2$ Pauli文字列の制約を課す。 我々は,maxcut のような様々なnp-ハード問題に対して有用な近似である goemans-williamson アルゴリズムの効率的な量子実装を考案し,プロトコルの有効性を実証する。 本手法は,GSetライブラリから得られた多種多様なMaxCut問題に対する類似の古典的手法の性能を上回る。

Semidefinite programs are optimization methods with a wide array of applications, such as approximating difficult combinatorial problems. We introduce a variational quantum algorithm for semidefinite programs that uses only $n$ qubits, a constant number of circuit preparations, and $O(n^2)$ expectation values in order to solve semidefinite programs with up to $N=2^n$ variables and $M=2^n$ constraints. Efficient optimization is achieved by encoding the objective matrix as a properly parameterized unitary conditioned on an auxilary qubit, a technique known as the Hadamard Test. The Hadamard Test enables us to optimize the objective function by estimating only a single expectation value of the ancilla qubit, rather than separately estimating exponentially many expectation values. Similarly, we illustrate that the semidefinite programming constraints can be effectively enforced by implementing a second Hadamard Test, as well as imposing $\sim n^2/2$ Pauli string amplitude constraints. We demonstrate the effectiveness of our protocol by devising an efficient quantum implementation of the Goemans-Williamson algorithm, which is a useful approximation for various NP-hard problems, such as MaxCut. Our method exceeds the performance of analogous classical methods on a diverse subset of well-studied MaxCut problems from the GSet library.
翻訳日:2023-02-07 04:49:59 公開日:2022-07-13
# 2モードディッケモデルにおける量子カオスと熱化

Quantum chaos and thermalization in the two-mode Dicke model ( http://arxiv.org/abs/2207.03825v2 )

ライセンス: Link先を確認
Aleksandrina V. Kirkova and Peter A. Ivanov(参考訳) スピンのアンサンブルと2つのボソニックモードの双極子相互作用を記述する2モードディッケモデルにおける量子カオスと熱化の開始について述べる。 2モードディックモデルは、離散対称性または連続対称性のいずれかを自発的に破壊する超ラジカル量子相転移を示す。 モデルの量子相におけるLoschmidtエコー信号から導かれる不確実性外秩序相関器の挙動について検討し、その指数関数的成長が一般の場合の古典的不安定点と関係しないことを示す。 さらに, 2モードディッケモデルで観測可能な集合スピンは, 短時間で長期平均値に飽和し, 少数のスピンであっても, 対角アンサンブル平均値とマイクロカノニカル平均値との間に非常に良好な一致を示した。 本研究では, 平均付近で観測可能な集合スピンの期待値の時間的変動が小さく, 有効システムサイズによって減少し, スピン系の熱化につながることを示す。

We discuss the onset of quantum chaos and thermalization in the two-mode Dicke model, which describes the dipolar interaction between an ensemble of spins and two bosonic modes. The two-mode Dicke model exhibits normal to superradiant quantum phase transition with spontaneous breaking either of a discrete or continuous symmetry. We study the behaviour of the fidelity out-of-time-order correlator derived from the Loschmidt echo signal in the quantum phases of the model and show that its exponential growth cannot be related to a classical unstable point in the general case. Moreover, we find that the collective spin observable in the two-mode Dicke model quickly saturates to its long-time average value, and shows very good agreement between its diagonal ensemble average and microcanonical average even for a small number of spins. We show that the temporal fluctuations of the expectation value of the collective spin observable around its average are small and decrease with the effective system size, which leads to thermalization of the spin system.
翻訳日:2023-02-06 04:35:31 公開日:2022-07-13
# 準線形および中心スピンプロセッサ上の量子誤り訂正符号のベンチマーク

Benchmarking quantum error-correcting codes on quasi-linear and central-spin processors ( http://arxiv.org/abs/2207.05568v2 )

ライセンス: Link先を確認
Regina Finsterhoelzl and Guido Burkard(参考訳) 我々は,トランスモン量子ビットをベースとした超伝導プロセッサと,ダイヤモンド中の窒素空孔中心からなるスピントロニック量子レジスタにおいて,接続性とコヒーレンスが異なるハードウェアプラットフォームに適した小さな誤り訂正符号の性能を評価する。 ハードウェア固有のエラーと接続性を考慮して,ネイティブゲート,ネイティブ接続性,ゲート時間,コヒーレンス時間といったプラットフォーム機能に対する論理エラー率の依存性について検討した。 所定のハードウェアに対してパラメータ化された標準エラーモデルを用いて,超伝導量子デバイス上でコードを実行する際の性能をシミュレーションし,実験結果とベンチマークを行った。 その結果、小さな符号では超伝導デバイスの準線形配置が有利であることが示されている。 しかし、マルチキュービット制御操作を含むコードの場合、カラーセンターの中央スピン接続はエラー率を低くする。

We evaluate the performance of small error-correcting codes, which we tailor to hardware platforms of very different connectivity and coherence: on a superconducting processor based on transmon qubits and a spintronic quantum register consisting of a nitrogen-vacancy center in diamond. Taking the hardware-specific errors and connectivity into account, we investigate the dependence of the resulting logical error rate on the platform features such as the native gates, native connectivity, gate times, and coherence times. Using a standard error model parameterized for the given hardware, we simulate the performance and benchmark these predictions with experimental results when running the code on the superconducting quantum device. The results indicate that for small codes, the quasi-linear layout of the superconducting device is advantageous. Yet, for codes involving multi-qubit controlled operations, the central-spin connectivity of the color centers enables lower error rates.
翻訳日:2023-02-05 09:37:55 公開日:2022-07-13
# 光波制御超伝導の量子コヒーレンストモグラフィ

Quantum Coherence Tomography of Lightwave Controlled Superconductivity ( http://arxiv.org/abs/2207.05958v1 )

ライセンス: Link先を確認
L. Luo, M. Mootz, J. H. Kang, C. Huang, K. Eom, J. W. Lee, C. Vaswani, Y. G. Collantes, E. E. Hellstrom, I. E. Perakis, C. B. Eom and J. Wang(参考訳) ほぼ散逸しない電流の光周期駆動は、超伝導(SC)およびトポロジカルエレクトロニクス応用の普遍的な制御概念として最近登場した。 THz駆動の超伝導へのエキサイティングな進展はあったが、高次相関関数の直接測定が欠如していることもあって、非平衡ペアリングを駆動できる相互作用の理解はまだ限られている。 このような測定は、従来の単粒子分光と摂動応答を超越し、平衡から遠く離れた量子状態を完全に特徴付ける。 特に、マイスナー効果に類似した方法で、光波駆動のSCコヒーレンスを特徴付けるエキゾチックな集合モードのセンシングは非常に困難であるが、非常に必要である。 本稿では,鉄系超伝導体における強結合帯のパラメトリック時間周期駆動による光波制御超伝導の発見について述べる。 我々は, THz多次元コヒーレントスペクトルを従来のポンププローブ, ヒッグス集合モード, および高非線形場依存性を有するバイヒッグス周波数側バンドピークに分離することにより, この強誘電性超伝導の非摂動・高次相関を測定することができる。 我々は、コヒーレントスペクトルの劇的な遷移を、位相振幅集合モードによって変調された時間依存擬似スピンカッティング状態のパラメトリック励起とみなし、$\omega_\mathrm{Higgs}$から2$\omega_\mathrm{Higgs}$への強い非線形シフトとして現れる。 顕著なことに、後者の高次サイドバンドは、低次ポンププローブとヒッグスモードで支配的であり、これはパラメトリック駆動SC状態における感受性摂動膨張の崩壊を示す。

Lightwave periodic driving of nearly dissipation-less currents has recently emerged as a universal control concept for both superconducting (SC) and topological electronics applications. While exciting progress has been made towards THz-driven superconductivity, our understanding of the interactions able to drive non-equilibrium pairing is still limited, partially due to the lack of direct measurements of high-order correlation functions. Such measurements would exceed conventional single-particle spectroscopies and perturbative responses to fully characterize quantum states far-from-equilibrium. Particularly, sensing of the exotic collective modes that would uniquely characterize lightwave-driven SC coherence, in a way analogous to the Meissner effect, is very challenging but much needed. Here we report the discovery of lightwave-controlled superconductivity via parametric time-periodic driving of the strongly-coupled bands in iron-based superconductors by a unique phase-amplitude collective mode assisted by broken-symmetry THz supercurrents. We are able to measure non-perturbative, high-order correlations in this strongly-driven superconductivity by separating the THz multi-dimensional coherent spectra into conventional pump-probe, Higgs collective mode, and pronounced bi--Higgs frequency sideband peaks with highly nonlinear field dependence. We attribute the drastic transition in the coherent spectra to parametric excitation of time-dependent pseudo--spin canting states modulated by a phase-amplitude collective mode that manifests as a strongly nonlinear shift from $\omega_\mathrm{Higgs}$ to 2$\omega_\mathrm{Higgs}$. Remarkably, the latter higher--order sidebands dominate over the lower-order pump-probe and Higgs mode peaks above critical field, which indicates the breakdown of the susceptibility perturbative expansion in the parametrically-driven SC state.
翻訳日:2023-02-05 07:07:00 公開日:2022-07-13
# 量子近似最適化によるシンドローム復号

Syndrome decoding by quantum approximate optimization ( http://arxiv.org/abs/2207.05942v1 )

ライセンス: Link先を確認
Ching-Yi Lai, Kao-Yueh Kuo, and Bo-Jyun Liao(参考訳) シンドローム復号問題はNPハードであることが知られている。 量子近似最適化アルゴリズム (qaoa) を用いて, 古典的および量子的なコードに対して, エレガントに設計したジェネレータとチェックベースコストハミルトニアンを用いて, シンドローム復号問題を解く。 7,4,3]ハミングコードのレベル4チェックベースのqaoa復号と[[5,1,3]]量子コードのレベル4ジェネレータベースのqaoa復号のシミュレーションは、最大ラピッド復号と一致する復号性能を示している。 さらに,追加の冗長節を含む組合せ最適化問題の方がQAOAに適しているが,キュービット数は同じであることを示す。 さらに,量子コードのqaoa復号は本質的に縮退していることを示す。 すなわち、同等の重みの退化誤差は、同じ確率のQAOAによって返される。 これは[9,1,3]ショア符号のジェネレータベースのQAOAデコーディングのシミュレーションによってサポートされている。

The syndrome decoding problem is known to be NP-hard. We use the quantum approximate optimization algorithm (QAOA) to solve the syndrome decoding problem with elegantly-designed generator- and check-based cost Hamiltonians for classical and quantum codes. Simulations of the level-4 check-based QAOA decoding of the [7,4,3] Hamming code, as well as the level-4 generator-based QAOA decoding of the [[5,1,3]] quantum code, demonstrate decoding performances that match the maximum likelihood decoding. In addition, we show that a combinatorial optimization problem with additional redundant clauses may be more suitable for QAOA, while the number of qubits remains the same. Furthermore, we show that the QAOA decoding of a quantum code is inherently degenerate. That is, degenerate errors of comparable weight will be returned by QAOA with comparable probability. This is supported by simulations of the generator-based QAOA decoding of the [[9,1,3]] Shor code.
翻訳日:2023-02-05 07:06:30 公開日:2022-07-13
# 球形単層および二層グラフェン量子ドットにおけるイメージング量子干渉

Imaging Quantum Interference in Stadium-Shaped Monolayer and Bilayer Graphene Quantum Dots ( http://arxiv.org/abs/2207.05938v1 )

ライセンス: Link先を確認
Zhehao Ge, Dillon Wong, Juwon Lee, Frederic Joucken, Eberth A. Quezada-Lopez, Salman Kahn, Hsin-Zon Tsai, Takashi Taniguchi, Kenji Watanabe, Feng Wang, Alex Zettl, Michael F. Crommie, Jairo Velasco Jr(参考訳) グラフェン系スタジアム型量子ドット(qds)の実験的な実現は、走査型プローブ顕微鏡とほとんど相容れない。 しかし、これらのQD内の電子状態の直接可視化は、これらのシステムにおける量子カオスの存在を決定するために重要である。 単層グラフェン (mlg) と二層グラフェン (blg) からなるヘテロ構造デバイスにおける静電的に定義されたスタジアム形状のqdsの作製と特性評価を行った。 スタジアム形状のQDを実現するために,走査型トンネル顕微鏡の先端を利用して,支持型六方晶窒化ホウ素フレークの欠陥を充電した。 スタジアムの状態の可視化は、厳密な結合に基づくシミュレーションと一致するが、明確な量子カオスシグネチャは欠落している。 MLGをベースとしたスタジアムQDの量子カオス特性の欠如は、クライントンネルによる閉じ込めポテンシャルの漏れの性質に起因する。 対照的に、BLGベースのスタジアムQD(より強い閉じ込めを持つ)の量子カオスは、状態間の干渉と混合を減らすスムーズな閉じ込めポテンシャルによって抑制される。

Experimental realization of graphene-based stadium-shaped quantum dots (QDs) have been few and incompatible with scanned probe microscopy. Yet, direct visualization of electronic states within these QDs is crucial for determining the existence of quantum chaos in these systems. We report the fabrication and characterization of electrostatically defined stadium-shaped QDs in heterostructure devices composed of monolayer graphene (MLG) and bilayer graphene (BLG). To realize a stadium-shaped QD, we utilized the tip of a scanning tunneling microscope to charge defects in a supporting hexagonal boron nitride flake. The stadium states visualized are consistent with tight-binding-based simulations, but lack clear quantum chaos signatures. The absence of quantum chaos features in MLG-based stadium QDs is attributed to the leaky nature of the confinement potential due to Klein tunneling. In contrast, for BLG-based stadium QDs (which have stronger confinement) quantum chaos is precluded by the smooth confinement potential which reduces interference and mixing between states.
翻訳日:2023-02-05 07:06:15 公開日:2022-07-13
# 散逸による有限温度における捕捉イオンの工学的定常絡み合い

Engineering steady entanglement for trapped ions at finite temperature by dissipation ( http://arxiv.org/abs/2207.05932v1 )

ライセンス: Link先を確認
Xiao-Qiang Shao(参考訳) ラムダイク限界における2つの閉じ込められたイオンの最大絡み合った定常状態を作成するための散逸的方法を提案する。 イオン遷移に結合した周波数共振器の単色定在波レーザーパルスと基底状態遷移に結合したマイクロ波で捕捉イオン系に対処することにより、フォノン数変動とは無関係な2粒子間の有効結合を得る。 一方、捕捉されたイオンの制御された自然放出は、準安定状態から短寿命イオン状態への励起を補助レーザー場により行う。 ユニタリ過程と工学的散逸を組み合わせることで、システムの初期状態に関係なく決定論的ベル状態を生成することができる。 以上の結果から,CHSHの不等式は有限温度でも広範囲のデコヒーレンスパラメータに対して破れることが示された。

We propose a dissipative method for preparation of a maximally entangled steady state of two trapped ions in the Lamb-Dicke limit. By addressing the trapped-ion system with a monochromatic standing wave laser pulse of frequency resonant with the ionic transition and a microwave field coupled to the ground-state transitions, we obtain an effective coupling between two particles, which is independent of the phonon-number fluctuations. Meanwhile, the controlled spontaneous emission of trapped ions is implemented via pumping the metastable states upwards to the short-lived ionic states by an auxiliary laser field. Combining the unitary processes with the engineered dissipation, a deterministic Bell state can be produced irrespective of the initial states of systems. Moreover, our result shows that the CHSH inequality can be violated for a wide range of decoherence parameters, even at finite temperature.
翻訳日:2023-02-05 07:05:57 公開日:2022-07-13
# ホモダインフィードバック制御によるオープンスピンチェーン量子電池の最適充電

Optimal charging of open spin-chain quantum batteries via homodyne-based feedback control ( http://arxiv.org/abs/2207.05926v1 )

ライセンス: Link先を確認
Y. Yao, X. Q. Shao(参考訳) スピン崩壊の存在下での局所磁場を用いた1次元のXXX$スピン鎖量子電池の充電問題について検討した。 ホモダイン測定に基づく量子フィードバック制御の導入は、エネルギー貯蔵、エルゴトロピー、有効空間利用率などの量子電池の様々な性能向上に寄与する。 ゼロ温度環境には、スピンチェーン量子電池が完全充電可能で、電池に蓄えられたエネルギーが完全測定条件下で完全に抽出可能であることを保証するための最適なパラメータが一式あり、これは単純な2サイトスピンチェーン量子電池の解析計算により、さらに4サイトスピンチェーンの数値シミュレーションにより検証される。 完全性については, 量子電池の帯電過程に対する不完全測定, 異方性パラメータ, 有限温度の影響についても考察した。

We study the problem of charging a dissipative one-dimensional $XXX$ spin-chain quantum battery using local magnetic fields in the presence of spin decay. The introduction of quantum feedback control based on homodyne measurement contributes to improve various performance of the quantum battery, such as energy storage, ergotropy, and effective space utilization rate. For the zero temperature environment, there is a set of optimal parameters to ensure that the spin-chain quantum battery can be fully charged and the energy stored in the battery can be fully extracted under the perfect measurement condition, which is found through the analytical calculation of a simple two-site spin-chain quantum battery and further verified by numerical simulation of a four-site spin-chain counterpart. For completeness, the adverse effects of imperfect measurement, anisotropic parameter, and finite temperature on the charging process of the quantum battery are also considered.
翻訳日:2023-02-05 07:05:41 公開日:2022-07-13
# フルパッシブ量子鍵分布

Fully-Passive Quantum Key Distribution ( http://arxiv.org/abs/2207.05916v1 )

ライセンス: Link先を確認
Wenyuan Wang, Rong Wang, Victor Zapatero, Li Qian, Bing Qi, Marcos Curty, Hoi-Kwong Lo(参考訳) qkd(quantum key distribution)ソースのパッシブ実装は、アクティブモジュレータが導入するサイドチャネルを排除するため、非常に望ましい。 これまで、パッシブデコイ状態とパッシブエンコーディング bb84 スキームが提案されてきた。 それでも、受動デコイ状態生成と受動符号化は、線形光学素子で同時に実装されることはなく、このような受動QKD方式の実用性を大幅に制限している。 本研究では,この制限を克服し,線形光学を用いた完全パッシブQKDソースを提案する。 これにより、ソース変調器からのサイドチャネルを避ける、非常に実用的なQKDシステムが可能になる。 提案する受動的ソース(decoy状態解析と組み合わせて)は、キュービットシステム上で任意の状態を生成し、プロトコル非依存である。 すなわち、BB84、参照フレームに依存しないQKD、あるいは6状態プロトコルなど、様々なプロトコルで使用することができる。 基本的には測定デバイス非依存のqkdと組み合わせて、検出器や変調器のサイドチャネルなしでシステムを構築することもできる。

Passive implementations of quantum key distribution (QKD) sources are highly desirable as they eliminate side-channels that active modulators might introduce. Up till now, passive decoy-state and passive encoding BB84 schemes have both been proposed. Nonetheless, passive decoy-state generation and passive encoding have never been simultaneously implemented with linear optical elements before, which greatly limits the practicality of such passive QKD schemes. In this work, we overcome this limitation and propose a fully-passive QKD source with linear optics that eliminates active modulators for both decoy-state choice and encoding. This allows for highly practical QKD systems that avoid side-channels from the source modulators. The passive source we propose (combined with the decoy-state analysis) can create any arbitrary state on a qubit system and is protocol-independent. That is, it can be used for various protocols such as BB84, reference-frame-independent QKD, or the six-state protocol. It can also in principle be combined with e.g. measurement-device-independent QKD, to build a system without side-channels in either detectors or modulators.
翻訳日:2023-02-05 07:05:24 公開日:2022-07-13
# 結晶温度とレーザー周波数安定化を伴わない光子源

Bright entangled photon source without stringent crystal temperature and laser frequency stabilization ( http://arxiv.org/abs/2207.06117v1 )

ライセンス: Link先を確認
Sandeep Singh, Vimlesh Kumar, Anirban Ghosh, G.K. Samanata(参考訳) 様々な量子通信プロトコルの主要なビルディングブロックであるエンタングルド光子源(EPS)は、通常、$\chi^{2}$非線形バルク光学材料における自然パラメトリックダウンコンバージョン(SPDC)を利用して開発される。 高非線形性と長い相互作用長がepsの周期分極結晶の優性を確立しているが、そのような結晶の相整合条件は結晶温度とレーザー波長のゆらぎに非常に敏感である。 その結果、例えば衛星ベースの応用など、実験室の外にそのようなソースを配置するには、厳しい質量と電力の予算が必要となり、ミッションの複雑さとコストが増大する。 我々は結晶温度とレーザー波長安定化の緩和条件を条件に、明るく安定した絡み合った光子源を報告した。 偏光サーニャック干渉計の内部に周期的に偏極したktp結晶を配置し, 縮退した第0型位相整合光子対を環状の810nmで生成し, spdc環を2つの共通光学素子である軸子とレンズの助けを借りて「完璧な」環に変換した。 7^{o}$cの結晶温度変化と300ghzのレーザー波長の変化により、gaussian から annular へのspdcリングサイズの変化にもかかわらず、「完全」リングの大きさを一定に観察した。 新しいEPSは、スペクトル輝度が22.58 $\pm$ 0.15 kHz/mWで、ベルのパラメータを持つ単一モードファイバーを用いて収集され、S = 2.64 $\pm$ 0.05であり、量子状態の忠実度は 0.95 $\pm$ 0.02 である。 ジェネリックスキームは、全ての結晶の非コリニアSPDC光子に使用することができ、リソース制約された用途の任意の波長および時間スケールでEPSを開発することができる。

Entangled photon sources (EPS), the major building block for a variety of quantum communication protocols, are commonly developed by utilizing the spontaneous parametric down-conversion (SPDC) in $\chi^{2}$ nonlinear bulk optical materials. While high nonlinearity and long interaction length have established the superiority of the periodically poled crystals for EPSs, the phase-matching condition of such crystals is very sensitive to the fluctuation of the crystal temperature and the laser wavelength. As a result, deploying such sources outside the laboratory, for example, satellite-based applications, demands a stringent mass and power budget, thus enhancing the mission complexity and cost. We report a bright, stable entangled photon source with a relaxed requirement of crystal temperature and laser wavelength stabilization. Using a periodically poled KTP crystal inside a polarization Sagnac interferometer producing degenerate, type-0 phase-matched entangled photon pairs at 810 nm in an annular ring, we have transformed the SPDC ring into a "perfect" ring with the help of two common optical elements, axicon, and lens. Despite the variation of the SPDC ring size from Gaussian to annular of different diameters due to the change of crystal temperature over $7^{o}$C, and laser wavelength over 300 GHz, we observe the size of the "perfect" ring to be constant. The new EPS, having a spectral brightness as high as 22.58 $\pm$ 0.15 kHz/mW collected using single-mode fiber with a Bell's parameter, S = 2.64 $\pm$ 0.05, and quantum state fidelity of 0.95 $\pm$ 0.02, requires a crystal temperature stability of $\pm$ $0.8^{o}$C, almost five times relaxation as compared to the previous EPS. The generic scheme can be used for non-collinear SPDC photons in all crystals to develop EPS at any wavelength and timescales for resource-constrained applications.
翻訳日:2023-02-05 07:00:19 公開日:2022-07-13
# トラップイオンを用いたスケーラブルでプログラム可能なフォノンネットワーク

Scalable and Programmable Phononic Network with Trapped Ions ( http://arxiv.org/abs/2207.06115v1 )

ライセンス: Link先を確認
Wentao Chen, Yao Lu, Shuaining Zhang, Kuan Zhang, Guanhao Huang, Mu Qiao, Xiaolu Su, Jialiang Zhang, Jingning Zhang, Leonardo Banchi, M.S. Kim, and Kihwan Kim(参考訳) 制御可能なボソニックシステムは、サブユニバーサル量子計算能力を備えたポスト古典的な計算能力を提供できる。 ビームスプリッターと異なるモード間の位相シフト器を通じて進化する多数のボソンからなるネットワークが提案され、量子的優位性を示すために応用されている。 ネットワークは主に光子を持つ光学系で実装されているが、近年は光子損失や確率的操作といったフォトニックシステムの大きな制限に対処できる代替実現が検討されている。 閉じ込められたイオンの振動モードの量子化励起であるフォノンは、ボソニックネットワークを実現する有望な候補である。 本稿では,任意の音素状態が決定的に準備され,検出される最小の音素ネットワークを実験的に実証する。 最大4つの集合振動モードを持つネットワークを実現し、量子的優位性を明らかにするために簡単に拡張できる。 固定された全フォノン数を持つ任意のマルチモード状態に対するトモグラフィーの模範アルゴリズムを用いて,ネットワークの性能をベンチマークする。 94.5 $\pm$ 1.95 % と 93.4 $\pm$ 3.15 % の復元係数をそれぞれ取得した。 我々の実験は、古典的および他の量子システムの限界を超えて、様々な量子情報処理のための音素ネットワークをスケールアップするための明確で斬新な経路を示す。

Controllable bosonic systems can provide post-classical computational power with sub-universal quantum computational capability. A network that consists of a number of bosons evolving through beam-splitters and phase-shifters between different modes, has been proposed and applied to demonstrate quantum advantages. While the network has been implemented mostly in optical systems with photons, recently alternative realizations have been explored, where major limitations in photonic systems such as photon loss, and probabilistic manipulation can be addressed. Phonons, the quantized excitations of vibrational modes, of trapped ions can be a promising candidate to realize the bosonic network. Here, we experimentally demonstrate a minimal-loss phononic network that can be programmed and in which any phononic states are deterministically prepared and detected. We realize the network with up to four collective-vibrational modes, which can be straightforwardly extended to reveal quantum advantage. We benchmark the performance of the network with an exemplary algorithm of tomography for arbitrary multi-mode states with a fixed total phonon number. We obtain reconstruction fidelities of 94.5 $\pm$ 1.95 % and 93.4 $\pm$ 3.15 % for single-phonon and two-phonon states, respectively. Our experiment demonstrates a clear and novel pathway to scale up a phononic network for various quantum information processing beyond the limitations of classical and other quantum systems.
翻訳日:2023-02-05 06:59:38 公開日:2022-07-13
# 測定バックアクションを伴わないマルチタイム量子統計の実証

Demonstration of multi-time quantum statistics without measurement back-action ( http://arxiv.org/abs/2207.06106v1 )

ライセンス: Link先を確認
Pengfei Wang, Hyukjoon Kwon, Chun-Yang Luan, Wentao Chen, Mu Qiao, Zinan Zhou, Kaizhao Wang, M. S. Kim and Kihwan Kim(参考訳) 測定が量子状態を妨げるという量子力学の原理のため、複数の時点の量子統計を得ることは困難である。 そこで本研究では, アンシラによるバックアクションを伴わないアンシラ支援計測手法を提案し, 二種のイオンを捕捉して実験的に実証した。 適切に選択された重みでアンシラ測定結果を平均化することにより、量子相関関数や準確率分布などの量子統計を再構成することができる。 我々は,システムとアンシラとして$^{171}\rm{yb}^+$-$^{138}\rm{ba}^+$ ionsを用い,システム状態に影響を与えることなく,繰り返し初期化とアンシラ状態の検出からなるマルチタイム計測を行う。 2時間および3時間の量子相関関数と準確率分布は実験データから明らかである。 限界分布が計測値に影響を受けないことの検証に成功し,再構成分布の非古典性を確認した。 我々のスキームは、様々な量子系の性質を探索するための重要なツールとなる一般的な量子過程の任意の$N$-timeの測定に応用できる。

It is challenging to obtain quantum statistics of multiple time points due to the principle of quantum mechanics that a measurement disturbs the quantum state. We propose an ancilla-assisted measurement scheme that does not suffer from the measurement-induced back-action and experimentally demonstrate it using dual-species trapped ions. By ensemble averaging the ancilla-measurement outcomes with properly chosen weights, quantum statistics, such as quantum correlation functions and quasi-probability distributions can be reconstructed. We employ $^{171}\rm{Yb}^+$-$^{138}\rm{Ba}^+$ ions as the system and the ancilla to perform multi-time measurements that consist of repeated initialization and detection of the ancilla state without effecting the system state. The two- and three-time quantum correlation functions and quasi-probability distributions are clearly revealed from experimental data. We successfully verify that the marginal distribution is unaffected by the measurement at each time and identify the nonclassicality of the reconstructed distribution. Our scheme can be applied for any $N$-time measurements of a general quantum process, which will be an essential tool for exploring properties of various quantum systems.
翻訳日:2023-02-05 06:59:20 公開日:2022-07-13
# 雑音二モード圧縮マイクロ波状態における量子相関流

Flow of quantum correlations in noisy two-mode squeezed microwave states ( http://arxiv.org/abs/2207.06090v1 )

ライセンス: Link先を確認
M. Renger, S. Pogorzalek, F. Fesquet, K. Honasoge, F. Kronowetter, Q. Chen, Y. Nojiri, K. Inomata, Y. Nakamura, A. Marx, F. Deppe, R. Gross, K. G. Fedorov(参考訳) 雑音下での2モード圧縮マイクロ波状態の伝播における非古典的相関について検討した。 量子エンタングルメント(quantum entanglement)と量子ディスコード(quantum discord)の2種類の相関に着目した。 量子ディスコードには、環境雑音に対する漸近的ロバスト性など、実験的な検証を必要とする様々な興味深い基本的な性質がある。 ここでは,超伝導ジョセフソンパラメトリック増幅器を用いた2モード圧縮マイクロ波状態の伝播における量子不一致を実験的に検討する。 これらの絡み合った状態への非対称ノイズ注入を利用して、熱雑音に対する量子不協和性のロバスト性を実証し、絡み合いの突然死を検証する。 さらに,環境と2成分サブシステム間の局所的アクセス不能情報の流れに直接関係する量子不一致と生成の絡み合いの違いについて検討した。 ノイズインジェクションの3部構成結果である低ノイズ光子数に対する量子ディスコードと絡み合いのクロスオーバー挙動を観察した。 エンタングルメントと量子不協和の差は、特定の量子鍵分布プロトコルのセキュリティと関係があることを実証する。

We study nonclassical correlations in propagating two-mode squeezed microwave states in the presence of noise. We focus on two different types of correlations, namely, quantum entanglement and quantum discord. Quantum discord has various intriguing fundamental properties which require experimental verification, such as the asymptotic robustness to environmental noise. Here, we experimentally investigate quantum discord in propagating two-mode squeezed microwave states generated via superconducting Josephson parametric amplifiers. By exploiting an asymmetric noise injection into these entangled states, we demonstrate the robustness of quantum discord against thermal noise while verifying the sudden death of entanglement. Furthermore, we investigate the difference between quantum discord and entanglement of formation, which can be directly related to the flow of locally inaccessible information between the environment and the bipartite subsystem. We observe a crossover behavior between quantum discord and entanglement for low noise photon numbers, which is a result of the tripartite nature of noise injection. We demonstrate that the difference between entanglement and quantum discord can be related to the security of certain quantum key distribution protocols.
翻訳日:2023-02-05 06:58:51 公開日:2022-07-13
# 標準対称性分散とコヒーレンス・不確実性・絡み合いへの応用

Standard symmetrized variance with applications to coherence, uncertainty and entanglement ( http://arxiv.org/abs/2207.06048v1 )

ライセンス: Link先を確認
Ming-Jing Zhao, Lin Zhang, and Shao-Ming Fei(参考訳) 変数は量子情報理論においてユビキタス量である。 基礎を定めれば、純粋な状態において固定対角形が観測可能な平均分散を、純粋な状態の成分上の全ての可能な置換の下で考慮し、これを対称性分散と呼ぶ。 さらに, 対称性付き分散の解析式について検討し, 2つの因子が対角的可観測状態と量子状態に別々に依存する因子化形式であることが確認された。 対角オブザーバブルに対応する因子をシフトさせることにより、対角オブザーバブルとは独立な純粋状態に対する標準対称性分散という概念を導入する。 次に、3つの異なる方法で混合状態への標準対称性分散を拡張し、それぞれ不確実性、コヒーレンス、およびアシストのコヒーレンスを特徴付ける。 これらの量は分析的に評価され、それらの関係が確立される。 さらに、標準対称性分散は二成分系に対する絡み合い測度でもあることを示した。 このように、量子状態のこれらの異なる量子性は、分散によって統一される。

Variance is a ubiquitous quantity in quantum information theory. Given a basis, we consider the averaged variances of a fixed diagonal observable in a pure state under all possible permutations on the components of the pure state and call it the symmetrized variance. Moreover we work out the analytical expression of the symmetrized variance and find that such expression is in the factorized form where two factors separately depends on the diagonal observable and quantum state. By shifting the factor corresponding to the diagonal observable, we introduce the notion named the standard symmetrized variance for the pure state which is independent of the diagonal observable. We then extend the standard symmetrized variance to mixed states in three different ways, which characterize the uncertainty, the coherence and the coherence of assistance, respectively. These quantities are evaluated analytically and the relations among them are established. In addition, we show that the standard symmetrized variance is also an entanglement measure for bipartite systems. In this way, these different quantumness of quantum states are unified by the variance.
翻訳日:2023-02-05 06:58:33 公開日:2022-07-13
# 散逸異方性二光子ディックモデルの非線形ダイナミクス

Nonlinear dynamics of the dissipative anisotropic two-photon Dicke model ( http://arxiv.org/abs/2207.06019v1 )

ライセンス: Link先を確認
Jiahui Li, Rosario Fazio, and Stefano Chesi(参考訳) 散逸ボソニック場を持つ異方性二光子ディッケモデルの半古典的極限を考察し、そのリッチな非線形ダイナミクスを記述する。 正規および「超ラジアント」様相の他に、局所不動点の存在は閉系ハミルトニアンのスペクトル崩壊を反映している。 超ラジアントおよび通常の固定点のホップ分岐を通じて、パラメータの特定の領域に極限サイクルが形成される。 また、異方性によって引き起こされるポールフリップ遷移と、周期的な分岐のカスケードから現れるカオス力学の領域も同定する。 カオス領域では、対称引力子の衝突と断片化が起こる。 位相図を通して位相共存のいくつかの例を見つけ、位相空間を異なるアトラクションの盆地に分割する。

We study the semiclassical limit of the anisotropic two-photon Dicke model with a dissipative bosonic field and describe its rich nonlinear dynamics. Besides normal and 'superradiant'-like phases, the presence of localized fixed points reflects the spectral collapse of the closed-system Hamiltonian. Through Hopf bifurcations of superradiant and normal fixed points, limit cycles are formed in certain regions of parameters. We also identify a pole-flip transition induced by anisotropy and a region of chaotic dynamics, which appears from a cascade of period-doubling bifurcations. In the chaotic region, collision and fragmentation of symmetric attractors take place. Throughout the phase diagram we find several examples of phase coexistence, leading to the segmentation of phase space into distinct basins of attraction.
翻訳日:2023-02-05 06:58:03 公開日:2022-07-13
# 音響フォノンアシスト励起による半導体ホールスピンのダイナミクスとコヒーレンス

Probing the dynamics and coherence of a semiconductor hole spin via acoustic phonon-assisted excitation ( http://arxiv.org/abs/2207.05981v1 )

ライセンス: Link先を確認
N. Coste, M. Gundin, D. Fioretto, S. E. Thomas, C. Millet, E. Medhi, M. Gundin, N. Somaschi, M. Morassi, M. Pont, A. Lemaitre, N. Belabas, O. Krebs, L. Lanco, and P. Senellart(参考訳) 半導体量子ドットのスピンは、ルードルフ・リンドナースキーム[1]で提案されているように、偏光符号化されたフォトニッククラスター状態を生成するために局所量子メモリを約束している。 しかし、光転移の自由度の自由度を利用するには、高光子不明瞭性を得るために広く用いられる共鳴励起スキームが妨げられる。 ここでは、高い識別性を維持するための音響フォノンアシスト励起が、偏光選択光学遷移をフル活用して単一スピン状態の初期化と測定を可能にすることを示す。 我々は、低横磁場におけるホールスピン系のコヒーレンスにアクセスし、励起状態の放射放出過程と量子ドット基底状態の両方において、スピンラーモアの収差を直接監視する。 我々は、光選択規則によって与えられるスピン状態検出忠実度9,4.7 \pm 0.2 \%$ と20\pm5$~ns ホールスピンコヒーレンスタイムを報告し、このスキームと12個の光子で線形クラスター状態を生成するシステムの可能性を示した。

Spins in semiconductor quantum dots are promising local quantum memories to generate polarization-encoded photonic cluster states, as proposed in the pioneering Rudolph-Lindner scheme [1]. However, harnessing the polarization degree of freedom of the optical transitions is hindered by resonant excitation schemes that are widely used to obtain high photon indistinguishability. Here we show that acoustic phonon-assisted excitation, a scheme that preserves high indistinguishability, also allows to fully exploit the polarization selective optical transitions to initialise and measure single spin states. We access the coherence of hole spin systems in a low transverse magnetic field and directly monitor the spin Larmor precession both during the radiative emission process of an excited state or in the quantum dot ground state. We report a spin state detection fidelity of $94.7 \pm 0.2 \%$ granted by the optical selection rules and a $20\pm5$~ns hole spin coherence time, demonstrating the potential of this scheme and system to generate linear cluster states with a dozen of photons
翻訳日:2023-02-05 06:57:51 公開日:2022-07-13
# 分散ショアのアルゴリズム

Distributed Shor's algorithm ( http://arxiv.org/abs/2207.05976v1 )

ライセンス: Link先を確認
Ligang Xiao, Daowen Qiu, Le Luo, Paulo Mateus(参考訳) shorのアルゴリズムはpeter shorによって提案された最も重要な量子アルゴリズムの1つである(proceeds of the 35th annual symposium on foundations of computer science, 1994, pp. 124--134)。 ショアのアルゴリズムは、ある確率で大きな整数を分解し、入力整数の長さで多項式時間をかけることができる。 shorのアルゴリズムの鍵となるステップは順序探索アルゴリズムである。 具体的には、$L$-bit整数$N$が与えられたとき、まず$gcd(a,N)=1$の整数$a$をランダムに選択し、$a$ modulo $N$は$a^r\equiv 1 (\bmod N)$の最小の正整数$r$である。 shor のアルゴリズムにおける順序探索アルゴリズムは、まず量子演算を用いて、いくつかの $s\in\{0, 1, \cdots, r-1\}$ に対して $\dfrac{s}{r}$ の見積もりを得る。 本稿では,分散ショアアルゴリズムを提案する。 分散アルゴリズムと従来の順序探索アルゴリズムの違いは、2つの量子コンピュータを別々に使って、$s\in\{0, 1, \cdots, r-1\}$ で$\dfrac{s}{r}$の部分ビットを推定することです。 彼らの測定結果が同じ$\dfrac{s}{r}$に対応するためには、量子テレポーテーションを採用する必要がある。 測定結果を古典的後処理で統合する。 その後、高精度で$\dfrac{s}{r}$と推定される。 複数の制御量子ビットを使用する従来のshorのアルゴリズムと比較して、このアルゴリズムはおよそ$\dfrac{l}{2}$ qubitsを削減し、各コンピュータの回路深度を減少させる。

Shor's algorithm is one of the most important quantum algorithm proposed by Peter Shor [Proceedings of the 35th Annual Symposium on Foundations of Computer Science, 1994, pp. 124--134]. Shor's algorithm can factor a large integer with certain probability and costs polynomial time in the length of the input integer. The key step of Shor's algorithm is the order-finding algorithm. Specifically, given an $L$-bit integer $N$, we first randomly pick an integer $a$ with $gcd(a,N)=1$, the order of $a$ modulo $N$ is the smallest positive integer $r$ such that $a^r\equiv 1 (\bmod N)$. The order-finding algorithm in Shor's algorithm first uses quantum operations to obtain an estimation of $\dfrac{s}{r}$ for some $s\in\{0, 1, \cdots, r-1\}$, then $r$ is obtained by means of classical algorithms. In this paper, we propose a distributed Shor's algorithm. The difference between our distributed algorithm and the traditional order-finding algorithm is that we use two quantum computers separately to estimate partial bits of $\dfrac{s}{r}$ for some $s\in\{0, 1, \cdots, r-1\}$. To ensure their measuring results correspond to the same $\dfrac{s}{r}$, we need employ quantum teleportation. We integrate the measuring results via classical post-processing. After that, we get an estimation of $\dfrac{s}{r}$ with high precision. Compared with the traditional Shor's algorithm that uses multiple controlling qubits, our algorithm reduces nearly $\dfrac{L}{2}$ qubits and reduces the circuit depth of each computer.
翻訳日:2023-02-05 06:57:29 公開日:2022-07-13
# 保存則と量子誤差補正--一般化マッチングデコーダに向けて

Conservation laws and quantum error correction: towards a generalised matching decoder ( http://arxiv.org/abs/2207.06428v1 )

ライセンス: Link先を確認
Benjamin J. Brown(参考訳) 復号化アルゴリズムは、フォールトトレラントな量子計算アーキテクチャに必須である。 この観点から、我々は、スケーラブルな量子コンピューティングを実証する主要な取り組みの基盤となる、プロトタイプな量子低密度パリティチェックコードである、表面符号の復号アルゴリズムについて検討する。 議論の中心は、最小ウェイトのパーフェクトマッチングデコーダです。 デコーダは、表面コード安定化素子間の物質的対称性によって生じる基礎構造を利用する。 これらの対称性に集中することにより、最小限の完全整合デコーダが他の種類のコードに対してどのように一般化されるかという問題に対処し始める。 まず、他のコードと一致するデコーダの例を調べることで、この問題に対処する。 これには、特定の種類のコードに対して特定の構造やバイアスを示すノイズモデルを修正するために特別に考案された復号アルゴリズムが含まれる。 さらに,特定の特性を持つ符号に対して,最小重み付き完全整合デコーダを構築する方式を提案する。 私たちが利用する特性は、トポロジカルなコードでは一般的です。 我々は提案のより広い適用性について議論し、任意の安定化符号に対して一般化されたマッチングデコーダを設計する方法を示すために対処できるいくつかの質問を提案する。

A decoding algorithm is essential to any fault-tolerant quantum-computing architecture. In this perspective we explore decoding algorithms for the surface code; a prototypical quantum low-density parity-check code that underlies many of the leading efforts to demonstrate scalable quantum computing. Central to our discussion is the minimum-weight perfect-matching decoder. The decoder works by exploiting underlying structure that arises due to materialised symmetries among surface-code stabilizer elements. By concentrating on these symmetries, we begin to address the question of how a minimum-weight perfect-matching decoder might be generalised for other types of code. We approach this question first by investigating examples of matching decoders for other codes. These include decoding algorithms that have been specialised to correct for noise models that demonstrate a particular structure or bias with respect to certain types of code. In addition to this, we propose a systematic way of constructing a minimum-weight perfect-matching decoder for codes with certain characteristic properties. The properties we make use of are common among topological codes. We discuss the broader applicability of the proposal, and we suggest some questions we can address that may show us how to design a generalised matching decoder for arbitrary stabilizer codes.
翻訳日:2023-02-05 06:50:20 公開日:2022-07-13
# テンソル列クロス近似を用いた量子状態トモグラフィ

Quantum state tomography with tensor train cross approximation ( http://arxiv.org/abs/2207.06397v1 )

ライセンス: Link先を確認
Alexander Lidiak, Casey Jameson, Zhen Qin, Gongguo Tang, Michael B. Wakin, Zhihui Zhu, Zhexuan Gong(参考訳) 近年, 1次元雑音量子コンピュータが生成する状態は, キュービット数に依存しない有限結合次元を持つ行列積作用素によってよく近似されることが示された。 テンソルトレインクロス近似法(tensor train cross approximation)として知られる手法を用いて,測定条件が最小の状態で全量子状態トモグラフィーを行うことができることを示した。 この手法は全階密度行列の再構成に役立ち、局所演算子を計測することしか必要とせず、これは最先端の実験量子プラットフォームで日常的に実行される。 本手法は,非構造状態と局所測定のための最もよく知られたトモグラフィー法よりも指数関数的に少ない状態コピーを必要とする。 再構成された状態の忠実性は、より実験的なデータを要求することなく、教師付き機械学習によってさらに向上することができる。 スケーラブルなトモグラフィは、全状態が局所的な縮小から再構築できる場合に実現される。

It has been recently shown that a state generated by a one-dimensional noisy quantum computer is well approximated by a matrix product operator with a finite bond dimension independent of the number of qubits. We show that full quantum state tomography can be performed for such a state with a minimal number of measurement settings using a method known as tensor train cross approximation. The method works for reconstructing full rank density matrices and only requires measuring local operators, which are routinely performed in state-of-art experimental quantum platforms. Our method requires exponentially fewer state copies than the best known tomography method for unstructured states and local measurements. The fidelity of our reconstructed state can be further improved via supervised machine learning, without demanding more experimental data. Scalable tomography is achieved if the full state can be reconstructed from local reductions.
翻訳日:2023-02-05 06:49:26 公開日:2022-07-13
# ポートフォリオ解析のための条件付きGANのハイブリッドアプローチ

A Hybrid Approach on Conditional GAN for Portfolio Analysis ( http://arxiv.org/abs/2208.07159v1 )

ライセンス: Link先を確認
Jun Lu, Danny Ding(参考訳) 数十年にわたって、markowitzフレームワークはポートフォリオ分析で広く使われてきたが、トレンド予測よりも市場の不確実性の分析に重点を置いている。 ジェネレーティブ・逆境ネットワーク(GAN)、条件付きGAN(CGAN)、自動符号化CGAN(ACGAN)は、金融時系列を生成し、ポートフォリオ分析に役立つ特徴を抽出するために研究されている。 CGAN や ACGAN フレームワークの制限は、将来のトレンドを予測するのではなく、シリーズの生成とシリーズの内部トレンドを見つけることに重点を置いている。 本稿では,市場不確実性と今後の傾向をモデル化しながら,歴史データの内部傾向を学習する深層生成モデルに基づく条件付きganのハイブリッドアプローチを提案する。 提案したHybridCGANモデルとHybridACGANモデルが,既存のMarkowitz,CGAN,ACGANアプローチと比較してポートフォリオアロケーションを改善することを示す。

Over the decades, the Markowitz framework has been used extensively in portfolio analysis though it puts too much emphasis on the analysis of the market uncertainty rather than on the trend prediction. While generative adversarial network (GAN), conditional GAN (CGAN), and autoencoding CGAN (ACGAN) have been explored to generate financial time series and extract features that can help portfolio analysis. The limitation of the CGAN or ACGAN framework stands in putting too much emphasis on generating series and finding the internal trends of the series rather than predicting the future trends. In this paper, we introduce a hybrid approach on conditional GAN based on deep generative models that learns the internal trend of historical data while modeling market uncertainty and future trends. We evaluate the model on several real-world datasets from both the US and Europe markets, and show that the proposed HybridCGAN and HybridACGAN models lead to better portfolio allocation compared to the existing Markowitz, CGAN, and ACGAN approaches.
翻訳日:2023-02-05 06:41:37 公開日:2022-07-13
# 時系列からのパラメトリックハイブリッドオートマトン合成

Synthesis of Parametric Hybrid Automata from Time Series ( http://arxiv.org/abs/2208.06383v1 )

ライセンス: Link先を確認
Miriam Garc\'ia Soto and Thomas A. Henzinger and Christian Schilling(参考訳) 時系列データから線形ハイブリッドオートマトンを合成するアルゴリズム的手法を提案する。 既存のアプローチとは異なり、私たちのアプローチはモデルのファミリー全体を提供します。 家族内の各モデルは、以下の意味で、入力データを精度の誤差 {\epsilon} までキャプチャすることを保証されている: 各時系列に対して、そのモデルは、データポイントに閉じた実行を含む。 我々の構成により、この族から最小精度誤差のモデルを効果的に選択することができる。 2つのケーススタディでアルゴリズムの効率性と正確なモデルを見つける能力を示す。

We propose an algorithmic approach for synthesizing linear hybrid automata from time-series data. Unlike existing approaches, our approach provides a whole family of models. Each model in the family is guaranteed to capture the input data up to a precision error {\epsilon}, in the following sense: For each time series, the model contains an execution that is {\epsilon}-close to the data points. Our construction allows to effectively choose a model from this family with minimal precision error {\epsilon}. We demonstrate the algorithm's efficiency and its ability to find precise models in two case studies.
翻訳日:2023-02-05 06:41:18 公開日:2022-07-13
# 電磁零点場による量子オントロジーの完成

Completing the quantum ontology with the electromagnetic zero-point field ( http://arxiv.org/abs/2207.06549v1 )

ライセンス: Link先を確認
Luis de la Pe\~na and Ana Mar\'ia Cetto(参考訳) このテキストは、原子系で観測された量子現象の初期解釈に関する一連の批判的な考察から始まる。 量子力学の構築の過程で進展した曲がりくねった説明は、その解釈の枠組みの一部として、決定論、因果性、非局所性、さらには主観主義を導入することによって、科学的知識の他の部分から新しい理論を遠ざけたことが示されている。 この不満足な解釈的景観から引き出された結論は、量子力学が重要な存在論的要素を欠いているということである。 量子オントロジーを完成させるために必要な要素として、ランダムゼロ点放射場 (ZPF) が好ましい。 波動を媒介とする)量子確率過程はブラウン運動と本質的に異なることが示され、流体力学の場合の類似性より快適である。 ZPFの導入によって提供される新しい視点は、定常原子状態やそれらの間の遷移や、絡み合った状態で表される明らかな非局所性など、量子系の健全な特徴を説明するために用いられる。 特に、磁場の恒久的な存在は(他の古典的な)粒子の力学に大きな影響を与え、最終的に場の制御下に置かれる。 この定性的変化は、時空における初期古典記述からヒルベルト空間における最終的な量子記述への遷移に反映される。 量子化のメカニズムの解明は,歩行-ドロップレット系がパラダイムの例である,振動する背景下でのコーパスクレスの他の物理系で同様の現象が起こる可能性を考察する。

This text begins with a series of critical considerations on the initial interpretation of quantum phenomena observed in atomic systems. The bewildering explanations advanced during the construction of quantum mechanics are shown to have distanced the new theory from the rest of scientific knowledge, by introducing indeterminism, acausality, nonlocality, and even subjectivism as part of its interpretative framework. The conclusion drawn from this unsatisfactory interpretative landscape is that quantum mechanics lacks a key ontological ingredient. Arguments are given in favour of the random zero-point radiation field (ZPF) as the element needed to complete the quantum ontology. The (wave-mediated) quantum stochastic process is shown to be essentially different from Brownian motion, and more amenable to an analogy with the hydrodynamic case. The new perspective provided by the introduction of the ZPF is used to explain some salient features of quantum systems, such as the stationary atomic states and the transitions between them, and the apparent nonlocality expressed in the entangled states. Notably, the permanent presence of the field drastically affects the dynamics of the (otherwise classical) particle, which eventually falls under the control of the field. This qualitative change is reflected in the transition from the initial classical description in space-time, to the final quantum one in the Hilbert space. The clarification of the mechanism of quantization leads us to consider the possibility that a similar phenomenon occurs in other physical systems of corpuscles subjected to an oscillating background, of which the walking-droplet system is a paradigmatic example.
翻訳日:2023-02-05 06:41:09 公開日:2022-07-13
# 量子データ低減とビデオ分類への応用

Quantum Data Reduction with Application to Video Classification ( http://arxiv.org/abs/2207.06460v1 )

ライセンス: Link先を確認
Kostas Blekos and Dimitrios Kosmopoulos(参考訳) ハイブリッドアルゴリズムを用いた量子ビデオ分類法について検討する。 量子古典的なステップは、ビデオデータセットにデータ還元を実行し、圧縮されたデータセットのみにアクセス可能な量子ステップは、ビデオをkクラスの1つに分類する。 本手法を手話ビデオを用いて検証し,量子分類プロセスを用いて,データ分類に十分な情報を含むことを示す。 提案手法は,ビデオ分類問題に対する量子コンピュータの「データロード」問題を緩和する方法を示す。 データローディングは大きなボトルネックであり、量子コンピューティングの利点の多くを犠牲にすることなくそのタスクを実行するための、既知の効率的な技術は存在しない。

We investigate a quantum video classification method using a hybrid algorithm. A quantum-classical step performs a data reduction on the video dataset and a quantum step -- which only has access to the reduced dataset -- classifies the video to one of k classes. We verify the method using sign videos and demonstrate that the reduced dataset contains enough information to successfully classify the data, using a quantum classification process. The proposed data reduction method showcases a way to alleviate the "data loading" problem of quantum computers for the problem of video classification. Data loading is a huge bottleneck, as there are no known efficient techniques to perform that task without sacrificing many of the benefits of quantum computing.
翻訳日:2023-02-05 06:39:24 公開日:2022-07-13
# ワープ駆動空気力学

Warp Drive Aerodynamics ( http://arxiv.org/abs/2207.06458v1 )

ライセンス: Link先を確認
Carlos Barcel\'o, Valentin Boyanov, Luis J. Garay, Eduardo Mart\'in-Mart\'inez, Jose M. S\'anchez Vel\'azquez(参考訳) 本研究では,ワープ駆動時空が量子物質の存在によって不安定になる可能性を分析する。 特に、無限のブルーシフト点(半古典的な不安定さで知られているブラックホール内部の地平線の点に類似している)を探索し、その近傍の測地線の挙動を通して分類する。 次元 2+1 以上のワープ駆動気泡は、一般的には発散点が接近する孤立点のみを含むため、不安定なエネルギーの蓄積に対する有限の限界となる。 さらに、エネルギー密度の上昇によるワープドライブの半古典的不安定性は、ドライブのより「空力的」な形状や軌道によってさらに小さくすることができる。

In this work we analyse the potential for a warp drive spacetime to develop instabilities due to the presence of quantum matter. Particularly, we look for points of infinite blueshift (which are analogous to points of a black hole inner horizon, known for its semiclassical instability), and categorise them through the behaviour of geodesics in their vicinity. We find that warp-drive bubbles in dimension 2+1 or higher are in fact likely to be stable, as they generally contain only isolated points where divergences are approached, leading to a finite limit for the overall accumulation of destabilising energy. Furthermore, any semiclassical instabilities in the warp drive due to energy-density buildups can be further diminished with particular, more ``aerodynamic" shapes and trajectories for the drive.
翻訳日:2023-02-05 06:39:12 公開日:2022-07-13
# ラベルなしデータ(Open-LACU)を利用した拡張カテゴリによるオープンセット学習

Open set learning with augmented category by exploiting unlabelled data (open-LACU) ( http://arxiv.org/abs/2002.01368v4 )

ライセンス: Link先を確認
Emile R. Engelbrecht, Johan A. du Preez(参考訳) ラベルなしデータの性質を考えると、部分的にラベル付きトレーニングデータセットは、新しいカテゴリに属するサンプルを含むことが一般的である。 これらのいわゆる観察的新カテゴリーはトレーニングデータに存在しているが、トレーニングラベルには属さない。 対照的に、オープンセットは、トレーニング中に観察できないがテスト中に存在するものとして、新しいカテゴリを定義する。 この研究は、ラベルなしデータやオープンLACUを利用して、拡張カテゴリを用いたオープンセット学習と呼ばれる新しい学習方針の中で、観察された新しいカテゴリと観測されていないカテゴリを一般化する最初のものである。 本研究は、観察された新規カテゴリに関する研究分野と、観察されていない新規カテゴリに関する研究分野を区別するために、新規性検出の高レベルなレビューを行う。 Open-LACUは、関連する分野の合成として導入され、各分野の利点を単一の学習ポリシー内で維持する。 現在私たちは、このプレプリントと組み合わされて出版される最初のオープンLACUネットワークを完了しています。

Considering the nature of unlabelled data, it is common for partially labelled training datasets to contain samples that belong to novel categories. Although these so-called observed novel categories exist in the training data, they do not belong to any of the training labels. In contrast, open-sets define novel categories as those unobserved during during training, but present during testing. This research is the first to generalize between observed and unobserved novel categories within a new learning policy called open-set learning with augmented category by exploiting unlabeled data or open-LACU. This study conducts a high-level review on novelty detection so to differentiate between research fields that concern observed novel categories, and the research fields that concern unobserved novel categories. Open-LACU is then introduced as a synthesis of the relevant fields to maintain the advantages of each within a single learning policy. Currently, we are finalising the first open-LACU network which will be combined with this pre-print to be sent for publication.
翻訳日:2023-01-04 02:22:58 公開日:2022-07-13
# ドメイン適応理論に関する調査研究--学習境界と理論的保証

A survey on domain adaptation theory: learning bounds and theoretical guarantees ( http://arxiv.org/abs/2004.11829v6 )

ライセンス: Link先を確認
Ievgen Redko, Emilie Morvant, Amaury Habrard, Marc Sebban, Youn\`es Bennani(参考訳) 教師付き学習と半教師付き学習の両方を構成する有名な機械学習アルゴリズムはすべて、共通の前提の下でのみ機能する。 分布が変化すると、ほとんどの統計モデルは新しく収集されたデータから再構築されなければならない。 そのため, 関連分野のデータを活用し, 類似分野にまたがって利用することで, 新たなラベル付きサンプルの取得の必要性や労力を低減できるアプローチを開発する必要がある。 これは、タスク間で知識を外挿し、より効率的に学習する人間の能力に触発された学習環境である、転送学習(transfer learning)と呼ばれる新しい機械学習フレームワークを生み出した。 トランスファー学習のシナリオは多岐にわたるが、この調査の主な目的は、ドメイン適応と呼ばれる、特定の、おそらく最も人気のあるトランスファー学習のサブフィールドにおいて、最先端の理論結果の概要を提供することである。 このサブフィールドでは、学習タスクは同じままで、トレーニングとテストデータの間でデータ分布が変化すると仮定される。 本稿では,異なる統計的学習フレームワークに基づく学習境界をカバーする領域適応問題に関連する既存の結果の最新の記述について述べる。

All famous machine learning algorithms that comprise both supervised and semi-supervised learning work well only under a common assumption: the training and test data follow the same distribution. When the distribution changes, most statistical models must be reconstructed from newly collected data, which for some applications can be costly or impossible to obtain. Therefore, it has become necessary to develop approaches that reduce the need and the effort to obtain new labeled samples by exploiting data that are available in related areas, and using these further across similar fields. This has given rise to a new machine learning framework known as transfer learning: a learning setting inspired by the capability of a human being to extrapolate knowledge across tasks to learn more efficiently. Despite a large amount of different transfer learning scenarios, the main objective of this survey is to provide an overview of the state-of-the-art theoretical results in a specific, and arguably the most popular, sub-field of transfer learning, called domain adaptation. In this sub-field, the data distribution is assumed to change across the training and the test data, while the learning task remains the same. We provide a first up-to-date description of existing results related to domain adaptation problem that cover learning bounds based on different statistical learning frameworks.
翻訳日:2022-12-10 02:57:50 公開日:2022-07-13
# 在庫不正確性を大規模に修正する

Fixing Inventory Inaccuracies At Scale ( http://arxiv.org/abs/2006.13126v3 )

ライセンス: Link先を確認
Vivek F. Farias, Andrew A. Li, Tianyi Peng(参考訳) 不正確な在庫記録が頻繁に発生し、一部では小売業者が年商の約4%を負担している。 在庫の不正確さを手動で検出するコストは高く、既存のアルゴリズムソリューションは、現代の小売業務によって引き起こされる動的環境に不足する縦断データからの学習にほとんど依存している。 代わりに、店舗やSKU上の断面データに基づくソリューションを提案し、在庫不正確な検出を(低ランクの)ポアソン行列における異常を識別する問題とみなすことができる。 低ランク行列における異常検出に対する最先端のアプローチは、明らかに不足している。 具体的には、理論的な観点からは、これらのアプローチのリカバリの保証は、消失するほど小さなノイズ(我々の問題ではそうではないし、多くのアプリケーションではそうではない)で非異常なエントリを観察する必要がある。 そこで我々は,低ランクポアソン行列における異常検出に対する概念的に簡単なエントリーワイズアプローチを提案する。 本手法は確率的異常モデルの一般的なクラスに対応する。 提案手法では, 最適アルゴリズムのコストを min-max の最適速度で近似する。 消費者商品小売業者の合成データと実データを用いて,本手法が既存の異常検出手法に比べて最大10倍のコスト削減をもたらすことを示す。 その過程で,行列完備化のエントリーワイドなエラー保証を求める最近の研究に基づいて,独立な関心の結果として,部分指数行列の保証を確立する。

Inaccurate records of inventory occur frequently, and by some measures cost retailers approximately 4% in annual sales. Detecting inventory inaccuracies manually is cost-prohibitive, and existing algorithmic solutions rely almost exclusively on learning from longitudinal data, which is insufficient in the dynamic environment induced by modern retail operations. Instead, we propose a solution based on cross-sectional data over stores and SKUs, observing that detecting inventory inaccuracies can be viewed as a problem of identifying anomalies in a (low-rank) Poisson matrix. State-of-the-art approaches to anomaly detection in low-rank matrices apparently fall short. Specifically, from a theoretical perspective, recovery guarantees for these approaches require that non-anomalous entries be observed with vanishingly small noise (which is not the case in our problem, and indeed in many applications). So motivated, we propose a conceptually simple entry-wise approach to anomaly detection in low-rank Poisson matrices. Our approach accommodates a general class of probabilistic anomaly models. We show that the cost incurred by our algorithm approaches that of an optimal algorithm at a min-max optimal rate. Using synthetic data and real data from a consumer goods retailer, we show that our approach provides up to a 10x cost reduction over incumbent approaches to anomaly detection. Along the way, we build on recent work that seeks entry-wise error guarantees for matrix completion, establishing such guarantees for sub-exponential matrices, a result of independent interest.
翻訳日:2022-11-17 22:18:31 公開日:2022-07-13
# マルチタスク逆CNNによる腫瘍の可視的顕微鏡像の学習による一般化

Learning Interpretable Microscopic Features of Tumor by Multi-task Adversarial CNNs Improves Generalization ( http://arxiv.org/abs/2008.01478v2 )

ライセンス: Link先を確認
Mara Graziani and Sebastian Otalora and Stephane Marchand-Maillet and Henning Muller and Vincent Andrearczyk(参考訳) 一次診断の日々のルーチンに畳み込みニューラルネットワーク(cnns)を採用するには、ほぼ完全な精度だけでなく、データ取得シフトと透明性への十分な一般化が必要である。 既存のCNNモデルはブラックボックスとして機能し、医師が重要な診断機能がモデルによって使用されることを保証しない。 本稿では,マルチタスク学習やドメイン逆境学習,概念に基づく解釈可能性といった既存の手法を生かして,学習目標に診断因子を導入するという課題に対処する。 ここでは,マルチタスクと敵対的損失の不確実性に基づく重み付けの組み合わせを端から端まで学習することにより,核の密度やプレオモルフィズムなどの病理学的特徴,例えばサイズや外観の変化に焦点をあて,染色の違いなどの誤解を招く特徴を破棄することを推奨する。 乳腺リンパ節組織では腫瘍組織検出の一般化が有意に改善し,平均auc 0.89 (0.01) がベースラインauc 0.86 (0.005) に対して有効であった。 また, 中間表現を線形に探索する解釈可能性手法を適用することで, 核密度などの解釈可能な病理学的特徴が, 提案するcnnアーキテクチャによって学習され, このモデルの透明性が高まることを実証する。 この結果は、データの異質性に対して堅牢な解釈可能なマルチタスクアーキテクチャを構築するための出発点となる。 私たちのコードはhttps://bit.ly/356yq2uで利用可能です。

Adopting Convolutional Neural Networks (CNNs) in the daily routine of primary diagnosis requires not only near-perfect precision, but also a sufficient degree of generalization to data acquisition shifts and transparency. Existing CNN models act as black boxes, not ensuring to the physicians that important diagnostic features are used by the model. Building on top of successfully existing techniques such as multi-task learning, domain adversarial training and concept-based interpretability, this paper addresses the challenge of introducing diagnostic factors in the training objectives. Here we show that our architecture, by learning end-to-end an uncertainty-based weighting combination of multi-task and adversarial losses, is encouraged to focus on pathology features such as density and pleomorphism of nuclei, e.g. variations in size and appearance, while discarding misleading features such as staining differences. Our results on breast lymph node tissue show significantly improved generalization in the detection of tumorous tissue, with best average AUC 0.89 (0.01) against the baseline AUC 0.86 (0.005). By applying the interpretability technique of linearly probing intermediate representations, we also demonstrate that interpretable pathology features such as nuclei density are learned by the proposed CNN architecture, confirming the increased transparency of this model. This result is a starting point towards building interpretable multi-task architectures that are robust to data heterogeneity. Our code is available at https://bit.ly/356yQ2u.
翻訳日:2022-11-03 00:58:35 公開日:2022-07-13
# 最適ネットワーク圧縮

Optimal Network Compression ( http://arxiv.org/abs/2008.08733v5 )

ライセンス: Link先を確認
Hamed Amini and Zachary Feinstein(参考訳) 本稿では金融システムにおける最適ネットワーク圧縮問題の定式化について述べる。 この一般的な定式化は、初期バンク間ネットワークから許可されるネットワーク圧縮または再ルーティングの異なるレベルに対して提示される。 この問題は一般にNPハードであることが証明される。 我々は,金融ネットワークに対するショック下でのシステム的リスク対策によって生じる客観的機能に着目した。 このフレームワークを用いて、最大圧縮されたネットワークの(サブ)最適性を研究する。 例えば、特定のネットワークトポロジの堅牢な不安定性やネットワーク圧縮の潜在的な利点やコストなどについて研究することができる。 特に、系統的なショックや不均一な金融ネットワークの下では、Acemoglu et al. (2015) の堅牢な脆弱性の結果は一般的には保たない。

This paper introduces a formulation of the optimal network compression problem for financial systems. This general formulation is presented for different levels of network compression or rerouting allowed from the initial interbank network. We prove that this problem is, generically, NP-hard. We focus on objective functions generated by systemic risk measures under shocks to the financial network. We use this framework to study the (sub)optimality of the maximally compressed network. We conclude by studying the optimal compression problem for specific networks; this permits us to study, e.g., the so-called robust fragility of certain network topologies more generally as well as the potential benefits and costs of network compression. In particular, under systematic shocks and heterogeneous financial networks the robust fragility results of Acemoglu et al. (2015) no longer hold generally.
翻訳日:2022-10-27 04:15:58 公開日:2022-07-13
# データ合成に基づく畳み込みエンコーダネットワークによる電磁源イメージング

Electromagnetic Source Imaging via a Data-Synthesis-Based Convolutional Encoder-Decoder Network ( http://arxiv.org/abs/2010.12876v6 )

ライセンス: Link先を確認
Gexin Huang, Jiawen Liang, Ke Liu, Chang Cai, ZhengHui Gu, Feifei Qi, Yuan Qing Li, Zhu Liang Yu and Wei Wu(参考訳) 電磁光源イメージング(ESI)は、非常に不適切な逆問題を解決する必要がある。 ユニークな解を求めるために、従来のESI手法は、実際のソース特性を正確に反映しない様々な種類の事前を課し、広い応用を妨げる可能性がある。 本稿では,DST-CedNetと呼ばれるデータ合成時空間畳み込み型エンコーダ・デコーダネットワーク方式を提案する。 DST-CedNetは、ESIを機械学習問題とみなし、識別学習と潜在空間表現を畳み込みエンコーダネットワーク(CedNet)に統合し、測定された脳波/磁気脳波(E/MEG)信号から脳活動へのロバストマッピングを学ぶ。 特に、動的脳活動に関する事前知識を組み込んだ新しいデータ合成戦略を考案し、cednetを効果的に訓練するための大規模サンプルを生成する。 これは従来のESIの手法とは対照的であり、従来の情報は、主に数学的に便利な制約によって強制されることが多い。 広範囲な数値実験と実際のmegおよびてんかん脳波データセットの解析により、dst-cednetは様々なソース構成でソース信号のロバストな推定において、いくつかの最先端esi法よりも優れていることが示されている。

Electromagnetic source imaging (ESI) requires solving a highly ill-posed inverse problem. To seek a unique solution, traditional ESI methods impose various forms of priors that may not accurately reflect the actual source properties, which may hinder their broad applications. To overcome this limitation, in this paper a novel data-synthesized spatio-temporally convolutional encoder-decoder network method termed DST-CedNet is proposed for ESI. DST-CedNet recasts ESI as a machine learning problem, where discriminative learning and latent-space representations are integrated in a convolutional encoder-decoder network (CedNet) to learn a robust mapping from the measured electroencephalography/magnetoencephalography (E/MEG) signals to the brain activity. In particular, by incorporating prior knowledge regarding dynamical brain activities, a novel data synthesis strategy is devised to generate large-scale samples for effectively training CedNet. This stands in contrast to traditional ESI methods where the prior information is often enforced via constraints primarily aimed for mathematical convenience. Extensive numerical experiments as well as analysis of a real MEG and Epilepsy EEG dataset demonstrate that DST-CedNet outperforms several state-of-the-art ESI methods in robustly estimating source signals under a variety of source configurations.
翻訳日:2022-10-03 13:47:24 公開日:2022-07-13
# 一般化ゼロショット学習法の検討

A Review of Generalized Zero-Shot Learning Methods ( http://arxiv.org/abs/2011.08641v5 )

ライセンス: Link先を確認
Farhad Pourpanah and Moloud Abdar and Yuxuan Luo and Xinlei Zhou and Ran Wang and Chee Peng Lim and Xi-Zhao Wang and Q. M. Jonathan Wu(参考訳) 一般化ゼロショット学習(gzsl)は、教師付き学習中にいくつかの出力クラスが未知である条件下でデータサンプルを分類するためのモデルを訓練することを目的としている。 この困難なタスクに対処するため、gzslは見られている(ソース)クラスと見られている(ターゲット)クラスのセマンティクス情報を活用して、見られているクラスと見ないクラスの間のギャップを埋める。 導入以来、多くのGZSLモデルが定式化されている。 本稿では,gzslの包括的レビューについて述べる。 まず,問題と課題を含むGZSLの概要を紹介する。 次に,GZSL手法の階層的分類を導入し,各カテゴリの代表的手法について議論する。 さらに、GZSLの利用可能なベンチマークデータセットと応用について検討し、今後の研究のギャップと方向性について論じる。

Generalized zero-shot learning (GZSL) aims to train a model for classifying data samples under the condition that some output classes are unknown during supervised learning. To address this challenging task, GZSL leverages semantic information of the seen (source) and unseen (target) classes to bridge the gap between both seen and unseen classes. Since its introduction, many GZSL models have been formulated. In this review paper, we present a comprehensive review on GZSL. Firstly, we provide an overview of GZSL including the problems and challenges. Then, we introduce a hierarchical categorization for the GZSL methods and discuss the representative methods in each category. In addition, we discuss the available benchmark data sets and applications of GZSL, along with a discussion on the research gaps and directions for future investigations.
翻訳日:2022-09-24 16:56:02 公開日:2022-07-13
# 気象データに応用した大値域の色符号化

Color Coding of Large Value Ranges Applied to Meteorological Data ( http://arxiv.org/abs/2207.12399v1 )

ライセンス: Link先を確認
Daniel Braun, Kerstin Ebell, Vera Schemann, Laura Pelchmann, Susanne Crewell, Rita Borgo, Tatiana von Landesberger(参考訳) 本稿では,データ系列を大きな値範囲で視覚化するという課題に対して,スケール変換が限られたサポートを提供する新しいカラースキームを提案する。 我々は、大きな値域の存在が一般的である気象データに焦点を当てる。 我々は、この領域で最もよく使われるプロットの一つとして、気象学的散乱プロットにアプローチを適用する。 提案手法は,マンティッサの数値表現と値の指数を活用し,新しい「ネスト」カラースキームの設計を指導し,マグニチュード間の差異を強調する。 筆者らは,気象データの解析に使用される新デザイン,アートカラースケールの状況,代表的なカラースキーム(ColorCrafter,Viridis,Rainbow)を評価した。 我々は、識別(比較)および解釈(読解)タスクの文脈における精度、時間、信頼性を評価する。 提案したカラースキームは,識別タスクにおいて同等の性能を示しながら,解釈タスクにおいて他よりも優れていた。

This paper presents a novel color scheme designed to address the challenge of visualizing data series with large value ranges, where scale transformation provides limited support. We focus on meteorological data, where the presence of large value ranges is common. We apply our approach to meteorological scatterplots, as one of the most common plots used in this domain area. Our approach leverages the numerical representation of mantissa and exponent of the values to guide the design of novel "nested" color schemes, able to emphasize differences between magnitudes. Our user study evaluates the new designs, the state of the art color scales and representative color schemes used in the analysis of meteorological data: ColorCrafter, Viridis, and Rainbow. We assess accuracy, time and confidence in the context of discrimination (comparison) and interpretation (reading) tasks. Our proposed color scheme significantly outperforms the others in interpretation tasks, while showing comparable performances in discrimination tasks.
翻訳日:2022-07-31 14:31:44 公開日:2022-07-13
# 2次元スカラー場アンサンブルにおける臨界点確率の信頼区間の可視化

Visualizing Confidence Intervals for Critical Point Probabilities in 2D Scalar Field Ensembles ( http://arxiv.org/abs/2207.13661v1 )

ライセンス: Link先を確認
Dominik Vietinghoff, Michael B\"ottinger, Gerik Scheuermann, Christian Heine(参考訳) 可視化における重要なタスクは、分析プロセスでユーザをサポートするために、データの支配的な特徴の抽出と強調である。 トポロジカルな手法は、決定論的分野におけるそのような特徴を識別するよく知られた方法である。 しかし、今日研究されている多くの実世界の現象は、単一のシミュレーションでは説明できないカオスシステムの結果である。 代わりに、そのようなシステムの可変性は通常、シミュレーションされたプロセスの様々な結果を生み出すアンサンブルシミュレーションでキャプチャされる。 このようなアンサンブルデータセットと不確かさデータのトポロジカル解析は、一般的にはあまり研究されていない。 本研究では,アンサンブルデータセットにおける臨界点の発生確率に対する信頼区間の計算と視覚的表現について述べる。 合成データセット上の不確実なデータにおける臨界点予測のための既存手法に対するアプローチの付加価値を実証し、気候研究から得られたデータセットに適用可能性を示す。

An important task in visualization is the extraction and highlighting of dominant features in data to support users in their analysis process. Topological methods are a well-known means of identifying such features in deterministic fields. However, many real-world phenomena studied today are the result of a chaotic system that cannot be fully described by a single simulation. Instead, the variability of such systems is usually captured with ensemble simulations that produce a variety of possible outcomes of the simulated process. The topological analysis of such ensemble data sets and uncertain data, in general, is less well studied. In this work, we present an approach for the computation and visual representation of confidence intervals for the occurrence probabilities of critical points in ensemble data sets. We demonstrate the added value of our approach over existing methods for critical point prediction in uncertain data on a synthetic data set and show its applicability to a data set from climate research.
翻訳日:2022-07-31 14:30:37 公開日:2022-07-13
# phishsim: フィッシングのwebサイト検出を支援する機能フリーツール

PhishSim: Aiding Phishing Website Detection with a Feature-Free Tool ( http://arxiv.org/abs/2207.10801v1 )

ライセンス: Link先を確認
Rizka Purwanto, Arindam Pal, Alan Blair, Sanjay Jha(参考訳) 本稿では,2つのWebサイトを圧縮して類似度を計算するパラメータフリー類似度尺度である正規化圧縮距離(NCD)を用いて,フィッシングサイトを検出する機能フリー手法を提案する。 また、特定のwebサイト機能への依存をなくすこともできる。 本手法は,WebページのHTMLを検証し,既知のフィッシングサイトと類似性を計算して分類する。 フィッシングwebページのクラスタを代表するインスタンスを選択するために,第1のポイントファーストアルゴリズムを用いてフィッシングプロトタイプの抽出を行う。 また,概念ドリフト発生時の新機能を抽出せずに,連続的かつ適応的な検出のためのフレームワークとしてインクリメンタル学習アルゴリズムを導入する。 大規模データセットにおいて,提案手法は,aucスコア98.68%,tpr (high true positive rate) 約90%,fpr (low false positive rate) 0.58%において,フィッシングwebサイト検出における従来の手法を大幅に上回っている。 提案手法ではプロトタイプを用いて,将来的な長期データ保持の必要性を排除し,約0.3秒の処理時間で実システムにデプロイすることが可能である。

In this paper, we propose a feature-free method for detecting phishing websites using the Normalized Compression Distance (NCD), a parameter-free similarity measure which computes the similarity of two websites by compressing them, thus eliminating the need to perform any feature extraction. It also removes any dependence on a specific set of website features. This method examines the HTML of webpages and computes their similarity with known phishing websites, in order to classify them. We use the Furthest Point First algorithm to perform phishing prototype extractions, in order to select instances that are representative of a cluster of phishing webpages. We also introduce the use of an incremental learning algorithm as a framework for continuous and adaptive detection without extracting new features when concept drift occurs. On a large dataset, our proposed method significantly outperforms previous methods in detecting phishing websites, with an AUC score of 98.68%, a high true positive rate (TPR) of around 90%, while maintaining a low false positive rate (FPR) of 0.58%. Our approach uses prototypes, eliminating the need to retain long term data in the future, and is feasible to deploy in real systems with a processing time of roughly 0.3 seconds.
翻訳日:2022-07-31 14:27:42 公開日:2022-07-13
# 3dコネクテッドボリューム生成のための$\alpha$-ganアーキテクチャの改良と放射線外科治療計画への応用

Improved $\alpha$-GAN architecture for generating 3D connected volumes with an application to radiosurgery treatment planning ( http://arxiv.org/abs/2207.11223v1 )

ライセンス: Link先を確認
Sanaz Mohammadjafari, Mucahit Cevik, Ayse Basar(参考訳) GAN(Generative Adversarial Networks)は、高品質な合成データを生成するコンピュータビジョンタスクにおいて大きな注目を集めている。 診断イメージングや放射線治療を含む様々な医療応用は、ドメイン内のデータ不足による合成データ生成から大きな利益を得られる。 しかし、医用画像データは一般的に3d空間に保持され、生成モデルはそのような合成データを生成する際に次元の問題の呪いに苦しむ。 本稿では,接続された3次元ボリュームを生成するためのGANの可能性を検討する。 様々なアーキテクチャ拡張を組み込んだ3d $\alpha$-ganの改良版を提案する。 連結3次元球面と楕円体からなる合成データセット上では,トレーニングデータと同様の幾何学的特徴を持つ完全連結3次元形状を生成できる。 また,我々の3D GANモデルでは,高品質な3D腫瘍容積とそれに伴う治療仕様(例えば,アイソセンタ位置)を生成可能であることを示す。 トレーニングデータに類似したモーメント不変量と完全接続された3d形状は、改良された3d $\alpha$-ganが暗黙的にトレーニングデータ分布を学習し、現実的なサンプルを生成する。 3D$\alpha$-GANの改良により、この領域における将来の研究に役立つ合成医療画像データを生成する貴重な情報源となる。

Generative Adversarial Networks (GANs) have gained significant attention in several computer vision tasks for generating high-quality synthetic data. Various medical applications including diagnostic imaging and radiation therapy can benefit greatly from synthetic data generation due to data scarcity in the domain. However, medical image data is typically kept in 3D space, and generative models suffer from the curse of dimensionality issues in generating such synthetic data. In this paper, we investigate the potential of GANs for generating connected 3D volumes. We propose an improved version of 3D $\alpha$-GAN by incorporating various architectural enhancements. On a synthetic dataset of connected 3D spheres and ellipsoids, our model can generate fully connected 3D shapes with similar geometrical characteristics to that of training data. We also show that our 3D GAN model can successfully generate high-quality 3D tumor volumes and associated treatment specifications (e.g., isocenter locations). Similar moment invariants to the training data as well as fully connected 3D shapes confirm that improved 3D $\alpha$-GAN implicitly learns the training data distribution, and generates realistic-looking samples. The capability of improved 3D $\alpha$-GAN makes it a valuable source for generating synthetic medical image data that can help future research in this domain.
翻訳日:2022-07-31 14:27:21 公開日:2022-07-13
# 効率的な画像デハージングのための特徴親和性モジュールによる高機能蒸留

Rich Feature Distillation with Feature Affinity Module for Efficient Image Dehazing ( http://arxiv.org/abs/2207.11250v1 )

ライセンス: Link先を確認
Sai Mitheran, Anushri Suresh, Nisha J. S., Varun P. Gopi(参考訳) シングルイメージのヘイズ除去は、コンピュータビジョンアプリケーションにとって長年のハードルである。 画像分類、検出、セグメンテーションから画像デハジングのニッチへの移行に焦点が当てられ、主に対照的な学習と知識蒸留に焦点を当てている。 しかし、これらの手法は計算コストが高く、その応用性に対する懸念が高まる。 本研究は,ヘテロジニアスな知識蒸留という概念を通した,軽量事前学習スーパーレゾリューションモデルからのリッチな"ダーク知識"情報を活用することで,単一画像haze除去のための単純で軽量で効率的なフレームワークを提案する。 超解像教師から学生脱ハージングネットワークへのリッチな特徴セマンティクスの流れを最大化する機能親和性モジュールを設計した。 提案手法の有効性を評価するため,ベースラインモデルへのプラグアンドプレイ設定としての性能について検討した。 本実験は, RESIDE-Standardデータセットを用いて, 合成および実世界のドメインに対するフレームワークの堅牢性を示す。 大規模な質的および定量的な結果により、フレームワークの有効性を確立し、最大15\%(PSNR)のゲインを達成し、モデルサイズを$\sim$20倍に削減した。

Single-image haze removal is a long-standing hurdle for computer vision applications. Several works have been focused on transferring advances from image classification, detection, and segmentation to the niche of image dehazing, primarily focusing on contrastive learning and knowledge distillation. However, these approaches prove computationally expensive, raising concern regarding their applicability to on-the-edge use-cases. This work introduces a simple, lightweight, and efficient framework for single-image haze removal, exploiting rich "dark-knowledge" information from a lightweight pre-trained super-resolution model via the notion of heterogeneous knowledge distillation. We designed a feature affinity module to maximize the flow of rich feature semantics from the super-resolution teacher to the student dehazing network. In order to evaluate the efficacy of our proposed framework, its performance as a plug-and-play setup to a baseline model is examined. Our experiments are carried out on the RESIDE-Standard dataset to demonstrate the robustness of our framework to the synthetic and real-world domains. The extensive qualitative and quantitative results provided establish the effectiveness of the framework, achieving gains of upto 15\% (PSNR) while reducing the model size by $\sim$20 times.
翻訳日:2022-07-31 14:27:01 公開日:2022-07-13
# StarCraft IIにおける点集合の教師なしヘビアン学習

Unsupervised Hebbian Learning on Point Sets in StarCraft II ( http://arxiv.org/abs/2207.12323v1 )

ライセンス: Link先を確認
Beomseok Kang, Harshit Kumar, Saurabh Dash, Saibal Mukhopadhyay(参考訳) リアルタイム戦略(RTS)ゲームの進化を学習することは、人工知能(AI)システムにおいて難しい問題である。 本稿では,StarCraft IIゲームユニットにおける点集合のグローバルな特徴を抽出する新しいヘビアン学習法とその点の移動予測への応用について述べる。 我々のモデルはエンコーダ、LSTM、デコーダを含み、教師なし学習法でエンコーダを訓練する。 我々は、k-Winner-Takes-Allと組み合わせたニューロン活動意識学習の概念を紹介した。 ニューロン活動の最適値は数学的に導出され、実験は下流課題に対する概念の有効性を支持する。 我々のヘビー学習規則は、自己教師付き学習よりも損失が少ない予測に利点がある。 また,本モデルはフレームベースアプローチと比較して,アクティベーションやフラップなどの計算コストを大幅に削減する。

Learning the evolution of real-time strategy (RTS) game is a challenging problem in artificial intelligent (AI) system. In this paper, we present a novel Hebbian learning method to extract the global feature of point sets in StarCraft II game units, and its application to predict the movement of the points. Our model includes encoder, LSTM, and decoder, and we train the encoder with the unsupervised learning method. We introduce the concept of neuron activity aware learning combined with k-Winner-Takes-All. The optimal value of neuron activity is mathematically derived, and experiments support the effectiveness of the concept over the downstream task. Our Hebbian learning rule benefits the prediction with lower loss compared to self-supervised learning. Also, our model significantly saves the computational cost such as activations and FLOPs compared to a frame-based approach.
翻訳日:2022-07-31 14:20:01 公開日:2022-07-13
# 協調のための自己説明的偏差

Self-Explaining Deviations for Coordination ( http://arxiv.org/abs/2207.12322v1 )

ライセンス: Link先を確認
Hengyuan Hu, Samuel Sokota, David Wu, Anton Bakhtin, Andrei Lupu, Brandon Cui, Jakob N. Foerster(参考訳) 完全な協調的、部分的に観測可能なマルチエージェント問題は、現実の世界においてユビキタスである。 本稿では,人間が自己説明的偏差(SED)を発見できる調整問題の,特定のサブクラスに焦点をあてる。 SEDは、通常の状況で合理的な振る舞いが何であるかを共通の理解から逸脱する行動である。 それらは、他のエージェントまたは他のエージェントに、心の理論を用いて、状況が異常であると認識させる意図をもって取られる。 まず実世界の例でSEDを動機付け、その定義を定式化する。 次に、SEDを実行するための自己説明偏差(IMPROVISED)を最大化する新しいアルゴリズムを提案する。 最後に、図解的な玩具設定と人気のベンチマーク設定の両方において即興的な評価を行い、人間の心の理論のより象徴的な例の1つと見なされる、いわゆるファインスプレイスを製作する最初の方法である。

Fully cooperative, partially observable multi-agent problems are ubiquitous in the real world. In this paper, we focus on a specific subclass of coordination problems in which humans are able to discover self-explaining deviations (SEDs). SEDs are actions that deviate from the common understanding of what reasonable behavior would be in normal circumstances. They are taken with the intention of causing another agent or other agents to realize, using theory of mind, that the circumstance must be abnormal. We first motivate SED with a real world example and formalize its definition. Next, we introduce a novel algorithm, improvement maximizing self-explaining deviations (IMPROVISED), to perform SEDs. Lastly, we evaluate IMPROVISED both in an illustrative toy setting and the popular benchmark setting Hanabi, where it is the first method to produce so called finesse plays, which are regarded as one of the more iconic examples of human theory of mind.
翻訳日:2022-07-31 14:19:14 公開日:2022-07-13
# 推薦アルゴリズムの性能に及ぼす特徴量の影響:Movielens-100Kケーススタディ

The Impact of Feature Quantity on Recommendation Algorithm Performance: A Movielens-100K Case Study ( http://arxiv.org/abs/2207.08713v1 )

ライセンス: Link先を確認
Lukas Wegmeth(参考訳) 最近のモデルベースのRecommender Systems(RecSys)アルゴリズムは、機械学習(ML)のアルゴリズムに似た設計において、サイド情報と呼ばれる機能の使用を強調している。 対照的に、RecSysの最も人気があり伝統的なアルゴリズムのいくつかは、サイド情報を含めることなく、与えられたユーザーイテム関係にのみ焦点を当てている。 本研究の目的は,側情報を含む場合のRecSysとMLアルゴリズムの性能比較と評価を行うことである。 RecSysアルゴリズムを比較する標準であるため、Movielens-100Kデータセットを選択しました。 ベースラインデータから生成した特徴量の異なる6つの特徴セットを比較し,19のrecsysアルゴリズム,ベースラインmlアルゴリズム,自動機械学習(automl)パイプライン,およびサイド情報を含む最先端recsysアルゴリズムを用いて評価した。 その結果、追加機能は評価した全てのアルゴリズムに有益であることがわかった。 しかし、AutoMLやRecSysでは特徴量と性能の相関は単調ではない。 これらのカテゴリでは,特徴の質が量よりも重要であることが明らかとなった。 実験を通して、最小の機能数を持つ機能セットの平均パフォーマンスは、根の平均二乗誤差の点で最高で、それよりも約6%悪いです。 興味深い観察は、AutoMLが追加機能を使用する場合、行列分解ベースのRecSysアルゴリズムより優れていることである。 サイド情報を含むほとんどのアルゴリズムは、最も多くの機能を使用する場合、より高いパフォーマンスを持つ。 その他のケースでは、パフォーマンスの差は無視できる(1%)。 その結果,特徴量の影響は明らかに正の傾向を示すとともに,特徴量が評価アルゴリズムに与える影響も明らかとなった。

Recent model-based Recommender Systems (RecSys) algorithms emphasize on the use of features, also called side information, in their design similar to algorithms in Machine Learning (ML). In contrast, some of the most popular and traditional algorithms for RecSys solely focus on a given user-item-rating relation without including side information. The goal of this case study is to provide a performance comparison and assessment of RecSys and ML algorithms when side information is included. We chose the Movielens-100K data set since it is a standard for comparing RecSys algorithms. We compared six different feature sets with varying quantities of features which were generated from the baseline data and evaluated on a total of 19 RecSys algorithms, baseline ML algorithms, Automated Machine Learning (AutoML) pipelines, and state-of-the-art RecSys algorithms that incorporate side information. The results show that additional features benefit all algorithms we evaluated. However, the correlation between feature quantity and performance is not monotonous for AutoML and RecSys. In these categories, an analysis of feature importance revealed that the quality of features matters more than quantity. Throughout our experiments, the average performance on the feature set with the lowest number of features is about 6% worse compared to that with the highest in terms of the Root Mean Squared Error. An interesting observation is that AutoML outperforms matrix factorization-based RecSys algorithms when additional features are used. Almost all algorithms that can include side information have higher performance when using the highest quantity of features. In the other cases, the performance difference is negligible (<1%). The results show a clear positive trend for the effect of feature quantity as well as the important effects of feature quality on the evaluated algorithms.
翻訳日:2022-07-24 11:46:12 公開日:2022-07-13
# オンライン1対1の数学授業における学生のパフォーマンス評価のための広範・深層学習

Wide & Deep Learning for Judging Student Performance in Online One-on-one Math Classes ( http://arxiv.org/abs/2207.10645v1 )

ライセンス: Link先を確認
Jiahao Chen, Zitao Liu, Weiqi Luo(参考訳) 本稿では,オンライン一対一数学授業における判断プロセスの自動化の機会について検討する。 我々は,学生の判断に優れたノイズの多い教室会話データから,きめ細かな予測表現を学習するための広範かつ深いフレームワークを構築した。 本研究は,サンプル質問の熟達度を推定する作業について実験を行い,様々な評価指標を用いて,モデルの優位性と有効性を示した。

In this paper, we investigate the opportunities of automating the judgment process in online one-on-one math classes. We build a Wide & Deep framework to learn fine-grained predictive representations from a limited amount of noisy classroom conversation data that perform better student judgments. We conducted experiments on the task of predicting students' levels of mastery of example questions and the results demonstrate the superiority and availability of our model in terms of various evaluation metrics.
翻訳日:2022-07-24 11:40:25 公開日:2022-07-13
# RepFair-GAN:勾配クリッピングによるGANの表現バイアスの緩和

RepFair-GAN: Mitigating Representation Bias in GANs Using Gradient Clipping ( http://arxiv.org/abs/2207.10653v1 )

ライセンス: Link先を確認
Patrik Joslin Kenfack, Kamil Sabbagh, Ad\'in Ram\'irez Rivera, Adil Khan(参考訳) フェアネスは、分類、自然言語処理、GAN(Generative Adversarial Networks)など、機械学習(ML)の多くの領域において重要な問題となっている。 本研究では,GANの不正性について検討する。 我々は、同じ保護された属性(生成者、人種など)を共有する生成サンプルの分布の観点から、生成モデルに対する新しい公平性の概念を正式に定義する。 定義されたフェアネスの概念(表現フェアネス)は、テスト時の感度特性の分布を均一にする必要があるが、特にGANモデルでは、データセットが等しく表現された群を含む場合でも、このフェアネスの概念が違反していることを示す。 本稿では,GANにおける表現バイアスの源泉と,この問題を克服するための簡単な方法について述べる。 まず,2つの広く使用されているデータセット (MNIST, SVHN) について, 判別器の訓練において, 集団の勾配のノルムが他方よりも重要である場合, ジェネレータは, テスト時に他のグループよりも多くのデータをサンプリングすることが好ましいことを示した。 次に,グループワイド・グラデーション・ノルムを訓練中に判別器でクリッピングすることにより群勾配ノルムを制御することにより,既存のモデルと比較して表現フェアネスの点で,より公平なデータ生成につながることを示す。

Fairness has become an essential problem in many domains of Machine Learning (ML), such as classification, natural language processing, and Generative Adversarial Networks (GANs). In this research effort, we study the unfairness of GANs. We formally define a new fairness notion for generative models in terms of the distribution of generated samples sharing the same protected attributes (gender, race, etc.). The defined fairness notion (representational fairness) requires the distribution of the sensitive attributes at the test time to be uniform, and, in particular for GAN model, we show that this fairness notion is violated even when the dataset contains equally represented groups, i.e., the generator favors generating one group of samples over the others at the test time. In this work, we shed light on the source of this representation bias in GANs along with a straightforward method to overcome this problem. We first show on two widely used datasets (MNIST, SVHN) that when the norm of the gradient of one group is more important than the other during the discriminator's training, the generator favours sampling data from one group more than the other at test time. We then show that controlling the groups' gradient norm by performing group-wise gradient norm clipping in the discriminator during the training leads to a more fair data generation in terms of representational fairness compared to existing models while preserving the quality of generated samples.
翻訳日:2022-07-24 11:39:46 公開日:2022-07-13
# 患者教育と健康リテラシーのための責任・代表的医療ビデオ勧告の策定--強化されたインテリジェンスアプローチ

On Curating Responsible and Representative Healthcare Video Recommendations for Patient Education and Health Literacy: An Augmented Intelligence Approach ( http://arxiv.org/abs/2207.07915v1 )

ライセンス: Link先を確認
Krishna Pothugunta, Xiao Liu, Anjana Susarla and Rema Padman(参考訳) 研究によると、米国の成人の3人に1人がインターネットを使って健康上の懸念の診断や学習を行っている。 しかし、オンラインの健康情報へのアクセスは、健康情報の提供と利用の格差を悪化させる可能性がある。 健康情報探索行動(Health information seeking behavior、HISB)は、個人が健康、リスク、病気、健康保護行動に関する情報を求める方法である。 デジタルメディアプラットフォーム上での健康情報検索に携わる患者にとって、健康リテラシーの格差は、自身の知識の欠如とアルゴリズムによる推奨の両方によって悪化し、不適切な人口、少数派、低健康リテラシー利用者に不適切な影響を及ぼす結果となる。 本研究は, 大規模ビデオコーパスに適用した高度な分析手法と, YouTubeソーシャルメディアプラットフォームからの慢性状態(糖尿病)に基づくメタデータを用いて, 責任と代表的レコメンデーションを生成できるかどうかを調査する。 本論文は, 患者教育と人口健康リテラシーのニーズに対処するための医療内容のエンコードや理解可能性など, 複数の基準で検索, キュレーションされた糖尿病ビデオを用いたアクターの人口動態特性に関するバイアスに焦点を当てた。 このアプローチは、医療専門家と患者の視点を、患者のエンパワーメントと健康改善のためのスケーラブルで汎用的な機械学習フレームワークに組み合わせることで、人間のループ、強化知性、バイアス認識、責任あるアルゴリズムレコメンデーションに革新をもたらす大きな機会を提供する。

Studies suggest that one in three US adults use the Internet to diagnose or learn about a health concern. However, such access to health information online could exacerbate the disparities in health information availability and use. Health information seeking behavior (HISB) refers to the ways in which individuals seek information about their health, risks, illnesses, and health-protective behaviors. For patients engaging in searches for health information on digital media platforms, health literacy divides can be exacerbated both by their own lack of knowledge and by algorithmic recommendations, with results that disproportionately impact disadvantaged populations, minorities, and low health literacy users. This study reports on an exploratory investigation of the above challenges by examining whether responsible and representative recommendations can be generated using advanced analytic methods applied to a large corpus of videos and their metadata on a chronic condition (diabetes) from the YouTube social media platform. The paper focusses on biases associated with demographic characters of actors using videos on diabetes that were retrieved and curated for multiple criteria such as encoded medical content and their understandability to address patient education and population health literacy needs. This approach offers an immense opportunity for innovation in human-in-the-loop, augmented-intelligence, bias-aware and responsible algorithmic recommendations by combining the perspectives of health professionals and patients into a scalable and generalizable machine learning framework for patient empowerment and improved health outcomes.
翻訳日:2022-07-24 11:39:21 公開日:2022-07-13
# 強化学習に基づくチャットボットの攻撃的セマンティクス検閲システム

A Reinforcement Learning-based Offensive semantics Censorship System for Chatbots ( http://arxiv.org/abs/2207.10569v1 )

ライセンス: Link先を確認
Shaokang Cai, Dezhi Han, Zibin Zheng, Dun Li and NoelCrespi(参考訳) 人工知能(AI)技術の急速な発展により、大規模なAIアプリケーションが市場に進出し、実践することが可能になった。 しかし、AI技術は製品化プロセスの人々に多くの利便性をもたらしてきたが、多くのセキュリティ問題も露呈している。 特にチャットボットのオンライン学習脆弱性に対する攻撃が頻発する。 そこで本研究では,主に攻撃的セマンティクス検閲モデルとセマンティクス浄化モデルという2つの部分から構成される強化学習に基づくセマンティクス検閲チャットボットシステムを提案する。 offensive semantics reviewは、ユーザ入力文のコンテキストを組み合わせることで、攻撃的セマンティクスの急速な進化を検出し、攻撃的セマンティクス応答に対応することができる。 セマンティクス浄化モデル チャットロボットモデルの場合、初期のバージョンにロールバックするのではなく、学習アルゴリズムが学習した攻撃的応答を強化することで、多数の攻撃的セマンティクスによって汚染されている。 さらに、一度通訳学習アプローチを統合することにより、応答の質への影響を低減しつつ、セマンティックス浄化のスピードを加速する。 実験の結果,提案手法はチャットモデルの攻撃的応答を発生させる確率を低減し,マイズショット学習アルゴリズムの統合は学習速度を高速に向上させ,ブレウ値の低下を効果的に抑制することを示した。

The rapid development of artificial intelligence (AI) technology has enabled large-scale AI applications to land in the market and practice. However, while AI technology has brought many conveniences to people in the productization process, it has also exposed many security issues. Especially, attacks against online learning vulnerabilities of chatbots occur frequently. Therefore, this paper proposes a semantics censorship chatbot system based on reinforcement learning, which is mainly composed of two parts: the Offensive semantics censorship model and the semantics purification model. Offensive semantics review can combine the context of user input sentences to detect the rapid evolution of Offensive semantics and respond to Offensive semantics responses. The semantics purification model For the case of chatting robot models, it has been contaminated by large numbers of offensive semantics, by strengthening the offensive reply learned by the learning algorithm, rather than rolling back to the early versions. In addition, by integrating a once-through learning approach, the speed of semantics purification is accelerated while reducing the impact on the quality of replies. The experimental results show that our proposed approach reduces the probability of the chat model generating offensive replies and that the integration of the few-shot learning algorithm improves the training speed rapidly while effectively slowing down the decline in BLEU values.
翻訳日:2022-07-24 11:38:49 公開日:2022-07-13
# オダン! 危険な音声メッセージのオントロジー

O-Dang! The Ontology of Dangerous Speech Messages ( http://arxiv.org/abs/2207.10652v1 )

ライセンス: Link先を確認
Marco A. Stranisci, Simona Frenda, Mirko Lai, Oscar Araque, Alessandra T. Cignarella, Valerio Basile, Viviana Patti, Cristina Bosco(参考訳) nlpコミュニティ内には、特定の言語現象を研究する目的で、毎日作成、注釈、リリースされる言語リソースがかなりの量存在する。 このような資源を組織化するために様々な試みが行われてきたが、体系的な方法の欠如と資源間の相互運用の可能性はまだ残っている。 さらに,現代においても,言語情報を保存する上で最も一般的な実践は「金の標準」の概念であり,機械学習や深層学習の訓練において,異なる主観性と視点の重要性を強調することを目的とした最近のNLPの傾向とは対照的である。 本稿では,O-Dang! 言語注釈データ収集のための系統的・相互運用可能な知識グラフ(kg)「危険な音声メッセージのオントロジー」について o-dang!は、言語結合オープンデータコミュニティで共有されている原則に従って、イタリアのデータセットを構造化されたkgに収集し、整理するように設計されている。 オントロジーはまた、金の標準ラベルと単記法ラベルの両方をkgでエンコードするモデルを提供するため、パースペクティビストのアプローチを説明するために設計されている。 紙の構造は以下の通りである。 第1節では、仕事の動機について概説する。 第2節では『O-Dang! Ontology – KGにデータセットを統合するための共通セマンティックモデルを提供する。 コーパス、ユーザ、アノテーションに関する情報を含むオントロジーの人口ステージは、セクション3で示されます。 最後に、第4節では、その資源に対する最初のケーススタディとして、コーパス間の攻撃性の分析が提供される。

Inside the NLP community there is a considerable amount of language resources created, annotated and released every day with the aim of studying specific linguistic phenomena. Despite a variety of attempts in order to organize such resources has been carried on, a lack of systematic methods and of possible interoperability between resources are still present. Furthermore, when storing linguistic information, still nowadays, the most common practice is the concept of "gold standard", which is in contrast with recent trends in NLP that aim at stressing the importance of different subjectivities and points of view when training machine learning and deep learning methods. In this paper we present O-Dang!: The Ontology of Dangerous Speech Messages, a systematic and interoperable Knowledge Graph (KG) for the collection of linguistic annotated data. O-Dang! is designed to gather and organize Italian datasets into a structured KG, according to the principles shared within the Linguistic Linked Open Data community. The ontology has also been designed to account for a perspectivist approach, since it provides a model for encoding both gold standard and single-annotator labels in the KG. The paper is structured as follows. In Section 1 the motivations of our work are outlined. Section 2 describes the O-Dang! Ontology, that provides a common semantic model for the integration of datasets in the KG. The Ontology Population stage with information about corpora, users, and annotations is presented in Section 3. Finally, in Section 4 an analysis of offensiveness across corpora is provided as a first case study for the resource.
翻訳日:2022-07-24 11:38:11 公開日:2022-07-13
# RESECT-SEG:術中脳腫瘍画像のオープンアクセスアノテーション

RESECT-SEG: Open access annotations of intra-operative brain tumor ultrasound images ( http://arxiv.org/abs/2207.07494v1 )

ライセンス: Link先を確認
Bahareh Behboodi, Francois-Xavier Carton, Matthieu Chabanas, Sandrine De Ribaupierre, Ole Solheim, Bodil K. R. Munkvold, Hassan Rivaz, Yiming Xiao, Ingerid Reinertsen(参考訳) 目的: 磁気共鳴(MR)と超音波(US)画像の登録とセグメンテーションは, 脳腫瘍の手術計画と切除において重要な役割を担っている。 しかし,これらの手法の検証は,高品質な基盤真理情報を持つ公開資料が不足しているため困難である。 そこで本研究では,これまで公表したRESECTデータセット(Xiao et al. 2017)から腫瘍組織と切除腔のユニークなアノテーションデータセットを提案し,画像処理技術のより厳密な評価を奨励する。 取得と検証方法: 外科手術を受けた23例のMR画像と術中US画像からなるRESECTデータベース。 提案データセットは、腫瘍組織とiUS画像の空洞アノテーションを含む。 アノテーションの品質は、いくつかの評価基準によって2つの高度神経外科医によって検証された。 データフォーマットと可用性:腫瘍組織と切除腔のアノテーションは3D NIFTIフォーマットで提供される。 両方のアノテーションセットは、 \url{https://osf.io/6y4db} でオンラインでアクセスできる。 検討と潜在的な応用:本データベースは腫瘍組織と実際の臨床用超音波脳画像からの空洞アノテーションを含んで,セグメンテーションと登録方法を評価する。 これらのラベルは、ディープラーニングアプローチのトレーニングにも使用できる。 最終的には、このデータセットは神経外科における画像誘導の質をさらに向上させるだろう。

Purpose: Registration and segmentation of magnetic resonance (MR) and ultrasound (US) images play an essential role in surgical planning and resection of brain tumors. However, validating these techniques is challenging due to the scarcity of publicly accessible sources with high-quality ground truth information. To this end, we propose a unique annotation dataset of tumor tissues and resection cavities from the previously published RESECT dataset (Xiao et al. 2017) to encourage a more rigorous assessments of image processing techniques. Acquisition and validation methods: The RESECT database consists of MR and intraoperative US (iUS) images of 23 patients who underwent resection surgeries. The proposed dataset contains tumor tissues and resection cavity annotations of the iUS images. The quality of annotations were validated by two highly experienced neurosurgeons through several assessment criteria. Data format and availability: Annotations of tumor tissues and resection cavities are provided in 3D NIFTI formats. Both sets of annotations are accessible online in the \url{https://osf.io/6y4db}. Discussion and potential applications: The proposed database includes tumor tissue and resection cavity annotations from real-world clinical ultrasound brain images to evaluate segmentation and registration methods. These labels could also be used to train deep learning approaches. Eventually, this dataset should further improve the quality of image guidance in neurosurgery.
翻訳日:2022-07-18 14:37:01 公開日:2022-07-13
# (参考訳) weshort:弱いショートカット構造を持つ分散外検出

WeShort: Out-of-distribution Detection With Weak Shortcut structure ( http://arxiv.org/abs/2207.05055v2 )

ライセンス: CC BY 4.0
Jinhong Lin(参考訳) ニューラルネットワークは、トレーニングセットと同じだが、これらのネットワークが見たことのないデータに対して、過度に不正確な結果をもたらすことができる、分散におけるデータに対する印象的なパフォーマンスを達成した。 したがって、現実世界に展開されるニューラルネットワークの安全性を保証するために、入力が分散(ood)から来るかどうかを検出することが不可欠である。 本稿では,OODデータに対するニューラルネットワークの過信を低減するために,単純で効果的なポストホック手法WeShortを提案する。 本手法は,OODとIDデータの短絡層内分離を示す内部残留構造の観察に着想を得たものである。 提案手法はOOD検出の異なるスコアと互換性があり,ネットワークの異なるアーキテクチャによく対応できる。 提案手法は, 各種OODデータセット上で, その競合性能を示すとともに, 動作理由を説明する合理的な仮説を提供する。 ImageNetのベンチマークでは、Weshortは偽陽性率(FPR95)とポストホック法(英語版)の家系における受信動作特性(AUROC)の領域で最先端のパフォーマンスを達成する。

Neural networks have achieved impressive performance for data in the distribution which is the same as the training set but can produce an overconfident incorrect result for the data these networks have never seen. Therefore, it is essential to detect whether inputs come from out-of-distribution(OOD) in order to guarantee the safety of neural networks deployed in the real world. In this paper, we propose a simple and effective post-hoc technique, WeShort, to reduce the overconfidence of neural networks on OOD data. Our method is inspired by the observation of the internal residual structure, which shows the separation of the OOD and in-distribution (ID) data in the shortcut layer. Our method is compatible with different OOD detection scores and can generalize well to different architectures of networks. We demonstrate our method on various OOD datasets to show its competitive performances and provide reasonable hypotheses to explain why our method works. On the ImageNet benchmark, Weshort achieves state-of-the-art performance on the false positive rate (FPR95) and the area under the receiver operating characteristic (AUROC) on the family of post-hoc methods.
翻訳日:2022-07-17 20:46:59 公開日:2022-07-13
# コンパイラ表現によるコード翻訳

Code Translation with Compiler Representations ( http://arxiv.org/abs/2207.03578v2 )

ライセンス: Link先を確認
Marc Szafraniec, Baptiste Roziere, Hugh Leather, Francois Charton, Patrick Labatut, Gabriel Synnaeve(参考訳) 本稿では、低レベルコンパイラ中間表現(IR)を利用してコード翻訳を改善する。 従来のトランスパイラは構文情報と手作りのルールに依存しており、適用性が制限され、不自然なコードを生成する。 コードへのニューラルマシン翻訳(NMT)アプローチの適用は、自然な翻訳を得られる一連のプログラムをうまく拡張した。 しかし、彼らはコードをテキストトークンのシーケンスとして扱い、異なる言語で異なる意味を持つ類似のコードと十分に区別できない。 その結果、低品質翻訳が実現され、NMTの実用性が低下し、その精度を大幅に向上させるアプローチの必要性が強調された。 ここでは、C++、Java、Rust、Go言語に関する結果とともに、IR、特にLLVM IRによるコード翻訳を強化することを提案する。 我々の手法は教師なしのコード翻訳技術の現状を改善し、JavaとRustのペアで平均で11%、最大で79%の正しい翻訳数を増やします。 数百のGoとRust関数を追加することで、コード翻訳の以前のテストセットを拡張しました。 さらに、IR復号化問題、IRからのプログラミングソースコードの生成、IRを中間ピボットとして用いた研究等において、高い性能のモデルを訓練する。

In this paper, we leverage low-level compiler intermediate representations (IR) to improve code translation. Traditional transpilers rely on syntactic information and handcrafted rules, which limits their applicability and produces unnatural-looking code. Applying neural machine translation (NMT) approaches to code has successfully broadened the set of programs on which one can get a natural-looking translation. However, they treat the code as sequences of text tokens, and still do not differentiate well enough between similar pieces of code which have different semantics in different languages. The consequence is low quality translation, reducing the practicality of NMT, and stressing the need for an approach significantly increasing its accuracy. Here we propose to augment code translation with IRs, specifically LLVM IR, with results on the C++, Java, Rust, and Go languages. Our method improves upon the state of the art for unsupervised code translation, increasing the number of correct translations by 11% on average, and up to 79% for the Java - Rust pair. We extend previous test sets for code translation, by adding hundreds of Go and Rust functions. Additionally, we train models with high performance on the problem of IR decompilation, generating programming source code from IR, and study using IRs as intermediary pivot for translation.
翻訳日:2022-07-17 16:16:37 公開日:2022-07-13
# 意図の推論と導出:論理的意図への数値的逆転を超えて

Inferring and Conveying Intentionality: Beyond Numerical Rewards to Logical Intentions ( http://arxiv.org/abs/2207.05058v2 )

ライセンス: Link先を確認
Susmit Jha and John Rushby(参考訳) 共有意図は、協調、自己反映、熟考、推論が可能な意識的なAIエージェントを開発する上で重要な要素である。 論理報酬仕様を用いた逆強化学習問題として,共有意図の推論を定式化する。 提案手法は,実演からタスク記述を推測する方法を示す。 意図を積極的に伝達するアプローチも拡張しています。 このアプローチを単純なグリッドワールドの例で示します。

Shared intentionality is a critical component in developing conscious AI agents capable of collaboration, self-reflection, deliberation, and reasoning. We formulate inference of shared intentionality as an inverse reinforcement learning problem with logical reward specifications. We show how the approach can infer task descriptions from demonstrations. We also extend our approach to actively convey intentionality. We demonstrate the approach on a simple grid-world example.
翻訳日:2022-07-17 16:03:19 公開日:2022-07-13
# (参考訳) 言語モデルは、何を知っているか(特に)知る

Language Models (Mostly) Know What They Know ( http://arxiv.org/abs/2207.05221v2 )

ライセンス: CC BY 4.0
Saurav Kadavath, Tom Conerly, Amanda Askell, Tom Henighan, Dawn Drain, Ethan Perez, Nicholas Schiefer, Zac Hatfield Dodds, Nova DasSarma, Eli Tran-Johnson, Scott Johnston, Sheer El-Showk, Andy Jones, Nelson Elhage, Tristan Hume, Anna Chen, Yuntao Bai, Sam Bowman, Stanislav Fort, Deep Ganguli, Danny Hernandez, Josh Jacobson, Jackson Kernion, Shauna Kravec, Liane Lovitt, Kamal Ndousse, Catherine Olsson, Sam Ringer, Dario Amodei, Tom Brown, Jack Clark, Nicholas Joseph, Ben Mann, Sam McCandlish, Chris Olah, Jared Kaplan(参考訳) 言語モデルが自身の主張の有効性を評価し、どの質問に正しく答えられるかを予測することができるかどうかについて検討する。 まず、より大規模なモデルは、適切なフォーマットで提供されるとき、多種多様な選択と真/偽の質問に基づいてうまく校正されていることを示す。 このように,オープンエンドサンプリングタスクに対する自己評価を,まずモデルに回答の提案を依頼し,その回答が正しい確率「p(true)」を評価することで行うことができる。 様々なタスクでp(true)のパフォーマンス、キャリブレーション、スケーリングを奨励しているのがわかります。 自己評価のパフォーマンスは、モデルが特定の可能性の妥当性を予測する前に、モデルが自身のサンプルの多くを考慮できるようにすることでさらに向上します。 次に,質問に対する「私は知っている」確率である「P(IK)」を予測するためにモデルを訓練できるかどうかを,特定の回答に言及することなく検討する。 モデルはP(IK)を予測するのに優れ、新しいタスクではP(IK)の校正に苦労するが、タスクを部分的に一般化する。 予測されたP(IK)確率は、文脈における関連する情報源の存在、数学的単語問題の解に対するヒントの存在においても適切に増加する。 これらの観察が、より正直なモデルのトレーニングと、モデルが人間の文章の模倣以外の目的に基づいて訓練される場合に、正直がいかに一般化するかを調査する基礎となることを願っている。

We study whether language models can evaluate the validity of their own claims and predict which questions they will be able to answer correctly. We first show that larger models are well-calibrated on diverse multiple choice and true/false questions when they are provided in the right format. Thus we can approach self-evaluation on open-ended sampling tasks by asking models to first propose answers, and then to evaluate the probability "P(True)" that their answers are correct. We find encouraging performance, calibration, and scaling for P(True) on a diverse array of tasks. Performance at self-evaluation further improves when we allow models to consider many of their own samples before predicting the validity of one specific possibility. Next, we investigate whether models can be trained to predict "P(IK)", the probability that "I know" the answer to a question, without reference to any particular proposed answer. Models perform well at predicting P(IK) and partially generalize across tasks, though they struggle with calibration of P(IK) on new tasks. The predicted P(IK) probabilities also increase appropriately in the presence of relevant source materials in the context, and in the presence of hints towards the solution of mathematical word problems. We hope these observations lay the groundwork for training more honest models, and for investigating how honesty generalizes to cases where models are trained on objectives other than the imitation of human writing.
翻訳日:2022-07-16 10:18:38 公開日:2022-07-13
# (参考訳) CSI適応量子化とフィードバックのための学習表現

Learning Representations for CSI Adaptive Quantization and Feedback ( http://arxiv.org/abs/2207.06924v1 )

ライセンス: CC BY 4.0
Valentina Rizzello, Matteo Nerini, Michael Joham, Bruno Clerckx and Wolfgang Utschick(参考訳) 本研究では,周波数分割二重化(fdd)システムにおけるチャネル状態情報(csi)適応量子化とフィードバックの効率的な手法を提案する。 既存の研究は主に、CSI圧縮のためのオートエンコーダ(AE)ニューラルネットワーク(NN)の実装に重点を置いており、一般に最適ではない一様量子化など、単純な量子化手法を検討する。 この戦略では、特に潜在空間量子化のために予約されたビット数が小さい場合、低い再構成誤差を達成することは困難である。 この問題に対処するために,我々は,ポストトレーニングの量子化に基づく方法と,aeの訓練中にコードブックが見つかる方法の2つを推奨する。 どちらの戦略も標準的な量子化技術よりも精度が良い。

In this work, we propose an efficient method for channel state information (CSI) adaptive quantization and feedback in frequency division duplexing (FDD) systems. Existing works mainly focus on the implementation of autoencoder (AE) neural networks (NNs) for CSI compression, and consider straightforward quantization methods, e.g., uniform quantization, which are generally not optimal. With this strategy, it is hard to achieve a low reconstruction error, especially, when the available number of bits reserved for the latent space quantization is small. To address this issue, we recommend two different methods: one based on a post training quantization and the second one in which the codebook is found during the training of the AE. Both strategies achieve better reconstruction accuracy compared to standard quantization techniques.
翻訳日:2022-07-16 09:58:48 公開日:2022-07-13
# (参考訳) 健康予測のための時間的注意ネットワークを用いた患者旅行データの長期依存性と短期相関のモデル化

Modeling Long-term Dependencies and Short-term Correlations in Patient Journey Data with Temporal Attention Networks for Health Prediction ( http://arxiv.org/abs/2207.06414v1 )

ライセンス: CC BY 4.0
Yuxi Liu, Zhenhao Zhang, Antonio Jimeno Yepes, Flora D. Salim(参考訳) 電子健康記録(EHR)に基づく健康予測モデルの構築が活発な研究領域となっている。 EHR患者旅行データは、患者の時間順の臨床イベント/ビジットから構成される。 これまでのほとんどの研究では、訪問者間の長期依存関係をモデル化することに重点を置いており、不規則な時間間隔(補助情報として組み込まれている)を健康予測モデルに入力し、患者旅行の遅滞進行パターンを捉えている。 健康予測のための様々な変数の寄与を考慮に入れた,4つのモジュールを持つ新しいディープニューラルネットワークを提案する。 i)スタックド・アテンション・モジュールは、各患者旅行における臨床イベントにおける深い意味を強化し、訪問埋め込みを生成する。 二 短期仮設留置モジュールは、当該訪問留置内における時間間隔の影響を把握しつつ、連続訪問留置間の短期的相関をモデル化する。 三 長期留置モジュールは、訪問埋め込み間の長期依存関係をモデル化し、訪問埋め込み内の時間間隔の影響を捉えている。 iv) そして最後に、結合注意モジュールは、短期注意モジュールと長期注意モジュールの出力を適応的に集約し、健康予測を行う。 mimic-iiiの実験結果は,既存の最先端手法に比べて予測精度が優れており,この手法の解釈性とロバスト性も高い。 さらに,短期相関のモデル化は局所的な事前生成に寄与し,患者旅行の予測モデルの改善につながった。

Building models for health prediction based on Electronic Health Records (EHR) has become an active research area. EHR patient journey data consists of patient time-ordered clinical events/visits from patients. Most existing studies focus on modeling long-term dependencies between visits, without explicitly taking short-term correlations between consecutive visits into account, where irregular time intervals, incorporated as auxiliary information, are fed into health prediction models to capture latent progressive patterns of patient journeys. We present a novel deep neural network with four modules to take into account the contributions of various variables for health prediction: i) the Stacked Attention module strengthens the deep semantics in clinical events within each patient journey and generates visit embeddings, ii) the Short-Term Temporal Attention module models short-term correlations between consecutive visit embeddings while capturing the impact of time intervals within those visit embeddings, iii) the Long-Term Temporal Attention module models long-term dependencies between visit embeddings while capturing the impact of time intervals within those visit embeddings, iv) and finally, the Coupled Attention module adaptively aggregates the outputs of Short-Term Temporal Attention and Long-Term Temporal Attention modules to make health predictions. Experimental results on MIMIC-III demonstrate superior predictive accuracy of our model compared to existing state-of-the-art methods, as well as the interpretability and robustness of this approach. Furthermore, we found that modeling short-term correlations contributes to local priors generation, leading to improved predictive modeling of patient journeys.
翻訳日:2022-07-16 09:47:28 公開日:2022-07-13
# (参考訳) 知覚と行動のための自由エネルギー原理--深層学習の視点から

The Free Energy Principle for Perception and Action: A Deep Learning Perspective ( http://arxiv.org/abs/2207.06415v1 )

ライセンス: CC BY 4.0
Pietro Mazzaglia, Tim Verbelen, Ozan \c{C}atal, Bart Dhoedt(参考訳) 自由エネルギー原理とその論理的活性推論(英語版)は、生物エージェントが世界の優先状態、すなわち自由エネルギーを最小化する制限された状態に留まることを仮定する生物に着想を得た理論を構成する。 この原則の下で、生物学的エージェントは世界の生成モデルを学び、その好みを満たすホメオスタティックな状態でエージェントを維持させる未来のアクションを計画する。 このフレームワークは、変分推論や償却計画など、計算的に手頃な価格になる重要な側面を理解するため、シリコで実現される。 本研究では,アクティブ推論に基づく人工エージェントの設計と実現のための深層学習ツールを調査し,自由エネルギー原理の深層学習指向のプレゼンテーションを行い,機械学習とアクティブ推論の両方に関係のある作品を調査し,実装プロセスに関わる設計選択について議論する。 本書は, 能動推論フレームワークに対する新たな視点を探求し, 理論的側面をより実践的な問題に根ざし, 能動推論新参者への実践的ガイドと, 自由エネルギー原理の実装を探求したい深層学習実践者の出発点を提供する。

The free energy principle, and its corollary active inference, constitute a bio-inspired theory that assumes biological agents act to remain in a restricted set of preferred states of the world, i.e., they minimize their free energy. Under this principle, biological agents learn a generative model of the world and plan actions in the future that will maintain the agent in an homeostatic state that satisfies its preferences. This framework lends itself to being realized in silico, as it comprehends important aspects that make it computationally affordable, such as variational inference and amortized planning. In this work, we investigate the tool of deep learning to design and realize artificial agents based on active inference, presenting a deep-learning oriented presentation of the free energy principle, surveying works that are relevant in both machine learning and active inference areas, and discussing the design choices that are involved in the implementation process. This manuscript probes newer perspectives for the active inference framework, grounding its theoretical aspects into more pragmatic affairs, offering a practical guide to active inference newcomers and a starting point for deep learning practitioners that would like to investigate implementations of the free energy principle.
翻訳日:2022-07-16 09:30:14 公開日:2022-07-13
# (参考訳) コラボレーティブな機械学習駆動医療モノのインターネット - 体系的文献レビュー

Collaborative Machine Learning-Driven Internet of Medical Things -- A Systematic Literature Review ( http://arxiv.org/abs/2207.06416v1 )

ライセンス: CC BY 4.0
Rohit Shaw(参考訳) iotデバイスのヘルスケアへの普及により、研究者はこれらのデバイスが生成するすべてのデータを使用してインテリジェンスを構築することが可能になった。 健康状態の監視と診断は、そのようなデバイスが有益であることを証明した2つの最も一般的なシナリオである。 当初、高い予測精度を達成することが最優先事項であったが、その焦点は徐々に効率と高いスループットにシフトし、これらのデバイスからデータを分散処理することで両方を達成することが証明された。 機械学習の分野は数多くの最先端のアルゴリズムが活躍しているため、異なるシナリオで最高の処理を行うアルゴリズムを特定することは困難である。 この文献レビューでは、選択した研究の著者らがテストした分散機械学習アルゴリズムを調査し、各医療シナリオにおいて最適な予測精度を達成したものを特定した。 アルゴリズムは一貫して実行されなかったが、ランダムフォレストはいくつかの研究で最善を尽くした。 このことは、IoMTデータにおける協調機械学習の今後の研究の出発点となるかもしれない。

The growing adoption of IoT devices for healthcare has enabled researchers to build intelligence using all the data produced by these devices. Monitoring and diagnosing health have been the two most common scenarios where such devices have proven beneficial. Achieving high prediction accuracy was a top priority initially, but the focus has slowly shifted to efficiency and higher throughput, and processing the data from these devices in a distributed manner has proven to help achieve both. Since the field of machine learning is vast with numerous state-of-the-art algorithms in play, it has been a challenge to identify the algorithms that perform best in different scenarios. In this literature review, we explored the distributed machine learning algorithms tested by the authors of the selected studies and identified the ones that achieved the best prediction accuracy in each healthcare scenario. While no algorithm performed consistently, Random Forest performed the best in a few studies. This could serve as a good starting point for future studies on collaborative machine learning on IoMT data.
翻訳日:2022-07-16 08:58:18 公開日:2022-07-13
# (参考訳) オープン高解像度衛星画像:worldstratデータセットとスーパーレゾリューションへの応用

Open High-Resolution Satellite Imagery: The WorldStrat Dataset -- With Application to Super-Resolution ( http://arxiv.org/abs/2207.06418v1 )

ライセンス: CC BY 4.0
Julien Cornebise and Ivan Or\v{s}oli\'c and Freddie Kalaitzis(参考訳) 衛星画像と機械学習で惑星を大規模に分析することは、アクセスが難しい高精細画像のコストによって常に妨げられている夢だ。 これを改善するために、WorldStratデータセットを紹介します。 欧州宇宙機関(ESA)が出資したQueryPlanetプロジェクトの一環として、欧州宇宙機関(ESA)のPhi-Labによって最大1.5m/ピクセルの高解像度のAirbus SPOT 6/7衛星で、地球上のあらゆる種類の土地利用の成層化を確実にするために、1万平方キロ近いユニークな場所をキュレートした。 また、人道的関心の場所、違法な鉱業の場所、危険にさらされている人々の居住地など、MLデータセットで典型的に表現されていない場所を豊かにしています。 10m/ピクセルの低解像度衛星sentinel-2の高分解能画像と複数の低解像度画像とを時間的に一致させる。 このデータセットには、WorldStratデータセットの再構築または拡張、ベースラインアルゴリズムのトレーニングと推論、豊富なチュートリアルによる学習など、オープンソースのPythonパッケージが付属しています。 我々は、衛星画像に対するmlの広スペクトル応用を促進し、費用のかかる民間の高解像度画像で許容される分析能力と同等の自由公開の低解像度センチネル2画像から発展させることを望んでいる。 本稿では,マルチフレーム超解法の課題に対して,高い計算効率のベースラインを学習・リリースすることで,この特異点を説明する。 高解像度のAirbusイメージはCC BY-NC、ラベルとSentinel2イメージはCC BY、ソースコードとBSDで事前訓練されたモデルである。 データセットはhttps://zenodo.org/record/6810792で、ソフトウェアパッケージはhttps://github.com/worldstrat/worldstratで入手できる。

Analyzing the planet at scale with satellite imagery and machine learning is a dream that has been constantly hindered by the cost of difficult-to-access highly-representative high-resolution imagery. To remediate this, we introduce here the WorldStrat dataset. The largest and most varied such publicly available dataset, at Airbus SPOT 6/7 satellites' high resolution of up to 1.5 m/pixel, empowered by European Space Agency's Phi-Lab as part of the ESA-funded QueryPlanet project, we curate nearly 10,000 sqkm of unique locations to ensure stratified representation of all types of land-use across the world: from agriculture to ice caps, from forests to multiple urbanization densities. We also enrich those with locations typically under-represented in ML datasets: sites of humanitarian interest, illegal mining sites, and settlements of persons at risk. We temporally-match each high-resolution image with multiple low-resolution images from the freely accessible lower-resolution Sentinel-2 satellites at 10 m/pixel. We accompany this dataset with an open-source Python package to: rebuild or extend the WorldStrat dataset, train and infer baseline algorithms, and learn with abundant tutorials, all compatible with the popular EO-learn toolbox. We hereby hope to foster broad-spectrum applications of ML to satellite imagery, and possibly develop from free public low-resolution Sentinel2 imagery the same power of analysis allowed by costly private high-resolution imagery. We illustrate this specific point by training and releasing several highly compute-efficient baselines on the task of Multi-Frame Super-Resolution. High-resolution Airbus imagery is CC BY-NC, while the labels and Sentinel2 imagery are CC BY, and the source code and pre-trained models under BSD. The dataset is available at https://zenodo.org/record/6810792 and the software package at https://github.com/worldstrat/worldstrat .
翻訳日:2022-07-16 08:48:49 公開日:2022-07-13
# (参考訳) 分散シフトによるウェイクワード検出

Wakeword Detection under Distribution Shifts ( http://arxiv.org/abs/2207.06423v1 )

ライセンス: CC BY 4.0
Sree Hari Krishnan Parthasarathi, Lu Zeng, Christin Jose, Joseph Wang(参考訳) 本稿では,キーワードスポッティング(kws)タスクで発生するトレーニングと実世界データ間の分布シフトを克服する,半教師付き学習(ssl)のための新しい手法を提案する。 トレーニングデータ配布からのシフトは、実世界のKWSタスクにおいて重要な課題である。新しいモデルがデバイスにデプロイされると、受け入れられたデータのゲーティングが分散のシフトを受け、その後のデプロイメントによるタイムリーな更新の問題を難しくする。 この変化にもかかわらず、ラベルの限界分布は変化しないと仮定する。 教師/学生の学習フレームワークを改良し,ラベル付きトレーニングデータをラベルなしデータで拡張した。 教師は、新しい分布にもアクセスできないことに注意してください。 人間と教師のラベル付きデータの混合を効果的に訓練するため、教師モデルからラベル分布のエントロピーを減少させるために、信頼度ヒューリスティックスに基づく教師ラベル付け戦略を開発し、そのデータをサンプル化してラベル上の限界分布と一致させる。 大規模な実験結果から、遠方界オーディオで訓練された畳み込みニューラルネットワーク(CNN)が、異なる分布から引き出された遠方界オーディオで評価され、同じ偽検出率(FRR)で14.3%の相対的な偽検出率(FDR)が向上し、分布シフトのないFDRでは5%の改善が得られた。 完全接続ネットワーク(FCN)を小さくした遠距離音場から近距離音場へのより厳しい分布シフトの下で,本手法はFDRを同等のFRRで52%改善し,FDRを20%改善する。

We propose a novel approach for semi-supervised learning (SSL) designed to overcome distribution shifts between training and real-world data arising in the keyword spotting (KWS) task. Shifts from training data distribution are a key challenge for real-world KWS tasks: when a new model is deployed on device, the gating of the accepted data undergoes a shift in distribution, making the problem of timely updates via subsequent deployments hard. Despite the shift, we assume that the marginal distributions on labels do not change. We utilize a modified teacher/student training framework, where labeled training data is augmented with unlabeled data. Note that the teacher does not have access to the new distribution as well. To train effectively with a mix of human and teacher labeled data, we develop a teacher labeling strategy based on confidence heuristics to reduce entropy on the label distribution from the teacher model; the data is then sampled to match the marginal distribution on the labels. Large scale experimental results show that a convolutional neural network (CNN) trained on far-field audio, and evaluated on far-field audio drawn from a different distribution, obtains a 14.3% relative improvement in false discovery rate (FDR) at equal false reject rate (FRR), while yielding a 5% improvement in FDR under no distribution shift. Under a more severe distribution shift from far-field to near-field audio with a smaller fully connected network (FCN) our approach achieves a 52% relative improvement in FDR at equal FRR, while yielding a 20% relative improvement in FDR on the original distribution.
翻訳日:2022-07-16 08:45:00 公開日:2022-07-13
# (参考訳) 埋め込み型チップセットのストリーミングキーワードスポッティングモデルのサブ8ビット量子化

Sub 8-Bit Quantization of Streaming Keyword Spotting Models for Embedded Chipsets ( http://arxiv.org/abs/2207.06920v1 )

ライセンス: CC BY 4.0
Lu Zeng, Sree Hari Krishnan Parthasarathi, Yuzong Liu, Alex Escott, Santosh Cheekatmalla, Nikko Strom, Shiv Vitaladevuni(参考訳) 本研究では,250kパラメータフィードフォワード,ストリーミング,ステートフリーキーワードスポッティングモデルのすべてのコンポーネントに対して,新しい2段サブ8ビット量子化認識学習アルゴリズムを提案する。 第1段階では,tanh(.) を用いた非線形変換を用いて,最近提案する量子化手法を高密度層重みに応用する。 第2段階では、他のパラメータ(bia, gain, batchnorm)、入力、アクティベーションなどを含む、ネットワークの他の部分で線形量子化手法を使用する。 大規模実験を行い、26,000時間の無名生産、遠距離および近距離オーディオデータ(4,000時間データの評価)を訓練した。 結果を2つの組み込みチップセット設定で整理します。 a)コモディティARM NEON命令セットと8ビットコンテナを用いて,ネットワークの他の部分の8ビット重み(4,5,8ビット)と8ビット量子化を用いて,精度,CPU,メモリ結果を示す。 b) 市販のニューラルネットワークアクセラレータを用いて,重みビット幅(1 及び 5 ビット)の範囲において,精度を示すとともに,メモリ使用率の低下を予測できる。 どちらの構成でも,提案アルゴリズムが実現可能であることを示す。 a) 偽検出率(FRR)における偽検出率(FDR)の観点からは、検出誤差トレードオフ(DET)曲線上のフル浮動小数点モデルの動作点を有するパリティ b) 計算とメモリの大幅な削減、CPU消費の最大3倍の改善、メモリ消費の4倍以上の改善をもたらす。

We propose a novel 2-stage sub 8-bit quantization aware training algorithm for all components of a 250K parameter feedforward, streaming, state-free keyword spotting model. For the 1st-stage, we adapt a recently proposed quantization technique using a non-linear transformation with tanh(.) on dense layer weights. In the 2nd-stage, we use linear quantization methods on the rest of the network, including other parameters (bias, gain, batchnorm), inputs, and activations. We conduct large scale experiments, training on 26,000 hours of de-identified production, far-field and near-field audio data (evaluating on 4,000 hours of data). We organize our results in two embedded chipset settings: a) with commodity ARM NEON instruction set and 8-bit containers, we present accuracy, CPU, and memory results using sub 8-bit weights (4, 5, 8-bit) and 8-bit quantization of rest of the network; b) with off-the-shelf neural network accelerators, for a range of weight bit widths (1 and 5-bit), while presenting accuracy results, we project reduction in memory utilization. In both configurations, our results show that the proposed algorithm can achieve: a) parity with a full floating point model's operating point on a detection error tradeoff (DET) curve in terms of false detection rate (FDR) at false rejection rate (FRR); b) significant reduction in compute and memory, yielding up to 3 times improvement in CPU consumption and more than 4 times improvement in memory consumption.
翻訳日:2022-07-16 08:33:31 公開日:2022-07-13
# (参考訳) Quantum Metropolis Solver: 最適化問題に対する量子ウォークアプローチ

Quantum Metropolis Solver: A Quantum Walks Approach to Optimization Problems ( http://arxiv.org/abs/2207.06462v1 )

ライセンス: CC BY 4.0
Roberto Campos, Pablo A M Casares and M A Martin-Delgado(参考訳) 最適化問題の効率的な解決は、今日の業界における重要な問題の1つです。 このタスクは主にスケーラビリティの問題や処理制限を示す古典的なアルゴリズムに依存している。 量子コンピューティングはこの種の問題に挑戦している。 本稿では,量子ウォークに基づくmetropolis-hastings量子アルゴリズムに注目した。 このアルゴリズムを用いて量子メトロポリスソルバ(qms)と呼ばれる量子ソフトウェアツールを構築した。 我々は,N-Queen問題を用いてQMSを検証することで,人工知能領域に容易に外挿可能な量子優位性を示す。 我々は、QMSとその構成の性能を検証するために異なるシミュレーションを行う。

The efficient resolution of optimization problems is one of the key issues in today's industry. This task relies mainly on classical algorithms that present scalability problems and processing limitations. Quantum computing has emerged to challenge these types of problems. In this paper, we focus on the Metropolis-Hastings quantum algorithm that is based on quantum walks. We use this algorithm to build a quantum software tool called Quantum Metropolis Solver (QMS). We validate QMS with the N-Queen problem to show a potential quantum advantage in an example that can be easily extrapolated to an Artificial Intelligence domain. We carry out different simulations to validate the performance of QMS and its configuration.
翻訳日:2022-07-16 08:20:55 公開日:2022-07-13
# (参考訳) 病理画像の分類・分類のためのデータ効率の良い深層学習フレームワーク

A Data-Efficient Deep Learning Framework for Segmentation and Classification of Histopathology Images ( http://arxiv.org/abs/2207.06489v1 )

ライセンス: CC BY 4.0
Pranav Singh and Jacopo Cirrone(参考訳) 診断および研究目的で一般的に行われる病理組織像における炎症の細胞構造に関する最近の研究は、生検スライドで得られる多くの情報を排除している。 自己免疫疾患では、細胞型が組織レベルで炎症に関与するか、どのように相互作用するかについて、主要な研究課題が残っている。 これらの質問は、従来の方法で部分的に答えられるが、セグメンテーションと分類に対する人工知能のアプローチは、自己免疫疾患の炎症のアーキテクチャを理解するためのより効率的な方法を提供する。 本稿では,ヒト組織の皮膚筋炎生検を用いて炎症細胞を検出し同定する深層学習法を経験的に開発する。 本手法は分類性能を26%改善し,セグメンテーション性能を5%向上させる。 また,セグメンテーション性能を3%向上させる新しい後処理オートエンコーダアーキテクチャを提案する。 私たちはアプローチとアーキテクチャをhttps://github.com/pranavsinghps1/DEDLでオープンソース化しました。

The current study of cell architecture of inflammation in histopathology images commonly performed for diagnosis and research purposes excludes a lot of information available on the biopsy slide. In autoimmune diseases, major outstanding research questions remain regarding which cell types participate in inflammation at the tissue level,and how they interact with each other. While these questions can be partially answered using traditional methods, artificial intelligence approaches for segmentation and classification provide a much more efficient method to understand the architecture of inflammation in autoimmune disease, holding a great promise for novel insights. In this paper, we empirically develop deep learning approaches that uses dermatomyositis biopsies of human tissue to detect and identify inflammatory cells. Our approach improves classification performance by 26% and segmentation performance by 5%. We also propose a novel post-processing autoencoder architecture that improves segmentation performance by an additional 3%. We have open-sourced our approach and architecture at https://github.com/pranavsinghps1/DEDL
翻訳日:2022-07-16 07:59:48 公開日:2022-07-13
# (参考訳) 動的価格設定におけるnプレイヤーマルコフゲームの近似nash平衡学習

Approximate Nash Equilibrium Learning for n-Player Markov Games in Dynamic Pricing ( http://arxiv.org/abs/2207.06492v1 )

ライセンス: CC BY 4.0
Larkin Liu(参考訳) 我々は,複数のエージェントが競合するマルコフゲーム(MG)環境でのナッシュ均衡学習について検討し,複数のナッシュ均衡が存在することを示す。 特に、オリゴポラティスティックな動的価格設定環境においては、正確なナッシュ平衡は、次元の呪いのため取得が困難である。 近似ナッシュ平衡を求める新しいモデルフリー法を開発した。 グラディエントフリーなブラックボックス最適化は、任意のジョイントポリシーから一方的に逸脱するエージェントの最大報酬の利点である$\epsilon$を推定し、任意の状態に対する$\epsilon$-minimizingポリシーを推定する。 ポリシ-$\epsilon$対応と$\epsilon$最小化ポリシへの状態はニューラルネットワークで表現され、後者はNash Policy Netである。 バッチ更新中に,nashポリシネットを用いて動作確率を調整することにより,システム上でnash q学習を行う。 特に,厳密解がしばしば難解である動的価格領域において,近似ナッシュ均衡が学習できることを実証する。

We investigate Nash equilibrium learning in a competitive Markov Game (MG) environment, where multiple agents compete, and multiple Nash equilibria can exist. In particular, for an oligopolistic dynamic pricing environment, exact Nash equilibria are difficult to obtain due to the curse-of-dimensionality. We develop a new model-free method to find approximate Nash equilibria. Gradient-free black box optimization is then applied to estimate $\epsilon$, the maximum reward advantage of an agent unilaterally deviating from any joint policy, and to also estimate the $\epsilon$-minimizing policy for any given state. The policy-$\epsilon$ correspondence and the state to $\epsilon$-minimizing policy are represented by neural networks, the latter being the Nash Policy Net. During batch update, we perform Nash Q learning on the system, by adjusting the action probabilities using the Nash Policy Net. We demonstrate that an approximate Nash equilibrium can be learned, particularly in the dynamic pricing domain where exact solutions are often intractable.
翻訳日:2022-07-16 07:47:39 公開日:2022-07-13
# (参考訳) ニューラルネットワークを用いた構造最適化のための一般化フレームワーク

A Generalized Framework for Microstructural Optimization using Neural Networks ( http://arxiv.org/abs/2207.06512v1 )

ライセンス: CC BY 4.0
Saketh Sridhara, Aaditya Chandrasekhar, Krishnan Suresh(参考訳) 構造材料、すなわち構造材料は、通常、体積制約を受けるバルク率などの目的を最大化することによって、今日設計されている。 しかし、多くの応用において、他の物理量に対する制約を課すことはより適切である。 本稿では, バルク, せん断, ポアソン比, 体積などのミクロ構造量が目的として機能し, 残りは制約として機能する, 一般化されたマイクロ構造最適化問題を考察する。 特に,そのような問題を解決するニューラルネットワーク(NN)フレームワークを提案する。 この枠組みは構造最適化の古典的な密度定式化に依存しているが、密度場はnnの重みとバイアスによって表される。 提案するNNフレームワークの主な特徴は,(1)自動微分をサポートし,手動感度の導出を必要としないこと,(2)暗黙のフィルタリングによりスムーズなフィルタが不要であること,(3)フレームワークを複数の材料に容易に拡張できること,(4)高分解能のマイクロ構造トポロジーを簡単な後処理ステップで回収できることである。 このフレームワークは、様々な微構造最適化問題を通して説明されている。

Microstructures, i.e., architected materials, are designed today, typically, by maximizing an objective, such as bulk modulus, subject to a volume constraint. However, in many applications, it is often more appropriate to impose constraints on other physical quantities of interest. In this paper, we consider such generalized microstructural optimization problems where any of the microstructural quantities, namely, bulk, shear, Poisson ratio, or volume, can serve as the objective, while the remaining can serve as constraints. In particular, we propose here a neural-network (NN) framework to solve such problems. The framework relies on the classic density formulation of microstructural optimization, but the density field is represented through the NN's weights and biases. The main characteristics of the proposed NN framework are: (1) it supports automatic differentiation, eliminating the need for manual sensitivity derivations, (2) smoothing filters are not required due to implicit filtering, (3) the framework can be easily extended to multiple-materials, and (4) a high-resolution microstructural topology can be recovered through a simple post-processing step. The framework is illustrated through a variety of microstructural optimization problems.
翻訳日:2022-07-16 07:27:18 公開日:2022-07-13
# (参考訳) 神経常微分方程式の一般クラスの到達可能性解析

Reachability Analysis of a General Class of Neural Ordinary Differential Equations ( http://arxiv.org/abs/2207.06531v1 )

ライセンス: CC BY 4.0
Diego Manzanas Lopez, Patrick Musau, Nathaniel Hamilton, Taylor T. Johnson(参考訳) 連続的なディープラーニングモデル(Neural Ordinary Differential Equations (Neural ODEs)と呼ばれる)は、ここ数年でかなりの注目を集めている。 その衝撃にもかかわらず、これらのシステムには正式な分析技術がない。 本稿では,様々なアーキテクチャと層を有するニューラルネットワークの一般クラスを検討し,その動作の形式的解析を可能にする新しい到達可能性フレームワークを提案する。 ニューラルネットワークの到達可能性解析のために開発された手法は、NNVODEと呼ばれる新しいツールで実装されている。 具体的には、既存のニューラルネットワーク検証ツールを拡張して、ニューラルODEをサポートする。 本手法の有効性と有効性は,分類や制御や力学システムで使用される神経odeを含むベンチマークセットの分析を通じて実証し,本手法の有効性と有効性について検討する。

Continuous deep learning models, referred to as Neural Ordinary Differential Equations (Neural ODEs), have received considerable attention over the last several years. Despite their burgeoning impact, there is a lack of formal analysis techniques for these systems. In this paper, we consider a general class of neural ODEs with varying architectures and layers, and introduce a novel reachability framework that allows for the formal analysis of their behavior. The methods developed for the reachability analysis of neural ODEs are implemented in a new tool called NNVODE. Specifically, our work extends an existing neural network verification tool to support neural ODEs. We demonstrate the capabilities and efficacy of our methods through the analysis of a set of benchmarks that include neural ODEs used for classification, and in control and dynamical systems, including an evaluation of the efficacy and capabilities of our approach with respect to existing software tools within the continuous-time systems reachability literature, when it is possible to do so.
翻訳日:2022-07-16 07:17:09 公開日:2022-07-13
# (参考訳) 強化学習を用いた車外コミュニケーションのスケジューリング

Scheduling Out-of-Coverage Vehicular Communications Using Reinforcement Learning ( http://arxiv.org/abs/2207.06537v1 )

ライセンス: CC BY 4.0
Taylan \c{S}ahin, Ramin Khalili, Mate Boban, Adam Wolisz(参考訳) 車両間通信(v2v)の性能はスケジューリング手法に大きく依存する。 集中型ネットワークスケジューラは高いv2v通信信頼性を提供するが、従来は完全なセルラーネットワークカバレッジを持つ領域に限られる。 対照的に、細胞外被覆領域では、比較的非効率な分散無線資源管理が用いられる。 セルラーネットワークを欠いた道路におけるV2V通信の信頼性を高めるための集中型アプローチの利点を生かし,セルラーネットワークを離脱するV2V通信のためのリソースを積極的に割り当てる集中型スケジューラであるVRLS(Vehicular Reinforcement Learning Scheduler)を提案する。 シミュレーションされた車載環境でのトレーニングにより、VRLSは環境変化に頑健で適応可能なスケジューリングポリシーを学ぶことができ、複雑な実環境においてターゲット(再訓練)の必要性を排除できる。 移動性,ネットワーク負荷,無線チャネル,資源構成の異なるVRLSの性能を評価する。 vrlsは、高負荷条件でパケットエラー率を半分削減し、低負荷シナリオで最大信頼性を達成することにより、セルネットワークカバレッジのないゾーンにおいて最先端の分散スケジューリングアルゴリズムを上回っている。

Performance of vehicle-to-vehicle (V2V) communications depends highly on the employed scheduling approach. While centralized network schedulers offer high V2V communication reliability, their operation is conventionally restricted to areas with full cellular network coverage. In contrast, in out-of-cellular-coverage areas, comparatively inefficient distributed radio resource management is used. To exploit the benefits of the centralized approach for enhancing the reliability of V2V communications on roads lacking cellular coverage, we propose VRLS (Vehicular Reinforcement Learning Scheduler), a centralized scheduler that proactively assigns resources for out-of-coverage V2V communications \textit{before} vehicles leave the cellular network coverage. By training in simulated vehicular environments, VRLS can learn a scheduling policy that is robust and adaptable to environmental changes, thus eliminating the need for targeted (re-)training in complex real-life environments. We evaluate the performance of VRLS under varying mobility, network load, wireless channel, and resource configurations. VRLS outperforms the state-of-the-art distributed scheduling algorithm in zones without cellular network coverage by reducing the packet error rate by half in highly loaded conditions and achieving near-maximum reliability in low-load scenarios.
翻訳日:2022-07-16 06:52:19 公開日:2022-07-13
# (参考訳) セルフプレイPSRO: ツープレイゼロサムゲームにおける最適人口に向けて

Self-Play PSRO: Toward Optimal Populations in Two-Player Zero-Sum Games ( http://arxiv.org/abs/2207.06541v1 )

ライセンス: CC0 1.0
Stephen McAleer, JB Lanier, Kevin Wang, Pierre Baldi, Roy Fox, Tuomas Sandholm(参考訳) 競合する2エージェント環境において、深層強化学習(RL)法は \emph{Double Oracle (DO)} アルゴリズムに基づいており、例えば \emph{Policy Space Response Oracles (PSRO) や \emph{Anytime PSRO (APSRO) のように、RLの最適応答ポリシーを集団に反復的に付加する。 最終的に、これらの人口政策の最適混合はナッシュ均衡を近似する。 しかし、これらのメソッドは収束する前に決定論的ポリシーを全て追加する必要があるかもしれない。 本研究では,各反復の個体群にほぼ最適な確率的ポリシーを付加する手法である \emph{Self-Play PSRO (SP-PSRO) を紹介する。 sp-psroは、相手の最小搾取可能な人口混合に決定論的最善の反応のみを追加する代わりに、ほぼ最適の確率政策を学び、それを人口にも付加する。 その結果、SP-PSRO は APSRO よりもはるかに早く収束する傾向にあり、多くのゲームではほんの数イテレーションで収束する。

In competitive two-agent environments, deep reinforcement learning (RL) methods based on the \emph{Double Oracle (DO)} algorithm, such as \emph{Policy Space Response Oracles (PSRO)} and \emph{Anytime PSRO (APSRO)}, iteratively add RL best response policies to a population. Eventually, an optimal mixture of these population policies will approximate a Nash equilibrium. However, these methods might need to add all deterministic policies before converging. In this work, we introduce \emph{Self-Play PSRO (SP-PSRO)}, a method that adds an approximately optimal stochastic policy to the population in each iteration. Instead of adding only deterministic best responses to the opponent's least exploitable population mixture, SP-PSRO also learns an approximately optimal stochastic policy and adds it to the population as well. As a result, SP-PSRO empirically tends to converge much faster than APSRO and in many games converges in just a few iterations.
翻訳日:2022-07-16 06:17:23 公開日:2022-07-13
# (参考訳) 画像操作のための属性情報削除と再構成

Supervised Attribute Information Removal and Reconstruction for Image Manipulation ( http://arxiv.org/abs/2207.06555v1 )

ライセンス: CC BY 4.0
Nannan Li and Bryan A. Plummer(参考訳) 属性操作の目標は、所定の画像内の特定の属性を制御することである。 以前の作業では、対象属性に対するエンコードされたソース属性の操作を可能にする各属性の異種表現を学習することで、この問題にアプローチしている。 しかし、エンコードされた属性はしばしば関連する画像内容と関連付けられる。 したがって、ソース属性情報は、しばしば歪んだ特徴の中に隠され、不要な画像編集効果をもたらす。 本稿では,属性情報を完全に除去する方法を学習し,属性を除外した特徴を生成し,その属性を直接再構成した画像に注入する方法を学習することにより,属性情報削除・再構成(AIRR)ネットワークを提案する。 提案手法は,DeepFashion Synthesis, DeepFashion Fine-fine Attribute, CelebA, CelebA-HQの4つの属性を持つ多種多様なデータセットに対して評価を行った。 ユーザ調査によると、AIRRで操作された画像は、最大76%のケースで以前の作業よりも好まれている。

The goal of attribute manipulation is to control specified attribute(s) in given images. Prior work approaches this problem by learning disentangled representations for each attribute that enables it to manipulate the encoded source attributes to the target attributes. However, encoded attributes are often correlated with relevant image content. Thus, the source attribute information can often be hidden in the disentangled features, leading to unwanted image editing effects. In this paper, we propose an Attribute Information Removal and Reconstruction (AIRR) network that prevents such information hiding by learning how to remove the attribute information entirely, creating attribute excluded features, and then learns to directly inject the desired attributes in a reconstructed image. We evaluate our approach on four diverse datasets with a variety of attributes including DeepFashion Synthesis, DeepFashion Fine-grained Attribute, CelebA and CelebA-HQ, where our model improves attribute manipulation accuracy and top-k retrieval rate by 10% on average over prior work. A user study also reports that AIRR manipulated images are preferred over prior work in up to 76% of cases.
翻訳日:2022-07-16 05:58:34 公開日:2022-07-13
# 乱流緩和変換器を用いた大気中イメージング

Imaging through the Atmosphere using Turbulence Mitigation Transformer ( http://arxiv.org/abs/2207.06465v1 )

ライセンス: Link先を確認
Xingguang Zhang, Zhiyuan Mao, Nicholas Chimitt, Stanley H. Chan(参考訳) 大気の乱流によって歪んだ画像の復元は、歪みの空間的変化、画像形成過程の非線形性、トレーニングやテストデータの不足など、長年の問題である。 既存の手法は歪モデルに強い統計的仮定をしばしば持ち、多くの場合、一般化しない現実のシナリオでは性能が制限される。 この課題を克服するため,本稿では,実世界の乱流に一般化可能な,エンドツーエンドの物理駆動アプローチを提案する。 データ合成の面では、広義の定常性によりランダム場を近似することにより、SOTA乱流シミュレータで処理できる画像解像度を大幅に向上する。 新たなデータ合成プロセスにより,大規模マルチレベル乱流と基底真理ペアの生成が可能となった。 ネットワーク設計面では, 時間チャネル共同注意 (TCJA) と呼ばれる非効率な自己保持機構を有する2段階U-Net形状の多フレーム復元ネットワークである乱流緩和トランス (TMT) を提案する。 また,新しいシミュレータによって実現される新しいトレーニングスキームを導入し,メモリ消費を減らすために新しいトランスフォーマーユニットを設計する。 様々な実際の乱流シナリオを含む静的および動的両方のシーンの実験結果が期待できる。

Restoring images distorted by atmospheric turbulence is a long-standing problem due to the spatially varying nature of the distortion, nonlinearity of the image formation process, and scarcity of training and testing data. Existing methods often have strong statistical assumptions on the distortion model which in many cases will lead to a limited performance in real-world scenarios as they do not generalize. To overcome the challenge, this paper presents an end-to-end physics-driven approach that is efficient and can generalize to real-world turbulence. On the data synthesis front, we significantly increase the image resolution that can be handled by the SOTA turbulence simulator by approximating the random field via wide-sense stationarity. The new data synthesis process enables the generation of large-scale multi-level turbulence and ground truth pairs for training. On the network design front, we propose the turbulence mitigation transformer (TMT), a two stage U-Net shaped multi-frame restoration network which has a noval efficient self-attention mechanism named temporal channel joint attention (TCJA). We also introduce a new training scheme that is enabled by the new simulator, and we design new transformer units to reduce the memory consumption. Experimental results on both static and dynamic scenes are promising, including various real turbulence scenarios.
翻訳日:2022-07-15 14:59:29 公開日:2022-07-13
# 有限視野CTによる身体組成評価:意味的画像拡張の観点から

Body Composition Assessment with Limited Field-of-view Computed Tomography: A Semantic Image Extension Perspective ( http://arxiv.org/abs/2207.06551v1 )

ライセンス: Link先を確認
Kaiwen Xu, Thomas Li, Mirza S. Khan, Riqiang Gao, Sanja L. Antic, Yuankai Huo, Kim L. Sandler, Fabien Maldonado, Bennett A. Landman(参考訳) Field-of-view (FOV) 組織切り離しは、通常肺検診(CT)において一般的である。 このことは、重要な解剖学的構造が欠落しているとして、オパチュニストCTベースの身体組成(BC)の評価に限界をもたらす。 従来,CTのFOVを拡張することは,限られたデータを用いたCT再構成問題と考えられてきた。 しかし、このアプローチはアプリケーションでは利用できないプロジェクションドメインデータに依存します。 本研究では,画像データを入力としてのみ要求する意味的画像拡張の観点から問題を定式化する。 提案した2段階法は,全体の推定範囲に基づいて新しいFOV境界を同定し,脱落した領域の欠損組織を刺激する。 トレーニングサンプルは、FOVで完全な体を持つCTスライスを用いてシミュレーションされ、モデル開発を自己監督する。 FOVを限定した肺検診CTを用いたBCG自動評価における提案手法の有効性を検討した。 提案法は欠損組織を効果的に修復し,FOV組織切断によるBC評価誤差を低減する。 BCによる大規模肺検診用CTデータセットの評価では、この補正により、オブジェクト内一貫性と人為的近似との相関が向上する。 開発方法はhttps://github.com/MASILab/S-EFOV.comで公開されている。

Field-of-view (FOV) tissue truncation beyond the lungs is common in routine lung screening computed tomography (CT). This poses limitations for opportunistic CT- based body composition (BC) assessment as key anatomical structures are missing. Traditionally, extending the FOV of CT is considered as a CT reconstruction problem using limited data. However, this approach relies on the projection domain data which might not be available in application. In this work, we formulate the problem from the semantic image extension perspective which only requires image data as inputs. The proposed two-stage method identifies a new FOV border based on the estimated extent of the complete body and imputes missing tissues in the truncated region. The training samples are simulated using CT slices with complete body in FOV, making the model development self-supervised. We evaluate the validity of the proposed method in automatic BC assessment using lung screening CT with limited FOV. The proposed method effectively restores the missing tissues and reduces BC assessment error introduced by FOV tissue truncation. In the BC assessment for a large-scale lung screening CT dataset, this correction improves both the intra-subject consistency and the correlation with anthropometric approximations. The developed method is available at https://github.com/MASILab/S-EFOV.
翻訳日:2022-07-15 14:59:08 公開日:2022-07-13
# アーゴバースのためのqml 第2回モーション予測課題

QML for Argoverse 2 Motion Forecasting Challenge ( http://arxiv.org/abs/2207.06553v1 )

ライセンス: Link先を確認
Tong Su, Xishun Wang, Xiaodong Yang(参考訳) 様々な複雑な交通シナリオを安全にナビゲートするために、自律運転システムは一般に、下流計画モジュールに不可欠な情報を提供するモーション予測モジュールを備えている。 実世界のオンボードアプリケーションでは、モーション予測モデルの正確性とレイテンシが不可欠である。 本稿では,Argoverse 2 Motion Forecasting Challenge 2022の3位にランクインした,効果的で効率的なソリューションを提案する。

To safely navigate in various complex traffic scenarios, autonomous driving systems are generally equipped with a motion forecasting module to provide vital information for the downstream planning module. For the real-world onboard applications, both accuracy and latency of a motion forecasting model are essential. In this report, we present an effective and efficient solution, which ranks the 3rd place in the Argoverse 2 Motion Forecasting Challenge 2022.
翻訳日:2022-07-15 14:58:49 公開日:2022-07-13
# ランダムにピボットされたcholesky: 入力評価の少ないカーネル行列の実用的近似

Randomly pivoted Cholesky: Practical approximation of a kernel matrix with few entry evaluations ( http://arxiv.org/abs/2207.06503v1 )

ライセンス: Link先を確認
Yifan Chen, Ethan N. Epperly, Joel A. Tropp, Robert J. Webber(参考訳) ランダムピボットされたチョレスキー (RPCholesky) は、N x N の正半定値 (psd) 行列のランク k 近似を計算する自然なアルゴリズムである。 RPCholeskyはほんの数行のコードで実装できる。 これは (k+1)N のエントリー評価と O(k^2 N) の算術演算のみを必要とする。 本稿では,その実験的および理論的挙動に関する最初の真剣な調査を行う。 RPCholeskyは、低ランクpsd近似のための代替アルゴリズムの性能を実証的に比較または改善する。 さらにRPCholeskyは、ほぼ最適近似を保証する。 このアルゴリズムの単純さ、有効性、堅牢性は、科学計算や機械学習アプリケーションでの利用を強く支持する。

Randomly pivoted Cholesky (RPCholesky) is a natural algorithm for computing a rank-k approximation of an N x N positive semidefinite (psd) matrix. RPCholesky can be implemented with just a few lines of code. It requires only (k+1)N entry evaluations and O(k^2 N) additional arithmetic operations. This paper offers the first serious investigation of its experimental and theoretical behavior. Empirically, RPCholesky matches or improves on the performance of alternative algorithms for low-rank psd approximation. Furthermore, RPCholesky provably achieves near-optimal approximation guarantees. The simplicity, effectiveness, and robustness of this algorithm strongly support its use in scientific computing and machine learning applications.
翻訳日:2022-07-15 14:55:53 公開日:2022-07-13
# 機械学習を用いた生体超音波検査による乳癌の診断の改善

Improving the diagnosis of breast cancer based on biophysical ultrasound features utilizing machine learning ( http://arxiv.org/abs/2207.06560v1 )

ライセンス: Link先を確認
Jihye Baek, Avice M. O'Connell, Kevin J. Parker(参考訳) 超音波検査の診断精度の向上は重要な目標である。 本研究では,乳がん検出のための生体物理学的特徴に基づく機械学習手法を提案し,ベンチマーク深層学習アルゴリズム以上の性能向上と,病変内の悪性度を示すカラーオーバーレイビジュアルマップを提供する。 この枠組みは疾患特異的イメージングと呼ばれている。 以前は150個の乳腺病変が分節化され,それぞれ完全な畳み込みネットワークとGoogLeNetが修正された。 本研究は, 病変内におけるマルチパラメトリック解析を行った。 生体物理モデルおよび形態モデルに基づいて, 超音波ラジオ波, 封筒, ログ圧縮データから特徴を抽出した。 ガウス核を持つ支持ベクトルマシンは非線形超平面を構築し,マルチパラメトリック空間における各特徴の超平面とデータ点の距離を計算した。 距離は病変を定量的に評価し、bモード画像に色を符号化し重畳する悪性の可能性を示唆する。 in vivo患者データを用いてトレーニングおよび評価を行った。 本研究における乳腺病変の最も一般的な型別と大きさの総合的精度は分類で98.0%以上、受信者特性曲線下の領域では0.08%以上であり、放射線科医や深層学習システムよりも正確である。 さらに、確率とBI RADSの相関により、定量的に乳癌を予測できる。 そこで本提案手法は, 放射線科医がより正確かつ便利な乳癌の分類・検出を行うのに役立つことを期待する。

The improved diagnostic accuracy of ultrasound breast examinations remains an important goal. In this study, we propose a biophysical feature based machine learning method for breast cancer detection to improve the performance beyond a benchmark deep learning algorithm and to furthermore provide a color overlay visual map of the probability of malignancy within a lesion. This overall framework is termed disease specific imaging. Previously, 150 breast lesions were segmented and classified utilizing a modified fully convolutional network and a modified GoogLeNet, respectively. In this study multiparametric analysis was performed within the contoured lesions. Features were extracted from ultrasound radiofrequency, envelope, and log compressed data based on biophysical and morphological models. The support vector machine with a Gaussian kernel constructed a nonlinear hyperplane, and we calculated the distance between the hyperplane and data point of each feature in multiparametric space. The distance can quantitatively assess a lesion, and suggest the probability of malignancy that is color coded and overlaid onto B mode images. Training and evaluation were performed on in vivo patient data. The overall accuracy for the most common types and sizes of breast lesions in our study exceeded 98.0% for classification and 0.98 for an area under the receiver operating characteristic curve, which is more precise than the performance of radiologists and a deep learning system. Further, the correlation between the probability and BI RADS enables a quantitative guideline to predict breast cancer. Therefore, we anticipate that the proposed framework can help radiologists achieve more accurate and convenient breast cancer classification and detection.
翻訳日:2022-07-15 14:53:18 公開日:2022-07-13
# モルフォ活性化: 数学的形態学によるReLU活性化関数の一般化

MorphoActivation: Generalizing ReLU activation function by mathematical morphology ( http://arxiv.org/abs/2207.06413v1 )

ライセンス: Link先を確認
Santiago Velasco-Forero (CMM), Jes\'us Angulo (CMM)(参考訳) 本稿では,数値形態学の代数的基礎を用いたディープ畳み込みニューラルネットワーク(DCNN)の非線形アクティベーション関数と空間最大プーリングの両方を解析する。 さらに、マクスプール作用素と非線形作用素の両方を形態素表現の文脈で考慮し、活性化関数の一般的な族を提案する。 DCNNによる教師あり学習のための古典的ベンチマークに対するアプローチの有効性を検証する。

This paper analyses both nonlinear activation functions and spatial max-pooling for Deep Convolutional Neural Networks (DCNNs) by means of the algebraic basis of mathematical morphology. Additionally, a general family of activation functions is proposed by considering both max-pooling and nonlinear operators in the context of morphological representations. Experimental section validates the goodness of our approach on classical benchmarks for supervised learning by DCNN.
翻訳日:2022-07-15 14:49:58 公開日:2022-07-13
# 全てを統一する1つのモデル:マルチコントラストMRI合成の個人化フェデレーション学習

One Model to Unite Them All: Personalized Federated Learning of Multi-Contrast MRI Synthesis ( http://arxiv.org/abs/2207.06509v1 )

ライセンス: Link先を確認
Onat Dalmaz, Usama Mirza, G\"okberk Elmas, Muzaffer \"Ozbey, Salman UH Dar, Emir Ceyani, Salman Avestimehr, Tolga \c{C}ukur(参考訳) 学習ベースのMRI翻訳は、ソースコントラストをターゲットコントラスト画像にマッピングする合成モデルを含む。 幅広いデータセットにわたる合成モデルをトレーニングする上で、多施設のコラボレーションが鍵となる。 フェデレートラーニング(FL)は、画像データの共有とプライバシーの懸念を軽減するために、分散トレーニングを採用するコラボレーションフレームワークである。 しかし、FL学習モデルは、画像データの分布に固有の不均一性によって損なわれる可能性がある。 一方で、固定されたソースターゲット設定を持つ共通の翻訳タスクであっても、画像分布の暗黙的なシフトがサイト間で明らかにされる。 逆に、ソースターゲット設定の異なる様々な翻訳タスクが設定されたときに、サイト内およびサイト間で明示的なシフトが発生する。 領域シフトに対する信頼性を向上させるために,MRI合成のためのパーソナライズされたFL法(pFLSynth)を提案する。 pFLSynthは、個々のサイトやソースターゲットのコントラストに固有の潜伏剤を生成するマッパーを備えた敵モデルに基づいている。 これは新しいパーソナライズブロックを活用し、これらの潜伏子に基づいてジェネレータ全体の特徴写像の統計と重み付けを適応的に調整する。 サイト固有性をさらに促進するために、上流層をローカルに保持しながら、ジェネレータの下流層に部分モデルアグリゲーションを用いる。 したがって、pFLSynthは複数のサイトや翻訳タスクを確実に一般化できる統一合成モデルのトレーニングを可能にする。 マルチコントラストMRI合成において,pFLSynthの事前フェデレーション法に対する性能向上が明らかに示された。

Learning-based MRI translation involves a synthesis model that maps a source-contrast onto a target-contrast image. Multi-institutional collaborations are key to training synthesis models across broad datasets, yet centralized training involves privacy risks. Federated learning (FL) is a collaboration framework that instead adopts decentralized training to avoid sharing imaging data and mitigate privacy concerns. However, FL-trained models can be impaired by the inherent heterogeneity in the distribution of imaging data. On the one hand, implicit shifts in image distribution are evident across sites, even for a common translation task with fixed source-target configuration. Conversely, explicit shifts arise within and across sites when diverse translation tasks with varying source-target configurations are prescribed. To improve reliability against domain shifts, here we introduce the first personalized FL method for MRI Synthesis (pFLSynth). pFLSynth is based on an adversarial model equipped with a mapper that produces latents specific to individual sites and source-target contrasts. It leverages novel personalization blocks that adaptively tune the statistics and weighting of feature maps across the generator based on these latents. To further promote site-specificity, partial model aggregation is employed over downstream layers of the generator while upstream layers are retained locally. As such, pFLSynth enables training of a unified synthesis model that can reliably generalize across multiple sites and translation tasks. Comprehensive experiments on multi-site datasets clearly demonstrate the enhanced performance of pFLSynth against prior federated methods in multi-contrast MRI synthesis.
翻訳日:2022-07-15 13:41:28 公開日:2022-07-13
# 錯視映像からの複雑な環境における物体検出のためのグラフCNN

Graph CNN for Moving Object Detection in Complex Environments from Unseen Videos ( http://arxiv.org/abs/2207.06440v1 )

ライセンス: Link先を確認
Jhony H. Giraldo, Sajid Javed, Naoufel Werghi, Thierry Bouwmans(参考訳) 移動物体検出(MOD)は多くのコンピュータビジョンアプリケーションにとって基本的なステップである。 MODは、静止カメラや動いているカメラから撮影したビデオシーケンスが、カモフラージュ、シャドウ、動的背景、照明のバリエーションといった課題に悩まされると、非常に困難になる。 深層学習法は,MODと競争性能の両立に成功している。 しかし、過度に適合する問題に対処するためには、徹底的なアノテーションが常に利用できないため、面倒な作業である大量のラベル付きデータを必要とする。 さらに,MOD深層学習手法では,ネットワーク学習過程において同一シーケンスのテストとトレーニングの分割が関与するため,未確認映像シーケンスの存在下での性能劣化を示す。 本研究では,グラフ畳み込みニューラルネットワーク(GCNN)を用いたノード分類問題としてMODの問題を提起する。 GraphMOD-Netと呼ばれる我々のアルゴリズムは、インスタンスセグメンテーション、バックグラウンド初期化、特徴抽出、グラフ構築を含む。 graphmod-netは未発見の動画上でテストされ、未教師なし、半教師なし、教師なし学習における最先端の手法を上回っており、change detection 2014 (cdnet2014) とucsd background subtractionデータセットのいくつかの課題に挑戦している。

Moving Object Detection (MOD) is a fundamental step for many computer vision applications. MOD becomes very challenging when a video sequence captured from a static or moving camera suffers from the challenges: camouflage, shadow, dynamic backgrounds, and lighting variations, to name a few. Deep learning methods have been successfully applied to address MOD with competitive performance. However, in order to handle the overfitting problem, deep learning methods require a large amount of labeled data which is a laborious task as exhaustive annotations are always not available. Moreover, some MOD deep learning methods show performance degradation in the presence of unseen video sequences because the testing and training splits of the same sequences are involved during the network learning process. In this work, we pose the problem of MOD as a node classification problem using Graph Convolutional Neural Networks (GCNNs). Our algorithm, dubbed as GraphMOD-Net, encompasses instance segmentation, background initialization, feature extraction, and graph construction. GraphMOD-Net is tested on unseen videos and outperforms state-of-the-art methods in unsupervised, semi-supervised, and supervised learning in several challenges of the Change Detection 2014 (CDNet2014) and UCSD background subtraction datasets.
翻訳日:2022-07-15 13:36:41 公開日:2022-07-13
# 核密度を用いた分類信頼度の推定

Estimating Classification Confidence Using Kernel Densities ( http://arxiv.org/abs/2207.06529v1 )

ライセンス: Link先を確認
Peter Salamon, David Salamon, V. Adrian Cantu, Michelle An, Tyler Perry, Robert A. Edwards, Anca M. Segall(参考訳) 本稿では,「探索的」機械学習分類問題に対する信頼性のポストホック校正について検討する。 これらの問題の難しさは、データセットのキュレーション時に十分な例を持つカテゴリの境界を押し進めることと、それらのカテゴリの有効性に関する混乱に起因している。 このような問題に対して、文献の他所で提唱された「カリブレート・ザ・フル・レスポンス・マトリクス」アプローチよりも「ワン・ヴァース・オール」アプローチ(トップ・ラベル・キャリブレーション)を使わなければならないと論じる。 カテゴリー固有の信頼度推定の慣用性を扱うために設計された4つの新しいアルゴリズムを導入・テストする。 これらの手法の主な用途は、帯域幅を選択するための新しい防弾アルゴリズムを含む信頼性校正のためのカーネル密度比の利用である。 我々は,従来のMNISTベンチマーク2と同様にバイオインフォマティクスアプリケーション(PhANNs)1におけるキャリブレーションの限界を検証した。 最後に分析では,ポストホックキャリブレーションは常に実施されるべきであり,テストデータセットのみに基づくべきであり,サニティチェックを視覚的に行うべきである。

This paper investigates the post-hoc calibration of confidence for "exploratory" machine learning classification problems. The difficulty in these problems stems from the continuing desire to push the boundaries of which categories have enough examples to generalize from when curating datasets, and confusion regarding the validity of those categories. We argue that for such problems the "one-versus-all" approach (top-label calibration) must be used rather than the "calibrate-the-full-response-matrix" approach advocated elsewhere in the literature. We introduce and test four new algorithms designed to handle the idiosyncrasies of category-specific confidence estimation. Chief among these methods is the use of kernel density ratios for confidence calibration including a novel, bulletproof algorithm for choosing the bandwidth. We test our claims and explore the limits of calibration on a bioinformatics application (PhANNs)1 as well as the classic MNIST benchmark2. Finally, our analysis argues that post-hoc calibration should always be performed, should be based only on the test dataset, and should be sanity-checked visually.
翻訳日:2022-07-15 13:11:11 公開日:2022-07-13
# リプシッツ連続性保持二元ニューラルネットワーク

Lipschitz Continuity Retained Binary Neural Network ( http://arxiv.org/abs/2207.06540v1 )

ライセンス: Link先を確認
Yuzhang Shang, Dan Xu, Bin Duan, Ziliang Zong, Liqiang Nie, Yan Yan(参考訳) ニューラルネットワークの性能は、実精度重みベクトルとその対応する二進ベクトル間の量子化誤差を排除して大きく復元できるという前提に基づいて、既存のネットワーク双項化の研究は、上記の目的を達成するためにしばしばモデルロバストネスの概念を採用する。 しかし、ロバスト性は理論的な支持なしには定義できない概念である。 本稿では、BNNのモデルロバスト性を定義する厳密な基準として、よく定義された機能特性であるリプシッツ連続性を導入する。 次に,モデルロバスト性を改善するための正規化項としてリプシッツ連続性を保持することを提案する。 特に、リプシッツに係わる一般的な正規化法は、その極端な間隔のためにしばしばBNNで崩壊するが、リプシッツ定数の正確な計算(NP-hard)なしでBNNのリプシッツ定数の近似として展開できる対象の重み行列のスペクトルノルムを近似する保持行列を設計する。 実験により,我々のBNN固有の正規化手法は,BNNの堅牢性を効果的に強化し,CIFARとImageNetの最先端性能を実現することができることが示された。

Relying on the premise that the performance of a binary neural network can be largely restored with eliminated quantization error between full-precision weight vectors and their corresponding binary vectors, existing works of network binarization frequently adopt the idea of model robustness to reach the aforementioned objective. However, robustness remains to be an ill-defined concept without solid theoretical support. In this work, we introduce the Lipschitz continuity, a well-defined functional property, as the rigorous criteria to define the model robustness for BNN. We then propose to retain the Lipschitz continuity as a regularization term to improve the model robustness. Particularly, while the popular Lipschitz-involved regularization methods often collapse in BNN due to its extreme sparsity, we design the Retention Matrices to approximate spectral norms of the targeted weight matrices, which can be deployed as the approximation for the Lipschitz constant of BNNs without the exact Lipschitz constant computation (NP-hard). Our experiments prove that our BNN-specific regularization method can effectively strengthen the robustness of BNN (testified on ImageNet-C), achieving state-of-the-art performance on CIFAR and ImageNet.
翻訳日:2022-07-15 13:09:51 公開日:2022-07-13
# robustanalog: マルチタスクrlによる高速変分アウェアアナログ回路設計

RobustAnalog: Fast Variation-Aware Analog Circuit Design Via Multi-task RL ( http://arxiv.org/abs/2207.06412v1 )

ライセンス: Link先を確認
Wei Shi, Hanrui Wang, Jiaqi Gu, Mingjie Liu, David Pan, Song Han, Nan Sun(参考訳) アナログ/混合信号回路設計は、チップ設計プロセス全体で最も複雑で時間のかかる段階の1つである。 様々なプロセス、電圧、温度(pvt)の変化により、アナログ回路は必然的に性能低下に苦しむ。 アナログ回路の設計を典型的な条件下で自動化する作業は数多く行われているが、実および予測不能なシリコン変種の下で堅牢な設計を探索する研究は限られている。 変動に対する自動アナログ設計は、計算の禁止と時間コストを必要とする。 この課題に対処するために、最適化プロセスにおける変動情報を含む堅牢な回路設計フレームワークRobustAnalogを提案する。 具体的には、異なるバリエーションの回路最適化を一連のタスクと見なす。 タスク間の類似性が活用され、競合はサンプル効率のよいマルチタスクトレーニングを実現するために緩和される。 さらに、RobustAnalogは各イテレーションの現在のパフォーマンスに応じてタスク空間を抜粋し、さらなるシミュレーションコストの削減につながる。 このようにして、RobostAnalogは様々な制約(利得、帯域幅、ノイズなど)を満たす一連の回路パラメータを迅速に生成できる。 我々は、RobustAnalogとベイズ最適化、進化的アルゴリズム、Deep Deterministic Policy Gradient (DDPG)を比較し、RobustAnalogが要求される最適化時間を14~30倍に削減できることを実証した。 そこで本研究では, 種々のシリコン条件を扱うための実現可能な方法を提案する。

Analog/mixed-signal circuit design is one of the most complex and time-consuming stages in the whole chip design process. Due to various process, voltage, and temperature (PVT) variations from chip manufacturing, analog circuits inevitably suffer from performance degradation. Although there has been plenty of work on automating analog circuit design under the typical condition, limited research has been done on exploring robust designs under real and unpredictable silicon variations. Automatic analog design against variations requires prohibitive computation and time costs. To address the challenge, we present RobustAnalog, a robust circuit design framework that involves the variation information in the optimization process. Specifically, circuit optimizations under different variations are considered as a set of tasks. Similarities among tasks are leveraged and competitions are alleviated to realize a sample-efficient multi-task training. Moreover, RobustAnalog prunes the task space according to the current performance in each iteration, leading to a further simulation cost reduction. In this way, RobustAnalog can rapidly produce a set of circuit parameters that satisfies diverse constraints (e.g. gain, bandwidth, noise...) across variations. We compare RobustAnalog with Bayesian optimization, Evolutionary algorithm, and Deep Deterministic Policy Gradient (DDPG) and demonstrate that RobustAnalog can significantly reduce required optimization time by 14-30 times. Therefore, our study provides a feasible method to handle various real silicon conditions.
翻訳日:2022-07-15 13:06:35 公開日:2022-07-13
# 心エコー図における生マーカーの深層学習

Deep Learning Discovery of Demographic Biomarkers in Echocardiography ( http://arxiv.org/abs/2207.06421v1 )

ライセンス: Link先を確認
Grant Duffy, Shoa L. Clarke, Matthew Christensen, Bryan He, Neal Yuan, Susan Cheng, and David Ouyang(参考訳) 深層学習は「隠れた」表現型を正確に評価し、従来の臨床医による医療画像の解釈以上の医療画像からバイオマーカーを予測することが示されている。 人工知能(AI)モデルのブラックボックスの性質を考えると、予測タスクが病気と患者人口の人口差によってショートカットされる可能性があるため、医療にモデルを適用する際には注意が必要である。 2つの医療システムから得られた大きな心エコーデータを用いて、深層学習アルゴリズムを用いて、心エコー画像から年齢、人種、性別を予測できるかどうかを検証し、様々な相反変数の影響を評価する。 年齢、性別、人種を予測するために、ビデオベースの畳み込みニューラルネットワークを訓練した。 ディープラーニングモデルは、人種を確実に予測できず、年齢と性別を識別できることがわかった。 カテゴリーの違いを考慮せずに、AIモデルはAUCの性別は0.85(95% CI 0.84 - 0.86)、平均絶対誤差は9.12年(95% CI 9.00 - 9.25)、AUCの人種は0.63 - 0.71と予測した。 レース予測では,学習データ中の共起変数(性)の比率の調整がAUC(0.57~0.84の範囲)に大きく影響し,セックス予測モデルのトレーニングでは,共同設立者(レース)の調整がAUC(0.81~0.83)を大きく変えることはなかった。 これは、aiによって検出される機能を統合することによって、レース予測におけるモデルのパフォーマンスのかなりの割合がもたらされることを示唆している。 さらに、人口統計情報に関連する特定の画像の特徴を特定し、医療AIにおける人口統計学的識別のリスクをよりよく理解するためにも、バイアスや格差が持続する可能性がある。

Deep learning has been shown to accurately assess 'hidden' phenotypes and predict biomarkers from medical imaging beyond traditional clinician interpretation of medical imaging. Given the black box nature of artificial intelligence (AI) models, caution should be exercised in applying models to healthcare as prediction tasks might be short-cut by differences in demographics across disease and patient populations. Using large echocardiography datasets from two healthcare systems, we test whether it is possible to predict age, race, and sex from cardiac ultrasound images using deep learning algorithms and assess the impact of varying confounding variables. We trained video-based convolutional neural networks to predict age, sex, and race. We found that deep learning models were able to identify age and sex, while unable to reliably predict race. Without considering confounding differences between categories, the AI model predicted sex with an AUC of 0.85 (95% CI 0.84 - 0.86), age with a mean absolute error of 9.12 years (95% CI 9.00 - 9.25), and race with AUCs ranging from 0.63 - 0.71. When predicting race, we show that tuning the proportion of a confounding variable (sex) in the training data significantly impacts model AUC (ranging from 0.57 to 0.84), while in training a sex prediction model, tuning a confounder (race) did not substantially change AUC (0.81 - 0.83). This suggests a significant proportion of the model's performance on predicting race could come from confounding features being detected by AI. Further work remains to identify the particular imaging features that associate with demographic information and to better understand the risks of demographic identification in medical AI as it pertains to potentially perpetuating bias and disparities.
翻訳日:2022-07-15 13:06:07 公開日:2022-07-13
# ガウス過程による正確な予測のためのボラティリティに基づくカーネルと移動平均値

Volatility Based Kernels and Moving Average Means for Accurate Forecasting with Gaussian Processes ( http://arxiv.org/abs/2207.06544v1 )

ライセンス: Link先を確認
Gregory Benton, Wesley J. Maddox, Andrew Gordon Wilson(参考訳) 確率的ボラティリティモデルの幅広いクラスは確率微分方程式の系によって定義される。 これらのモデルは、金融学や統計気候学などの領域で広く成功しているが、歴史的データに真の後部分布を作り出す能力がないのが普通である。 この基本的な制限に対処するために、特殊共分散関数を持つ階層型ガウス過程(GP)モデルとして、確率的ボラティリティモデルのクラスを再キャストする方法を示す。 このGPモデルは,確率的ボラティリティモデルの帰納バイアスを保持しつつ,GP推定による後続予測分布を提供する。 このフレームワークでは、よく研究されたドメインからインスピレーションを得て、ストックや風速予測においてベースラインを大幅に上回り、マルチタスク設定に自然に拡張する新しいモデルのVoltとMagpieを導入する。

A broad class of stochastic volatility models are defined by systems of stochastic differential equations. While these models have seen widespread success in domains such as finance and statistical climatology, they typically lack an ability to condition on historical data to produce a true posterior distribution. To address this fundamental limitation, we show how to re-cast a class of stochastic volatility models as a hierarchical Gaussian process (GP) model with specialized covariance functions. This GP model retains the inductive biases of the stochastic volatility model while providing the posterior predictive distribution given by GP inference. Within this framework, we take inspiration from well studied domains to introduce a new class of models, Volt and Magpie, that significantly outperform baselines in stock and wind speed forecasting, and naturally extend to the multitask setting.
翻訳日:2022-07-15 13:02:09 公開日:2022-07-13
# ネットワークシステムのための完全分散モデルに基づくポリシー最適化

Fully Decentralized Model-based Policy Optimization for Networked Systems ( http://arxiv.org/abs/2207.06559v1 )

ライセンス: Link先を確認
Yali Du, Chengdong Ma, Yuchen Liu, Runji Lin, Hao Dong, Jun Wang and Yaodong Yang(参考訳) 強化学習アルゴリズムは大量のサンプルを必要とする。 このような課題はマルチエージェントタスクにおいてより際立ったものであり、各ステップは通信やシフト、リソースを必要とするコストがかかる。 本研究の目的は,モデルベース学習によるマルチエージェント制御のデータ効率の向上である。 エージェントが協力し、隣人とのみローカルに通信するネットワークシステムについて検討し、分散モデルに基づくポリシー最適化フレームワーク(dmpo)を提案する。 提案手法では,各エージェントが将来の状態を予測し,通信によって予測をブロードキャストする動的モデルを学習し,モデルロールアウトに基づいてポリシーをトレーニングする。 モデル生成データのバイアスを軽減するため,モデル生成の複合化誤差を低減し,ミオピックロールアウト生成におけるモデル使用量を抑制する。 政策更新の独立性を示すため、拡張値関数を導入し、結果の政策勾配が真の政策勾配に近いことを理論的に証明する。 本研究では,自律走行制御タスク (Flow and CACC) と適応交通信号制御 (ATSC) を組み合わせた,インテリジェント交通システムのための複数のベンチマークを用いて,本アルゴリズムの評価を行った。 実験の結果,本手法はデータ効率が優れ,真のモデルを用いたモデルフリー手法の性能に匹敵することがわかった。

Reinforcement learning algorithms require a large amount of samples; this often limits their real-world applications on even simple tasks. Such a challenge is more outstanding in multi-agent tasks, as each step of operation is more costly requiring communications or shifting or resources. This work aims to improve data efficiency of multi-agent control by model-based learning. We consider networked systems where agents are cooperative and communicate only locally with their neighbors, and propose the decentralized model-based policy optimization framework (DMPO). In our method, each agent learns a dynamic model to predict future states and broadcast their predictions by communication, and then the policies are trained under the model rollouts. To alleviate the bias of model-generated data, we restrain the model usage for generating myopic rollouts, thus reducing the compounding error of model generation. To pertain the independence of policy update, we introduce extended value function and theoretically prove that the resulting policy gradient is a close approximation to true policy gradients. We evaluate our algorithm on several benchmarks for intelligent transportation systems, which are connected autonomous vehicle control tasks (Flow and CACC) and adaptive traffic signal control (ATSC). Empirically results show that our method achieves superior data efficiency and matches the performance of model-free methods using true models.
翻訳日:2022-07-15 12:36:24 公開日:2022-07-13
# CoSCL:小さな継続的な学習者の協力は大きなものよりも強い

CoSCL: Cooperation of Small Continual Learners is Stronger than a Big One ( http://arxiv.org/abs/2207.06543v1 )

ライセンス: Link先を確認
Liyuan Wang, Xingxing Zhang, Qian Li, Jun Zhu, Yi Zhong(参考訳) 継続的な学習には、一連のタスクとのインクリメンタルな互換性が必要です。 一般に、共有されたパラメータセットですべてのタスクを学習することは、タスク間の深刻な干渉に悩まされる。 本研究では,(1)タスク分布の相違,(2)損失景観の平坦性,(3)パラメータ空間の被覆によって一様上界化できる連続学習における可塑性と記憶安定性の学習における一般化誤差を理論的に解析する。 そこで我々は, 連続学習の一般的な戦略として, 連続的な経験を複数の並列部分で処理する頑健な生物学的学習システム(CoSCL)を提案する。 具体的には,各タスクを並列に学習するために,より狭いサブネットワークを固定したアーキテクチャを提案し,上界の3つのコンポーネントを改善することで,2つのエラーを自然に低減することができる。 この優位性を高めるため、これらのサブネットワークは、特徴表現による予測の違いを罰することにより協力することを奨励する。 一定のパラメータ予算で、cosclは様々な代表的な連続学習アプローチ(例えば、cifar-100-scでは10.64%、cifar-100-rsでは9.33%、cub-200-2011では11.45%、tiny-imagenetでは6.72%)を大きなマージンで改善し、新しい最先端のパフォーマンスを達成することができる。

Continual learning requires incremental compatibility with a sequence of tasks. However, the design of model architecture remains an open question: In general, learning all tasks with a shared set of parameters suffers from severe interference between tasks; while learning each task with a dedicated parameter subspace is limited by scalability. In this work, we theoretically analyze the generalization errors for learning plasticity and memory stability in continual learning, which can be uniformly upper-bounded by (1) discrepancy between task distributions, (2) flatness of loss landscape and (3) cover of parameter space. Then, inspired by the robust biological learning system that processes sequential experiences with multiple parallel compartments, we propose Cooperation of Small Continual Learners (CoSCL) as a general strategy for continual learning. Specifically, we present an architecture with a fixed number of narrower sub-networks to learn all incremental tasks in parallel, which can naturally reduce the two errors through improving the three components of the upper bound. To strengthen this advantage, we encourage to cooperate these sub-networks by penalizing the difference of predictions made by their feature representations. With a fixed parameter budget, CoSCL can improve a variety of representative continual learning approaches by a large margin (e.g., up to 10.64% on CIFAR-100-SC, 9.33% on CIFAR-100-RS, 11.45% on CUB-200-2011 and 6.72% on Tiny-ImageNet) and achieve the new state-of-the-art performance.
翻訳日:2022-07-15 12:30:46 公開日:2022-07-13
# グラフニューラルネットワークバンド

Graph Neural Network Bandits ( http://arxiv.org/abs/2207.06456v1 )

ライセンス: Link先を確認
Parnian Kassraie, Andreas Krause, Ilija Bogunovic(参考訳) グラフ構造データ上で定義された報酬関数を用いた帯域最適化問題を考察する。 この問題は分子設計や薬物発見において重要な応用であり、報酬はグラフ置換に自然に不変である。 この設定における重要な課題は、大きなドメインと多くのノードのグラフへのスケーリングである。 モデルに置換不変性を埋め込むことで、これらの課題を解決する。 特に、グラフニューラルネットワーク(GNN)は、置換不変加法カーネルの再生カーネルヒルベルト空間に存在すると仮定して、報酬関数を推定するために使用できることを示す。 このようなカーネルとグラフニューラルタンジェントカーネル(GNTK)との新たな接続を確立することで、最初のGNN信頼境界を導入し、それをサブ線形後悔を伴う位相除去アルゴリズムの設計に利用する。 我々の後悔の限界は、GNTKの最大情報ゲインに依存します。 報酬関数はすべての$N$ノード機能に依存するが、我々の保証はグラフノード数$N$とは無関係である。 提案手法は,グラフ構造ドメイン上での競合性能とスケール性を示す。

We consider the bandit optimization problem with the reward function defined over graph-structured data. This problem has important applications in molecule design and drug discovery, where the reward is naturally invariant to graph permutations. The key challenges in this setting are scaling to large domains, and to graphs with many nodes. We resolve these challenges by embedding the permutation invariance into our model. In particular, we show that graph neural networks (GNNs) can be used to estimate the reward function, assuming it resides in the Reproducing Kernel Hilbert Space of a permutation-invariant additive kernel. By establishing a novel connection between such kernels and the graph neural tangent kernel (GNTK), we introduce the first GNN confidence bound and use it to design a phased-elimination algorithm with sublinear regret. Our regret bound depends on the GNTK's maximum information gain, which we also provide a bound for. While the reward function depends on all $N$ node features, our guarantees are independent of the number of graph nodes $N$. Empirically, our approach exhibits competitive performance and scales well on graph-structured domains.
翻訳日:2022-07-15 12:13:47 公開日:2022-07-13
# (参考訳) 時系列領域におけるロバスト深部モデルの訓練:新しいアルゴリズムと理論的解析

Training Robust Deep Models for Time-Series Domain: Novel Algorithms and Theoretical Analysis ( http://arxiv.org/abs/2207.04305v2 )

ライセンス: CC BY 4.0
Taha Belkhouja, Yan Yan, Janardhan Rao Doppa(参考訳) モバイル健康のような時系列データよりも現実世界のアプリケーションにディープニューラルネットワーク(DNN)が成功したにもかかわらず、画像やテキストデータに特有の特徴があるため、時系列ドメインのために堅牢なDNNをトレーニングする方法については、ほとんど分かっていない。 本稿では,時系列分類タスクのためのロバストdnnを作成するためのロバストトレーニング(ro-ts)と呼ばれる新しいアルゴリズムフレームワークを提案する。 具体的には、大域的アライメントカーネル(GAK)ベース距離で測定された時系列入力に対する加法摂動の観点から、ロバスト性基準を明示的に推論することにより、モデルパラメータに対するmin-max最適化問題を定式化する。 また,GAKと動的時間ワープ(DTW)を関連づけることで,時系列アライメントの総和構造を用いた定式化の一般化と利点を示す。 この問題は、構成的min-max最適化問題の例であり、理論的な保証が不明な、挑戦的でオープンである。 本稿では,この最適化問題のファミリに対する確率的交互勾配勾配勾配勾配法(SCAGDA)アルゴリズムを提案する。 距離測度の近似計算を必要とする従来の時系列法とは異なり、SCAGDAは移動平均アプローチを用いてGAKに基づく飛行距離を近似する。 我々は,SCAGDAの収束速度を理論的に解析し,GAKに基づく距離推定のための強力な理論的支援を提供する。 実世界のベンチマーク実験により,ro-tsはデータ拡張や損失関数の新しい定義に依存する先行手法を用いた敵訓練と比較して,より頑健なdnnを生成することが示された。 また, ユークリッド距離における時系列データに対するgakの重要性を示す。 RO-TSアルゴリズムのソースコードはhttps://github.com/tahabelkhouja/Robust-Training-for-Time-Seriesで公開されている。

Despite the success of deep neural networks (DNNs) for real-world applications over time-series data such as mobile health, little is known about how to train robust DNNs for time-series domain due to its unique characteristics compared to images and text data. In this paper, we propose a novel algorithmic framework referred as RObust Training for Time-Series (RO-TS) to create robust DNNs for time-series classification tasks. Specifically, we formulate a min-max optimization problem over the model parameters by explicitly reasoning about the robustness criteria in terms of additive perturbations to time-series inputs measured by the global alignment kernel (GAK) based distance. We also show the generality and advantages of our formulation using the summation structure over time-series alignments by relating both GAK and dynamic time warping (DTW). This problem is an instance of a family of compositional min-max optimization problems, which are challenging and open with unclear theoretical guarantee. We propose a principled stochastic compositional alternating gradient descent ascent (SCAGDA) algorithm for this family of optimization problems. Unlike traditional methods for time-series that require approximate computation of distance measures, SCAGDA approximates the GAK based distance on-the-fly using a moving average approach. We theoretically analyze the convergence rate of SCAGDA and provide strong theoretical support for the estimation of GAK based distance. Our experiments on real-world benchmarks demonstrate that RO-TS creates more robust DNNs when compared to adversarial training using prior methods that rely on data augmentation or new definitions of loss functions. We also demonstrate the importance of GAK for time-series data over the Euclidean distance. The source code of RO-TS algorithms is available at https://github.com/tahabelkhouja/Robust-Training-for-Time-Series
翻訳日:2022-07-15 08:31:06 公開日:2022-07-13
# (参考訳) 証明可能な保証を持つ多モデルフェデレーション学習

Multi-Model Federated Learning with Provable Guarantees ( http://arxiv.org/abs/2207.04330v3 )

ライセンス: CC BY 4.0
Neelkamal Bhuyan, Sharayu Moharir, Gauri Joshi(参考訳) Federated Learning(FL)は、エッジデバイスが中央サーバや互いにデータを共有せずにモデルを学習する分散学習の亜種である。 クライアントの共通プールをマルチモデルFLとするフェデレーション設定において,複数の独立モデルを同時に訓練するプロセスについて述べる。 本研究では,多モデルflのための一般的なfedavgアルゴリズムの2つの変種を提案する。 さらに,同じ計算量において,マルチモデルflは,各モデルを個別にトレーニングするよりも優れた性能が得られることを示す。 我々は, 強凸, 凸, 非凸の設定実験により, 理論結果を補足する。

Federated Learning (FL) is a variant of distributed learning where edge devices collaborate to learn a model without sharing their data with the central server or each other. We refer to the process of training multiple independent models simultaneously in a federated setting using a common pool of clients as multi-model FL. In this work, we propose two variants of the popular FedAvg algorithm for multi-model FL, with provable convergence guarantees. We further show that for the same amount of computation, multi-model FL can have better performance than training each model separately. We supplement our theoretical results with experiments in strongly convex, convex, and non-convex settings.
翻訳日:2022-07-15 08:02:26 公開日:2022-07-13
# (参考訳) トルコ談話銀行1.2の記載とトルコ談話における共通依存関係の検討

A description of Turkish Discourse Bank 1.2 and an examination of common dependencies in Turkish discourse ( http://arxiv.org/abs/2207.05008v2 )

ライセンス: CC BY 4.0
Deniz Zeyrek, Mustafa Erolcan Er(参考訳) 本稿では, トルコの談話銀行1.2について述べる。これは, 明示的あるいは暗黙的に伝えられる談話関係, 構成単位, ペン・談話ツリーバンク様式の感覚を注釈した談話コーパスの最新バージョンである。 本稿では,最近追加されたトークンの評価を行い,隣接する1対の談話関係の構成単位,すなわち共通議論,完全埋め込み,談話関係の部分的包摂の3つの依存関係パターンについて検討する。 主な発見は3つあります a) 暗黙的に伝達される関係は,データ内の明示的に伝達された関係よりも頻繁に発生する。 (b)隣り合う2つの暗黙の言論関係が、隣り合う2つの明示的な関係よりも議論を共有することが一般的である。 (c) 談話関係の完全な埋め込み及び部分的包摂は、コーパス内に広まっており、従属節が単独で選択されるのではなく、行列節と共に選択される傾向にある従属接続体によるものである。 最後に,トルコ語の談話解析における発見の意義について概説する。

We describe Turkish Discourse Bank 1.2, the latest version of a discourse corpus annotated for explicitly or implicitly conveyed discourse relations, their constitutive units, and senses in the Penn Discourse Treebank style. We present an evaluation of the recently added tokens and examine three commonly occurring dependency patterns that hold among the constitutive units of a pair of adjacent discourse relations, namely, shared arguments, full embedding and partial containment of a discourse relation. We present three major findings: (a) implicitly conveyed relations occur more often than explicitly conveyed relations in the data; (b) it is much more common for two adjacent implicit discourse relations to share an argument than for two adjacent explicit relations to do so; (c) both full embedding and partial containment of discourse relations are pervasive in the corpus, which can be partly due to subordinator connectives whose preposed subordinate clause tends to be selected together with the matrix clause rather than being selected alone. Finally, we briefly discuss the implications of our findings for Turkish discourse parsing.
翻訳日:2022-07-15 07:43:04 公開日:2022-07-13
# (参考訳) 適応時空間サンプリングを用いた人間の視覚誘発行動認識

Efficient Human Vision Inspired Action Recognition using Adaptive Spatiotemporal Sampling ( http://arxiv.org/abs/2207.05249v2 )

ライセンス: CC BY 4.0
Khoi-Nguyen C. Mac, Minh N. Do, Minh P. Vo(参考訳) ビデオの時空間的冗長性を利用する適応サンプリングは、コンピューティングとバッテリーリソースの制限のあるウェアラブルデバイスにおける常時オンアクション認識に不可欠である。 一般的に使われる固定サンプリング戦略は文脈認識ではなく、視覚コンテンツを過小評価する可能性があるため、計算効率と精度の両方に悪影響を及ぼす。 本稿では,人間の視覚知覚機構からのフォビア視覚の概念と事前接触処理に着想を得て,効率的な行動認識のための適応時空間サンプリングスキームを提案する。 本システムでは,グローバルシーンのコンテキストを低解像度で事前にスキャンし,高精細な領域で高精細度機能をスキップしたり要求したりする。 動作認識のためのEPIC-KITCHENSおよびUCF-101データセット上でのシステム検証を行い,提案手法により,最先端のベースラインに比べて精度の低下が許容できることを示す。

Adaptive sampling that exploits the spatiotemporal redundancy in videos is critical for always-on action recognition on wearable devices with limited computing and battery resources. The commonly used fixed sampling strategy is not context-aware and may under-sample the visual content, and thus adversely impacts both computation efficiency and accuracy. Inspired by the concepts of foveal vision and pre-attentive processing from the human visual perception mechanism, we introduce a novel adaptive spatiotemporal sampling scheme for efficient action recognition. Our system pre-scans the global scene context at low-resolution and decides to skip or request high-resolution features at salient regions for further processing. We validate the system on EPIC-KITCHENS and UCF-101 datasets for action recognition, and show that our proposed approach can greatly speed up inference with a tolerable loss of accuracy compared with those from state-of-the-art baselines.
翻訳日:2022-07-15 07:30:12 公開日:2022-07-13
# (参考訳) Next-ViT: 産業シナリオにおける効率的な展開のための次世代ビジョントランス

Next-ViT: Next Generation Vision Transformer for Efficient Deployment in Realistic Industrial Scenarios ( http://arxiv.org/abs/2207.05501v2 )

ライセンス: CC BY 4.0
Jiashi Li, Xin Xia, Wei Li, Huixia Li, Xing Wang, Xuefeng Xiao, Rui Wang, Min Zheng, Xin Pan(参考訳) 複雑な注意機構とモデル設計のため、既存のビジョントランスフォーマー(vits)のほとんどは、tensorrtやcoremlなど、現実的な産業展開シナリオにおいて畳み込みニューラルネットワーク(cnns)ほど効率的に動作できない。 ビジュアルニューラルネットワークは、CNNと同じくらい高速に推論し、ViTと同じくらい強力に動作するように設計できますか? 最近の研究は、この問題に対処するためにCNN-Transformerハイブリッドアーキテクチャを設計しようと試みているが、これらの作業全体の性能は満足には程遠い。 そこで本研究では,遅延/精度トレードオフの観点からCNNとViTの両方を支配するNext-ViTという,現実的な産業シナリオにおける効率的なデプロイメントを実現する次世代ビジョントランスフォーマを提案する。 この作業では、Next Convolution Block (NCB) とNext Transformer Block (NTB) がそれぞれ開発され、ローカル情報とグローバル情報をデプロイに適したメカニズムでキャプチャする。 次に、Next Hybrid Strategy (NHS) は、様々な下流タスクのパフォーマンスを向上させる効率的なハイブリッドパラダイムとして、CBとNTBをスタックするように設計されている。 大規模な実験によると、Next-ViTは、様々なビジョンタスク間のレイテンシ/精度のトレードオフに関して、既存のCNN、ViT、CNN-Transformerハイブリッドアーキテクチャよりも大幅に優れている。 TensorRTでは、Next-ViTがResNetを5.4mAP(COCO検出では40.4から45.8)、ADE20Kセグメントでは8.2%mIoU(38.8%から47.0%)で上回っている。 一方、CSWinと同等の性能を達成し、推論速度は3.6倍に加速する。 CoreMLでは、Next-ViTがEfficientFormerを4.6mAP(42.6から47.2)でCOCO検出、ADE20Kセグメンテーションで3.5%mIoU(45.2%から48.7%)で上回っている。 コードは、最近リリースされる。

Due to the complex attention mechanisms and model design, most existing vision Transformers (ViTs) can not perform as efficiently as convolutional neural networks (CNNs) in realistic industrial deployment scenarios, e.g. TensorRT and CoreML. This poses a distinct challenge: Can a visual neural network be designed to infer as fast as CNNs and perform as powerful as ViTs? Recent works have tried to design CNN-Transformer hybrid architectures to address this issue, yet the overall performance of these works is far away from satisfactory. To end these, we propose a next generation vision Transformer for efficient deployment in realistic industrial scenarios, namely Next-ViT, which dominates both CNNs and ViTs from the perspective of latency/accuracy trade-off. In this work, the Next Convolution Block (NCB) and Next Transformer Block (NTB) are respectively developed to capture local and global information with deployment-friendly mechanisms. Then, Next Hybrid Strategy (NHS) is designed to stack NCB and NTB in an efficient hybrid paradigm, which boosts performance in various downstream tasks. Extensive experiments show that Next-ViT significantly outperforms existing CNNs, ViTs and CNN-Transformer hybrid architectures with respect to the latency/accuracy trade-off across various vision tasks. On TensorRT, Next-ViT surpasses ResNet by 5.4 mAP (from 40.4 to 45.8) on COCO detection and 8.2% mIoU (from 38.8% to 47.0%) on ADE20K segmentation under similar latency. Meanwhile, it achieves comparable performance with CSWin, while the inference speed is accelerated by 3.6x. On CoreML, Next-ViT surpasses EfficientFormer by 4.6 mAP (from 42.6 to 47.2) on COCO detection and 3.5% mIoU (from 45.2% to 48.7%) on ADE20K segmentation under similar latency. Code will be released recently.
翻訳日:2022-07-15 07:09:18 公開日:2022-07-13
# (参考訳) D-CBRS:継続的学習におけるクラス内多様性の会計

D-CBRS: Accounting For Intra-Class Diversity in Continual Learning ( http://arxiv.org/abs/2207.05897v1 )

ライセンス: CC BY 4.0
Yasin Findik and Farhad Pourkamali-Anaraki(参考訳) 継続的学習 -- 一連の学習経験から知識を蓄積する -- は、重要だが挑戦的な問題である。 このパラダイムでは、以前遭遇したインスタンスに対するモデルのパフォーマンスは、追加のデータが見えると大幅に低下する可能性がある。 クラス不均衡なデータを扱う場合、忘れることはさらに悪化する。 以前の作業では、将来のリプレイ用にインスタンスをインテリジェントに格納することで、忘れを減らすことを目的としたリプレイベースのアプローチが提案されていた。 CBRS(Class-Balancing Reservoir Sampling)は、不均衡なデータを扱うことに成功しているが、クラス内の多様性は、クラスの各インスタンスが等しく情報的であることを暗黙的に仮定して説明されていない。 D-CBRS(Diverse-CBRS)は,メモリにインスタンスを格納する際,クラス内の多様性を考慮できるアルゴリズムである。 以上の結果から,D-CBRSはクラス内多様性の高いデータセット上で,最先端のメモリ管理継続学習アルゴリズムよりも優れていた。

Continual learning -- accumulating knowledge from a sequence of learning experiences -- is an important yet challenging problem. In this paradigm, the model's performance for previously encountered instances may substantially drop as additional data are seen. When dealing with class-imbalanced data, forgetting is further exacerbated. Prior work has proposed replay-based approaches which aim at reducing forgetting by intelligently storing instances for future replay. Although Class-Balancing Reservoir Sampling (CBRS) has been successful in dealing with imbalanced data, the intra-class diversity has not been accounted for, implicitly assuming that each instance of a class is equally informative. We present Diverse-CBRS (D-CBRS), an algorithm that allows us to consider within class diversity when storing instances in the memory. Our results show that D-CBRS outperforms state-of-the-art memory management continual learning algorithms on data sets with considerable intra-class diversity.
翻訳日:2022-07-15 03:52:01 公開日:2022-07-13
# (参考訳) 計算グラフのニューラルトポロジカル順序付け

Neural Topological Ordering for Computation Graphs ( http://arxiv.org/abs/2207.05899v1 )

ライセンス: CC BY 4.0
Mukul Gagrani, Corrado Rainone, Yang Yang, Harris Teague, Wonseok Jeon, Herke Van Hoof, Weiliang Will Zeng, Piero Zappi, Christopher Lott, Roberto Bondesan(参考訳) 組合せ最適化のための機械学習に関する最近の研究は、学習に基づくアプローチが、速度とパフォーマンスの点でヒューリスティックな手法を上回ることを示している。 本稿では,コンパイラで発生するメモリ最小化問題に着目し,有向非巡回グラフ上の最適位相順序を求める問題について考察する。 エンコーダ-デコーダフレームワークを用いたトポロジ的順序付けのためのエンドツーエンドの機械学習に基づくアプローチを提案する。 我々のエンコーダは、メッセージパッシングにDAGの異なるトポロジ変換を使用する、'emph{Topoformer}と呼ばれる新しい注目ベースのグラフニューラルネットワークアーキテクチャである。 エンコーダが生成するノード埋め込みは、デコーダがトポロジカルオーダー上の確率分布を生成するために使用するノードプライオリティに変換される。 我々は、階層グラフと呼ばれる合成グラフのデータセットに基づいてモデルを訓練する。 このモデルでは,最大2kノードの合成グラフにおいて,いくつかのトポロジ的順序付けベースラインで,より高速に動作可能であることを示す。 また、実世界の計算グラフでモデルをトレーニングし、テストし、性能改善を示します。

Recent works on machine learning for combinatorial optimization have shown that learning based approaches can outperform heuristic methods in terms of speed and performance. In this paper, we consider the problem of finding an optimal topological order on a directed acyclic graph with focus on the memory minimization problem which arises in compilers. We propose an end-to-end machine learning based approach for topological ordering using an encoder-decoder framework. Our encoder is a novel attention based graph neural network architecture called \emph{Topoformer} which uses different topological transforms of a DAG for message passing. The node embeddings produced by the encoder are converted into node priorities which are used by the decoder to generate a probability distribution over topological orders. We train our model on a dataset of synthetically generated graphs called layered graphs. We show that our model outperforms, or is on-par, with several topological ordering baselines while being significantly faster on synthetic graphs with up to 2k nodes. We also train and test our model on a set of real-world computation graphs, showing performance improvements.
翻訳日:2022-07-15 03:44:19 公開日:2022-07-13
# (参考訳) 深層学習における運動量による一般化の理解に向けて

Towards understanding how momentum improves generalization in deep learning ( http://arxiv.org/abs/2207.05931v1 )

ライセンス: CC BY 4.0
Samy Jelassi, Yuanzhi Li(参考訳) モーメントを伴う確率勾配降下(SGD)は、現代のディープラーニングアーキテクチャの訓練に広く用いられている。 運動量の使用は様々な設定においてより高速な収束率をもたらすとよく理解されているが、運動量がより高い一般化をもたらすことも観察されている。 以前の研究は、運動量は訓練中にSGDノイズを安定化させ、これがより高い一般化をもたらすと主張している。 本稿では,別の視点を取り入れ,第一に,運動量を持つ勾配降下 (gd+m) が,深層学習問題における勾配降下 (gd) よりも一般化を著しく改善することを示す。 この観察から、モーメントが一般化をどのように改善するかを正式に研究する。 我々は,gd+mで学習した1階層の畳み込みニューラルネットワークが,gdで訓練された同じネットワークよりも一般化し,両者のアルゴリズムが同様に初期化されている場合の2値分類設定を考案する。 私たちの分析における重要な洞察は、サンプルがいくつかの特徴を共有しながらマージンが異なるデータセットでは、モーメントが有益であるということです。 小さいマージンデータを記憶しているgdとは対照的に、gd+mはその歴史的な勾配のおかげで、これらのデータの特徴を学んでいる。 最後に,理論的知見を実証的に検証した。

Stochastic gradient descent (SGD) with momentum is widely used for training modern deep learning architectures. While it is well-understood that using momentum can lead to faster convergence rate in various settings, it has also been observed that momentum yields higher generalization. Prior work argue that momentum stabilizes the SGD noise during training and this leads to higher generalization. In this paper, we adopt another perspective and first empirically show that gradient descent with momentum (GD+M) significantly improves generalization compared to gradient descent (GD) in some deep learning problems. From this observation, we formally study how momentum improves generalization. We devise a binary classification setting where a one-hidden layer (over-parameterized) convolutional neural network trained with GD+M provably generalizes better than the same network trained with GD, when both algorithms are similarly initialized. The key insight in our analysis is that momentum is beneficial in datasets where the examples share some feature but differ in their margin. Contrary to GD that memorizes the small margin data, GD+M still learns the feature in these data thanks to its historical gradients. Lastly, we empirically validate our theoretical findings.
翻訳日:2022-07-15 03:21:43 公開日:2022-07-13
# (参考訳) Game of Trojans: サブモジュールのビザンチンアプローチ

Game of Trojans: A Submodular Byzantine Approach ( http://arxiv.org/abs/2207.05937v1 )

ライセンス: CC BY 4.0
Dinuka Sahabandu, Arezoo Rajabi, Luyao Niu, Bo Li, Bhaskar Ramasubramanian, Radha Poovendran(参考訳) 野生の機械学習モデルは、トレーニング中にトロイの木馬攻撃に弱いことが示されている。 多くの検出機構が提案されているが、強い適応攻撃はそれらに対して有効であることが示されている。 本稿では,知的かつ適応的な相手を考慮した質問に答えることを目的とする。 (i)強力な攻撃者によってトロイの木馬に要求される最小のインスタンス量は? そして (ii)そのような攻撃者が強い検知機構をバイパスすることは可能か? このようなモデルで発生する敵と検出メカニズム間の敵の能力と戦略的相互作用の分析的特徴を提供する。 我々は、トロイの木馬トリガーで埋め込むことができる入力データセットの分数の観点から、敵の能力を特徴づける。 損失関数は部分モジュラ構造を持ち、最適性の証明可能な境界でこの分数を決定する計算効率の良いアルゴリズムの設計につながることを示す。 トロイの木馬トリガーを注入するサンプルの最小割合を決定するためのサブモジュララートロイの木馬アルゴリズムを提案する。 トロイの木馬モデルの検出を避けるため,対戦相手とトロイの木馬検出機構間の戦略的相互作用を2人プレイゲームとしてモデル化する。 対戦相手が確率1でゲームに勝つことを示し、検出をバイパスする。 我々は、Min-Max(MM)トロイの木馬アルゴリズムに従えば、トロイの木馬モデルとクリーンモデルの出力確率分布が同一であることを証明する。 我々は、MNIST、CIFAR-10、EuroSATデータセット上でアルゴリズムの広範な評価を行う。 その結果は (i)サブモジュラートロイの木馬アルゴリズムでは、トロイの木馬のトリガーをごくわずかなサンプルに埋め込んで、トロイの木馬とクリーンなサンプルの両方で高い精度を達成する必要がある。 (ii)MMトロイの木馬アルゴリズムは,確率1で検出を回避する訓練されたトロイの木馬モデルを生成する。

Machine learning models in the wild have been shown to be vulnerable to Trojan attacks during training. Although many detection mechanisms have been proposed, strong adaptive attackers have been shown to be effective against them. In this paper, we aim to answer the questions considering an intelligent and adaptive adversary: (i) What is the minimal amount of instances required to be Trojaned by a strong attacker? and (ii) Is it possible for such an attacker to bypass strong detection mechanisms? We provide an analytical characterization of adversarial capability and strategic interactions between the adversary and detection mechanism that take place in such models. We characterize adversary capability in terms of the fraction of the input dataset that can be embedded with a Trojan trigger. We show that the loss function has a submodular structure, which leads to the design of computationally efficient algorithms to determine this fraction with provable bounds on optimality. We propose a Submodular Trojan algorithm to determine the minimal fraction of samples to inject a Trojan trigger. To evade detection of the Trojaned model, we model strategic interactions between the adversary and Trojan detection mechanism as a two-player game. We show that the adversary wins the game with probability one, thus bypassing detection. We establish this by proving that output probability distributions of a Trojan model and a clean model are identical when following the Min-Max (MM) Trojan algorithm. We perform extensive evaluations of our algorithms on MNIST, CIFAR-10, and EuroSAT datasets. The results show that (i) with Submodular Trojan algorithm, the adversary needs to embed a Trojan trigger into a very small fraction of samples to achieve high accuracy on both Trojan and clean samples, and (ii) the MM Trojan algorithm yields a trained Trojan model that evades detection with probability 1.
翻訳日:2022-07-15 03:19:47 公開日:2022-07-13
# (参考訳) テキスト要約のための汎用文脈化書き直しフレームワーク

A General Contextualized Rewriting Framework for Text Summarization ( http://arxiv.org/abs/2207.05948v1 )

ライセンス: CC BY 4.0
Guangsheng Bao and Yue Zhang(参考訳) テキスト要約のための書き換え方法は、抽出的および抽象的アプローチを結合し、抽象的モデルを用いて抽出的要約の簡潔性と可読性を向上させる。 退出書き換えシステムは、抽出文を、比較的焦点が絞られているが、必要な背景知識や談話コンテキストを失う可能性がある唯一の入力として捉えている。 本稿では,文書全体をコンシュームし,要約コンテキストを検討するコンテキスト化書き換えについて検討する。 グループタグアライメントによる文脈的書き換えをSeq2seqとして形式化し、アライメントをモデル化するためのソリューションとしてグループタグを導入し、コンテンツベースのアドレッシングを通じて抽出文を識別する。 その結果,本手法は強化学習を必要とせず,非文脈的リライトシステムを大きく上回り,複数の抽出器におけるルージュスコアの大幅な改善を実現した。

The rewriting method for text summarization combines extractive and abstractive approaches, improving the conciseness and readability of extractive summaries using an abstractive model. Exiting rewriting systems take each extractive sentence as the only input, which is relatively focused but can lose necessary background knowledge and discourse context. In this paper, we investigate contextualized rewriting, which consumes the entire document and considers the summary context. We formalize contextualized rewriting as a seq2seq with group-tag alignments, introducing group-tag as a solution to model the alignments, identifying extractive sentences through content-based addressing. Results show that our approach significantly outperforms non-contextualized rewriting systems without requiring reinforcement learning, achieving strong improvements on ROUGE scores upon multiple extractors.
翻訳日:2022-07-15 02:54:36 公開日:2022-07-13
# (参考訳) 項目グラフ分割による効率的かつスケーラブルなレコメンデーション

Efficient and Scalable Recommendation via Item-Item Graph Partitioning ( http://arxiv.org/abs/2207.05959v1 )

ライセンス: CC BY-SA 4.0
Tianjun Wei, Jianghong Ma, Tommy W. S. Chow(参考訳) コラボレーティブフィルタリング(cf)はレコメンダシステムにおいて広く研究されている問題である。 リニアオートエンコーダ(linear autoencoder)はcfの確立された手法の一種であり、ユーザとアイテムの相互作用をエンコードすることでアイテム間関係を推定する。 リニアオートエンコーダの優れた性能にもかかわらず、アイテム数の増加による計算コストとストレージコストの急増は、大規模な実世界のシナリオにおけるスカラリティを制限している。 近年、グラフベースのアプローチは高いスケーラビリティでcfで成功し、ユーザ・テーマインタラクションモデリングにおいてリニアオートエンコーダと共通点があることが示されている。 そこで本研究では,線形オートエンコーダの限界に対処するため,アイテム-イットグラフ分割(ERGP)による効率的かつスケーラブルなレコメンデーションを提案する。 特に、アイテム集合を有限サイズのいくつかの分割に分割するために再帰グラフ分割戦略が提案されている。 線形オートエンコーダは、アイテムセット全体にわたってグローバル情報を保持しながら、パーティション内のユーザ-イテムインタラクションをエンコードする。 これにより、ERGPはアイテム数が増えると効率性と高いスケーラビリティを保証できる。 3つの公開データセットと3つのオープンベンチマークデータセットで実施された実験は、ERGPの有効性を示している。

Collaborative filtering (CF) is a widely searched problem in recommender systems. Linear autoencoder is a kind of well-established method for CF, which estimates item-item relations through encoding user-item interactions. Despite the excellent performance of linear autoencoders, the rapidly increasing computational and storage costs caused by the growing number of items limit their scalabilities in large-scale real-world scenarios. Recently, graph-based approaches have achieved success on CF with high scalability, and have been shown to have commonalities with linear autoencoders in user-item interaction modeling. Motivated by this, we propose an efficient and scalable recommendation via item-item graph partitioning (ERGP), aiming to address the limitations of linear autoencoders. In particular, a recursive graph partitioning strategy is proposed to ensure that the item set is divided into several partitions of finite size. Linear autoencoders encode user-item interactions within partitions while preserving global information across the entire item set. This allows ERGP to have guaranteed efficiency and high scalability when the number of items increases. Experiments conducted on 3 public datasets and 3 open benchmarking datasets demonstrate the effectiveness of ERGP, which outperforms state-of-the-art models with lower training time and storage costs.
翻訳日:2022-07-15 02:26:51 公開日:2022-07-13
# (参考訳) 主観的設計による組合せ最適化のための教師なし学習

Unsupervised Learning for Combinatorial Optimization with Principled Objective Design ( http://arxiv.org/abs/2207.05984v1 )

ライセンス: CC BY 4.0
Haoyu Wang, Nan Wu, Hang Yang, Cong Hao, Pan Li(参考訳) 組合せ最適化(co)問題を解決するために機械学習を使うことは、特にデータがラベルされていない場合、難しい。 本研究は,CO問題に対する教師なし学習フレームワークを提案する。 私たちのフレームワークは、標準的な緩和プラスラウンドアプローチに従っており、緩和されたソリューションをパラメータ化するためにニューラルネットワークを採用しています。 我々の重要な貢献は、緩和された目的がエントリーワイドな凹凸を満たすならば、低い最適化損失は最終積分解の品質を保証するという観察である。 この観察は、erdosの確率的手法に触発された以前のフレームワークの適用可能性を大きく広げる。 特に、この観察は、事前にモデル化する必要がある間、目的が明示的に与えられていないアプリケーションにおける客観的モデルの設計を導くことができる。 我々は,回路設計における資源配分と近似計算を含む2つの実世界の応用を,合成グラフ最適化問題の解法により評価する。 我々のフレームワークは,na\"{i}ve緩和,強化学習,Gumbel-softmaxトリックに基づくベースラインよりも優れています。

Using machine learning to solve combinatorial optimization (CO) problems is challenging, especially when the data is unlabeled. This work proposes an unsupervised learning framework for CO problems. Our framework follows a standard relaxation-plus-rounding approach and adopts neural networks to parameterize the relaxed solutions so that simple back-propagation can train the model end-to-end. Our key contribution is the observation that if the relaxed objective satisfies entry-wise concavity, a low optimization loss guarantees the quality of the final integral solutions. This observation significantly broadens the applicability of the previous framework inspired by Erdos' probabilistic method. In particular, this observation can guide the design of objective models in applications where the objectives are not given explicitly while requiring being modeled in prior. We evaluate our framework by solving a synthetic graph optimization problem, and two real-world applications including resource allocation in circuit design and approximate computing. Our framework largely outperforms the baselines based on na\"{i}ve relaxation, reinforcement learning, and Gumbel-softmax tricks.
翻訳日:2022-07-15 02:04:00 公開日:2022-07-13
# (参考訳) Brick Tic-Tac-Toe:AlphaZeroの新たな試験環境への一般化可能性を探る

Brick Tic-Tac-Toe: Exploring the Generalizability of AlphaZero to Novel Test Environments ( http://arxiv.org/abs/2207.05991v1 )

ライセンス: CC BY 4.0
John Tan Chong Min, Mehul Motani(参考訳) 従来の強化学習(RL)環境は通常、トレーニングとテストの両方のフェーズで同じです。 したがって、現在のRL法は、概念的には似ているが、その方法が訓練されたものとは異なっているテスト環境に対して、ほとんど一般化できない。 新たなテスト環境に一般化できるアルゴリズムに向けてRL研究を推し進めるため,テスト環境におけるレンガの位置がトレーニング環境と異なるBrick Tic-Tac-Toe(BTTT)テストベッドを紹介した。 bttt環境でのラウンドロビントーナメントを用いて、モンテカルロ木探索(mcts)やミニマックスのような伝統的なrl状態探索アプローチがalphazeroよりも新しいテスト環境に一般化可能であることを示す。 alphazeroは、go、チェス、shogiなどの環境で超人的なパフォーマンスを実現することが示されており、新しいテスト環境ではうまく機能すると考えることができるため、これは驚くべきことです。 以上の結果から,BTTTは単純ではあるがAlphaZeroの一般化可能性を探るには十分であることがわかった。 MCTSのルックアヘッドイテレーションの増加はAlphaZeroが新しいテスト環境に一般化するには不十分であることがわかった。 むしろ、さまざまなトレーニング環境の増加は、可能なすべての起動ブロック構成の一般化性を徐々に改善するのに役立つ。

Traditional reinforcement learning (RL) environments typically are the same for both the training and testing phases. Hence, current RL methods are largely not generalizable to a test environment which is conceptually similar but different from what the method has been trained on, which we term the novel test environment. As an effort to push RL research towards algorithms which can generalize to novel test environments, we introduce the Brick Tic-Tac-Toe (BTTT) test bed, where the brick position in the test environment is different from that in the training environment. Using a round-robin tournament on the BTTT environment, we show that traditional RL state-search approaches such as Monte Carlo Tree Search (MCTS) and Minimax are more generalizable to novel test environments than AlphaZero is. This is surprising because AlphaZero has been shown to achieve superhuman performance in environments such as Go, Chess and Shogi, which may lead one to think that it performs well in novel test environments. Our results show that BTTT, though simple, is rich enough to explore the generalizability of AlphaZero. We find that merely increasing MCTS lookahead iterations was insufficient for AlphaZero to generalize to some novel test environments. Rather, increasing the variety of training environments helps to progressively improve generalizability across all possible starting brick configurations.
翻訳日:2022-07-15 01:24:31 公開日:2022-07-13
# (参考訳) 知識グラフ埋め込み解析のためのDLCCノード分類ベンチマーク

The DLCC Node Classification Benchmark for Analyzing Knowledge Graph Embeddings ( http://arxiv.org/abs/2207.06014v1 )

ライセンス: CC BY 4.0
Jan Portisch and Heiko Paulheim(参考訳) 知識グラフ埋め込みは、知識グラフの実体と関係を連続ベクトル空間に投影する表現学習手法である。 埋め込みは、多くの注目を集め、リンク予測やその他の下流予測タスクによく使われてきた。 ほとんどのアプローチは、全体的なパフォーマンスを決定するために、1つのタスクまたは1つのタスクのグループで評価されます。 評価は、手前のタスクにおいて、埋め込みアプローチがどれだけうまく機能するかで評価される。 それでも、埋め込みアプローチが実際に表現するために学習している情報はほとんど評価されない(そしてしばしば深くは理解されていない)。 このギャップを埋めるために、DLCC(Description Logic Class Constructors)ベンチマークを提示する。 2つのゴールド標準が提示され、1つは実世界の知識グラフdbpediaと1つの合成ゴールド標準に基づいている。 また、研究者が金本位制を直接使用できるように実験プロトコルを実装した評価フレームワークが提供される。 DLCCの使用を実証するために,金標準を用いた複数の埋め込み手法を比較した。 dbpediaのdlコンストラクタの多くは、金本位制で定義されたものとは異なる相関パターンを認識して実際に学習されており、濃度制約のような特定のdlコンストラクタは、ほとんどの埋め込みアプローチで特に習得が困難である。

Knowledge graph embedding is a representation learning technique that projects entities and relations in a knowledge graph to continuous vector spaces. Embeddings have gained a lot of uptake and have been heavily used in link prediction and other downstream prediction tasks. Most approaches are evaluated on a single task or a single group of tasks to determine their overall performance. The evaluation is then assessed in terms of how well the embedding approach performs on the task at hand. Still, it is hardly evaluated (and often not even deeply understood) what information the embedding approaches are actually learning to represent. To fill this gap, we present the DLCC (Description Logic Class Constructors) benchmark, a resource to analyze embedding approaches in terms of which kinds of classes they can represent. Two gold standards are presented, one based on the real-world knowledge graph DBpedia and one synthetic gold standard. In addition, an evaluation framework is provided that implements an experiment protocol so that researchers can directly use the gold standard. To demonstrate the use of DLCC, we compare multiple embedding approaches using the gold standards. We find that many DL constructors on DBpedia are actually learned by recognizing different correlated patterns than those defined in the gold standard and that specific DL constructors, such as cardinality constraints, are particularly hard to be learned for most embedding approaches.
翻訳日:2022-07-15 01:05:48 公開日:2022-07-13
# (参考訳) URANUS:無人航空機の周波数追跡・分類・識別

URANUS: Radio Frequency Tracking, Classification and Identification of Unmanned Aircraft Vehicles ( http://arxiv.org/abs/2207.06025v1 )

ライセンス: CC BY 4.0
Domenico Lof\`u, Pietro Tedeschi, Tommaso Di Noia and Eugenio Di Sciascio(参考訳) 攻撃者が空港や軍事基地、都市中心部、混雑した場所など、繊細な空域を飛行する攻撃ベクトルとしてドローンを採用するようになり、重要なインフラ(ci)の安全性とセキュリティの問題が高まっている。 商品、輸送レクリエーション活動、その他の商業用途のためのドローンの急速な普及は、制限された空域の侵犯と侵略のためにciオペレーターに深刻な懸念を抱かせる。 このようなケースにおけるドローンの存在を検出し、分類し、識別するために、コスト効率のよいフレームワークが必要である。 本稿では, 高速かつ効率的なドローン(マルチコプター, 固定翼)の進入不能ゾーンの検出, 分類, 同定を, URANUS という名称の安価なRFベース検出フレームワークを用いて行うことを実証する。 実験の結果,ランダム林分分類器を用いて1機または複数機のドローンの分類精度93.4%を達成した。 追跡性能は平均MAE=0.3650、MSE=0.9254、R2 = 0.7502の精度が得られる。 我々のフレームワークはオープンソースとしてリリースされ、コミュニティが我々の発見を検証し、さらなる分析のためにURANUSを利用可能な基盤として利用できるようにする。

Safety and security issues for Critical Infrastructures (CI) are growing as attackers increasingly adopt drones as an attack vector flying in sensitive airspace, such as airports, military bases, city centres, and crowded places. The rapid proliferation of drones for merchandise, shipping recreations activities, and other commercial applications poses severe concerns on the CI operators due to the violations and the invasions of the restricted airspaces. A cost-effective framework is needed to detect, classify and identify the presence of drones in such cases. In this paper, we demonstrate that CI operators can detect, classify and identify timely and efficiently drones (multi-copter and fixed-wings) invading no-drone zones, with an inexpensive RF-based detection framework named URANUS. Our experiments show that by using Random Forest classifier, we achieved a classification accuracy of 93.4% in the classification of one or multiple specific drones. The tracking performance achieves an accuracy with an average of MAE=0.3650, MSE=0.9254 and R2 = 0.7502. Our framework has been released as open-source, to enable the community to verify our findings and use URANUS as a ready-to-use basis for further analysis.
翻訳日:2022-07-15 00:46:47 公開日:2022-07-13
# (参考訳) DeepTIMe: 時系列予測のためのDeep Time-Indexメタラーニング

DeepTIMe: Deep Time-Index Meta-Learning for Non-Stationary Time-Series Forecasting ( http://arxiv.org/abs/2207.06046v1 )

ライセンス: CC BY 4.0
Gerald Woo, Chenghao Liu, Doyen Sahoo, Akshat Kumar, Steven Hoi(参考訳) ディープラーニングは時系列予測に積極的に適用されており、新しい自己回帰型モデルアーキテクチャが溢れている。 しかし、連続信号関数がスムーズな表現に繋がるような時間インデックスベースのモデルの魅力的な性質にもかかわらず、それらにはほとんど注意が払われていない。 実際、ナイーブな時間インデックスベースモデルは、古典的な時間インデックスベースモデルの手動で定義された関数表現よりもはるかに表現的だが、それらは帰納的バイアスの欠如と時系列の非定常性のために予測には不十分である。 本稿では,これらの制約を克服し,効率良く正確な予測モデルとなる,メタラーニングによる深い時間インデックスモデルであるdeeptimeを提案する。 実世界のデータセットに関する大規模な実験は、我々の手法が最先端の手法で競合する結果を得ることを示した。 コードはhttps://github.com/salesforce/DeepTIMeで入手できる。

Deep learning has been actively applied to time-series forecasting, leading to a deluge of new autoregressive model architectures. Yet, despite the attractive properties of time-index based models, such as being a continuous signal function over time leading to smooth representations, little attention has been given to them. Indeed, while naive deep time-index based models are far more expressive than the manually predefined function representations of classical time-index based models, they are inadequate for forecasting due to the lack of inductive biases, and the non-stationarity of time-series. In this paper, we propose DeepTIMe, a deep time-index based model trained via a meta-learning formulation which overcomes these limitations, yielding an efficient and accurate forecasting model. Extensive experiments on real world datasets demonstrate that our approach achieves competitive results with state-of-the-art methods, and is highly efficient. Code is available at https://github.com/salesforce/DeepTIMe.
翻訳日:2022-07-15 00:29:27 公開日:2022-07-13
# (参考訳) 前方移動による自律走行における異常検出実験

Experiments on Anomaly Detection in Autonomous Driving by Forward-Backward Style Transfers ( http://arxiv.org/abs/2207.06055v1 )

ライセンス: CC BY 4.0
Daniel Bogdoll, Meng Zhang, Maximilian Nitsche, J. Marius Z\"ollner(参考訳) 過去数年間、自動運転のコミュニティは大きな進歩を遂げてきた。 しかし、安全-クリティカルな問題として、異常検出は、現実世界における自動運転車の大規模な展開に向けた大きなハードルである。 不確実性推定やセグメンテーションに基づく画像再合成といった多くのアプローチは極めて有望であるが、さらなる検討が必要である。 特に画像再生に基づく異常検出の研究に触発され,我々はスタイル転送による異常検出の新しいアプローチを提案する。 生成モデルを利用して、道路交通の元々のスタイル領域から任意の領域に画像をマッピングし、画素単位の異常スコアを生成する。 しかし,実験により仮説の誤りが証明され,有意な結果が得られなかった。 それでも私たちは、他の人が実験から学ぶことができるように、発見を共有したいと考えています。

Great progress has been achieved in the community of autonomous driving in the past few years. As a safety-critical problem, however, anomaly detection is a huge hurdle towards a large-scale deployment of autonomous vehicles in the real world. While many approaches, such as uncertainty estimation or segmentation-based image resynthesis, are extremely promising, there is more to be explored. Especially inspired by works on anomaly detection based on image resynthesis, we propose a novel approach for anomaly detection through style transfer. We leverage generative models to map an image from its original style domain of road traffic to an arbitrary one and back to generate pixelwise anomaly scores. However, our experiments have proven our hypothesis wrong, and we were unable to produce significant results. Nevertheless, we want to share our findings, so that others can learn from our experiments.
翻訳日:2022-07-15 00:07:01 公開日:2022-07-13
# (参考訳) 構造LP-SLAM:単眼, RGB-D, ステレオカメラのための点, 線, 平面を用いた効率的なスパースマッピングと位置決め

Structure PLP-SLAM: Efficient Sparse Mapping and Localization using Point, Line and Plane for Monocular, RGB-D and Stereo Cameras ( http://arxiv.org/abs/2207.06058v1 )

ライセンス: CC BY 4.0
Fangwen Shu, Jiaxuan Wang, Alain Pagani, Didier Stricker(参考訳) 本稿では,ポイント・アンド・ライン・クラウドを用いてロバストなカメラ位置推定を行うビジュアルスラムシステムと,全構造マップを提供するppr(embedded piece-wise planar reconstruction)モジュールを提案する。 単一カメラを用いたようなトラッキングと並行してスケール一貫性のあるマップを構築するには、スケールのあいまいさで幾何学的プリミティブを再構築することの難しさや、バンドル調整(BA)のグラフ最適化の難しさも伴う。 再構成された線や平面上でのランタイム最適化を提案することで,これらの問題に対処する。 システムは、モノキュラーフレームワークの設計に基づいて、深さとステレオセンサーで拡張される。 その結果,提案したSLAMにはセマンティック機能が組み込まれ,フロントエンドのトラッキングとバックエンドの最適化が強化された。 各種データセットを網羅的に評価し,コミュニティ向けコードをオープンソース化した(https://github.com/PeterFWS/Structure-PLP-SLAM)。

This paper demonstrates a visual SLAM system that utilizes point and line cloud for robust camera localization, simultaneously, with an embedded piece-wise planar reconstruction (PPR) module which in all provides a structural map. To build a scale consistent map in parallel with tracking, such as employing a single camera brings the challenge of reconstructing geometric primitives with scale ambiguity, and further introduces the difficulty in graph optimization of bundle adjustment (BA). We address these problems by proposing several run-time optimizations on the reconstructed lines and planes. The system is then extended with depth and stereo sensors based on the design of the monocular framework. The results show that our proposed SLAM tightly incorporates the semantic features to boost both frontend tracking as well as backend optimization. We evaluate our system exhaustively on various datasets, and open-source our code for the community (https://github.com/PeterFWS/Structure-PLP-SLAM).
翻訳日:2022-07-14 23:53:41 公開日:2022-07-13
# (参考訳) AdamNODEs: ニューラルネットワークODEが適応モーメント推定に出会ったとき

AdamNODEs: When Neural ODE Meets Adaptive Moment Estimation ( http://arxiv.org/abs/2207.06066v1 )

ライセンス: CC BY 4.0
Suneghyeon Cho, Sanghyun Hong, Kookjin Lee, Noseong Park(参考訳) Xiaらによる最近の研究は、古典運動量の連続極限を利用して勾配降下を加速し、重球ニューラルODEを提案する。 このモデルはバニラ神経odeよりも計算効率と高ユーティリティを提供するが、このアプローチはしばしば内部ダイナミクスのオーバーシュートを引き起こし、モデルの不安定なトレーニングに繋がる。 従来の作業では、例えば特定のアクティベーション関数を使って内部ダイナミクスをバウンディングするといったアドホックなアプローチを使用してこの問題に対処するが、結果として得られるモデルは正確なヘビーボールODEを満足しない。 本研究では,古典運動量に基づくアプローチの加速度を適応的に制御する適応運動量推定ニューラルネットワーク(AdamNODEs)を提案する。 その随伴状態もAdamODEを満足し、先行研究が採用したアドホックな解を必要としないことが分かる。 評価において、AdamNODEは既存のニューラルネットワークに比べてトレーニング損失と有効性が低いことを示す。 また,adamnodeは古典的運動量に基づくニューラルodeよりも優れたトレーニング安定性を示す。 この結果は、最適化コミュニティで提案されているテクニックを適応させ、ニューラルネットワークのトレーニングと推論をさらに改善することに光を当てている。 私たちのコードはhttps://github.com/pmcsh04/adamnodeで利用可能です。

Recent work by Xia et al. leveraged the continuous-limit of the classical momentum accelerated gradient descent and proposed heavy-ball neural ODEs. While this model offers computational efficiency and high utility over vanilla neural ODEs, this approach often causes the overshooting of internal dynamics, leading to unstable training of a model. Prior work addresses this issue by using ad-hoc approaches, e.g., bounding the internal dynamics using specific activation functions, but the resulting models do not satisfy the exact heavy-ball ODE. In this work, we propose adaptive momentum estimation neural ODEs (AdamNODEs) that adaptively control the acceleration of the classical momentum-based approach. We find that its adjoint states also satisfy AdamODE and do not require ad-hoc solutions that the prior work employs. In evaluation, we show that AdamNODEs achieve the lowest training loss and efficacy over existing neural ODEs. We also show that AdamNODEs have better training stability than classical momentum-based neural ODEs. This result sheds some light on adapting the techniques proposed in the optimization community to improving the training and inference of neural ODEs further. Our code is available at https://github.com/pmcsh04/AdamNODE.
翻訳日:2022-07-14 23:40:13 公開日:2022-07-13
# (参考訳) 不均衡深層学習のための効率的な強化

Efficient Augmentation for Imbalanced Deep Learning ( http://arxiv.org/abs/2207.06080v1 )

ライセンス: CC BY 4.0
Damien Dablain, Colin Bellinger, Bartosz Krawczyk, Nitesh Chawla(参考訳) ディープラーニングモデルはトレーニングデータを記憶し、表現不足のクラスに一般化する能力を損なう。 本研究では,不均衡画像データの畳み込みニューラルネットワークの内部表現を実証的に検討し,モデルの特徴埋め込みとテストセットとの一般化ギャップを測定し,マイノリティクラスではギャップが広いことを示す。 この洞察により、不均衡データのための効率的な3相cnnトレーニングフレームワークを設計できる。 このフレームワークは、不均衡なデータに基づいてネットワークのエンドツーエンドをトレーニングし、正確な特徴埋め込みを学習し、学習された組込み空間でデータ拡張を行い、列車分布のバランスをとる。 本稿では,トレーニングフレームワークで活用するデータ拡張手法として,拡張型オーバーサンプリング(eos)を提案する。 EOSは、一般化ギャップを減らすために、マイノリティクラスサンプルと組込み空間の最も近い敵との間の凸結合として合成トレーニングインスタンスを形成する。 提案手法は,不均衡学習によく用いられるコスト感受性・再サンプリング手法よりも精度を向上する。 さらに、SMOTEやGANベースのオーバーサンプリングのような標準的なデータ前処理手法よりも計算効率が良い。

Deep learning models memorize training data, which hurts their ability to generalize to under-represented classes. We empirically study a convolutional neural network's internal representation of imbalanced image data and measure the generalization gap between a model's feature embeddings in the training and test sets, showing that the gap is wider for minority classes. This insight enables us to design an efficient three-phase CNN training framework for imbalanced data. The framework involves training the network end-to-end on imbalanced data to learn accurate feature embeddings, performing data augmentation in the learned embedded space to balance the train distribution, and fine-tuning the classifier head on the embedded balanced training data. We propose Expansive Over-Sampling (EOS) as a data augmentation technique to utilize in the training framework. EOS forms synthetic training instances as convex combinations between the minority class samples and their nearest enemies in the embedded space to reduce the generalization gap. The proposed framework improves the accuracy over leading cost-sensitive and resampling methods commonly used in imbalanced learning. Moreover, it is more computationally efficient than standard data pre-processing methods, such as SMOTE and GAN-based oversampling, as it requires fewer parameters and less training time.
翻訳日:2022-07-14 23:31:33 公開日:2022-07-13
# (参考訳) 機械学習におけるバイアスの全体観:ブリッジングアルゴリズムフェアネスと不均衡学習

Towards A Holistic View of Bias in Machine Learning: Bridging Algorithmic Fairness and Imbalanced Learning ( http://arxiv.org/abs/2207.06084v1 )

ライセンス: CC BY 4.0
Damien Dablain, Bartosz Krawczyk, Nitesh Chawla(参考訳) 機械学習(ML)は、社会の幅広いグループに影響を与える決定を下す上で、ますます重要な役割を担っている。 MLモデルは刑事司法における決定、銀行における信用の延長、企業の雇用慣行を通知する。 これはモデル公平性(model fairness)の要件を仮定するものであり、データにしばしば過度に表現される保護された特徴(性別、人種、年齢など)に関して、自動決定は公平であるべきだとする。 我々は、この表現不足の問題は、不均衡なデータ学習の問題に関連していると仮定する。 このクラス不均衡は、しばしばクラスと保護された特徴の両方に反映される。 例えば、あるクラス(クレジットを受け取らないクラス)は別のクラス(クレジットを受け取らないクラス)に対して過剰に表現され、ある特定のグループ(女性)は別のグループ(男性)に関して過度に表現される。 保護されたグループに対するアルゴリズム的公平性を達成する上で重要な要素は、基礎となるトレーニングデータにおけるクラスと保護されたグループの不均衡の同時低減である。 我々は,これらの分野における重要な概念がいかに重なり合うかを示し,不均衡な学習と集団公平性を橋渡しすることの重要性について論じ,歪んだクラス分布と保護された特徴の両方を扱う新しいオーバーサンプリングアルゴリズムであるfair oversamplingを提案する。 私たちの方法: i)不均衡とグループエクイティに共同で対処する標準MLアルゴリズムの効率的な前処理アルゴリズムとして使用できる。 (二) 等級不均衡の度合いに頑健性を改善するために, 公平性を考慮した学習アルゴリズムと組み合わせることができる。 さらに,公平性と不均衡な学習とのギャップを,バランスの取れた正確性と公平性を組み合わせた新しい指標である公正な実用性で橋渡しする一歩を踏み出した。

Machine learning (ML) is playing an increasingly important role in rendering decisions that affect a broad range of groups in society. ML models inform decisions in criminal justice, the extension of credit in banking, and the hiring practices of corporations. This posits the requirement of model fairness, which holds that automated decisions should be equitable with respect to protected features (e.g., gender, race, or age) that are often under-represented in the data. We postulate that this problem of under-representation has a corollary to the problem of imbalanced data learning. This class imbalance is often reflected in both classes and protected features. For example, one class (those receiving credit) may be over-represented with respect to another class (those not receiving credit) and a particular group (females) may be under-represented with respect to another group (males). A key element in achieving algorithmic fairness with respect to protected groups is the simultaneous reduction of class and protected group imbalance in the underlying training data, which facilitates increases in both model accuracy and fairness. We discuss the importance of bridging imbalanced learning and group fairness by showing how key concepts in these fields overlap and complement each other; and propose a novel oversampling algorithm, Fair Oversampling, that addresses both skewed class distributions and protected features. Our method: (i) can be used as an efficient pre-processing algorithm for standard ML algorithms to jointly address imbalance and group equity; and (ii) can be combined with fairness-aware learning algorithms to improve their robustness to varying levels of class imbalance. Additionally, we take a step toward bridging the gap between fairness and imbalanced learning with a new metric, Fair Utility, that combines balanced accuracy with fairness.
翻訳日:2022-07-14 23:08:36 公開日:2022-07-13
# (参考訳) GriddlyJS: 強化学習のためのWeb IDE

GriddlyJS: A Web IDE for Reinforcement Learning ( http://arxiv.org/abs/2207.06105v1 )

ライセンス: CC BY 4.0
Christopher Bamford, Minqi Jiang, Mikayel Samvelyan, Tim Rockt\"aschel(参考訳) 強化学習(RL)研究の進歩は、しばしば新しい挑戦的な環境の設計によって引き起こされる。 環境開発の複雑さは、RLエージェントの堅牢性と一般化をテストできる様々な環境を生産するための主要なパラダイムとして、手続き的コンテンツ生成(PCG)の台頭とともに増大している。 さらに、既存の環境は複雑なビルドプロセスを必要とすることが多く、再現が難しくなる。 このような問題に対処するために、Griddlyエンジンに基づいたWebベースの統合開発環境(IDE)であるGriddlyJSを紹介します。 griddlyjsを使えば、研究者は便利なグラフィカルインターフェースを使って任意の複雑なpcgグリッドワールド環境を視覚的に設計、デバッグでき、また訓練されたエージェントモデルのパフォーマンスを視覚化、評価、記録することができる。 rlワークフローをモダンなweb標準によって実現される高度な機能に接続することで、griddlyjsは実験結果をwebに直接再現するインタラクティブなエージェント環境デモを公開することができる。 GriddlyJSの汎用性を実証するために、任意の人間設計環境構成と組み合わせた複雑な構成パズル解決環境と、自動カリキュラム学習やオフラインRLで使用するソリューションを迅速に開発する。 GriddlyJS IDEはオープンソースで、 \url{https://griddly.ai}で無料で利用できる。

Progress in reinforcement learning (RL) research is often driven by the design of new, challenging environments -- a costly undertaking requiring skills orthogonal to that of a typical machine learning researcher. The complexity of environment development has only increased with the rise of procedural-content generation (PCG) as the prevailing paradigm for producing varied environments capable of testing the robustness and generalization of RL agents. Moreover, existing environments often require complex build processes, making reproducing results difficult. To address these issues, we introduce GriddlyJS, a web-based Integrated Development Environment (IDE) based on the Griddly engine. GriddlyJS allows researchers to visually design and debug arbitrary, complex PCG grid-world environments using a convenient graphical interface, as well as visualize, evaluate, and record the performance of trained agent models. By connecting the RL workflow to the advanced functionality enabled by modern web standards, GriddlyJS allows publishing interactive agent-environment demos that reproduce experimental results directly to the web. To demonstrate the versatility of GriddlyJS, we use it to quickly develop a complex compositional puzzle-solving environment alongside arbitrary human-designed environment configurations and their solutions for use in automatic curriculum learning and offline RL. The GriddlyJS IDE is open source and freely available at \url{https://griddly.ai}.
翻訳日:2022-07-14 22:42:17 公開日:2022-07-13
# (参考訳) 自動分化:理論と実践

Automatic Differentiation: Theory and Practice ( http://arxiv.org/abs/2207.06114v1 )

ライセンス: CC BY 4.0
Mario Lezcano-Casado(参考訳) 本稿では,実および複素設定における前方および後方モードadの古典的な座標自由形式について述べる。 基本原理から始まる多くの行列関数に対して、前方および後方の公式を形式的に導出する方法を示す。

We present the classical coordinate-free formalism for forward and backward mode ad in the real and complex setting. We show how to formally derive the forward and backward formulae for a number of matrix functions starting from basic principles.
翻訳日:2022-07-14 22:18:15 公開日:2022-07-13
# (参考訳) SURIMI: 深層学習による無線マップ拡張と指紋を用いた屋内位置推定のためのジェネレーティブ・ディバイザ・ネットワーク

SURIMI: Supervised Radio Map Augmentation with Deep Learning and a Generative Adversarial Network for Fingerprint-based Indoor Positioning ( http://arxiv.org/abs/2207.06120v1 )

ライセンス: CC BY 4.0
Darwin Quezada-Gaibor, Joaqu\'in Torres-Sospedra, Jari Nurmi, Yevgeni Koucheryavy, Joaqu\'in Huerta(参考訳) 参照データから有意義な情報を抽出できるため、機械学習に基づく屋内測位は、アカデミーと業界の両方で注目を集めている。 多くの研究者は、測位エラーを低減し、エンドユーザに信頼できるソリューションを提供するために、教師付き、半教師なし、教師なしの機械学習モデルを使用している。 本稿では,CNN(Convolutional Neural Network),LSTM(Long Short-term memory),GAN(Generative Adversarial Network)を組み合わせた新しいアーキテクチャを提案する。 教師付きモデルと教師なしモデルのコンビネーションが17のパブリックデータセットでテストされ、パフォーマンスの広範な分析が行われた。 その結果,70%以上では位置決め誤差が減少している。

Indoor Positioning based on Machine Learning has drawn increasing attention both in the academy and the industry as meaningful information from the reference data can be extracted. Many researchers are using supervised, semi-supervised, and unsupervised Machine Learning models to reduce the positioning error and offer reliable solutions to the end-users. In this article, we propose a new architecture by combining Convolutional Neural Network (CNN), Long short-term memory (LSTM) and Generative Adversarial Network (GAN) in order to increase the training data and thus improve the position accuracy. The proposed combination of supervised and unsupervised models was tested in 17 public datasets, providing an extensive analysis of its performance. As a result, the positioning error has been reduced in more than 70% of them.
翻訳日:2022-07-14 21:57:00 公開日:2022-07-13
# (参考訳) もっと深く融合しろ! テキスト生成のための階層型潜在変数推論を用いた変分トランス

Fuse It More Deeply! A Variational Transformer with Layer-Wise Latent Variable Inference for Text Generation ( http://arxiv.org/abs/2207.06130v1 )

ライセンス: CC BY 4.0
Jinyi Hu, Xiaoyuan Yi, Wenhao Li, Maosong Sun, Xing Xie(参考訳) 過去数年間、様々なテキスト生成タスクにおける変分オートエンコーダの優位性を目撃してきた。 しかし、テキストのシーケンシャルな性質のため、自動回帰デコーダは潜伏変数を無視してKL消滅問題と呼ばれる単純な言語モデルに還元する傾向にあり、VAEとTransformerベースの構造を組み合わせるとさらに劣化する。 この問題を改善するために,新しい変分トランスフォーマーフレームワーク della を提案する。 DELLAは、下位層の変数からそれぞれを推論し、低ランクテンソル積によって隠れた状態と密結合した一連の層ワイド潜伏変数を学習する。 このようにして、DELLAはこれらの後続潜伏変数を計算経路全体と深く融合させ、より多くの情報を組み込む。 理論的には,本手法は,アニーリングやしきい値設定を行なわずに,より高い非ゼロkl値を得ることができる。 4つの無条件および3つの条件生成タスクの実験により、dellaはいくつかの強力なベースラインと比較して、klの消失を緩和し、品質と多様性の両方を改善した。

The past several years have witnessed Variational Auto-Encoder's superiority in various text generation tasks. However, due to the sequential nature of the text, auto-regressive decoders tend to ignore latent variables and then reduce to simple language models, known as the KL vanishing problem, which would further deteriorate when VAE is combined with Transformer-based structures. To ameliorate this problem, we propose DELLA, a novel variational Transformer framework. DELLA learns a series of layer-wise latent variables with each inferred from those of lower layers and tightly coupled with the hidden states by low-rank tensor product. In this way, DELLA forces these posterior latent variables to be fused deeply with the whole computation path and hence incorporate more information. We theoretically demonstrate that our method can be regarded as entangling latent variables to avoid posterior information decrease through layers, enabling DELLA to get higher non-zero KL values even without any annealing or thresholding tricks. Experiments on four unconditional and three conditional generation tasks show that DELLA could better alleviate KL vanishing and improve both quality and diversity compared to several strong baselines.
翻訳日:2022-07-14 21:39:07 公開日:2022-07-13
# (参考訳) CMDPにおけるオフポリティ学習のための準最適プリマル双対法

A Near-Optimal Primal-Dual Method for Off-Policy Learning in CMDP ( http://arxiv.org/abs/2207.06147v1 )

ライセンス: CC BY-SA 4.0
Fan Chen, Junyu Zhang, Zaiwen Wen(参考訳) 安全な強化学習のための重要な枠組みとして,近年,CMDP(Constrained Markov Decision Process)が広く研究されている。 しかし、様々なオンライン学習環境下での豊富な結果にもかかわらず、アルゴリズム設計と情報理論サンプルの複雑さの両面において、オフラインCMDP問題に対する基本的な理解はいまだに欠けている。 本稿では,オフラインデータのみ利用可能なcmdp問題を解決することに焦点を当てる。 1-policy concentrability coefficient $c^*$ の概念を採用することで、$\omega\left(\frac{\min\left\{|\mathcal{s}||\mathcal{a}|,|\mathcal{s}|+i\right\} c^*}{(1-\gamma)^3\epsilon^2}\right)$ オフラインcmdp問題に対して、$i$ は制約の数を表す。 単純だが斬新な偏差制御機構を導入し,DPDLと呼ばれるほぼ最適の主対数学習アルゴリズムを提案する。 このアルゴリズムはゼロ制約違反を確実に保証し、そのサンプル複雑性は$\tilde{\mathcal{o}}((1-\gamma)^{-1})$因子を除いて上記の下限に一致する。 未知の定数 $c^*$ と、オフラインデータセット上の潜在的非同期構造を扱う方法についての包括的な議論も含まれている。

As an important framework for safe Reinforcement Learning, the Constrained Markov Decision Process (CMDP) has been extensively studied in the recent literature. However, despite the rich results under various on-policy learning settings, there still lacks some essential understanding of the offline CMDP problems, in terms of both the algorithm design and the information theoretic sample complexity lower bound. In this paper, we focus on solving the CMDP problems where only offline data are available. By adopting the concept of the single-policy concentrability coefficient $C^*$, we establish an $\Omega\left(\frac{\min\left\{|\mathcal{S}||\mathcal{A}|,|\mathcal{S}|+I\right\} C^*}{(1-\gamma)^3\epsilon^2}\right)$ sample complexity lower bound for the offline CMDP problem, where $I$ stands for the number of constraints. By introducing a simple but novel deviation control mechanism, we propose a near-optimal primal-dual learning algorithm called DPDL. This algorithm provably guarantees zero constraint violation and its sample complexity matches the above lower bound except for an $\tilde{\mathcal{O}}((1-\gamma)^{-1})$ factor. Comprehensive discussion on how to deal with the unknown constant $C^*$ and the potential asynchronous structure on the offline dataset are also included.
翻訳日:2022-07-14 21:14:07 公開日:2022-07-13
# (参考訳) 対向攻撃に対するベイズニューラルネットワークのロバスト性について

On the Robustness of Bayesian Neural Networks to Adversarial Attacks ( http://arxiv.org/abs/2207.06154v1 )

ライセンス: CC BY 4.0
Luca Bortolussi, Ginevra Carbone, Luca Laurenti, Andrea Patane, Guido Sanguinetti, Matthew Wicker(参考訳) 敵攻撃に対する脆弱性は、安全クリティカルなアプリケーションでディープラーニングを採用する上で、大きなハードルのひとつです。 実践的かつ理論的な大きな努力にもかかわらず、敵対的攻撃に頑健なディープラーニングモデルをトレーニングすることは、いまだに未解決の問題である。 本稿では,ベイズニューラルネットワーク(BNN)の大規模・過パラメータ化限界における敵攻撃の幾何学的構造を解析する。 この限界において、データ分布の縮退(つまり、データが周囲空間の低次元部分多様体上にある場合)の結果、勾配に基づく攻撃に対する脆弱性が生じることを示す。 直接的な結果として,この制限下では,BNN後部は勾配に基づく攻撃に対して堅牢であることを示す。 また,bnn後方分布に対する損失の予測勾配は,後方からサンプリングされたニューラルネットワークが勾配に基づく攻撃に対して脆弱である場合においても消失することを示した。 MNIST、Fashion MNIST、および半衛星データセットに関する実験結果は、ハミルトン・モンテカルロと変分推論で訓練されたBNNによって、この一連の議論をサポートし、BNNは、勾配に基づく攻撃と勾配のない攻撃の両方に対して高い精度と堅牢性の両方を表示できることを示した。

Vulnerability to adversarial attacks is one of the principal hurdles to the adoption of deep learning in safety-critical applications. Despite significant efforts, both practical and theoretical, training deep learning models robust to adversarial attacks is still an open problem. In this paper, we analyse the geometry of adversarial attacks in the large-data, overparameterized limit for Bayesian Neural Networks (BNNs). We show that, in the limit, vulnerability to gradient-based attacks arises as a result of degeneracy in the data distribution, i.e., when the data lies on a lower-dimensional submanifold of the ambient space. As a direct consequence, we demonstrate that in this limit BNN posteriors are robust to gradient-based adversarial attacks. Crucially, we prove that the expected gradient of the loss with respect to the BNN posterior distribution is vanishing, even when each neural network sampled from the posterior is vulnerable to gradient-based attacks. Experimental results on the MNIST, Fashion MNIST, and half moons datasets, representing the finite data regime, with BNNs trained with Hamiltonian Monte Carlo and Variational Inference, support this line of arguments, showing that BNNs can display both high accuracy on clean data and robustness to both gradient-based and gradient-free based adversarial attacks.
翻訳日:2022-07-14 21:12:21 公開日:2022-07-13
# (参考訳) 同期モーメントグルーピングによる教師なし視覚表現学習

Unsupervised Visual Representation Learning by Synchronous Momentum Grouping ( http://arxiv.org/abs/2207.06167v1 )

ライセンス: CC BY 4.0
Bo Pang, Yifan Zhang, Yaoyi Li, Jia Cai, Cewu Lu(参考訳) 本稿では,画像ネット上での線形評価性能がバニラ教師付き学習を上回る真のグループレベルのコントラスト視覚表現学習手法を提案する。 主要な教師なし学習スキームは、インスタンスレベルのコントラストフレームワークとクラスタリングベースのスキームである。 前者は、偽陰性のため監督信号が効率的でない極微細なインスタンスレベルの識別を採用する。 後者はこの問題を解決するが、パフォーマンスに影響を与えるいくつかの制限がある。 それらの利点を統合するため、我々はSMoG法を設計する。 SMoGはコントラスト学習の枠組みに従うが、クラスタリングベースの手法を模倣して、コントラスト単位をインスタンスからグループに置き換える。 そこで本研究では,特徴群と表現学習を同期的に行うモーメントグルーピング手法を提案する。 このようにして、SMoGはクラスタリングに基づく手法が通常直面する監視信号ヒステリシスの問題を解決し、例の対照的な手法の偽陰性を減少させる。 我々は、SMoGがCNNとTransformerの両方のバックボーンでうまく動作することを示すために、徹底的な実験を行う。 その結果,SMoG は現在の SOTA 教師なし表現学習法を超越していることがわかった。 また,その線形評価結果は,バニラ教師学習による性能を上回っており,その表現を下流タスクによく移すことができる。

In this paper, we propose a genuine group-level contrastive visual representation learning method whose linear evaluation performance on ImageNet surpasses the vanilla supervised learning. Two mainstream unsupervised learning schemes are the instance-level contrastive framework and clustering-based schemes. The former adopts the extremely fine-grained instance-level discrimination whose supervisory signal is not efficient due to the false negatives. Though the latter solves this, they commonly come with some restrictions affecting the performance. To integrate their advantages, we design the SMoG method. SMoG follows the framework of contrastive learning but replaces the contrastive unit from instance to group, mimicking clustering-based methods. To achieve this, we propose the momentum grouping scheme which synchronously conducts feature grouping with representation learning. In this way, SMoG solves the problem of supervisory signal hysteresis which the clustering-based method usually faces, and reduces the false negatives of instance contrastive methods. We conduct exhaustive experiments to show that SMoG works well on both CNN and Transformer backbones. Results prove that SMoG has surpassed the current SOTA unsupervised representation learning methods. Moreover, its linear evaluation results surpass the performances obtained by vanilla supervised learning and the representation can be well transferred to downstream tasks.
翻訳日:2022-07-14 20:48:09 公開日:2022-07-13
# (参考訳) 癌非依存性リンパ節転移検出のためのドメイン適応戦略

Domain adaptation strategies for cancer-independent detection of lymph node metastases ( http://arxiv.org/abs/2207.06193v1 )

ライセンス: CC BY 4.0
P\'eter B\'andi, Maschenka Balkenhol, Marcory van Dijk, Bram van Ginneken, Jeroen van der Laak, Geert Litjens(参考訳) 近年、大規模で高品質な公共データセットが、がんのリンパ節転移を専門家の病理学者のレベルで検出できる畳み込みニューラルネットワークの開発につながった。 多くのがんは、原点に関係なく、リンパ節に転移することができる。 しかし、がんの種類ごとに高ボリュームで高品質なデータセットを収集、注釈付けすることは困難である。 本稿では,既存の高品質データセットをマルチタスク設定で効率的に活用する方法を検討する。 具体的には,リンパ節における大腸癌および頭頸部癌の転移検出のための,破滅的忘れの予防など,さまざまなトレーニングと領域適応戦略を検討する。 以上より,両癌転移検出課題における最先端のパフォーマンスを示す。 さらに,あるがんタイプから別のがんタイプへのネットワークの反復適応の有効性を示し,マルチタスク転移検出ネットワークを得る。 最後に,既存の高品質データセットを活用することで,新たな目標タスクの性能を著しく向上させることができることを示す。

Recently, large, high-quality public datasets have led to the development of convolutional neural networks that can detect lymph node metastases of breast cancer at the level of expert pathologists. Many cancers, regardless of the site of origin, can metastasize to lymph nodes. However, collecting and annotating high-volume, high-quality datasets for every cancer type is challenging. In this paper we investigate how to leverage existing high-quality datasets most efficiently in multi-task settings for closely related tasks. Specifically, we will explore different training and domain adaptation strategies, including prevention of catastrophic forgetting, for colon and head-and-neck cancer metastasis detection in lymph nodes. Our results show state-of-the-art performance on both cancer metastasis detection tasks. Furthermore, we show the effectiveness of repeated adaptation of networks from one cancer type to another to obtain multi-task metastasis detection networks. Last, we show that leveraging existing high-quality datasets can significantly boost performance on new target tasks and that catastrophic forgetting can be effectively mitigated using regularization.
翻訳日:2022-07-14 20:31:14 公開日:2022-07-13
# (参考訳) インタラクティブな機械学習:最先端のアートレビュー

Interactive Machine Learning: A State of the Art Review ( http://arxiv.org/abs/2207.06196v1 )

ライセンス: CC BY 4.0
Natnael A. Wondimu, C\'edric Buche and Ubbo Visser(参考訳) 機械学習はコンピュータビジョン、音声および音声処理、自然言語処理、ロボット工学など、多くのソフトウェア分野において有用であることが証明されている。 しかし、ブラックボックスの性質とかなりの資源消費のために適用性が著しく妨げられている。 性能は膨大な計算資源を犠牲にして達成され、通常モデルの堅牢性と信頼性を損なう。 近年の研究では、これらの機械学習問題の根本原因として、相互作用性の欠如が指摘されている。 その結果、対話型機械学習(iML)は、ループ内モードと比較的効率的な資源利用を考慮して、研究者の注目を集めている。 これにより、対話型機械学習の最先端レビューは、人間中心のモデル構築への取り組みを緩和する上で重要な役割を果たす。 本稿では,iMLの現状を包括的に分析する。 有益性指向と応用/タスク指向の混合分類法を用いて有益な研究成果を分析した。 iml研究の分類法を生成するためにボトムアップクラスタリングアプローチを用いる。 本研究は, 敵のブラックボックス攻撃と対応するimlベースの防衛システム, 探索的機械学習, 資源制約学習, iml性能評価について, その対応テーマに基づいて分析する。 さらに,これらの研究成果を技術カテゴリと部門カテゴリに分類した。 最後に、iMLにおける今後の研究に刺激を与えると思われる研究機会について、徹底的に議論する。

Machine learning has proved useful in many software disciplines, including computer vision, speech and audio processing, natural language processing, robotics and some other fields. However, its applicability has been significantly hampered due its black-box nature and significant resource consumption. Performance is achieved at the expense of enormous computational resource and usually compromising the robustness and trustworthiness of the model. Recent researches have been identifying a lack of interactivity as the prime source of these machine learning problems. Consequently, interactive machine learning (iML) has acquired increased attention of researchers on account of its human-in-the-loop modality and relatively efficient resource utilization. Thereby, a state-of-the-art review of interactive machine learning plays a vital role in easing the effort toward building human-centred models. In this paper, we provide a comprehensive analysis of the state-of-the-art of iML. We analyze salient research works using merit-oriented and application/task oriented mixed taxonomy. We use a bottom-up clustering approach to generate a taxonomy of iML research works. Research works on adversarial black-box attacks and corresponding iML based defense system, exploratory machine learning, resource constrained learning, and iML performance evaluation are analyzed under their corresponding theme in our merit-oriented taxonomy. We have further classified these research works into technical and sectoral categories. Finally, research opportunities that we believe are inspiring for future work in iML are discussed thoroughly.
翻訳日:2022-07-14 20:00:00 公開日:2022-07-13
# (参考訳) 改良キャリブレーションのためのサンプル依存適応温度スケーリング

Sample-dependent Adaptive Temperature Scaling for Improved Calibration ( http://arxiv.org/abs/2207.06211v1 )

ライセンス: CC BY 4.0
Tom Joy, Francesco Pinto, Ser-Nam Lim, Philip H. S. Torr, Puneet K. Dokania(参考訳) 現在、ニューラルネットワークは予測に高い信頼を持って誤りを犯し、キャリブレーションの低下につながることが知られている。 これを補う最も一般的なポストホックなアプローチは、任意の入力に対する予測の信頼度を固定値でスケーリングすることで調整する温度スケーリングである。 このアプローチは通常、テストデータセット全体の平均キャリブレーションを改善するが、この改善は、与えられた入力の分類が正しいかどうかに関わらず、予測の個々の信頼性を低下させる。 そこで本研究では, 異なる試料がキャリブレーション誤差に寄与するのに対し, 信頼性を高める必要があるものや, 減らさなければならないものなどについて考察する。 そこで,各入力に対して異なる温度値を予測することを提案し,より微細な粒度で精度と信頼性のミスマッチを調整できるようにした。 さらに,OOD検出における改良された結果を観察し,データポイントの硬さの概念を抽出する。 提案手法は,計算時間が少なく,メモリフットプリントも無視できるので,市販の事前学習型分類器に適用できる。 我々は,CIFAR10/100およびTiny-ImageNetデータセットを用いてResNet50およびWideResNet28-10アーキテクチャ上でテストを行い,データ毎の温度生成がテストセット全体にわたって期待されるキャリブレーション誤差にも有用であることを示した。 コードはhttps://github.com/thwjoy/adats.com/。

It is now well known that neural networks can be wrong with high confidence in their predictions, leading to poor calibration. The most common post-hoc approach to compensate for this is to perform temperature scaling, which adjusts the confidences of the predictions on any input by scaling the logits by a fixed value. Whilst this approach typically improves the average calibration across the whole test dataset, this improvement typically reduces the individual confidences of the predictions irrespective of whether the classification of a given input is correct or incorrect. With this insight, we base our method on the observation that different samples contribute to the calibration error by varying amounts, with some needing to increase their confidence and others needing to decrease it. Therefore, for each input, we propose to predict a different temperature value, allowing us to adjust the mismatch between confidence and accuracy at a finer granularity. Furthermore, we observe improved results on OOD detection and can also extract a notion of hardness for the data-points. Our method is applied post-hoc, consequently using very little computation time and with a negligible memory footprint and is applied to off-the-shelf pre-trained classifiers. We test our method on the ResNet50 and WideResNet28-10 architectures using the CIFAR10/100 and Tiny-ImageNet datasets, showing that producing per-data-point temperatures is beneficial also for the expected calibration error across the whole test set. Code is available at: https://github.com/thwjoy/adats.
翻訳日:2022-07-14 19:32:09 公開日:2022-07-13
# (参考訳) YOLO2U-Net:顕微鏡用検出ガイド型3次元インスタンスセグメンテーション

YOLO2U-Net: Detection-Guided 3D Instance Segmentation for Microscopy ( http://arxiv.org/abs/2207.06215v1 )

ライセンス: CC0 1.0
Amirkoushyar Ziabari, Derek C. Ros, Abbas Shirinifard, David Solecki(参考訳) 顕微鏡イメージング技術は生物学的構造のキャラクタリゼーションと解析に有用である。 これらの技術は一般的に2Dプロジェクションを積み重ねて細胞の3D可視化を行うため、表面外励起やz$軸の低解像度といった問題は、重複しない細胞が重なり合うように見えるように3Dボリュームの個々の細胞を検出すること(人間の専門家でさえ)に困難をもたらす可能性がある。 本研究では,脳組織中の細胞の正確な3次元インスタンス分割のための包括的手法を提案する。 提案手法は,2次元YOLO検出法と多視点融合アルゴリズムを組み合わせて,細胞の3次元局在化を構築する。 次に、データボリュームと共に3dバウンディングボックスを、各3dバウンディングボックス内のプライマリセルをセグメンテーションするように設計された3d u-netネットワークに入力し、ボリューム全体のセルのインスタンスセグメンテーションを実行する。 提案手法の有望な性能を,現在の深層学習に基づく3次元インスタンス分割法と比較した。

Microscopy imaging techniques are instrumental for characterization and analysis of biological structures. As these techniques typically render 3D visualization of cells by stacking 2D projections, issues such as out-of-plane excitation and low resolution in the $z$-axis may pose challenges (even for human experts) to detect individual cells in 3D volumes as these non-overlapping cells may appear as overlapping. In this work, we introduce a comprehensive method for accurate 3D instance segmentation of cells in the brain tissue. The proposed method combines the 2D YOLO detection method with a multi-view fusion algorithm to construct a 3D localization of the cells. Next, the 3D bounding boxes along with the data volume are input to a 3D U-Net network that is designed to segment the primary cell in each 3D bounding box, and in turn, to carry out instance segmentation of cells in the entire volume. The promising performance of the proposed method is shown in comparison with some current deep learning-based 3D instance segmentation methods.
翻訳日:2022-07-14 19:12:39 公開日:2022-07-13
# (参考訳) ディープラーニングにおけるハイパーパラメータの目標指向感度解析

Goal-Oriented Sensitivity Analysis of Hyperparameters in Deep Learning ( http://arxiv.org/abs/2207.06216v1 )

ライセンス: CC BY 4.0
Paul Novello, Ga\"el Po\"ette, David Lugato, Pietro Marco Congedo(参考訳) ニューラルネットワークで新しい機械学習問題に取り組むということは、その構造を定義し、パフォーマンスに強い影響を与える多数のハイパーパラメータを最適化することを意味する。 本研究では,Hilbert-Schmidt Independence Criterion(HSIC)に基づく目標指向感度分析のハイパーパラメータ解析および最適化への応用について検討する。 ハイパーパラメータは、しばしば複雑でぎこちない空間に存在します。 それらは異なる性質(カテゴリー、離散、ブール、連続)を持ち、相互作用し、相互依存性を持つ。 これら全ては古典的な感度解析を行うのが簡単ではない。 我々は、ニューラルネットワークの最終エラーに対するハイパーパラメータの相対的影響を定量化できるロバストな分析指標を得るためのこれらの困難を緩和する。 この貴重なツールは、ハイパーパラメータをよりよく理解し、ハイパーパラメータ最適化をより解釈できるようにします。 この知識の利点をハイパーパラメータ最適化の文脈で説明し、古典的機械学習データセットであるmnistとcifarに適用するhsicベースの最適化アルゴリズムを導出するとともに、科学的な機械学習に関心のあるランジュ関数とバトマン方程式の近似についても述べる。 この手法は、競争力とコスト効率の両方のニューラルネットワークを生み出す。

Tackling new machine learning problems with neural networks always means optimizing numerous hyperparameters that define their structure and strongly impact their performances. In this work, we study the use of goal-oriented sensitivity analysis, based on the Hilbert-Schmidt Independence Criterion (HSIC), for hyperparameter analysis and optimization. Hyperparameters live in spaces that are often complex and awkward. They can be of different natures (categorical, discrete, boolean, continuous), interact, and have inter-dependencies. All this makes it non-trivial to perform classical sensitivity analysis. We alleviate these difficulties to obtain a robust analysis index that is able to quantify hyperparameters' relative impact on a neural network's final error. This valuable tool allows us to better understand hyperparameters and to make hyperparameter optimization more interpretable. We illustrate the benefits of this knowledge in the context of hyperparameter optimization and derive an HSIC-based optimization algorithm that we apply on MNIST and Cifar, classical machine learning data sets, but also on the approximation of Runge function and Bateman equations solution, of interest for scientific machine learning. This method yields neural networks that are both competitive and cost-effective.
翻訳日:2022-07-14 19:00:31 公開日:2022-07-13
# (参考訳) 入出力変圧器による参加者行動の推測と予測

Entry-Flipped Transformer for Inference and Prediction of Participant Behavior ( http://arxiv.org/abs/2207.06235v1 )

ライセンス: CC BY 4.0
Bo Hu and Tat-Jen Cham(参考訳) チームスポーツや振付ダンスなどのグループ活動には、参加者間の密接な相互作用が含まれる。 本稿では,このような条件下での動作経路や行動の観点から,参加者の行動の推測と予測のタスクについて検討する。 対象参加者が他の参加者の行動にどう反応するかを推定する方法に問題を絞り込む。 我々のキーとなる考え方は、フレームワイド推論と予測においてエラー蓄積に頑健な方法で参加者間の時空間関係をモデル化することである。 本研究では,空間領域と時間領域の両方において,注意機構によって参加者の関係をモデル化する新しいエントリーフライプトランス(ef-transformer)を提案する。 典型的な変圧器とは違って,クエリ,キー,値入力の順序を反転させることで,現在のフレームにおける観測特徴の重要性と忠実度を高めることで,誤り蓄積の問題に取り組む。 比較実験の結果,ef-transformerは,新たに収集したテニスダブルスデータセット,ceilidhダンスデータセット,歩行者データセットにおいて,最高のパフォーマンスを達成できた。 さらに, EF-Transformerは, 蓄積したエラーを抑え, 誤推定から回復するのに優れていることを示す。

Some group activities, such as team sports and choreographed dances, involve closely coupled interaction between participants. Here we investigate the tasks of inferring and predicting participant behavior, in terms of motion paths and actions, under such conditions. We narrow the problem to that of estimating how a set target participants react to the behavior of other observed participants. Our key idea is to model the spatio-temporal relations among participants in a manner that is robust to error accumulation during frame-wise inference and prediction. We propose a novel Entry-Flipped Transformer (EF-Transformer), which models the relations of participants by attention mechanisms on both spatial and temporal domains. Unlike typical transformers, we tackle the problem of error accumulation by flipping the order of query, key, and value entries, to increase the importance and fidelity of observed features in the current frame. Comparative experiments show that our EF-Transformer achieves the best performance on a newly-collected tennis doubles dataset, a Ceilidh dance dataset, and two pedestrian datasets. Furthermore, it is also demonstrated that our EF-Transformer is better at limiting accumulated errors and recovering from wrong estimations.
翻訳日:2022-07-14 18:59:28 公開日:2022-07-13
# (参考訳) 説明可能な侵入検知システム(X-IDS)の現状, 課題, 可能性の調査

Explainable Intrusion Detection Systems (X-IDS): A Survey of Current Methods, Challenges, and Opportunities ( http://arxiv.org/abs/2207.06236v1 )

ライセンス: CC BY 4.0
Subash Neupane and Jesse Ables and William Anderson and Sudip Mittal and Shahram Rahimi and Ioana Banicescu and Maria Seale(参考訳) 人工知能(AI)と機械学習(ML)のサイバーセキュリティ問題への応用は、部分的にはクラウドインフラストラクチャや政府機関などの重要なシステムに対するマルウェア攻撃の結果として、業界や学界で注目を集めている。 侵入検知システム(ids)は、予測精度の高い膨大なデータを扱う能力により、いくつかの形態のaiを使用して広く採用されている。 これらのシステムは組織的サイバーセキュリティ運用センター (CSoC) に監視ツールとしてホストされており、悪意のあるネットワークフローを監視・検出し、それ以外はCIA (Confidentiality, Integrity, and Availability) に影響を与える。 CSoCアナリストは、検出された脅威に関する決定をこれらのシステムに依存する。 しかし,Deep Learning (DL) 技術を用いて設計したIDSはブラックボックスモデルとして扱われることが多く,その予測を正当化するものではない。 これにより、モデルの予測に基づいて意思決定を改善することができないため、CSoCアナリストにとって障壁となる。 この問題の解決策の1つは、説明可能なIDS(X-IDS)を設計することである。 この調査では、IDSの最先端AI(XAI)とその現在の課題についてレビューし、これらの課題がX-IDSの設計にどのように当てはまるかを論じる。 特に,ブラックボックスとホワイトボックスのアプローチを包括的に議論する。 また、これらのアプローチ間のトレードオフを、それらのパフォーマンスと説明を生み出す能力の観点から示します。 さらに,X-IDSの設計におけるガイドラインとして使用できる,ループ内人間を考慮した汎用アーキテクチャを提案する。 リサーチレコメンデーションは、IDSの説明可能性を定義する必要性、様々な利害関係者に適した説明を作成する必要性、説明を評価するためのメトリクスを設計することの3つの重要な視点から与えられる。

The application of Artificial Intelligence (AI) and Machine Learning (ML) to cybersecurity challenges has gained traction in industry and academia, partially as a result of widespread malware attacks on critical systems such as cloud infrastructures and government institutions. Intrusion Detection Systems (IDS), using some forms of AI, have received widespread adoption due to their ability to handle vast amounts of data with a high prediction accuracy. These systems are hosted in the organizational Cyber Security Operation Center (CSoC) as a defense tool to monitor and detect malicious network flow that would otherwise impact the Confidentiality, Integrity, and Availability (CIA). CSoC analysts rely on these systems to make decisions about the detected threats. However, IDSs designed using Deep Learning (DL) techniques are often treated as black box models and do not provide a justification for their predictions. This creates a barrier for CSoC analysts, as they are unable to improve their decisions based on the model's predictions. One solution to this problem is to design explainable IDS (X-IDS). This survey reviews the state-of-the-art in explainable AI (XAI) for IDS, its current challenges, and discusses how these challenges span to the design of an X-IDS. In particular, we discuss black box and white box approaches comprehensively. We also present the tradeoff between these approaches in terms of their performance and ability to produce explanations. Furthermore, we propose a generic architecture that considers human-in-the-loop which can be used as a guideline when designing an X-IDS. Research recommendations are given from three critical viewpoints: the need to define explainability for IDS, the need to create explanations tailored to various stakeholders, and the need to design metrics to evaluate explanations.
翻訳日:2022-07-14 18:42:18 公開日:2022-07-13
# (参考訳) 階層的マルチラベル分類における欠落アノテーション検出のための階層的利用

Hierarchy exploitation to detect missing annotations on hierarchical multi-label classification ( http://arxiv.org/abs/2207.06237v1 )

ライセンス: CC BY 4.0
Miguel Romero, Felipe Kenji Nakano, Jorge Finke, Camilo Rocha, Celine Vens(参考訳) ゲノムデータの入手は、主に新しいシークエンシング技術の開発により、過去10年間で指数関数的に増加している。 ゲノムデータから抽出される遺伝子(および遺伝子産物)間の相互作用に基づいて、多くの研究が遺伝子と機能の関係の同定に重点を置いている。 これらの研究は大きな可能性を秘めているが、機能を持つ遺伝子をアノテートする問題はいまだに未解決の課題である。 本稿では,階層型マルチラベル分類データセットにおけるアノテーションの欠落を検出する手法を提案する。 本稿では,各インスタンスの葉から根までのクラスパスへの集約確率を計算することで,クラス階層を利用する手法を提案する。 提案手法は遺伝子機能アノテーションの欠如を予測する文脈において提示され, それらの集約確率はin vivo実験で検証されるアノテーションのセットを選択するためにさらに用いられる。 イネ品種であるオリザ・サティバ・ジャポニカの実験では,この手法にクラス階層を組み込むことで予測性能が向上し,本手法が文献の競合手法と比較して優れた結果が得られることが示されている。

The availability of genomic data has grown exponentially in the last decade, mainly due to the development of new sequencing technologies. Based on the interactions between genes (and gene products) extracted from the increasing genomic data, numerous studies have focused on the identification of associations between genes and functions. While these studies have shown great promise, the problem of annotating genes with functions remains an open challenge. In this work, we present a method to detect missing annotations in hierarchical multi-label classification datasets. We propose a method that exploits the class hierarchy by computing aggregated probabilities to the paths of classes from the leaves to the root for each instance. The proposed method is presented in the context of predicting missing gene function annotations, where these aggregated probabilities are further used to select a set of annotations to be verified through in vivo experiments. The experiments on Oriza sativa Japonica, a variety of rice, showcase that incorporating the hierarchy of classes into the method often improves the predictive performance and our proposed method yields superior results when compared to competitor methods from the literature.
翻訳日:2022-07-14 18:03:48 公開日:2022-07-13
# (参考訳) ヒットレスメモリ再構成型フォトニックリザーバコンピューティングアーキテクチャ

Hitless memory-reconfigurable photonic reservoir computing architecture ( http://arxiv.org/abs/2207.06245v1 )

ライセンス: CC BY 4.0
Mohab Abdalla, Cl\'ement Zrounba, Raphael Cardoso, Paul Jimenez, Guanghui Ren, Andreas Boes, Arnan Mitchell, Alberto Bosio, Ian O'Connor, Fabio Pavanello(参考訳) リザーバコンピューティングは、時間依存の信号を効率的に処理するためのアナログバイオインスパイアされた計算モデルであり、フォトニックの実装は、膨大な並列情報処理、低消費電力、高速操作の組み合わせを約束している。 しかし、特に時間遅延貯水池計算(TDRC)の場合、ほとんどの実装は特定のタスクのために所望のシステムダイナミクスを達成するために貯水池での信号減衰を必要とし、しばしばシステム外で大量の電力が結合される。 本稿では,光減衰器ブロックを必要とせずにシステムのメモリ容量を調整可能な共振キャビティに一体化した非対称マッハ・ツェンダー干渉計(mzi)に基づく新しいtdrcアーキテクチャを提案する。 さらに、これは全メモリ容量メトリックの特定のコンポーネントに対して最適な値を見つけるために利用することができる。 この手法を時間ビットワイズXORタスクで実証し、メモリ容量再構成によりメモリ固有のタスクに対して最適な性能が得られると結論付けた。

Reservoir computing is an analog bio-inspired computation model for efficiently processing time-dependent signals, the photonic implementations of which promise a combination of massive parallel information processing, low power consumption, and high speed operation. However, most implementations, especially for the case of time-delay reservoir computing (TDRC), require signal attenuation in the reservoir to achieve the desired system dynamics for a specific task, often resulting in large amounts of power being coupled outside of the system. We propose a novel TDRC architecture based on an asymmetric Mach-Zehnder interferometer (MZI) integrated in a resonant cavity which allows the memory capacity of the system to be tuned without the need for an optical attenuator block. Furthermore, this can be leveraged to find the optimal value for the specific components of the total memory capacity metric. We demonstrate this approach on the temporal bitwise XOR task and conclude that this way of memory capacity reconfiguration allows optimal performance to be achieved for memory-specific tasks.
翻訳日:2022-07-14 17:41:16 公開日:2022-07-13
# (参考訳) 外観自由行動認識は可能か?

Is Appearance Free Action Recognition Possible? ( http://arxiv.org/abs/2207.06261v1 )

ライセンス: CC BY 4.0
Filip Ilic, Thomas Pock, Richard P. Wildes(参考訳) 直感は、動画に基づく行動認識の鍵となる動きと動的情報が示唆されるかもしれない。 対照的に、最先端のディープラーニングビデオ理解アーキテクチャが単一のフレームで利用可能な静的情報に偏っている証拠がある。 現在,映像中の動的情報の影響を分離するための方法論と対応するデータセットが欠落している。 それらの欠如は、現代のアーキテクチャが動的情報と静的情報の両方をいかにうまく活用しているかを理解するのを難しくする。 我々は,行動認識のための新しいアペンランスフリーデータセット(AFD)を作成した。 afdは単一のフレームにおける行動認識に関連する静的情報を持たない。 ダイナミクスのモデリングはタスクの解決に必要であり、アクションは時間次元の考慮によってのみ明らかである。 AFDとそれに関連するRGBビデオを用いて,11の現代の行動認識アーキテクチャを評価した。 RGBと比較して,AFD上の全てのアーキテクチャの性能は顕著に低下した。 また,AFD上での認識精度とRGBがAFDで評価されたアーキテクチャと非常によく似ていることを示す補完的研究を行った。 その結果,afd と rgb 上で最高の性能を実現するため,光フローの明示的な回復を再現する新しいアーキテクチャのモチベーションが得られた。

Intuition might suggest that motion and dynamic information are key to video-based action recognition. In contrast, there is evidence that state-of-the-art deep-learning video understanding architectures are biased toward static information available in single frames. Presently, a methodology and corresponding dataset to isolate the effects of dynamic information in video are missing. Their absence makes it difficult to understand how well contemporary architectures capitalize on dynamic vs. static information. We respond with a novel Appearance Free Dataset (AFD) for action recognition. AFD is devoid of static information relevant to action recognition in a single frame. Modeling of the dynamics is necessary for solving the task, as the action is only apparent through consideration of the temporal dimension. We evaluated 11 contemporary action recognition architectures on AFD as well as its related RGB video. Our results show a notable decrease in performance for all architectures on AFD compared to RGB. We also conducted a complimentary study with humans that shows their recognition accuracy on AFD and RGB is very similar and much better than the evaluated architectures on AFD. Our results motivate a novel architecture that revives explicit recovery of optical flow, within a contemporary design for best performance on AFD and RGB.
翻訳日:2022-07-14 17:33:16 公開日:2022-07-13
# (参考訳) 疎グローバルコントラスト説明を用いた政策最適化

Policy Optimization with Sparse Global Contrastive Explanations ( http://arxiv.org/abs/2207.06269v1 )

ライセンス: CC BY 4.0
Jiayu Yao, Sonali Parbhoo, Weiwei Pan, Finale Doshi-Velez(参考訳) スパースかつユーザ解釈可能な変更を通じて既存の行動ポリシーを改善するための強化学習(RL)フレームワークを開発する。 私たちの目標は、可能な限り多くの利益を得ながら、最小限の変更を行うことです。 私たちは、最小限の変更を、オリジナルポリシーと提案されたポリシーのスパースでグローバルな対比的な説明と定義します。 我々は、そのグローバルな対比的な説明を短く保ちながら、現在の政策を改善する。 我々は,個別のMDPと連続した2次元ナビゲーションドメインでフレームワークを実証する。

We develop a Reinforcement Learning (RL) framework for improving an existing behavior policy via sparse, user-interpretable changes. Our goal is to make minimal changes while gaining as much benefit as possible. We define a minimal change as having a sparse, global contrastive explanation between the original and proposed policy. We improve the current policy with the constraint of keeping that global contrastive explanation short. We demonstrate our framework with a discrete MDP and a continuous 2D navigation domain.
翻訳日:2022-07-14 17:15:55 公開日:2022-07-13
# (参考訳) 2次元心エコー図による上腕三頭筋視の左室構成

Left Ventricle Contouring of Apical Three-Chamber Views on 2D Echocardiography ( http://arxiv.org/abs/2207.06330v1 )

ライセンス: CC BY 4.0
Alberto Gomez, Mihaela Porumb, Angela Mumith, Thierry Judge, Shan Gao, Woo-Jin Cho Kim, Jorge Oliveira and Agis Chartsias(参考訳) 左心室を2次元心エコー画像で自動整形する手法を提案する。 セグメンテーションマスクの予測に基づく既存のセグメンテーション手法と異なり,心内輪郭の予測と,その輪郭内の重要なランドマークポイント(basal point and apex)の予測に重点を置いている。 これは、専門家の手動アノテーションの実行方法に近い表現を提供し、それゆえ、生理学的により妥当な結果を生み出す。 提案手法は,U-Netアーキテクチャに基づく2重ネットワークを用いる。 1つのヘッドは7つの輪郭点を予測し、もう1つのヘッドは輪郭への距離マップを予測する。 この手法はU-Netやポイントベースアプローチと比較され,ランドマークの局所化(<4.5mm) と地上の真理輪郭(<3.5mm) で最大30倍の性能向上を達成した。

We propose a new method to automatically contour the left ventricle on 2D echocardiographic images. Unlike most existing segmentation methods, which are based on predicting segmentation masks, we focus at predicting the endocardial contour and the key landmark points within this contour (basal points and apex). This provides a representation that is closer to how experts perform manual annotations and hence produce results that are physiologically more plausible. Our proposed method uses a two-headed network based on the U-Net architecture. One head predicts the 7 contour points, and the other head predicts a distance map to the contour. This approach was compared to the U-Net and to a point based approach, achieving performance gains of up to 30\% in terms of landmark localisation (<4.5mm) and distance to the ground truth contour (<3.5mm).
翻訳日:2022-07-14 16:58:19 公開日:2022-07-13
# (参考訳) QT-Routenet:待ち行列理論による微調整予測による大規模5GネットワークへのGNN一般化の改善

QT-Routenet: Improved GNN generalization to larger 5G networks by fine-tuning predictions from queueing theory ( http://arxiv.org/abs/2207.06336v1 )

ライセンス: CC BY-SA 4.0
Bruno Klaus de Aquino Afonso, Lilian Berton(参考訳) 5Gにおける機械学習の利用を促進するため、国際通信連合(ITU)は2021年に、82か国から1600人以上の参加者を擁する5GチャレンジにおけるITU AI/MLの第2版を提案した。 この研究は、グラフニューラルネットワークチャレンジ2021の勝利ソリューションである、全体的な第2のソリューションについて詳述している。 我々は,5gネットワークにモデルを適用する際の一般化の問題に対処し,訓練中に観測されたものよりも長いパスとリンク容量を持つ可能性がある。 これを実現するために,まず待ち行列理論(qt)に関連するロバストな特徴を抽出し,ルートネットグラフニューラルネットワーク(gnn)モデルの修正を用いて解析ベースライン予測を微調整する。 提案された解は、単にroutenetを使うよりもずっとよく一般化され、解析ベースラインの10.42平均絶対パーセンテージ誤差を1.45(アンサンブル付き1.27)に減らすことができる。 これは、ロバストであることが知られている近似モデルに小さな変更を加えることは、一般化を妥協することなく精度を向上させる効果的な方法であることを示唆している。

In order to promote the use of machine learning in 5G, the International Telecommunication Union (ITU) proposed in 2021 the second edition of the ITU AI/ML in 5G challenge, with over 1600 participants from 82 countries. This work details the second place solution overall, which is also the winning solution of the Graph Neural Networking Challenge 2021. We tackle the problem of generalization when applying a model to a 5G network that may have longer paths and larger link capacities than the ones observed in training. To achieve this, we propose to first extract robust features related to Queueing Theory (QT), and then fine-tune the analytical baseline prediction using a modification of the Routenet Graph Neural Network (GNN) model. The proposed solution generalizes much better than simply using Routenet, and manages to reduce the analytical baseline's 10.42 mean absolute percent error to 1.45 (1.27 with an ensemble). This suggests that making small changes to an approximate model that is known to be robust can be an effective way to improve accuracy without compromising generalization.
翻訳日:2022-07-14 16:47:42 公開日:2022-07-13
# (参考訳) スパース二項行列の平滑匿名性

Smooth Anonymity for Sparse Binary Matrices ( http://arxiv.org/abs/2207.06358v1 )

ライセンス: CC BY 4.0
Hossein Esfandiari, Alessandro Epasto, Vahab Mirrokni, Andres Munoz Medina, Sergei Vassilvitskii(参考訳) 適切に定義されたプライバシー保証を提供するユーザデータを扱う場合、最重要である。 この作業では、スパースデータセット全体をサードパーティとプライベートに操作し、共有することを目指しています。 実際、差分プライバシはプライバシの黄金の標準として浮上していますが、スパースデータセットの共有に関しては、私たちの主な結果の1つとして、初期データセットと合理的な類似性を維持する差分プライバシ機構が、非常に弱いプライバシ保証を持つように運命づけられていることを証明しています。 したがって、$k$-anonymityのような他のプライバシー概念を選択すれば、このコンテキストでのユーティリティの保存がより簡単になります。 この研究では、smomous $k$-anonymityと呼ばれる$k$-anonymityのバリエーションを示し、smomous $k$-anonymityを効率的に提供する単純なアルゴリズムを設計する。 さらに,理論的な保証を裏付ける経験的評価を行い,アルゴリズムが匿名化データにおける下流機械学習タスクの性能を向上させることを示す。

When working with user data providing well-defined privacy guarantees is paramount. In this work we aim to manipulate and share an entire sparse dataset with a third party privately. In fact, differential privacy has emerged as the gold standard of privacy, however, when it comes to sharing sparse datasets, as one of our main results, we prove that \emph{any} differentially private mechanism that maintains a reasonable similarity with the initial dataset is doomed to have a very weak privacy guarantee. Hence we need to opt for other privacy notions such as $k$-anonymity are better at preserving utility in this context. In this work we present a variation of $k$-anonymity, which we call smooth $k$-anonymity and design simple algorithms that efficiently provide smooth $k$-anonymity. We further perform an empirical evaluation to back our theoretical guarantees, and show that our algorithm improves the performance in downstream machine learning tasks on anonymized data.
翻訳日:2022-07-14 16:35:45 公開日:2022-07-13
# ReLU人工ニューラルネットワークのトレーニングにおける正規化勾配流最適化

Normalized gradient flow optimization in the training of ReLU artificial neural networks ( http://arxiv.org/abs/2207.06246v1 )

ライセンス: Link先を確認
Simon Eberle, Arnulf Jentzen, Adrian Riekert, Georg Weiss(参考訳) ニューラルネットワーク(anns)のトレーニングは、科学や産業の多くの応用において、現在非常に関連性の高いアルゴリズム手順である。 概して、ANNは1次元のいわゆるアクティベーション関数の多次元バージョンであるアフィン線型関数とある種の固定非線形関数の反復合成と見なすことができる。 そのような一次元の活性化関数の最も一般的な選択は、実数を正の部分 $ \mathbb{R} \ni x \mapsto \max\{ x, 0 \} \in \mathbb{R} $ に写す正線形単位(ReLU)活性化関数である。 In this article we propose and analyze a modified variant of the standard training procedure of such ReLU ANNs in the sense that we propose to restrict the negative gradient flow dynamics to a large submanifold of the ANN parameter space, which is a strict $ C^{ \infty } $-submanifold of the entire ANN parameter space that seems to enjoy better regularity properties than the entire ANN parameter space but which is also sufficiently large and sufficiently high dimensional so that it can represent all ANN realization functions that can be represented through the entire ANN parameter space. 1次元のANN層しか持たない浅層ANNの特別な状況では、ANNパラメータ空間のこの大きな部分多様体上のすべての勾配流軌跡が全世界的に有界であることも証明する。 リプシッツ連続目標関数を持つANNパラメータ空間全体の標準勾配流については、わずか1次元のANN層を持つ浅層ANNであっても勾配流路のグローバルな境界性を証明するか、証明する研究のオープンな問題である。

The training of artificial neural networks (ANNs) is nowadays a highly relevant algorithmic procedure with many applications in science and industry. Roughly speaking, ANNs can be regarded as iterated compositions between affine linear functions and certain fixed nonlinear functions, which are usually multidimensional versions of a one-dimensional so-called activation function. The most popular choice of such a one-dimensional activation function is the rectified linear unit (ReLU) activation function which maps a real number to its positive part $ \mathbb{R} \ni x \mapsto \max\{ x, 0 \} \in \mathbb{R} $. In this article we propose and analyze a modified variant of the standard training procedure of such ReLU ANNs in the sense that we propose to restrict the negative gradient flow dynamics to a large submanifold of the ANN parameter space, which is a strict $ C^{ \infty } $-submanifold of the entire ANN parameter space that seems to enjoy better regularity properties than the entire ANN parameter space but which is also sufficiently large and sufficiently high dimensional so that it can represent all ANN realization functions that can be represented through the entire ANN parameter space. In the special situation of shallow ANNs with just one-dimensional ANN layers we also prove for every Lipschitz continuous target function that every gradient flow trajectory on this large submanifold of the ANN parameter space is globally bounded. For the standard gradient flow on the entire ANN parameter space with Lipschitz continuous target functions it remains an open problem of research to prove or disprove the global boundedness of gradient flow trajectories even in the situation of shallow ANNs with just one-dimensional ANN layers.
翻訳日:2022-07-14 16:10:34 公開日:2022-07-13
# $\beta$-divergence を用いたスパース非負行列分解の最小化

Majorization-minimization for Sparse Nonnegative Matrix Factorization with the $\beta$-divergence ( http://arxiv.org/abs/2207.06316v1 )

ライセンス: Link先を確認
Arthur Marmin, Jos\'e Henrique de Morais Goulart, C\'edric F\'evotte(参考訳) この記事では、2つの因子のうちの1つ(例えば活性化行列)の$\beta$-divergenceとスパース正規化による非負行列因子化の新しい乗法的更新を紹介する。 他の因子(辞書行列)のノルムは、不適切な定式化を避けるために制御する必要があることはよく知られている。 標準的な実践は辞書の列を単位ノルムに制限することであり、これは非自明な最適化問題につながる。 提案手法は,元問題の再パラメータ化を利用して,等価スケール不変目的関数の最適化を行う。 そこで我々は,$\ell_{1}$-regularization あるいはより "攻撃的" なログ正規化に対して,単純な乗法的更新をもたらすブロック・ディフレッシブ・プライマリゼーション・最小化アルゴリズムを導出する。 他の最先端手法とは対照的に、我々のアルゴリズムは任意の$\beta$-divergence(すなわち$\beta$の値)に適用可能であり、収束保証付きであるという意味で普遍的である。 本研究では,顔画像,音声スペクトログラム,ハイパースペクトルデータ,曲の演奏数などを用いて,既存のヒューリスティックおよびラグランジアン法との比較を行った。 提案手法は, コンバージェンス(類似目的値)において, CPU時間を大幅に短縮した類似品質の解が得られることを示す。

This article introduces new multiplicative updates for nonnegative matrix factorization with the $\beta$-divergence and sparse regularization of one of the two factors (say, the activation matrix). It is well known that the norm of the other factor (the dictionary matrix) needs to be controlled in order to avoid an ill-posed formulation. Standard practice consists in constraining the columns of the dictionary to have unit norm, which leads to a nontrivial optimization problem. Our approach leverages a reparametrization of the original problem into the optimization of an equivalent scale-invariant objective function. From there, we derive block-descent majorization-minimization algorithms that result in simple multiplicative updates for either $\ell_{1}$-regularization or the more "aggressive" log-regularization. In contrast with other state-of-the-art methods, our algorithms are universal in the sense that they can be applied to any $\beta$-divergence (i.e., any value of $\beta$) and that they come with convergence guarantees. We report numerical comparisons with existing heuristic and Lagrangian methods using various datasets: face images, an audio spectrogram, hyperspectral data, and song play counts. We show that our methods obtain solutions of similar quality at convergence (similar objective values) but with significantly reduced CPU times.
翻訳日:2022-07-14 16:10:04 公開日:2022-07-13
# 非Myopic Multifidelity Bayesian Optimization

Non-Myopic Multifidelity Bayesian Optimization ( http://arxiv.org/abs/2207.06325v1 )

ライセンス: Link先を確認
Francesco Di Fiore and Laura Mainini(参考訳) ベイズ最適化はブラックボックス関数の最適化に人気のあるフレームワークである。 マルチフィデリティ法は、高価な目的関数の低フィデリティ表現を利用することでベイズ最適化を加速することができる。 人気のある多忠実ベイズ戦略は、特定の入力で目的関数を評価できる即時報酬を考慮に入れたサンプリングポリシーに依存しており、より多くのステップで得られるかもしれないより多くの情報的利得を除外している。 本稿では,この最適化の今後のステップから長期報酬を把握するための,非筋電多忠実ベイズフレームワークを提案する。 我々の計算戦略は2段階のルックアヘッド多面体獲得関数を伴い, 2段階の解法改善を計測した累積報酬を最大化する。 提案アルゴリズムは,一般的なベンチマーク最適化問題に対して,標準的なマルチフィデリティベイズフレームワークよりも優れていることを示す。

Bayesian optimization is a popular framework for the optimization of black box functions. Multifidelity methods allows to accelerate Bayesian optimization by exploiting low-fidelity representations of expensive objective functions. Popular multifidelity Bayesian strategies rely on sampling policies that account for the immediate reward obtained evaluating the objective function at a specific input, precluding greater informative gains that might be obtained looking ahead more steps. This paper proposes a non-myopic multifidelity Bayesian framework to grasp the long-term reward from future steps of the optimization. Our computational strategy comes with a two-step lookahead multifidelity acquisition function that maximizes the cumulative reward obtained measuring the improvement in the solution over two steps ahead. We demonstrate that the proposed algorithm outperforms a standard multifidelity Bayesian framework on popular benchmark optimization problems.
翻訳日:2022-07-14 16:09:37 公開日:2022-07-13
# ニューラルビデオ圧縮のためのハイブリッド空間-時間エントロピーモデル

Hybrid Spatial-Temporal Entropy Modelling for Neural Video Compression ( http://arxiv.org/abs/2207.05894v1 )

ライセンス: Link先を確認
Jiahao Li, Bin Li, Yan Lu(参考訳) ニューラルビデオコーデックでは、量子化潜在表現の確率分布を正確に予測できる効率的なエントロピーモデルを設計することが重要であるが、難しい。 しかし、既存のビデオコーデックのほとんどは、画像コーデックからの既製のエントロピーモデルを直接使用して、残差や動きをエントロピーし、ビデオの空間的時間的特性を十分に活用していない。 そこで本稿では,空間依存と時間依存の両方を効率的に捉える強力なエントロピーモデルを提案する。 特に,潜時表現間の相関を利用して時間的冗長性を抑える潜時前処理を導入する。 一方, 空間冗長性を並列に低減するために, 二重空間前置法が提案されている。 さらに、我々のエントロピーモデルも多用途である。 確率分布の推定に加えて,我々のエントロピーモデルも空間チャネル的に量子化ステップを生成する。 このコンテント適応量子化機構は,単一モデルでのスムースレート調整を実現するだけでなく,動的ビット割り当てによる最終的なレート分散性能を向上させる。 実験の結果,提案するエントロピーモデルにより,最大圧縮比構成のh.266(vtm)と比較して,uvgデータセット上で18.2%のビットレートの節約が可能となった。 ニューラルビデオコーデックの開発において、新たなマイルストーンを達成している。 コードはhttps://github.com/microsoft/DCVCにある。

For neural video codec, it is critical, yet challenging, to design an efficient entropy model which can accurately predict the probability distribution of the quantized latent representation. However, most existing video codecs directly use the ready-made entropy model from image codec to encode the residual or motion, and do not fully leverage the spatial-temporal characteristics in video. To this end, this paper proposes a powerful entropy model which efficiently captures both spatial and temporal dependencies. In particular, we introduce the latent prior which exploits the correlation among the latent representation to squeeze the temporal redundancy. Meanwhile, the dual spatial prior is proposed to reduce the spatial redundancy in a parallel-friendly manner. In addition, our entropy model is also versatile. Besides estimating the probability distribution, our entropy model also generates the quantization step at spatial-channel-wise. This content-adaptive quantization mechanism not only helps our codec achieve the smooth rate adjustment in single model but also improves the final rate-distortion performance by dynamic bit allocation. Experimental results show that, powered by the proposed entropy model, our neural codec can achieve 18.2% bitrate saving on UVG dataset when compared with H.266 (VTM) using the highest compression ratio configuration. It makes a new milestone in the development of neural video codec. The codes are at https://github.com/microsoft/DCVC.
翻訳日:2022-07-14 16:09:24 公開日:2022-07-13
# PMBM Bayesian Track Initiation とラベル付き RFS Adaptive birth の比較

A comparison between PMBM Bayesian track initiation and labelled RFS adaptive birth ( http://arxiv.org/abs/2207.06156v1 )

ライセンス: Link先を確認
\'Angel F. Garc\'ia-Fern\'andez, Yuxuan Xia, Lennart Svensson(参考訳) 本稿では,ラベル付きランダム有限集合文学において用いられる適応的出生モデルと,ポアソン・マルチベルヌーリ混合(PMBM)フィルタにおけるトラック開始とを,ポイントターゲットモデルを用いて比較解析する。 PMBMトラック開始は、予測されたPMBM密度にベイズの規則を適用して得られ、受信された各測定値に対して1つのベルヌーイ成分を生成し、この測定値が散逸または新しい目標からの検出であることを示す。 アダプティブ・バース(adaptive birth)は、異なる規則を用いて測定毎にベルヌーイ成分を作成し、存在確率とユーザ定義の単一目標密度を決定することで、この手順を模倣する。 本稿では,まず,孤立測定に基づく軌道開始時の相違点の解析を行う。 そして、適応出生は、共通のモデリング仮定の下で、監視領域に存在する物体の数を過小評価していることを示す。 最後に,この差異を説明するために数値シミュレーションを行う。

This paper provides a comparative analysis between the adaptive birth model used in the labelled random finite set literature and the track initiation in the Poisson multi-Bernoulli mixture (PMBM) filter, with point-target models. The PMBM track initiation is obtained via Bayes' rule applied on the predicted PMBM density, and creates one Bernoulli component for each received measurement, representing that this measurement may be clutter or a detection from a new target. Adaptive birth mimics this procedure by creating a Bernoulli component for each measurement using a different rule to determine the probability of existence and a user-defined single-target density. This paper first provides an analysis of the differences that arise in track initiation based on isolated measurements. Then, it shows that adaptive birth underestimates the number of objects present in the surveillance area under common modelling assumptions. Finally, we provide numerical simulations to further illustrate the differences.
翻訳日:2022-07-14 16:09:01 公開日:2022-07-13
# テンソルネットワーク機械学習と量子絡み合い変化による情報的特徴の教師なし認識

Unsupervised Recognition of Informative Features via Tensor Network Machine Learning and Quantum Entanglement Variations ( http://arxiv.org/abs/2207.06031v1 )

ライセンス: Link先を確認
Sheng-Chen Bai, Yi-Cheng Tang, and Shi-Ju Ran(参考訳) ブラックボードに描かれた白い靴のイメージを考えると、白いピクセル(例えば人間の心によって)は、そのピクセルにラベルをつけることなく、靴の認識にどのように役立つか? 本稿では,テンソルネットワーク(tn)機械学習と量子絡み合いの観点から,このような「ホワイトシュー」認識問題を考察する。 本稿では, 特徴の確率分布を量子振幅として捉えた生成的TNを用いて, 設計によるエンタングルメントエントロピー(EE)の変動による情報的特徴の非教師なし認識手法を提案する。 このようにして、その特徴の値が統計的に無意味である与えられたサンプルは、統計的に意味のあるEEのバリエーションにマッピングされる。 eeのバリエーションは、この特定のサンプルを認識する上で重要な特徴を特定し、ee自体がtnモデルからの情報分布を明らかにすることを示しています。 バリエーションの兆候は、特徴間の絡み合い構造をさらに明らかにする。 提案手法の有効性を,ストリップ画像のおもちゃデータセット,手書きディジットのMNISTデータセット,ファッション記事のファッション・MNISTデータセットで検証する。 提案手法は,量子インスパイアされた非教師付き学習への道を開き,画像分割や物体検出などに適用できる。

Given an image of a white shoe drawn on a blackboard, how are the white pixels deemed (say by human minds) to be informative for recognizing the shoe without any labeling information on the pixels? Here we investigate such a "white shoe" recognition problem from the perspective of tensor network (TN) machine learning and quantum entanglement. Utilizing a generative TN that captures the probability distribution of the features as quantum amplitudes, we propose an unsupervised recognition scheme of informative features with the variations of entanglement entropy (EE) caused by designed measurements. In this way, a given sample, where the values of its features are statistically meaningless, is mapped to the variations of EE that are statistically meaningful. We show that the EE variations identify the features that are critical to recognize this specific sample, and the EE itself reveals the information distribution from the TN model. The signs of the variations further reveal the entanglement structures among the features. We test the validity of our scheme on a toy dataset of strip images, the MNIST dataset of hand-drawn digits, and the fashion-MNIST dataset of the pictures of fashion articles. Our scheme opens the avenue to the quantum-inspired and interpreted unsupervised learning and could be applied to, e.g., image segmentation and object detection.
翻訳日:2022-07-14 16:06:30 公開日:2022-07-13
# モデルとデータバイアスの相互作用による不正検出の理解

Understanding Unfairness in Fraud Detection through Model and Data Bias Interactions ( http://arxiv.org/abs/2207.06273v1 )

ライセンス: Link先を確認
Jos\'e Pombal, Andr\'e F. Cruz, Jo\~ao Bravo, Pedro Saleiro, M\'ario A.T. Figueiredo, Pedro Bizarro(参考訳) 近年,機械学習アルゴリズムは多種多様な意思決定アプリケーションにおいて普及している。 データからパターンを学習する機械学習アルゴリズムの非並列的な能力は、バイアスを組み込むこともできる。 バイアスのあるモデルは、例えば金融サービスへのアクセスを制限するような、社会の特定のグループに不均等に有害な決定を下すことができる。 この問題に対する認識は、アルゴリズム予測における不公平性を研究、測定、緩和することに焦点を当て、保護されたグループ(例えば人種や性別)のセットに関して、公正なmlの分野を生み出した。 しかし、アルゴリズムの不公平の根本的な原因はいまだに解明されておらず、研究者はmlアルゴリズムを非難するか、トレーニングしたデータを非難するかに分かれている。 本研究では,アルゴリズム的不公平性は,モデル間の相互作用とデータ内のバイアスに起因し,両者の孤立した貢献に起因している。 そこで本研究では,データバイアスを特徴付ける分類法を提案し,フェアネスブラインドMLアルゴリズムが示すフェアネス-精度トレードオフに関する一連の仮説を,異なるデータバイアス設定下で検討する。 現実世界の口座開放詐欺のユースケースでは、各設定には特定のトレードオフが含まれており、期待値とばらつきの公平性に影響を与えています。 さらに,データに影響を与えるバイアスに応じて,精度と公平性の観点からアルゴリズムの違いを示す。 最後に、特定のデータバイアス条件下では、単純な前処理の介入がグループレベルのエラー率のバランスをとるのに成功し、同じ手法がより複雑な設定では失敗する。

In recent years, machine learning algorithms have become ubiquitous in a multitude of high-stakes decision-making applications. The unparalleled ability of machine learning algorithms to learn patterns from data also enables them to incorporate biases embedded within. A biased model can then make decisions that disproportionately harm certain groups in society -- limiting their access to financial services, for example. The awareness of this problem has given rise to the field of Fair ML, which focuses on studying, measuring, and mitigating unfairness in algorithmic prediction, with respect to a set of protected groups (e.g., race or gender). However, the underlying causes for algorithmic unfairness still remain elusive, with researchers divided between blaming either the ML algorithms or the data they are trained on. In this work, we maintain that algorithmic unfairness stems from interactions between models and biases in the data, rather than from isolated contributions of either of them. To this end, we propose a taxonomy to characterize data bias and we study a set of hypotheses regarding the fairness-accuracy trade-offs that fairness-blind ML algorithms exhibit under different data bias settings. On our real-world account-opening fraud use case, we find that each setting entails specific trade-offs, affecting fairness in expected value and variance -- the latter often going unnoticed. Moreover, we show how algorithms compare differently in terms of accuracy and fairness, depending on the biases affecting the data. Finally, we note that under specific data bias conditions, simple pre-processing interventions can successfully balance group-wise error rates, while the same techniques fail in more complex settings.
翻訳日:2022-07-14 16:06:07 公開日:2022-07-13
# 適応メッシュ洗練のためのロバストマーキングポリシの学習

Learning robust marking policies for adaptive mesh refinement ( http://arxiv.org/abs/2207.06339v1 )

ライセンス: Link先を確認
Andrew Gillette, Brendan Keith, and Socratis Petrides(参考訳) 本研究では,標準適応有限要素法(AFEM)におけるマーキング決定について再検討する。 経験から、na\"{i}veマーキングポリシーは、適応メッシュ精錬(AMR)に計算資源を非効率に利用することにつながる。 そのため、実際にAFEMを使用する場合、マーキングサブルーチンの適切なパラメータを設定するのに、アドホックまたは時間を要するオフラインパラメータチューニングが必要となることが多い。 これらの実用的な問題に対処するため,我々は,専門家ユーザによる事前調整を必要とせず,実行時にリファインメントパラメータをオンザフライで選択できるマルコフ決定プロセスとしてamrを再キャストする。 この新しいパラダイムでは、強化学習の手法を使って最適化可能なマーキングポリシを通じて、リファインメントパラメータも適応的に選択される。 我々はpoisson方程式を用いて,h$- および $hp$-refinement ベンチマーク問題を実演し,従来の afem アプリケーションでは優れたマーキングポリシーが未発見のままであることを示す。 さらに、この研究の予期せぬ観察は、あるPDEファミリーで訓練されたマーキングポリシーが、トレーニングファミリー以外の問題にうまく対応できるほど頑健である場合があるということである。 例えば、単一の再帰角を持つ2Dドメインでトレーニングされた単純な$hp$-refinementポリシーは、はるかに複雑な2Dドメインや、3Dドメインでも、大幅なパフォーマンス損失を伴わずにデプロイ可能であることを示す。 再現とより広範な採用のために、私たちはこの作業に私たちのメソッドのオープンソース実装を伴います。

In this work, we revisit the marking decisions made in the standard adaptive finite element method (AFEM). Experience shows that a na\"{i}ve marking policy leads to inefficient use of computational resources for adaptive mesh refinement (AMR). Consequently, using AFEM in practice often involves ad-hoc or time-consuming offline parameter tuning to set appropriate parameters for the marking subroutine. To address these practical concerns, we recast AMR as a Markov decision process in which refinement parameters can be selected on-the-fly at run time, without the need for pre-tuning by expert users. In this new paradigm, the refinement parameters are also chosen adaptively via a marking policy that can be optimized using methods from reinforcement learning. We use the Poisson equation to demonstrate our techniques on $h$- and $hp$-refinement benchmark problems, and our experiments suggest that superior marking policies remain undiscovered for many classical AFEM applications. Furthermore, an unexpected observation from this work is that marking policies trained on one family of PDEs are sometimes robust enough to perform well on problems far outside the training family. For illustration, we show that a simple $hp$-refinement policy trained on 2D domains with only a single re-entrant corner can be deployed on far more complicated 2D domains, and even 3D domains, without significant performance loss. For reproduction and broader adoption, we accompany this work with an open-source implementation of our methods.
翻訳日:2022-07-14 16:05:36 公開日:2022-07-13
# 非線形制御のための反復線形二次最適化:微分プログラミングアルゴリズムテンプレート

Iterative Linear Quadratic Optimization for Nonlinear Control: Differentiable Programming Algorithmic Templates ( http://arxiv.org/abs/2207.06362v1 )

ライセンス: Link先を確認
Vincent Roulet, Siddhartha Srinivasa, Maryam Fazel, Zaid Harchaoui(参考訳) 本稿では,関数的視点から対象の線形および二次近似に基づく非線形制御アルゴリズムの実装について述べる。 本稿では,勾配降下法,ガウス・ニュートン法,ニュートン法,線形二次近似あるいは二次近似を用いた微分動的計画法,様々な線探索戦略,これらのアルゴリズムの正則化変種について述べる。 我々は、微分可能なプログラミングフレームワークで全てのアルゴリズムの計算複雑性を導出し、十分な最適条件を示す。 自動車の自転車モデルを用いた自動運転車レースなど,いくつかのベンチマークでアルゴリズムを比較した。 アルゴリズムは、公開パッケージで微分可能なプログラミング言語でコード化されている。

We present the implementation of nonlinear control algorithms based on linear and quadratic approximations of the objective from a functional viewpoint. We present a gradient descent, a Gauss-Newton method, a Newton method, differential dynamic programming approaches with linear quadratic or quadratic approximations, various line-search strategies, and regularized variants of these algorithms. We derive the computational complexities of all algorithms in a differentiable programming framework and present sufficient optimality conditions. We compare the algorithms on several benchmarks, such as autonomous car racing using a bicycle model of a car. The algorithms are coded in a differentiable programming language in a publicly available package.
翻訳日:2022-07-14 16:05:10 公開日:2022-07-13
# ProDiff: 高品質テキスト合成のための高速拡散モデル

ProDiff: Progressive Fast Diffusion Model For High-Quality Text-to-Speech ( http://arxiv.org/abs/2207.06389v1 )

ライセンス: Link先を確認
Rongjie Huang, Zhou Zhao, Huadai Liu, Jinglin Liu, Chenye Cui, Yi Ren(参考訳) denoising diffusion probabilistic models (ddpms) は、最近多くの生成的タスクにおいて主要な性能を達成している。 しかし、継承された反復サンプリングプロセスは、テキストから音声へのデプロイを妨げます。 拡散モデルパラメタライゼーションの予備研究を通じて, 従来の勾配モデルによるTSSモデルでは, 高い試料品質を保証するため, 数百~数千回の反復が必要であり, サンプリングの高速化に課題が生じる。 本稿では,高品質テキスト音声の進行的高速拡散モデルであるProDiffを提案する。 データ密度の勾配を推定する以前の作業とは異なり、prodiffはサンプリングを加速するときに、クリーンなデータを直接予測することでノイズモデルをパラメータ化する。 拡散反復の減少によるモデル収束問題に対処するため、ProDiffは知識蒸留により対象部位のデータ分散を低減する。 具体的には,N段階DDIM教師が生成したメル-スペクトログラムをトレーニング対象とし,N/2段階の新たなモデルにその挙動を蒸留する。 これにより、ttsモデルは鋭い予測が可能となり、さらにサンプリング時間が桁違いに短縮される。 評価の結果,ProDiffは高忠実度メル-スペクトログラムの合成に2回しか必要とせず,数百段階のステップを用いた最先端モデルと競合するサンプル品質と多様性を維持していることがわかった。 ProDiffは、単一のNVIDIA 2080Ti GPU上で、サンプリング速度がリアルタイムより24倍速くなり、拡散モデルが初めてテキスト音声合成デプロイメントに適用できる。 広範なアブレーション研究により,prodiffの各設計が有効であることが示され,prodiffは複数話者設定に容易に拡張できることを示した。 オーディオサンプルは \url{https://ProDiff.github.io/ で入手できる。 }

Denoising diffusion probabilistic models (DDPMs) have recently achieved leading performances in many generative tasks. However, the inherited iterative sampling process costs hinder their applications to text-to-speech deployment. Through the preliminary study on diffusion model parameterization, we find that previous gradient-based TTS models require hundreds or thousands of iterations to guarantee high sample quality, which poses a challenge for accelerating sampling. In this work, we propose ProDiff, on progressive fast diffusion model for high-quality text-to-speech. Unlike previous work estimating the gradient for data density, ProDiff parameterizes the denoising model by directly predicting clean data to avoid distinct quality degradation in accelerating sampling. To tackle the model convergence challenge with decreased diffusion iterations, ProDiff reduces the data variance in the target site via knowledge distillation. Specifically, the denoising model uses the generated mel-spectrogram from an N-step DDIM teacher as the training target and distills the behavior into a new model with N/2 steps. As such, it allows the TTS model to make sharp predictions and further reduces the sampling time by orders of magnitude. Our evaluation demonstrates that ProDiff needs only 2 iterations to synthesize high-fidelity mel-spectrograms, while it maintains sample quality and diversity competitive with state-of-the-art models using hundreds of steps. ProDiff enables a sampling speed of 24x faster than real-time on a single NVIDIA 2080Ti GPU, making diffusion models practically applicable to text-to-speech synthesis deployment for the first time. Our extensive ablation studies demonstrate that each design in ProDiff is effective, and we further show that ProDiff can be easily extended to the multi-speaker setting. Audio samples are available at \url{https://ProDiff.github.io/.}
翻訳日:2022-07-14 16:05:00 公開日:2022-07-13
# (参考訳) 平面およびパララックス幾何学を用いた単分子深さと構造の共同予測

Joint Prediction of Monocular Depth and Structure using Planar and Parallax Geometry ( http://arxiv.org/abs/2207.06351v1 )

ライセンス: CC BY 4.0
Hao Xing, Yifan Cao, Maximilian Biber, Mingchuan Zhou, Darius Burschka(参考訳) 教師付き学習深度推定法は、LiDARデータのような高品質な地上構造で訓練すると、優れた性能が得られる。 しかし、LiDARは情報を失うようなスパース3Dマップしか生成できない。 画素あたりの地上深度データの取得は困難である。 この限界を克服するため,本研究では,有望平面とパララックス幾何パイプラインの構造情報をu-net教師付き学習ネットワークに結合する新しい手法を提案する。 特に、モデルは、KITTI Vision BenchmarkとCityscapesの2つの大規模かつ困難なデータセットで評価され、相対誤差の観点から最高のパフォーマンスを達成する。 純粋な深度監視モデルと比較して,本モデルは細い物体やエッジの深度予測に優れた性能を示し,構造予測ベースラインと比較して,より堅牢な性能を示す。

Supervised learning depth estimation methods can achieve good performance when trained on high-quality ground-truth, like LiDAR data. However, LiDAR can only generate sparse 3D maps which causes losing information. Obtaining high-quality ground-truth depth data per pixel is difficult to acquire. In order to overcome this limitation, we propose a novel approach combining structure information from a promising Plane and Parallax geometry pipeline with depth information into a U-Net supervised learning network, which results in quantitative and qualitative improvement compared to existing popular learning-based methods. In particular, the model is evaluated on two large-scale and challenging datasets: KITTI Vision Benchmark and Cityscapes dataset and achieve the best performance in terms of relative error. Compared with pure depth supervision models, our model has impressive performance on depth prediction of thin objects and edges, and compared to structure prediction baseline, our model performs more robustly.
翻訳日:2022-07-14 16:03:17 公開日:2022-07-13
# Open Graphベンチマークによるグラフ特性予測 - Graph Neural Architecture Searchによる勝利のソリューション

Graph Property Prediction on Open Graph Benchmark: A Winning Solution by Graph Neural Architecture Search ( http://arxiv.org/abs/2207.06027v1 )

ライセンス: Link先を確認
Xu Wang and Huan Zhao and Lanning Wei and Quanming Yao(参考訳) OGBグラフ分類タスクにおける2つの分子グラフデータセットと1つのタンパク質関連サブグラフデータセットを対象として,PAS(Pooling Architecture Search)を導入してグラフ分類タスクのためのグラフニューラルネットワークフレームワークを設計する。 同時に、GNNトポロジ設計手法F2GNNに基づいて、特徴選択と融合戦略をさらに設計し、深いGNNトレーニングの過度な平滑化問題を克服しつつ、グラフ特性予測タスクにおけるモデルの性能をさらに向上させる。 最後に、これらの3つのデータセットでパフォーマンスのブレークスルーが達成され、これは固定集約関数を持つ他のメソッドよりも大幅に優れている。 NAS法は,複数のタスクに対して高い一般化能力を有し,グラフ特性予測タスクの処理における本手法の利点が証明された。

Aiming at two molecular graph datasets and one protein association subgraph dataset in OGB graph classification task, we design a graph neural network framework for graph classification task by introducing PAS(Pooling Architecture Search). At the same time, we improve it based on the GNN topology design method F2GNN to further design the feature selection and fusion strategies, so as to further improve the performance of the model in the graph property prediction task while overcoming the over smoothing problem of deep GNN training. Finally, a performance breakthrough is achieved on these three datasets, which is significantly better than other methods with fixed aggregate function. It is proved that the NAS method has high generalization ability for multiple tasks and the advantage of our method in processing graph property prediction tasks.
翻訳日:2022-07-14 15:38:25 公開日:2022-07-13
# High Perパラメータ:機械学習アルゴリズムのためのハイパーパラメータチューニングの大規模研究

High Per Parameter: A Large-Scale Study of Hyperparameter Tuning for Machine Learning Algorithms ( http://arxiv.org/abs/2207.06028v1 )

ライセンス: Link先を確認
Moshe Sipper(参考訳) 機械学習(ML)におけるハイパーパラメータは、かなりの注目を集めており、ハイパーパラメータチューニングは、MLパイプラインにおける重要なステップとみなされている。 しかし、チューニングがどれほど役に立つか? 従来より小規模な実験が行われていたが,本研究では,26mlアルゴリズム,250データセット(回帰と二項および多項分類),6スコアメトリクス,28,857,600アルゴリズムの実行を含む大規模調査を行った。 結果を分析した結果、多くのMLアルゴリズムでは、平均的なハイパーパラメータチューニングからかなりの利益を期待するべきではないが、デフォルトのハイパーパラメータが貧弱なデータセットが存在する可能性がある。 アルゴリズムの累積統計を結合した単一のhp_score値を定義することで、26mlアルゴリズムを、ハイパーパラメータチューニングから最も多く得ると期待されるものから、最小となるものへとランク付けすることができる。 このような研究は、ML実践者全般に役立ちそうです。

Hyperparameters in machine learning (ML) have received a fair amount of attention, and hyperparameter tuning has come to be regarded as an important step in the ML pipeline. But just how useful is said tuning? While smaller-scale experiments have been previously conducted, herein we carry out a large-scale investigation, specifically, one involving 26 ML algorithms, 250 datasets (regression and both binary and multinomial classification), 6 score metrics, and 28,857,600 algorithm runs. Analyzing the results we conclude that for many ML algorithms we should not expect considerable gains from hyperparameter tuning on average, however, there may be some datasets for which default hyperparameters perform poorly, this latter being truer for some algorithms than others. By defining a single hp_score value, which combines an algorithm's accumulated statistics, we are able to rank the 26 ML algorithms from those expected to gain the most from hyperparameter tuning to those expected to gain the least. We believe such a study may serve ML practitioners at large.
翻訳日:2022-07-14 15:38:10 公開日:2022-07-13
# LiveSchema: 知識グラフスキーマの学習のためのゲートウェイ

LiveSchema: A Gateway Towards Learning on Knowledge Graph Schemas ( http://arxiv.org/abs/2207.06112v1 )

ライセンス: Link先を確認
Mattia Fumagalli, Marco Boffo, Daqian Shi, Mayukh Bagchi, and Fausto Giunchiglia(参考訳) 語彙やオントロジーのような知識グラフスキーマのアルゴリズムのトレーニングにおける大きな障壁の1つは、ターゲットの予測タスクに対処するのに最適な入力リソースを見つけるのに科学者が苦労することである。 これに加えて、重要な課題は、学習プロセスを可能にするために、特定の三重項(主題、述語、オブジェクト)の形式で、これらのデータをどのように操作(および埋め込み)するかを決定することである。 本稿では,liveschemaイニシアチブ,すなわち,ナレッジグラフスキーマへのアクセス,解析,変換,活用の容易なサービスファミリを提供するゲートウェイについて述べる。 このイニシアチブの初期の実装として、800以上のリソースに依存したオンラインカタログを、最初のサンプルサービスのセットで進めています。

One of the major barriers to the training of algorithms on knowledge graph schemas, such as vocabularies or ontologies, is the difficulty that scientists have in finding the best input resource to address the target prediction tasks. In addition to this, a key challenge is to determine how to manipulate (and embed) these data, which are often in the form of particular triples (i.e., subject, predicate, object), to enable the learning process. In this paper, we describe the LiveSchema initiative, namely a gateway that offers a family of services to easily access, analyze, transform and exploit knowledge graph schemas, with the main goal of facilitating the reuse of these resources in machine learning use cases. As an early implementation of the initiative, we also advance an online catalog, which relies on more than 800 resources, with the first set of example services.
翻訳日:2022-07-14 15:37:32 公開日:2022-07-13
# MultiStream: シンプルで高速なマルチカメラのビジュアルモニタと直接ストリーミング

MultiStream: A Simple and Fast Multiple Cameras Visual Monitor and Directly Streaming ( http://arxiv.org/abs/2207.06078v1 )

ライセンス: Link先を確認
Jinwei Lin(参考訳) 監視とストリーミングは、リアルタイムカメラにとって最も重要なアプリケーションのひとつだ。 この研究は、ffmpegとtkinterをライブラリと組み合わせた新しい設計アイデアを提供する。 opencvとpilは、同時に複数の監視ストリーミングを可視化する機能を実現する、シンプルで高速なストリーミングツールキットであるmultisteamを開発する。 MultiStreamは、複数のカメラウィンドウのディスプレイのレイアウトを自動的に調整し、入力されたストリーミングURLをインテリジェントに分析して、適切なストリーミング通信プロトコルを選択することができる。 複数のカメラは異なる通信プロトコルまたは同じプロトコルでストリーミングすることができる。 さらに、この論文は、カメラストリーミングにおける異なるプロトコルの異なるストリーミング速度をテストする。 MultiStreamは、コンピュータ上のメディア機器の情報を取得することができる。 メディアID選択と複数のカメラストリーミングの設定情報はjsonファイルとして保存できる。

Monitoring and streaming is one of the most important applications for the real time cameras. The research of this has provided a novel design idea that uses the FFmpeg and Tkinter, combining with the libraries: OpenCV and PIL to develop a simple but fast streaming toolkit MultiSteam that can achieve the function of visible monitoring streaming for multiple simultaneously. MultiStream is able to automatically arrange the layout of the displays of multiple camera windows and intelligently analyze the input streaming URL to select the correct corresponding streaming communication protocol. Multiple cameras can be streamed with different communication protocols or the same protocol. Besides, the paper has tested the different streaming speeds for different protocols in camera streaming. MultiStream is able to gain the information of media equipment on the computer. The configuration information for media-id selection and multiple cameras streaming can be saved as json files.
翻訳日:2022-07-14 15:35:02 公開日:2022-07-13
# 3次元シーケンシャルデータの擬似ラベル作成のための教師

Teachers in concordance for pseudo-labeling of 3D sequential data ( http://arxiv.org/abs/2207.06079v1 )

ライセンス: Link先を確認
Awet Haileslassie Gebrehiwot, Patrik Vacek, David Hurych, Karel Zimmermann, Patrick Perez, Tom\'a\v{s} Svoboda(参考訳) 自動擬似ラベル付けは、大量のシーケンシャルな未ラベルデータをタップする強力なツールである。 特に、パフォーマンス要件が極端であり、データセットが大きく、手動ラベリングが非常に難しい自動運転の安全クリティカルな応用に魅力があります。 本稿では,複数の教員を訓練し,異なる時間情報にアクセスすることで,教師-学生間の擬似ラベリング手法を向上するために,キャプチャのシーケンシャル性を活用することを提案する。 この教師のセットはconcordanceと呼ばれ、標準的な方法よりも生徒の訓練に高品質な擬似ラベルを提供する。 複数の教師の出力は、新しい疑似ラベル信頼誘導基準によって結合される。 実験評価では,都市走行シナリオにおける3dポイントクラウドドメインに着目した。 3次元意味セグメンテーションと3次元オブジェクト検出のタスクを2つのベンチマークデータセットで有する複数のモデルアーキテクチャに適用する手法の性能を示す。 本手法はマニュアルラベルの20%しか使用せず,全教師あり手法に匹敵する手法である。 特別なパフォーマンス向上は、自転車や歩行者など、トレーニングデータにほとんど現れないクラスで達成される。 このアプローチの実装はhttps://github.com/ctu-vras/T-Concord3Dで公開されています。

Automatic pseudo-labeling is a powerful tool to tap into large amounts of sequential unlabeled data. It is especially appealing in safety-critical applications of autonomous driving where performance requirements are extreme, datasets large, and manual labeling is very challenging. We propose to leverage the sequentiality of the captures to boost the pseudo-labeling technique in a teacher-student setup via training multiple teachers, each with access to different temporal information. This set of teachers, dubbed Concordance, provides higher quality pseudo-labels for the student training than standard methods. The output of multiple teachers is combined via a novel pseudo-label confidence-guided criterion. Our experimental evaluation focuses on the 3D point cloud domain in urban driving scenarios. We show the performance of our method applied to multiple model architectures with tasks of 3D semantic segmentation and 3D object detection on two benchmark datasets. Our method, using only 20% of manual labels, outperforms some of the fully supervised methods. Special performance boost is achieved for classes rarely appearing in the training data, e.g., bicycles and pedestrians. The implementation of our approach is publicly available at https://github.com/ctu-vras/T-Concord3D.
翻訳日:2022-07-14 15:34:50 公開日:2022-07-13
# 低照度ローディノージングのための学習性向上--ペアの実データによるノイズモデリング

Learnability Enhancement for Low-light Raw Denoising: Where Paired Real Data Meets Noise Modeling ( http://arxiv.org/abs/2207.06103v1 )

ライセンス: Link先を確認
Hansen Feng, Lizhi Wang, Yuzhi Wang, Hua Huang(参考訳) 実データをペアで訓練した学習ベースの手法が主流である計算写真では,低照度生雑音化が重要かつ貴重な課題である。 しかし,データ量の制限と複雑な雑音分布は,対の実データに対する学習可能性のボトルネックとなり,学習に基づく手法の発声性能が制限されている。 この問題に対処するために,ノイズモデリングによるペアリング実データを再構成するための学習可能性向上戦略を提案する。 提案手法はショットノイズ強調 (sna) とダークシェーディング補正 (dsc) の2つの効率的な手法からなる。 ノイズモデルデカップリングにより、SNAはデータボリュームを増やしてデータマッピングの精度を向上し、DSCはノイズの複雑さを減らしてデータマッピングの複雑さを低減する。 公開データセットと実画像シナリオの大規模な結果から,本手法の最先端性能を総合的に示す。

Low-light raw denoising is an important and valuable task in computational photography where learning-based methods trained with paired real data are mainstream. However, the limited data volume and complicated noise distribution have constituted a learnability bottleneck for paired real data, which limits the denoising performance of learning-based methods. To address this issue, we present a learnability enhancement strategy to reform paired real data according to noise modeling. Our strategy consists of two efficient techniques: shot noise augmentation (SNA) and dark shading correction (DSC). Through noise model decoupling, SNA improves the precision of data mapping by increasing the data volume and DSC reduces the complexity of data mapping by reducing the noise complexity. Extensive results on the public datasets and real imaging scenarios collectively demonstrate the state-of-the-art performance of our method.
翻訳日:2022-07-14 15:34:33 公開日:2022-07-13
# LiDARとステレオの融合によるロバストかつ高精度深度推定

Robust and accurate depth estimation by fusing LiDAR and Stereo ( http://arxiv.org/abs/2207.06139v1 )

ライセンス: Link先を確認
Guangyao Xu, Junfeng Fan, En Li, Xiaoyu Long, and Rui Guo(参考訳) 深度推定は、自動運転やロボットナビゲーションなど、いくつかの分野における重要な技術の一つである。 しかし、従来の単一センサの使用方法は、センサの性能によって必然的に制限される。 そこで,lidarおよびステレオカメラを用いた高精度でロバストな手法を提案する。 この方法は、LiDARの高精度と高解像度の画像の利点をそれぞれ保持できる、LiDARとステレオカメラの利点を完全に組み合わせている。 従来のステレオマッチング法と比較して、物体のテクスチャや照明条件はアルゴリズムへの影響が少ない。 まず、LiDARデータの深さをステレオカメラの差分に変換する。 LiDARデータの密度はy軸で比較的疎いため、変換された不均一写像は補間法を用いてアップサンプリングされる。 第二に、正確な不一致マップをフル活用するために、不一致マップとステレオマッチングを融合させて正確な不一致を伝播させる。 最後に、不一致マップを深度マップに変換する。 さらに、変換された不均等写像はアルゴリズムの速度も向上させることができる。 提案したパイプラインをKITTIベンチマークで評価した。 本実験は,従来の手法よりも精度が高いことを示す。

Depth estimation is one of the key technologies in some fields such as autonomous driving and robot navigation. However, the traditional method of using a single sensor is inevitably limited by the performance of the sensor. Therefore, a precision and robust method for fusing the LiDAR and stereo cameras is proposed. This method fully combines the advantages of the LiDAR and stereo camera, which can retain the advantages of the high precision of the LiDAR and the high resolution of images respectively. Compared with the traditional stereo matching method, the texture of the object and lighting conditions have less influence on the algorithm. Firstly, the depth of the LiDAR data is converted to the disparity of the stereo camera. Because the density of the LiDAR data is relatively sparse on the y-axis, the converted disparity map is up-sampled using the interpolation method. Secondly, in order to make full use of the precise disparity map, the disparity map and stereo matching are fused to propagate the accurate disparity. Finally, the disparity map is converted to the depth map. Moreover, the converted disparity map can also increase the speed of the algorithm. We evaluate the proposed pipeline on the KITTI benchmark. The experiment demonstrates that our algorithm has higher accuracy than several classic methods.
翻訳日:2022-07-14 15:34:17 公開日:2022-07-13
# RTN:冠状動脈造影血管画像品質評価のための強化トランスネットワーク

RTN: Reinforced Transformer Network for Coronary CT Angiography Vessel-level Image Quality Assessment ( http://arxiv.org/abs/2207.06177v1 )

ライセンス: Link先を確認
Yiting Lu, Jun Fu, Xin Li, Wei Zhou, Sen Liu, Xinxin Zhang, Congfu Jia, Ying Liu, Zhibo Chen(参考訳) 冠動脈ctアンギオグラフィー(ccta)は、心血管疾患の正確な診断を著しく損なう様々な歪み(アーティファクトやノイズなど)に影響を受けやすい。 CCTA Vessel-level Image Quality Assessment (CCTA VIQA)アルゴリズムは、エラー診断のリスクを低減するために用いられる。 CCTA VIQAの主な課題は、最終品質を決定する冠の局所的な部分を見つけることが難しいことである。 この課題に対処するために、CCTA VIQAをMIL(Multiple-instance Learning)問題として定式化し、TransformerベースのMILバックボーン(T-MIL)を利用して、冠中心線に沿った複数のインスタンスを最終品質に集約する。 しかし、すべてのインスタンスが最終品質に役立っているわけではない。 正確な品質評価にかかわる品質無関係/負のインスタンスがいくつかある(例えば、背景のみをカバーするインスタンスや、インスタンス内の冠動脈のみを識別できない)。 そこで本研究では,CCTA VIQAにおける品質関連/負のインスタンスを段階的に除去する,プログレッシブ強化学習に基づくインスタンス識別モジュール(PRID)を提案する。 上述の2つのモジュールに基づいて,エンドツーエンド最適化に基づく自動CCTA VIQAのためのReinforced Transformer Network (RTN)を提案する。 広範な実験結果から,本手法は実世界のcctaデータセットにおける最先端性能を達成し,従来法を大きく上回った。

Coronary CT Angiography (CCTA) is susceptible to various distortions (e.g., artifacts and noise), which severely compromise the exact diagnosis of cardiovascular diseases. The appropriate CCTA Vessel-level Image Quality Assessment (CCTA VIQA) algorithm can be used to reduce the risk of error diagnosis. The primary challenges of CCTA VIQA are that the local part of coronary that determines final quality is hard to locate. To tackle the challenge, we formulate CCTA VIQA as a multiple-instance learning (MIL) problem, and exploit Transformer-based MIL backbone (termed as T-MIL) to aggregate the multiple instances along the coronary centerline into the final quality. However, not all instances are informative for final quality. There are some quality-irrelevant/negative instances intervening the exact quality assessment(e.g., instances covering only background or the coronary in instances is not identifiable). Therefore, we propose a Progressive Reinforcement learning based Instance Discarding module (termed as PRID) to progressively remove quality-irrelevant/negative instances for CCTA VIQA. Based on the above two modules, we propose a Reinforced Transformer Network (RTN) for automatic CCTA VIQA based on end-to-end optimization. Extensive experimental results demonstrate that our proposed method achieves the state-of-the-art performance on the real-world CCTA dataset, exceeding previous MIL methods by a large margin.
翻訳日:2022-07-14 15:34:01 公開日:2022-07-13
# sub-attentional fusion に基づくマルチモーダル抑うつ推定

Multi-modal Depression Estimation based on Sub-attentional Fusion ( http://arxiv.org/abs/2207.06180v1 )

ライセンス: Link先を確認
Ping-Cheng Wei, Kunyu Peng, Alina Roitberg, Kailun Yang, Jiaming Zhang, Rainer Stiefelhagen(参考訳) うつ病をタイムリーに診断し効果的に治療できないと、世界中で2億8000万人以上がこの精神疾患に苦しんでいる。 うつ病に関する情報の手がかりは、音声、視覚、テキストデータなどの多様な異種資源から収集することができ、その自動推定のために新しい効果的なマルチモーダル融合アプローチの需要が高まる。 本研究では,マルチモーダルデータからうつ病を自動的に識別するタスクに取り組み,畳み込み双方向LSTMをバックボーンとして活用しながら異種情報をリンクするサブアテンション機構を導入する。 この概念を検証するために,様々な評価モードを特徴とし,性別固有のバイアスを考慮に入れて,duc-wozベンチマークによる抑うつ評価を広範囲に実施する。 提案モデルでは, 大うつ病の検出に0.89精度と0.70F1スコア, 重症度推定に4.92MAEが有効である。 注意に基づくフュージョンモジュールは,従来のレイト・フュージョン・アプローチを一貫して上回っており,先行した抑うつ推定フレームワークに比べて競争性能が向上する一方で,障害をエンドツーエンドで診断し,はるかに少ない前処理ステップに依存することを学習している。

Failure to timely diagnose and effectively treat depression leads to over 280 million people suffering from this psychological disorder worldwide. The information cues of depression can be harvested from diverse heterogeneous resources, e.g., audio, visual, and textual data, raising demand for new effective multi-modal fusion approaches for its automatic estimation. In this work, we tackle the task of automatically identifying depression from multi-modal data and introduce a sub-attention mechanism for linking heterogeneous information while leveraging Convolutional Bidirectional LSTM as our backbone. To validate this idea, we conduct extensive experiments on the public DAIC-WOZ benchmark for depression assessment featuring different evaluation modes and taking gender-specific biases into account. The proposed model yields effective results with 0.89 precision and 0.70 F1-score in detecting major depression and 4.92 MAE in estimating the severity. Our attention-based fusion module consistently outperforms conventional late fusion approaches and achieves a competitive performance compared to the previously published depression estimation frameworks, while learning to diagnose the disorder end-to-end and relying on far less preprocessing steps.
翻訳日:2022-07-14 15:33:35 公開日:2022-07-13
# 物体内MR画像登録のための協調量子化埋め込み

Collaborative Quantization Embeddings for Intra-Subject Prostate MR Image Registration ( http://arxiv.org/abs/2207.06189v1 )

ライセンス: Link先を確認
Ziyi Shen, Qianye Yang, Yuming Shen, Francesco Giganti, Vasilis Stavrinides, Richard Fan, Caroline Moore, Mirabela Rusu, Geoffrey Sonn, Philip Torr, Dean Barratt, Yipeng Hu(参考訳) 前立腺癌患者の縦型mr画像の形態変化の定量には画像登録が有用である。 本稿では,高度に可変かつ限られたトレーニングデータを持つこの難易度臨床応用のための,学習ベース登録アルゴリズムの改良について述べる。 まず,訓練された登録ネットワークの深い層においてボトルネックとして一般的に見られるものよりも,潜在空間をはるかに低次元の空間にクラスター化することができることを報告する。 そこで本研究では,階層的な量子化手法を提案し,学習した特徴ベクトルを制約付き辞書を用いて識別し,登録ネットワークの一般化を改善する。 さらに、新しいコラボレーティブ辞書を独立に最適化し、潜在量子化空間において、腺または他の関心領域のセグメンテーションのような追加の事前情報を組み込む。 前立腺癌86例の実際の臨床像216例から, 両成分の有効性について検討した。 登録精度の向上は, 腺上のDiceと対応するランドマーク上のターゲット登録誤差の両面で統計的に有意であり, 後者は5.46mm, 定量化せずにベースラインから28.7\%向上した。 また, 実験結果から, トレーニングデータとテストデータの間には, 性能の違いが最小化されていることがわかった。

Image registration is useful for quantifying morphological changes in longitudinal MR images from prostate cancer patients. This paper describes a development in improving the learning-based registration algorithms, for this challenging clinical application often with highly variable yet limited training data. First, we report that the latent space can be clustered into a much lower dimensional space than that commonly found as bottleneck features at the deep layer of a trained registration network. Based on this observation, we propose a hierarchical quantization method, discretizing the learned feature vectors using a jointly-trained dictionary with a constrained size, in order to improve the generalisation of the registration networks. Furthermore, a novel collaborative dictionary is independently optimised to incorporate additional prior information, such as the segmentation of the gland or other regions of interest, in the latent quantized space. Based on 216 real clinical images from 86 prostate cancer patients, we show the efficacy of both the designed components. Improved registration accuracy was obtained with statistical significance, in terms of both Dice on gland and target registration error on corresponding landmarks, the latter of which achieved 5.46 mm, an improvement of 28.7\% from the baseline without quantization. Experimental results also show that the difference in performance was indeed minimised between training and testing data.
翻訳日:2022-07-14 15:33:13 公開日:2022-07-13
# Trans4Map:エゴセントリックなイメージから視覚変換器を備えたアロセントリックなセマンティックへ

Trans4Map: Revisiting Holistic Top-down Mapping from Egocentric Images to Allocentric Semantics with Vision Transformers ( http://arxiv.org/abs/2207.06205v1 )

ライセンス: Link先を確認
Chang Chen, Jiaming Zhang, Kailun Yang, Kunyu Peng, Rainer Stiefelhagen(参考訳) 人間は、自我中心の知覚から空間表現を抽出し、空間変換とメモリ更新を通じて同中心のセマンティックマップを形成することができるため、周囲を知覚する能力を持っている。 しかし,従来の畳み込みモデルが局所受容場によって制限されるため,観測中に全体的長距離依存性を捉えるのに苦労する,(2) 成功に必要な過剰な計算予算がステージにマッピングパイプラインを分離し,マッピングプロセス全体が非効率になる,という2つの難しさから,このような空間的センシング能力を持つ移動剤の内挿は依然として課題である。 これらの問題に対処するために、trans4mapと呼ばれるマッピングのためのエンドツーエンドの1段階トランスフォーマーベースのフレームワークを提案する。 提案手法では,(1)効率の高いトランスフォーマは,複数のエゴセントリック画像から文脈特徴を抽出する;(2)提案された双方向アロセントリックメモリ(bam)モジュールは,エゴセントリック特徴をアロセントリックメモリに投影する;(3)マップデコーダは蓄積メモリを解析し,トップダウン意味セグメンテーションマップを予測する。 対照的にTrans4Mapは67.2%のパラメータを減らし、+3.25% mIoUと+4.09% mBF1の改善をMatterport3Dデータセットで達成している。 コードはhttps://github.com/jamycheung/Trans4Mapで公開されます。

Humans have an innate ability to sense their surroundings, as they can extract the spatial representation from the egocentric perception and form an allocentric semantic map via spatial transformation and memory updating. However, endowing mobile agents with such a spatial sensing ability is still a challenge, due to two difficulties: (1) the previous convolutional models are limited by the local receptive field, thus, struggling to capture holistic long-range dependencies during observation; (2) the excessive computational budgets required for success, often lead to a separation of the mapping pipeline into stages, resulting the entire mapping process inefficient. To address these issues, we propose an end-to-end one-stage Transformer-based framework for Mapping, termed Trans4Map. Our egocentric-to-allocentric mapping process includes three steps: (1) the efficient transformer extracts the contextual features from a batch of egocentric images; (2) the proposed Bidirectional Allocentric Memory (BAM) module projects egocentric features into the allocentric memory; (3) the map decoder parses the accumulated memory and predicts the top-down semantic segmentation map. In contrast, Trans4Map achieves state-of-the-art results, reducing 67.2% parameters, yet gaining a +3.25% mIoU and a +4.09% mBF1 improvements on the Matterport3D dataset. Code will be made publicly available at https://github.com/jamycheung/Trans4Map.
翻訳日:2022-07-14 15:32:51 公開日:2022-07-13
# コンテンツ強度を保存する画像ワープ

Image warp preserving content intensity ( http://arxiv.org/abs/2207.06256v1 )

ライセンス: Link先を確認
Enrico Segre(参考訳) 画像をワープする正確な方法を示す。 最も一般的に使われている技術とは異なり、この方法は変換画像の強度の保存を保証し、画像全体またはそれに対応する変換部分領域の画素値の和として評価する。 このような性質は、例えば放射率を評価するために変形画像を使用する場合、光源からの光フラックスを測定する場合、または材料光密度を特徴付けるために、定量的解析に必須である。 提案手法では,各矩形画素を2つの三角形に分割し,その重みを三角形半画素の重ね合わせ面積に比例して,変換画像の半画素に画素強度を投影することにより面積再サンプリングを行う。 結果が定量的に正確であり、元の画素値が画素領域内の一定画像密度を表すと仮定され、座標変換が微分同相である限りである。 実装の詳細と方法のバリエーションについて述べる。

An accurate method for warping images is presented. Differently from most commonly used techniques, this method guarantees the conservation of the intensity of the transformed image, evaluated as the sum of its pixel values over the whole image or over corresponding transformed subregions of it. Such property is mandatory for quantitative analysis, as, for instance, when deformed images are used to assess radiances, to measure optical fluxes from light sources, or to characterize material optical densities. The proposed method enforces area resampling by decomposing each rectangular pixel in two triangles, and projecting the pixel intensity onto half pixels of the transformed image, with weights proportional to the area of overlap of the triangular half-pixels. The result is quantitatively exact, as long as the original pixel value is assumed to represent a constant image density within the pixel area, and as long as the coordinate transformation is diffeomorphic. Implementation details and possible variations of the method are discussed.
翻訳日:2022-07-14 15:31:58 公開日:2022-07-13
# 非剛体構造における運動からの有機優先

Organic Priors in Non-Rigid Structure from Motion ( http://arxiv.org/abs/2207.06262v1 )

ライセンス: Link先を確認
Suryansh Kumar, Luc Van Gool(参考訳) 本稿では,従来の非剛体構造における有機前駆体(NRSfM)の使用を提唱する。 有機前駆体では、NRSfM行列分解理論に固有の重要な中間的事前情報を意味する。 このような先行性は分解行列に存在することが示されており、驚くべきことに既存の手法はそれらを無視している。 この論文の主な貢献は、nrsfmを解決するためにそのような有機前駆体を効果的に活用できる、単純で方法論的で実用的な方法を提案することである。 提案手法は, 人気のあるもの以外の低位形状を仮定せず, 直交射影下でのnrsfmに対する信頼性の高い解を与える。 本研究により, 有機前駆体のアクセシビリティは, カメラの運動と形状変形型に依存しないことが明らかとなった。 さらに、この論文は、NRSfMの因子化(形状、運動の両面で)についての洞察を提供し、NRSfMの1回転平均化の利点を示す最初のアプローチである。 さらに, 提案手法を用いて, 動作と非剛性3次元形状を効果的に復元する方法を概説し, 先行自由度NRSfMの性能を著しく向上させる結果を示した。 最後に,本手法の利点を,いくつかのベンチマークデータセットにおける広範囲な実験と評価を通じて提示する。

This paper advocates the use of organic priors in classical non-rigid structure from motion (NRSfM). By organic priors, we mean invaluable intermediate prior information intrinsic to the NRSfM matrix factorization theory. It is shown that such priors reside in the factorized matrices, and quite surprisingly, existing methods generally disregard them. The paper's main contribution is to put forward a simple, methodical, and practical method that can effectively exploit such organic priors to solve NRSfM. The proposed method does not make assumptions other than the popular one on the low-rank shape and offers a reliable solution to NRSfM under orthographic projection. Our work reveals that the accessibility of organic priors is independent of the camera motion and shape deformation type. Besides that, the paper provides insights into the NRSfM factorization -- both in terms of shape, motion -- and is the first approach to show the benefit of single rotation averaging for NRSfM. Furthermore, we outline how to effectively recover motion and non-rigid 3D shape using the proposed organic prior based approach and demonstrate results that outperform prior-free NRSfM performance by a significant margin. Finally, we present the benefits of our method via extensive experiments and evaluations on several benchmark dataset.
翻訳日:2022-07-14 15:31:42 公開日:2022-07-13
# ランダム行列計算のためのjackknife変量推定

Jackknife Variability Estimation For Randomized Matrix Computations ( http://arxiv.org/abs/2207.06342v1 )

ライセンス: Link先を確認
Ethan N. Epperly and Joel A. Tropp(参考訳) スケッチに基づくランダム化アルゴリズムは、低ランク行列近似のワークホースツールとなっている。 アプリケーションでこれらのアルゴリズムを安全に使用するには、近似の質を評価する診断と組み合わせる必要がある。 そこで本研究では,ランダム化行列計算の出力のばらつきを推定するためのジャックナイフ再サンプリング手法を提案する。 変数推定は、計算が追加のデータを必要とすること、あるいは計算が本質的に不安定であることを認識することができる。 例として,2つのランダム化低ランク行列近似アルゴリズムのジャックナイフ推定について検討した。 いずれの場合においても、jackknife推定の演算カウントは、対象行列の次元に依存しない。 数値実験において、推定器は変動性を正確に評価し、平均二乗誤差の桁数推定も行う。

Randomized algorithms based on sketching have become a workhorse tool in low-rank matrix approximation. To use these algorithms safely in applications, they should be coupled with diagnostics to assess the quality of approximation. To meet this need, this paper proposes a jackknife resampling method to estimate the variability of the output of a randomized matrix computation. The variability estimate can recognize that a computation requires additional data or that the computation is intrinsically unstable. As examples, the paper studies jackknife estimates for two randomized low-rank matrix approximation algorithms. In each case, the operation count for the jackknife estimate is independent of the dimensions of the target matrix. In numerical experiments, the estimator accurately assesses variability and also provides an order-of-magnitude estimate of the mean-square error.
翻訳日:2022-07-14 15:31:00 公開日:2022-07-13
# 高次ボクナー積分器の収縮評価

Shrinkage Estimation of Higher Order Bochner Integrals ( http://arxiv.org/abs/2207.06357v1 )

ライセンス: Link先を確認
Saiteja Utpala and Bharath K. Sriperumbudur(参考訳) 非パラメトリックな設定における高階ヒルベルト空間値ボヒナー積分の縮約推定について考察する。 我々は、ボヒナー積分の$U$統計量推定器をヒルベルト空間の事前特定対象要素へ縮小する推定器を提案する。 u$-statisticのカーネルの縮退度に応じて、我々は収束率の速い一貫した縮約推定器を構築し、$u$-statistic estimatorとその縮約バージョンのリスクを比較するオラクルの不等式を開発する。 驚いたことに、$U$-statisticのカーネルの完全退化を仮定して設計された縮退推定器は、カーネルが完全退化していない場合でも一貫した推定器である。 この研究はKrikamol et al., 2016, JMLR and Zhou et al., 2019, JMVAを仮定し、再現されたカーネルヒルベルト空間における平均要素と共分散演算子の推定のみを扱う。 また,実験結果を正規平均推定に特化させ,$d\ge 3$の場合,提案した推定器は平均二乗誤差から試料平均を厳密に改善することを示した。

We consider shrinkage estimation of higher order Hilbert space valued Bochner integrals in a non-parametric setting. We propose estimators that shrink the $U$-statistic estimator of the Bochner integral towards a pre-specified target element in the Hilbert space. Depending on the degeneracy of the kernel of the $U$-statistic, we construct consistent shrinkage estimators with fast rates of convergence, and develop oracle inequalities comparing the risks of the the $U$-statistic estimator and its shrinkage version. Surprisingly, we show that the shrinkage estimator designed by assuming complete degeneracy of the kernel of the $U$-statistic is a consistent estimator even when the kernel is not complete degenerate. This work subsumes and improves upon Krikamol et al., 2016, JMLR and Zhou et al., 2019, JMVA, which only handle mean element and covariance operator estimation in a reproducing kernel Hilbert space. We also specialize our results to normal mean estimation and show that for $d\ge 3$, the proposed estimator strictly improves upon the sample mean in terms of the mean squared error.
翻訳日:2022-07-14 15:30:49 公開日:2022-07-13
# フラグメンテッドフェデレーションラーニングによるセキュリティとプライバシの向上

Enhanced Security and Privacy via Fragmented Federated Learning ( http://arxiv.org/abs/2207.05978v1 )

ライセンス: Link先を確認
Najeeb Moharram Jebreel, Josep Domingo-Ferrer, Alberto Blanco-Justicia and David Sanchez(参考訳) federated learning (fl) では、参加者のセットが、ローカルデータで計算された更新をアグリゲータサーバと共有し、更新をグローバルモデルに結合する。 しかし、プライバシーとセキュリティとの整合性はFLにとって難しい。 一方、正直な参加者が送った良いアップデートは、個人的なローカル情報を明らかにし、悪意のある参加者が送った有害なアップデートは、モデルの可用性や整合性を損なう可能性がある。 一方、更新歪みによるプライバシの強化は精度を損なう一方、更新集約によるセキュリティは、サーバが個々の有毒な更新をフィルタリングできないため、セキュリティを損なう。 精度・プライバシ・セキュリティの対立に対処するため、参加者がサーバに送信する前に、ランダムに更新の断片を交換して混合する「フラグメンテッド・フェデレーション・ラーニング」 (FFL) を提案する。 プライバシを実現するために、私たちは、参加者が暗号化されたアップデートの断片をプライベートに交換し、混合できるように軽量なプロトコルを設計します。 セキュリティを実現するため、私たちは、交換するフラグメントの品質と送信する複合アップデートに基づいて、参加者とそれらの混合アップデートに対する信頼を構築する、ffl用に調整された評判ベースの防御をデザインします。 交換されたフラグメントのパラメータは元の座標を保持し、攻撃者は中立化することができるため、サーバは受信した混合更新から正確にグローバルモデルを再構築することができる。 4つの実際のデータセットの実験は、FFLが半正直なサーバーがプライバシー攻撃を仕掛けるのを防ぎ、効果的に中毒攻撃を防ぎ、グローバルモデルの精度を維持することができることを示している。

In federated learning (FL), a set of participants share updates computed on their local data with an aggregator server that combines updates into a global model. However, reconciling accuracy with privacy and security is a challenge to FL. On the one hand, good updates sent by honest participants may reveal their private local information, whereas poisoned updates sent by malicious participants may compromise the model's availability and/or integrity. On the other hand, enhancing privacy via update distortion damages accuracy, whereas doing so via update aggregation damages security because it does not allow the server to filter out individual poisoned updates. To tackle the accuracy-privacy-security conflict, we propose {\em fragmented federated learning} (FFL), in which participants randomly exchange and mix fragments of their updates before sending them to the server. To achieve privacy, we design a lightweight protocol that allows participants to privately exchange and mix encrypted fragments of their updates so that the server can neither obtain individual updates nor link them to their originators. To achieve security, we design a reputation-based defense tailored for FFL that builds trust in participants and their mixed updates based on the quality of the fragments they exchange and the mixed updates they send. Since the exchanged fragments' parameters keep their original coordinates and attackers can be neutralized, the server can correctly reconstruct a global model from the received mixed updates without accuracy loss. Experiments on four real data sets show that FFL can prevent semi-honest servers from mounting privacy attacks, can effectively counter poisoning attacks and can keep the accuracy of the global model.
翻訳日:2022-07-14 15:28:35 公開日:2022-07-13
# GNNプレトレーニングは分子表現に役立つか?

Does GNN Pretraining Help Molecular Representation? ( http://arxiv.org/abs/2207.06010v1 )

ライセンス: Link先を確認
Ruoxi Sun(参考訳) グラフニューラルネットワーク(GNN)を用いた分子の情報表現の抽出は、AIによる薬物発見に不可欠である。 最近、グラフ研究コミュニティは、自然言語処理における自己教師付き事前学習の成功を再現しようと試みており、いくつかの成功が主張されている。 しかし, 分子データに対する自己教師付き事前学習によって得られる利点は, 多くの場合, 無視できることがわかった。 本稿では,gnnプリトレーニングの重要な構成要素である事前学習目標,データ分割手法,入力特徴,データセットの事前学習スケール,gnnアーキテクチャについて,下流タスクの正確性を決定するための徹底的なアブレーション研究を行う。 最初の重要な発見は、自己教師付きグラフ事前学習は、多くの設定において非事前学習法に対して統計的に有意なアドバンテージを持たないことである。 第二に、追加の教師付き事前トレーニングで改善が観察できるが、よりリッチな機能やよりバランスの取れたデータ分割によって改善が減少する可能性がある。 第3に、実験的なハイパーパラメータは、事前トレーニングタスクの選択よりも下流タスクの精度に大きな影響を与える。 分子の事前学習の複雑さは不十分であり、下流タスクの知識の伝達が容易でないと仮定する。

Extracting informative representations of molecules using Graph neural networks (GNNs) is crucial in AI-driven drug discovery. Recently, the graph research community has been trying to replicate the success of self-supervised pretraining in natural language processing, with several successes claimed. However, we find the benefit brought by self-supervised pretraining on molecular data can be negligible in many cases. We conduct thorough ablation studies on the key components of GNN pretraining, including pretraining objectives, data splitting methods, input features, pretraining dataset scales, and GNN architectures, in deciding the accuracy of the downstream tasks. Our first important finding is, self-supervised graph pretraining do not have statistically significant advantages over non-pretraining methods in many settings. Second, although improvement can be observed with additional supervised pretraining, the improvement may diminish with richer features or more balanced data splits. Third, experimental hyper-parameters have a larger impact on accuracy of downstream tasks than the choice of pretraining tasks. We hypothesize the complexity of pretraining on molecules is insufficient, leading to less transferable knowledge for downstream tasks.
翻訳日:2022-07-14 15:28:04 公開日:2022-07-13
# 12誘導心電図に基づく診断・予測・年齢推定のための特徴工学と深層学習の融合について

On Merging Feature Engineering and Deep Learning for Diagnosis, Risk-Prediction and Age Estimation Based on the 12-Lead ECG ( http://arxiv.org/abs/2207.06096v1 )

ライセンス: Link先を確認
Eran Zvuloni, Jesse Read, Ant\^onio H. Ribeiro, Antonio Luiz P. Ribeiro and Joachim A. Behar(参考訳) 目的:12誘導心電図(ECG)解析に機械学習技術が広く用いられている。 生理的時系列では、ドメイン知識に基づく特徴工学(FE)アプローチよりも深層学習(DL)の方が優れていることは、未解決の問題である。 さらに、DLとFEを組み合わせることで性能が向上するかどうかは不明だ。 方法: 心臓不整脈診断(マルチクラス・マルチラベル分類), 心房細動リスク予測(バイナリ分類), 年齢推定(回帰)の3つの課題を検討した。 我々は、タスク毎に以下のモデルをトレーニングするために、2.3Mの12リードECGレコードのデータセットを使用した。 一 FEを入力とするランダムな森林が古典的な機械学習の手法として訓練されたこと。 二 エンドツーエンドのDLモデル及び 三 FE+DLの合併モデル 結果: FEは2つの分類タスクにおいて有意に少ないデータを必要としながら, DLと同等の結果を得た。 すべてのタスクにおいて、FEとDLをマージしても、DLよりもパフォーマンスは向上しなかった。 結論: 従来の12段階の心電図に基づく診断では, DLはFEよりも有意な改善は得られなかったが, 非古典的回帰課題は有意に改善した。 また, FEとDLの併用は, DLだけでは改善せず, FEはDLが学習した特徴と重複していたことが示唆された。 意義:本研究は12誘導心電図に基づく新しい機械学習モデルの開発に向けた課題について,機械学習戦略とデータレジームが選択すべき課題について重要な推奨事項を提供する。

Objective: Machine learning techniques have been used extensively for 12-lead electrocardiogram (ECG) analysis. For physiological time series, deep learning (DL) superiority to feature engineering (FE) approaches based on domain knowledge is still an open question. Moreover, it remains unclear whether combining DL with FE may improve performance. Methods: We considered three tasks intending to address these research gaps: cardiac arrhythmia diagnosis (multiclass-multilabel classification), atrial fibrillation risk prediction (binary classification), and age estimation (regression). We used an overall dataset of 2.3M 12-lead ECG recordings to train the following models for each task: i) a random forest taking the FE as input was trained as a classical machine learning approach; ii) an end-to-end DL model; and iii) a merged model of FE+DL. Results: FE yielded comparable results to DL while necessitating significantly less data for the two classification tasks and it was outperformed by DL for the regression task. For all tasks, merging FE with DL did not improve performance over DL alone. Conclusion: We found that for traditional 12-lead ECG based diagnosis tasks DL did not yield a meaningful improvement over FE, while it improved significantly the nontraditional regression task. We also found that combining FE with DL did not improve over DL alone which suggests that the FE were redundant with the features learned by DL. Significance: Our findings provides important recommendations on what machine learning strategy and data regime to chose with respect to the task at hand for the development of new machine learning models based on the 12-lead ECG.
翻訳日:2022-07-14 15:27:47 公開日:2022-07-13
# UAV支援Vehicular Wireless Networkの連続的メタ強化学習

Continual Meta-Reinforcement Learning for UAV-Aided Vehicular Wireless Networks ( http://arxiv.org/abs/2207.06131v1 )

ライセンス: Link先を確認
Riccardo Marini, Sangwoo Park, Osvaldo Simeone, Chiara Buratti(参考訳) 無人航空基地局(UABS)は、V2Xサービスによる拡張センシングなどのアプリケーションをサポートするために、車載無線ネットワークに配備することができる。 このようなシステムの鍵となる問題は、UABSの軌道を効率的に最適化してカバレッジを最大化するアルゴリズムを設計することである。 既存のソリューションでは、従来の強化学習(RL)を用いて、新しいトラフィック構成をスクラッチから行うことが多い。 本稿では,UABSのポリシーを最適化するために必要な時間を短縮することを目的として,従来経験した交通構成から新しい条件へ情報を伝達する手段として,連続メタRLを提案する。 継続的メタポリシーサーチ(CoMPS)戦略を採用することで,従来のRLに比べて大きな効率向上を示すとともに,伝達学習手法も提案する。

Unmanned aerial base stations (UABSs) can be deployed in vehicular wireless networks to support applications such as extended sensing via vehicle-to-everything (V2X) services. A key problem in such systems is designing algorithms that can efficiently optimize the trajectory of the UABS in order to maximize coverage. In existing solutions, such optimization is carried out from scratch for any new traffic configuration, often by means of conventional reinforcement learning (RL). In this paper, we propose the use of continual meta-RL as a means to transfer information from previously experienced traffic configurations to new conditions, with the goal of reducing the time needed to optimize the UABS's policy. Adopting the Continual Meta Policy Search (CoMPS) strategy, we demonstrate significant efficiency gains as compared to conventional RL, as well as to naive transfer learning methods.
翻訳日:2022-07-14 15:27:19 公開日:2022-07-13
# (参考訳) 部分的から完全画像登録のための一般的なフレームワーク

A General Framework for Partial to Full Image Registration ( http://arxiv.org/abs/2207.06387v1 )

ライセンス: CC BY 4.0
Carlos Francisco Moreno-Garcia, Francesc Serratosa(参考訳) 画像登録は、視点やカメラの特性とは無関係に画像を比較し、アライメントしなければならない研究分野である。 いくつかの応用(法医学的バイオメトリックス、衛星写真、屋外シーン識別など)では、比較した画像の1つが他の画像の小さな部分を表すため、古典的な画像登録システムが失敗する。 例えば、鑑識のpalmprint認識では、palmprintの小さな部分だけを見つけるのが普通だが、データベースでは、palmprint全体が登録されている。 古典的画像登録法の動作不良の主な理由は、両方の画像の正解点の量の間のギャップであり、これは外れ値と見なされる点の数に関係している。 通常、シーンの小さな部分を表すイメージが劇的に回転したとき、良い一致を見つけることの難しさは増加する。 また、palmprintの鑑識では、発見された小さなpalmprint画像の向きを事前に決定することは困難である。 本稿では,一致すべき画像がより大きな画像の小さな部分であることを示す回転不変登録法を提案する。 本手法はパームプリント識別と屋外画像登録という2つの異なるシナリオで実験的に検証した。

Image registration is a research field in which images must be compared and aligned independently of the point of view or camera characteristics. In some applications (such as forensic biometrics, satellite photography or outdoor scene identification) classical image registration systems fail due to one of the images compared represents a tiny piece of the other image. For instance, in forensics palmprint recognition, it is usual to find only a small piece of the palmprint, but in the database, the whole palmprint has been enrolled. The main reason of the poor behaviour of classical image registration methods is the gap between the amounts of salient points of both images, which is related to the number of points to be considered as outliers. Usually, the difficulty of finding a good match increases when the image that represents the tiny part of the scene has been drastically rotated. Again, in the case of palmprint forensics, it is difficult to decide a priori the orientation of the found tiny palmprint image. We present a rotation invariant registration method that explicitly considers that the image to be matched is a small piece of a larger image. We have experimentally validated our method in two different scenarios; palmprint identification and outdoor image registration.
翻訳日:2022-07-14 15:25:07 公開日:2022-07-13
# 推定重み下における重み付き多数投票の安定性

Stability of Weighted Majority Voting under Estimated Weights ( http://arxiv.org/abs/2207.06118v1 )

ライセンス: Link先を確認
Shaojie Bai, Dongxia Wang, Tim Muller, Peng Cheng, Jiming Chen(参考訳) 重み付き多数決投票(英: Weighted Majority Voting、WMV)は、情報源が正確な情報(信頼性)を提供する確率を考えると、集団意思決定において最もよく知られている決定規則である。 しかし、実際には、信頼は意思決定者にとって既知の量ではなく、信頼と呼ばれる見積に頼る必要があります。 信頼を計算する(機械学習)アルゴリズムは、信頼度を体系的に過大評価したり過小評価したりしない性質を持つ場合、非バイアスと呼ばれる。 決定過程の不確実性を形式的に分析するために,不偏信頼値の2つの重要な特性,すなわち正確性の安定性と最適性の安定性を導入し,分析する。 正確性の安定性は、意思決定者が達成した決定精度が実際の精度と等しいことを意味する。 私たちは正しさの安定性を証明する。 最適性の安定性は、信頼に基づく決定が、信頼度に基づくものであっても、彼らと同じくらい良いことを意味する。 最適性の安定性は保たない。 私たちはその2つの違いを分析します。 また,信頼と信頼性の変化に対する意思決定の正確性について概説する。

Weighted Majority Voting (WMV) is a well-known optimal decision rule for collective decision making, given the probability of sources to provide accurate information (trustworthiness). However, in reality, the trustworthiness is not a known quantity to the decision maker - they have to rely on an estimate called trust. A (machine learning) algorithm that computes trust is called unbiased when it has the property that it does not systematically overestimate or underestimate the trustworthiness. To formally analyse the uncertainty to the decision process, we introduce and analyse two important properties of such unbiased trust values: stability of correctness and stability of optimality. Stability of correctness means that the decision accuracy that the decision maker believes they achieved is equal to the actual accuracy. We prove stability of correctness holds. Stability of optimality means that the decisions made based on trust, are equally good as they would have been if they were based on trustworthiness. Stability of optimality does not hold. We analyse the difference between the two, and bounds thereon. We also present an overview of how sensitive decision correctness is to changes in trust and trustworthiness.
翻訳日:2022-07-14 15:11:43 公開日:2022-07-13
# 非平衡自己集合の核生成速度論におけるパターン認識

Pattern recognition in the nucleation kinetics of non-equilibrium self-assembly ( http://arxiv.org/abs/2207.06399v1 )

ライセンス: Link先を確認
Constantine Glen Evans, Jackson O'Brien, Erik Winfree, Arvind Murugan(参考訳) 生物学の最も洗練されたコンピュータ、脳にインスパイアされたニューラルネットワークは、計算原理の大幅な再構成を構成する。 驚くべきことに、類似した高次元、高度に相互接続された計算アーキテクチャは、シグナル伝達カスケードや遺伝的制御ネットワークなど、生きた細胞内の情報処理分子システム内でも発生する。 タンパク質合成、代謝、構造的自己組織化など、視覚的に非情報処理の役割を担っているものでさえ、他の物理的および化学的プロセスでより広く見られる。 本稿では,多成分構造の自己集合における核形成について検討し,高次元の濃度パターンをニューラルネットワーク計算に類似した方法で識別・分類できることを示す。 具体的には, 競合核生成が3つの構造内の高濃度タイルの共局在度に依存するように, 3つの代替方法で自己組織化可能な917個のdnaタイルの設計を行った。 このシステムは18グレースケールの30 x 30ピクセルの画像を3つのカテゴリに分類するために、シリコンで訓練された。 実験では、150時間のアニール中の蛍光と原子間力顕微鏡の観察により、すべての訓練された画像が正しく分類され、テストセットのイメージが結果の堅牢性を調査した。 従来の生化学ニューラルネットワークに比べて遅いが、このアプローチは驚くほどコンパクトで堅牢でスケーラブルである。 この成功は、核生成のようなユビキタスな物理現象が、高次元の多成分系としてスケールするときに強力な情報処理能力を持つ可能性を示唆している。

Inspired by biology's most sophisticated computer, the brain, neural networks constitute a profound reformulation of computational principles. Remarkably, analogous high-dimensional, highly-interconnected computational architectures also arise within information-processing molecular systems inside living cells, such as signal transduction cascades and genetic regulatory networks. Might neuromorphic collective modes be found more broadly in other physical and chemical processes, even those that ostensibly play non-information-processing roles such as protein synthesis, metabolism, or structural self-assembly? Here we examine nucleation during self-assembly of multicomponent structures, showing that high-dimensional patterns of concentrations can be discriminated and classified in a manner similar to neural network computation. Specifically, we design a set of 917 DNA tiles that can self-assemble in three alternative ways such that competitive nucleation depends sensitively on the extent of co-localization of high-concentration tiles within the three structures. The system was trained in-silico to classify a set of 18 grayscale 30 x 30 pixel images into three categories. Experimentally, fluorescence and atomic force microscopy monitoring during and after a 150-hour anneal established that all trained images were correctly classified, while a test set of image variations probed the robustness of the results. While slow compared to prior biochemical neural networks, our approach is surprisingly compact, robust, and scalable. This success suggests that ubiquitous physical phenomena, such as nucleation, may hold powerful information processing capabilities when scaled up as high-dimensional multicomponent systems.
翻訳日:2022-07-14 15:11:22 公開日:2022-07-13
# 意味摂動に対する深部ニューラルネットワークの意図ロバスト性検証

Verifying Attention Robustness of Deep Neural Networks against Semantic Perturbations ( http://arxiv.org/abs/2207.05902v1 )

ライセンス: Link先を確認
Satoshi Munakata, Caterina Urban, Haruki Yokoyama, Koji Yamamoto, and Kazuki Munakata(参考訳) ディープニューラルネットワーク(DNN)は特定の特定の画素に特定の注意を払って入力画像を分類することが知られている。 例えば、DNNが画像の主題よりも背景に注意を払う場合、分類の有効な基盤ではない。 セマンティックな摂動はサリエンシマップを大きく変えることができる。 そこで本研究では,意味摂動の組み合わせに対するサリエンシマップの変化の局所的ロバスト性,すなわち注意力のロバスト性に関する最初の検証手法を提案する。 具体的には、実際の給与マップ変化と期待給与マップ変化との差を維持する摂動パラメータ(例えば輝度変化)の範囲を所定の閾値以下で決定する。 提案手法はアクティベーション領域トラバーサルに基づいており,大規模dnnにおけるスケーラビリティの最も外側のロバストな境界に着目している。 実験の結果,dnnが意味的摂動によらず同じ基準で分類できる程度を示し,活性化領域トラバーサルの性能と性能因子について報告することができた。

It is known that deep neural networks (DNNs) classify an input image by paying particular attention to certain specific pixels; a graphical representation of the magnitude of attention to each pixel is called a saliency-map. Saliency-maps are used to check the validity of the classification decision basis, e.g., it is not a valid basis for classification if a DNN pays more attention to the background rather than the subject of an image. Semantic perturbations can significantly change the saliency-map. In this work, we propose the first verification method for attention robustness, i.e., the local robustness of the changes in the saliency-map against combinations of semantic perturbations. Specifically, our method determines the range of the perturbation parameters (e.g., the brightness change) that maintains the difference between the actual saliency-map change and the expected saliency-map change below a given threshold value. Our method is based on activation region traversals, focusing on the outermost robust boundary for scalability on larger DNNs. Experimental results demonstrate that our method can show the extent to which DNNs can classify with the same basis regardless of semantic perturbations and report on performance and performance factors of activation region traversals.
翻訳日:2022-07-14 15:09:24 公開日:2022-07-13
# 変圧器制御器を用いた鍵フレームによる異方性舞踊合成

Diverse Dance Synthesis via Keyframes with Transformer Controllers ( http://arxiv.org/abs/2207.05906v1 )

ライセンス: Link先を確認
Junjun Pan, Siyuan Wang, Junxuan Bai, Ju Dai(参考訳) 既存のキーフレームに基づく動作合成は、主に、歩行、走行、近接姿勢間の遷移といった、循環的動作や短期的な動きの生成に焦点を当てている。 しかし、これらの手法は、ダンスパフォーマンスや武道など、複雑で即興的な動きを扱う場合の合成動作の自然性や多様性を著しく低下させる。 加えて、現在の研究では、インテリジェントな人間とコンピュータのインタラクションとアニメーション作成に不可欠である、生成した動きのきめ細かい制御が欠けている。 本稿では,複数の制約に基づく新しいキーフレームベースモーション生成ネットワークを提案し,学習知識による多様なダンス合成を実現する。 具体的には、アルゴリズムは主にrecurrent neural network(rnn)とtransformerアーキテクチャに基づいて定式化されている。 ネットワークのバックボーンは2つの長い短期記憶(LSTM)ユニットから構成される階層的RNNモジュールであり、第1のLSTMを用いて歴史的フレームの姿勢情報を潜時空間に埋め込むとともに、第2のLSTMを用いて次のフレームの姿勢を予測する。 さらに,本フレームワークには2つのトランスフォーマーベースコントローラが組み込まれており,それぞれのルート軌跡と速度係数の制約をモデル化し,フレームの時間的コンテキストをよりよく活用し,微粒な動き制御を実現する。 本稿では,多様な現代舞踊を含む舞踊データセットに対する提案手法を検証する。 3つの定量的解析の結果,アルゴリズムの優位性を検証した。 ビデオおよび定性的な実験により,本アルゴリズムが生成する複雑な動き列は,長期間の合成においても,キーフレーム間の多様な滑らかな動き遷移を実現できることを示した。

Existing keyframe-based motion synthesis mainly focuses on the generation of cyclic actions or short-term motion, such as walking, running, and transitions between close postures. However, these methods will significantly degrade the naturalness and diversity of the synthesized motion when dealing with complex and impromptu movements, e.g., dance performance and martial arts. In addition, current research lacks fine-grained control over the generated motion, which is essential for intelligent human-computer interaction and animation creation. In this paper, we propose a novel keyframe-based motion generation network based on multiple constraints, which can achieve diverse dance synthesis via learned knowledge. Specifically, the algorithm is mainly formulated based on the recurrent neural network (RNN) and the Transformer architecture. The backbone of our network is a hierarchical RNN module composed of two long short-term memory (LSTM) units, in which the first LSTM is utilized to embed the posture information of the historical frames into a latent space, and the second one is employed to predict the human posture for the next frame. Moreover, our framework contains two Transformer-based controllers, which are used to model the constraints of the root trajectory and the velocity factor respectively, so as to better utilize the temporal context of the frames and achieve fine-grained motion control. We verify the proposed approach on a dance dataset containing a wide range of contemporary dance. The results of three quantitative analyses validate the superiority of our algorithm. The video and qualitative experimental results demonstrate that the complex motion sequences generated by our algorithm can achieve diverse and smooth motion transitions between keyframes, even for long-term synthesis.
翻訳日:2022-07-14 15:09:02 公開日:2022-07-13
# 教師なしサルエント物体検出のための出現誘導注意自己ペースト学習

Appearance-guided Attentive Self-Paced Learning for Unsupervised Salient Object Detection ( http://arxiv.org/abs/2207.05921v1 )

ライセンス: Link先を確認
Huajun Zhou and Bo Qiao and Lingxiao Yang and Jianhuang Lai and Xiaohua Xie(参考訳) 既存のDeep-Learning-based (DL-based) Unsupervised Salient Object Detection (USOD) 手法は、従来のSaliencyメソッドや事前訓練されたディープネットワークの知識に基づいて、画像内のSaliency情報を学ぶ。 しかし,これらの手法では,深層ネットワークを学習するための単純な学習戦略を用いるため,学習サンプルの"隠れ"情報を学習プロセスに適切に組み込むことはできない。 さらに、オブジェクトのセグメンテーションに不可欠な外観情報は、ネットワークトレーニング後の後処理としてのみ使用される。 この2つの問題に対処するために,教師なしサルエント物体検出のための出現誘導型注意型自己ペース学習フレームワークを提案する。 提案フレームワークは,自己評価学習(SPL)と外観指導の両方を統合学習フレームワークに統合する。 具体的には,まず,訓練サンプルを有意義な順序で整理し,徐々に詳細な塩分情報を抽出するための注意的自己ペース学習(aspl)パラダイムを提案する。 我々のASPLは、トレーニングサンプルの学習難度を純粋に自己学習的に測定するソフトアテンションウェイトを自動生成できるフレームワークを促進しています。 第2の課題として,各画素の局所的出現コントラストをサリエンシー境界の確率として定式化し,その確率を最大化することで対象オブジェクトのポテンシャル境界を求める出現誘導モジュール(agm)を提案する。 さらに, 深度マップ, 熱画像, および光学フローなどの他のモダリティデータの出現ベクトルを集約することにより, 他のマルチモダリティsodタスクにも拡張する。 RGB, RGB-D, RGB-T, およびビデオSODベンチマークの大規模な実験により、我々のフレームワークは既存のUSOD法に対して最先端のパフォーマンスを達成し、最新のSOD法に匹敵することを示した。

Existing Deep-Learning-based (DL-based) Unsupervised Salient Object Detection (USOD) methods learn saliency information in images based on the prior knowledge of traditional saliency methods and pretrained deep networks. However, these methods employ a simple learning strategy to train deep networks and therefore cannot properly incorporate the "hidden" information of the training samples into the learning process. Moreover, appearance information, which is crucial for segmenting objects, is only used as post-process after the network training process. To address these two issues, we propose a novel appearance-guided attentive self-paced learning framework for unsupervised salient object detection. The proposed framework integrates both self-paced learning (SPL) and appearance guidance into a unified learning framework. Specifically, for the first issue, we propose an Attentive Self-Paced Learning (ASPL) paradigm that organizes the training samples in a meaningful order to excavate gradually more detailed saliency information. Our ASPL facilitates our framework capable of automatically producing soft attention weights that measure the learning difficulty of training samples in a purely self-learning way. For the second issue, we propose an Appearance Guidance Module (AGM), which formulates the local appearance contrast of each pixel as the probability of saliency boundary and finds the potential boundary of the target objects by maximizing the probability. Furthermore, we further extend our framework to other multi-modality SOD tasks by aggregating the appearance vectors of other modality data, such as depth map, thermal image or optical flow. Extensive experiments on RGB, RGB-D, RGB-T and video SOD benchmarks prove that our framework achieves state-of-the-art performance against existing USOD methods and is comparable to the latest supervised SOD methods.
翻訳日:2022-07-14 15:08:09 公開日:2022-07-13
# サブスペース一貫性規則化による高速人物再同定

Rapid Person Re-Identification via Sub-space Consistency Regularization ( http://arxiv.org/abs/2207.05933v1 )

ライセンス: Link先を確認
Qingze Yin, Guanan Wang, Guodong Ding, Qilei Li, Shaogang Gong, Zhenmin Tang(参考訳) Person Re-Identification (ReID) は、歩行者を分離したカメラで識別する。 実値特徴記述子を用いる既存のreid手法は高い精度を実現しているが、低ユークリッド距離計算と複雑な高速ソートアルゴリズムにより効率が低下している。 近年,バイナリエンコードされた人物ディスクリプタが提案されているが,これは高速ハミング距離計算と単純なカウントソートアルゴリズムのみを必要とする。 しかし、このようなバイナリ符号化ディスクリプタのパフォーマンスは、特に短いコード(例えば32ビットと64ビット)では、疎いバイナリ空間ではほとんど満足できない。 モデル精度と効率のバランスをとるために,特に短符号下での競合精度を維持しつつ,実値特徴よりも0.25ドルのReID手順を高速化できる,新しい部分空間整合正規化(SCR)アルゴリズムを提案する。 SCRは実値特徴ベクトル(例えば2048 float32)を、まず実値特徴ベクトルを$M$のサブ空間に分割し、それぞれ$C$のクラスタ付きセントロイドで分割することで、短いバイナリコード(例えば64ビット)で変換する。 したがって、2つのサンプル間の距離は、遠心分離器へのそれぞれの距離の和として表現することができ、これはオフライン計算によってスピンアップされ、ルックアップテーブルを介して維持される。 一方、これらの実値セントロイドはバイナリコードよりもはるかに高い精度を達成するのに役立ちます。 最後に、距離ルックアップテーブルを整数に変換し、カウントソートアルゴリズムを適用してランキングステージを高速化する。 また,反復フレームワークを用いた新しい一貫性規則化を提案する。 Market-1501とDukeMTMC-reIDの実験結果は、有望でエキサイティングな結果を示している。 短いコードでは、提案したSCRは実値レベルの精度とハッシュレベルの速度を享受する。

Person Re-Identification (ReID) matches pedestrians across disjoint cameras. Existing ReID methods adopting real-value feature descriptors have achieved high accuracy, but they are low in efficiency due to the slow Euclidean distance computation as well as complex quick-sort algorithms. Recently, some works propose to yield binary encoded person descriptors which instead only require fast Hamming distance computation and simple counting-sort algorithms. However, the performances of such binary encoded descriptors, especially with short code (e.g., 32 and 64 bits), are hardly satisfactory given the sparse binary space. To strike a balance between the model accuracy and efficiency, we propose a novel Sub-space Consistency Regularization (SCR) algorithm that can speed up the ReID procedure by $0.25$ times than real-value features under the same dimensions whilst maintaining a competitive accuracy, especially under short codes. SCR transforms real-value features vector (e.g., 2048 float32) with short binary codes (e.g., 64 bits) by first dividing real-value features vector into $M$ sub-spaces, each with $C$ clustered centroids. Thus the distance between two samples can be expressed as the summation of the respective distance to the centroids, which can be sped up by offline calculation and maintained via a look-up table. On the other side, these real-value centroids help to achieve significantly higher accuracy than using binary code. Lastly, we convert the distance look-up table to be integer and apply the counting-sort algorithm to speed up the ranking stage. We also propose a novel consistency regularization with an iterative framework. Experimental results on Market-1501 and DukeMTMC-reID show promising and exciting results. Under short code, our proposed SCR enjoys Real-value-level accuracy and Hashing-level speed.
翻訳日:2022-07-14 15:07:34 公開日:2022-07-13
# 摂動不活性化に基づく顔認識のための対向防御

Perturbation Inactivation Based Adversarial Defense for Face Recognition ( http://arxiv.org/abs/2207.06035v1 )

ライセンス: Link先を確認
Min Ren, Yuhao Zhu, Yunlong Wang, Zhenan Sun(参考訳) ディープラーニングベースの顔認識モデルは、敵攻撃に対して脆弱である。 これらの攻撃を抑制するため、ほとんどの防衛方法は、敵の摂動に対する認識モデルの堅牢性を改善することを目的としている。 しかし、これらの方法の一般化能力は非常に限られている。 実際には、彼らはまだ目に見えない敵の攻撃に弱い。 ディープラーニングモデルはガウスノイズのような一般的な摂動に対してかなり堅牢である。 直感的なアプローチは、敵の摂動を不活性化し、一般的な摂動として容易に扱えるようにすることである。 本稿では, 対人防御のための対人的摂動を不活性化するために, 対人防御法である摂動不活性化法(PIN)を提案する。 異なる部分空間の摂動が認識モデルに異なる影響を与えることが判明した。 免疫空間と呼ばれる部分空間が存在するべきであり、摂動は他の部分空間よりも認識モデルに対する悪影響が少ない。 したがって, 免疫空間を推定し, この部分空間に制限することにより, 逆摂動を不活性化する。 提案手法は,特定の種類の対向攻撃法に依存しないため,未知の対向的摂動に一般化することができる。 このアプローチは、いくつかの最先端の敵対的防御方法を上回るだけでなく、徹底的な実験を通じて優れた一般化能力を示す。 さらに,提案手法を4つの商用APIに適用することで,既存の顔認識システムに容易に適用可能であることを示す。 ソースコードはhttps://github.com/RenMin 1991/Perturbation-Inactivateで入手できる。

Deep learning-based face recognition models are vulnerable to adversarial attacks. To curb these attacks, most defense methods aim to improve the robustness of recognition models against adversarial perturbations. However, the generalization capacities of these methods are quite limited. In practice, they are still vulnerable to unseen adversarial attacks. Deep learning models are fairly robust to general perturbations, such as Gaussian noises. A straightforward approach is to inactivate the adversarial perturbations so that they can be easily handled as general perturbations. In this paper, a plug-and-play adversarial defense method, named perturbation inactivation (PIN), is proposed to inactivate adversarial perturbations for adversarial defense. We discover that the perturbations in different subspaces have different influences on the recognition model. There should be a subspace, called the immune space, in which the perturbations have fewer adverse impacts on the recognition model than in other subspaces. Hence, our method estimates the immune space and inactivates the adversarial perturbations by restricting them to this subspace. The proposed method can be generalized to unseen adversarial perturbations since it does not rely on a specific kind of adversarial attack method. This approach not only outperforms several state-of-the-art adversarial defense methods but also demonstrates a superior generalization capacity through exhaustive experiments. Moreover, the proposed method can be successfully applied to four commercial APIs without additional training, indicating that it can be easily generalized to existing face recognition systems. The source code is available at https://github.com/RenMin1991/Perturbation-Inactivate
翻訳日:2022-07-14 15:07:01 公開日:2022-07-13
# 交通標識検出用ピラミッドトランス

Pyramid Transformer for Traffic Sign Detection ( http://arxiv.org/abs/2207.06067v1 )

ライセンス: Link先を確認
Omid Nejati Manzari, Amin Boudesh, Shahriar B. Shokouhi(参考訳) 交通標識検出は、自動運転車の視覚システムと自動運転システムにおいて重要なタスクである。 近年,新しいトランスフォーマーモデルが様々なコンピュータビジョンタスクにおいて有望な成果を上げている。 バニラVTは,データセットの全体サイズが非常に小さく,交通標識のクラス分布が極めて不均衡であるため,交通標識検出において良好な結果が得られなかった。 この問題を克服するために,局所性機構を持つ新しいピラミッドトランスが提案されている。 具体的には、ピラミッド変換器は、アトラス畳み込みを用いて、入力画像をリッチなマルチスケールコンテキストでトークンに縮小して埋め込むために、いくつかの空間ピラミッド縮小層を有する。 さらに本質的なスケール不変性インダクティブバイアスを継承し、様々なスケールでオブジェクトの局所的な特徴表現を学習できるため、交通標識の大きさの差に対してネットワークロバスト性が向上する。 実験はドイツ交通信号検出ベンチマーク(GTSDB)で実施された。 その結果,交通標識検出タスクにおけるモデルの有効性が示された。 より具体的には、ピラミドトランスフォーマーはカスケードRCNNにバックボーンとして適用され、最もよく知られ広く使われているSOTAを超えると、GTSDBの75.6%のmAPを達成する。

Traffic sign detection is a vital task in the visual system of self-driving cars and the automated driving system. Recently, novel Transformer-based models have achieved encouraging results for various computer vision tasks. We still observed that vanilla ViT could not yield satisfactory results in traffic sign detection because the overall size of the datasets is very small and the class distribution of traffic signs is extremely unbalanced. To overcome this problem, a novel Pyramid Transformer with locality mechanisms is proposed in this paper. Specifically, Pyramid Transformer has several spatial pyramid reduction layers to shrink and embed the input image into tokens with rich multi-scale context by using atrous convolutions. Moreover, it inherits an intrinsic scale invariance inductive bias and is able to learn local feature representation for objects at various scales, thereby enhancing the network robustness against the size discrepancy of traffic signs. The experiments are conducted on the German Traffic Sign Detection Benchmark (GTSDB). The results demonstrate the superiority of the proposed model in the traffic sign detection tasks. More specifically, Pyramid Transformer achieves 75.6% mAP in GTSDB when applied to the Cascade RCNN as the backbone and surpassing most well-known and widely used SOTAs.
翻訳日:2022-07-14 15:06:36 公開日:2022-07-13
# DSPNet:差別的自己教師型学習に基づくスリムな事前学習ネットワークを目指して

DSPNet: Towards Slimmable Pretrained Networks based on Discriminative Self-supervised Learning ( http://arxiv.org/abs/2207.06075v1 )

ライセンス: Link先を確認
Shaoru Wang, Zeming Li, Jin Gao, Liang Li, Weiming Hu(参考訳) 自己教師付き学習(SSL)は、有望な下流のパフォーマンスを達成した。 しかし、実世界のアプリケーションで様々なリソース予算に直面している場合、様々なサイズのネットワークを1つずつ事前訓練するには膨大な計算負担がかかる。 本稿では,sslに基づくslimmable pretrained network (dspnet) を提案する。このネットワークは,一度にトレーニングし,様々なサイズのサブネットワークにスリム化することができる。 具体的には、SSLと知識蒸留を適切に統合することにより、スリムなネットワークを差別的なSSLパラダイムに拡張する。 線形評価プロトコルと半教師付き評価プロトコルにより,画像ネット上でのDSPNetの性能を1対1で事前訓練し,トレーニングコストを大幅に削減した。 事前訓練されたモデルはまた、下流検出とセグメンテーションタスクをうまく一般化する。 コードは公開されます。

Self-supervised learning (SSL) has achieved promising downstream performance. However, when facing various resource budgets in real-world applications, it costs a huge computation burden to pretrain multiple networks of various sizes one by one. In this paper, we propose Discriminative-SSL-based Slimmable Pretrained Networks (DSPNet), which can be trained at once and then slimmed to multiple sub-networks of various sizes, each of which faithfully learns good representation and can serve as good initialization for downstream tasks with various resource budgets. Specifically, we extend the idea of slimmable networks to a discriminative SSL paradigm, by integrating SSL and knowledge distillation gracefully. We show comparable or improved performance of DSPNet on ImageNet to the networks individually pretrained one by one under the linear evaluation and semi-supervised evaluation protocols, while reducing large training cost. The pretrained models also generalize well on downstream detection and segmentation tasks. Code will be made public.
翻訳日:2022-07-14 15:06:14 公開日:2022-07-13
# 対象画像のぼかし評価のための半教師付きランキング

Semi-supervised Ranking for Object Image Blur Assessment ( http://arxiv.org/abs/2207.06085v1 )

ライセンス: Link先を確認
Qiang Li, Zhaoliang Yao, Jingjing Wang, Ye Tian, Pengju Yang, Di Xie, Shiliang Pu(参考訳) オブジェクト画像のぼかしを評価することは、オブジェクト認識と検索の性能を向上させるために、基本的に重要である。 主な課題は、信頼できるラベルと効果的な学習戦略を持つ豊富な画像がないことである。 現在のデータセットは、限定的で混乱した品質レベルでラベル付けされている。 この制限を克服するために,人間の方がラベル付けが容易であり,信頼性の高いラベルを用いた大規模リアルな顔画像ボケ評価データセットを確立するため,ペアワイズ画像間のランク関係を品質レベルよりもラベル付けすることを提案する。 このデータセットに基づいて,ペアのランクラベルを監督としてのみ,ぼやけたスコアを得る手法を提案する。 さらに,性能向上のために,ラベルのないデータをより効果的に活用するために,四重項ランキングの整合性に基づく自己監督手法を提案する。 教師付きおよび自己教師付き手法は最終的半教師付き学習フレームワークを構成する。 実験の結果,本手法の有効性が示された。

Assessing the blurriness of an object image is fundamentally important to improve the performance for object recognition and retrieval. The main challenge lies in the lack of abundant images with reliable labels and effective learning strategies. Current datasets are labeled with limited and confused quality levels. To overcome this limitation, we propose to label the rank relationships between pairwise images rather their quality levels, since it is much easier for humans to label, and establish a large-scale realistic face image blur assessment dataset with reliable labels. Based on this dataset, we propose a method to obtain the blur scores only with the pairwise rank labels as supervision. Moreover, to further improve the performance, we propose a self-supervised method based on quadruplet ranking consistency to leverage the unlabeled data more effectively. The supervised and self-supervised methods constitute a final semi-supervised learning framework, which can be trained end-to-end. Experimental results demonstrate the effectiveness of our method.
翻訳日:2022-07-14 15:05:54 公開日:2022-07-13
# 基準ベースラインアートカラー化におけるグラディエント・コンフリクトの除去

Eliminating Gradient Conflict in Reference-based Line-art Colorization ( http://arxiv.org/abs/2207.06095v1 )

ライセンス: Link先を確認
Zekun Li, Zhengyang Geng, Zhao Kang, Wenyu Chen, Yibo Yang(参考訳) 参照ベースのラインアートカラー化はコンピュータビジョンにおいて難しい課題である。 色、テクスチャ、シェーディングは抽象的なスケッチに基づいて描画され、スケッチと参照の間の正確な長距離依存性モデリングに大きく依存する。 クロスモーダル情報を橋渡し、長距離依存性をモデル化するための一般的なテクニックは、注意のメカニズムを採用している。 しかし、基準ベースラインアートカラー化の文脈では、既存のトレーニングの難しさ、例えば自己監督型トレーニングプロトコルやGANベースの損失が増すであろう。 トレーニングの不安定性を理解するため,注意の勾配流を検出し,注意枝間の勾配衝突を観察する。 この現象は、優占的な勾配分枝を保ちながら競合分枝を取り除き、勾配問題を緩和する動機づけとなる。 本稿では,この学習戦略であるstop-gradient attention (sga) を用いた新しい注意機構を提案する。 Fr'echet Inception Distance (FID, 最大27.21%) と構造類似度指数測定 (SSIM, 最大25.67%) のいくつかのベンチマークにおいて, ラインアートカラー化における最先端モジュールとの比較を行った。 SGAのコードはhttps://github.com/kun0w0/SGAで公開されている。

Reference-based line-art colorization is a challenging task in computer vision. The color, texture, and shading are rendered based on an abstract sketch, which heavily relies on the precise long-range dependency modeling between the sketch and reference. Popular techniques to bridge the cross-modal information and model the long-range dependency employ the attention mechanism. However, in the context of reference-based line-art colorization, several techniques would intensify the existing training difficulty of attention, for instance, self-supervised training protocol and GAN-based losses. To understand the instability in training, we detect the gradient flow of attention and observe gradient conflict among attention branches. This phenomenon motivates us to alleviate the gradient issue by preserving the dominant gradient branch while removing the conflict ones. We propose a novel attention mechanism using this training strategy, Stop-Gradient Attention (SGA), outperforming the attention baseline by a large margin with better training stability. Compared with state-of-the-art modules in line-art colorization, our approach demonstrates significant improvements in Fr\'echet Inception Distance (FID, up to 27.21%) and structural similarity index measure (SSIM, up to 25.67%) on several benchmarks. The code of SGA is available at https://github.com/kunkun0w0/SGA .
翻訳日:2022-07-14 15:05:38 公開日:2022-07-13
# DynaST:Exemplar-Guided Image Generationのための動的スパース変換器

DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation ( http://arxiv.org/abs/2207.06124v1 )

ライセンス: Link先を確認
Songhua Liu, Jingwen Ye, Sucheng Ren, Xinchao Wang(参考訳) exemplar-guided image生成の重要な課題は、入力画像とガイド画像の間の細かな対応を確立することである。 従来のアプローチでは、期待された結果にもかかわらず、2次メモリコストによる粗いスケールに制限されるポイント毎のマッチング計算に注意を集中させるか、線形複雑性を達成するために対応数を修正するかのいずれかに頼っていた。 本稿では,動的スパーストランスフォーマー(dynamic sparse transformer,dynast)と呼ばれる動的スパースアテンションに基づくトランスフォーマーモデルを提案する。 このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。 具体的には、DynaSTはトランスフォーマー構造の多層特性を活用し、動的アテンションスキームをカスケード方式で実行し、マッチング結果を洗練し、視覚的に供給する出力を合成する。 さらに,dynastの統一的な学習目標を導入し,教師なしシナリオと教師なしシナリオの両方に対して,汎用的な参照ベースの画像翻訳フレームワークを提供する。 ポーズガイド付き人物画像生成、エッジベース顔合成、および画像スタイル転送の3つの応用に関する広範囲な実験は、dynastが局所的詳細において優れた性能を達成し、計算コストを大幅に削減しながら、芸術の状態を上回っていることを証明している。 私たちのコードはhttps://github.com/Huage001/DynaSTで利用可能です。

One key challenge of exemplar-guided image generation lies in establishing fine-grained correspondences between input and guided images. Prior approaches, despite the promising results, have relied on either estimating dense attention to compute per-point matching, which is limited to only coarse scales due to the quadratic memory cost, or fixing the number of correspondences to achieve linear complexity, which lacks flexibility. In this paper, we propose a dynamic sparse attention based Transformer model, termed Dynamic Sparse Transformer (DynaST), to achieve fine-level matching with favorable efficiency. The heart of our approach is a novel dynamic-attention unit, dedicated to covering the variation on the optimal number of tokens one position should focus on. Specifically, DynaST leverages the multi-layer nature of Transformer structure, and performs the dynamic attention scheme in a cascaded manner to refine matching results and synthesize visually-pleasing outputs. In addition, we introduce a unified training objective for DynaST, making it a versatile reference-based image translation framework for both supervised and unsupervised scenarios. Extensive experiments on three applications, pose-guided person image generation, edge-based face synthesis, and undistorted image style transfer, demonstrate that DynaST achieves superior performance in local details, outperforming the state of the art while reducing the computational cost significantly. Our code is available at https://github.com/Huage001/DynaST
翻訳日:2022-07-14 15:05:12 公開日:2022-07-13
# 対訳 ロバストオブジェクト検出器

Adversarially-Aware Robust Object Detector ( http://arxiv.org/abs/2207.06202v1 )

ライセンス: Link先を確認
Ziyi Dong, Pengxu Wei, Liang Lin(参考訳) オブジェクト検出は、基本的なコンピュータビジョンタスクとして、ディープニューラルネットワークの出現によって驚くべき進歩を遂げた。 それにもかかわらず、様々な現実のシナリオにおける実用的応用に対する敵意攻撃に抵抗する物体検出器の敵意の強固さを探求する研究は少ない。 検出器は、目立たない摂動、クリーンな画像のパフォーマンスが急落し、敵画像のパフォーマンスが著しく低下するなど、大きな課題を抱えている。 本研究では,物体検出における対向ロバスト性に関するモデルトレーニングを実証的に検討する。 この問題を緩和するために、クリーンで対角的な画像のモデル学習のために、逆向きに認識する畳み込みに基づくRobust Detector (RobustDet)を提案する。 RobustDetはまた、信頼できる堅牢性を確保するために、Adversarial Image Discriminator (AID)とConsistent Features with Reconstruction (CFR)も採用している。 PASCAL VOCとMS-COCOの広範囲にわたる実験により,我々のモデルは,クリーン画像における検出能力を維持しながら,効果的に勾配を歪曲し,検出ロバスト性を著しく向上することを示した。

Object detection, as a fundamental computer vision task, has achieved a remarkable progress with the emergence of deep neural networks. Nevertheless, few works explore the adversarial robustness of object detectors to resist adversarial attacks for practical applications in various real-world scenarios. Detectors have been greatly challenged by unnoticeable perturbation, with sharp performance drop on clean images and extremely poor performance on adversarial images. In this work, we empirically explore the model training for adversarial robustness in object detection, which greatly attributes to the conflict between learning clean images and adversarial images. To mitigate this issue, we propose a Robust Detector (RobustDet) based on adversarially-aware convolution to disentangle gradients for model learning on clean and adversarial images. RobustDet also employs the Adversarial Image Discriminator (AID) and Consistent Features with Reconstruction (CFR) to ensure a reliable robustness. Extensive experiments on PASCAL VOC and MS-COCO demonstrate that our model effectively disentangles gradients and significantly enhances the detection robustness with maintaining the detection ability on clean images.
翻訳日:2022-07-14 15:04:43 公開日:2022-07-13
# アノテーションは十分ですか? 雑音および曖昧なラベル推定のためのデータ中心画像分類ベンチマーク

Is one annotation enough? A data-centric image classification benchmark for noisy and ambiguous label estimation ( http://arxiv.org/abs/2207.06214v1 )

ライセンス: Link先を確認
Lars Schmarje, Vasco Grossmann, Claudius Zelenka, Sabine Dippel, Rainer Kiko, Mariusz Oszust, Matti Pastell, Jenny Stracke, Anna Valros, Nina Volkmann, Reinahrd Koch(参考訳) 現代の機械学習には高品質なデータが必要だ。 しかし、人間の騒々しく曖昧なアノテーションのため、そのようなデータの取得は困難である。 このようなアノテーションを集約して画像のラベルを決定すると、データ品質が低下する。 本研究では,9つの実世界のデータセットと複数のアノテーションを用いたデータ中心画像分類ベンチマークを提案し,そのようなデータ品質問題の影響を調査し定量化する。 データ品質をどのように改善できるかを問うことで、データ中心の視点にフォーカスしています。 何千もの実験を通じて、複数のアノテーションによって実際のクラス分布をより良く近似できることを示した。 ハードラベルはデータのあいまいさを捉えることができず、これは過信モデルの一般的な問題につながる可能性がある。 提示されたデータセット、ベンチマークベースライン、分析に基づいて、将来複数の研究機会を創出する。

High-quality data is necessary for modern machine learning. However, the acquisition of such data is difficult due to noisy and ambiguous annotations of humans. The aggregation of such annotations to determine the label of an image leads to a lower data quality. We propose a data-centric image classification benchmark with nine real-world datasets and multiple annotations per image to investigate and quantify the impact of such data quality issues. We focus on a data-centric perspective by asking how we could improve the data quality. Across thousands of experiments, we show that multiple annotations allow a better approximation of the real underlying class distribution. We identify that hard labels can not capture the ambiguity of the data and this might lead to the common issue of overconfident models. Based on the presented datasets, benchmark baselines, and analysis, we create multiple research opportunities for the future.
翻訳日:2022-07-14 15:03:57 公開日:2022-07-13
# SlimSeg:境界スーパービジョンによるスリムなセマンティックセグメンテーション

SlimSeg: Slimmable Semantic Segmentation with Boundary Supervision ( http://arxiv.org/abs/2207.06242v1 )

ライセンス: Link先を確認
Danna Xue, Fei Yang, Pei Wang, Luis Herranz, Jinqiu Sun, Yu Zhu, Yanning Zhang(参考訳) 正確なセマンティックセグメンテーションモデルは一般的に重要な計算資源を必要とし、実際的な用途での使用を阻害する。 最近の研究は、高速な推論を達成するために、優れた軽量モデルに依存している。 しかし、これらのモデルは様々な精度や効率要件に柔軟に対応できない。 本稿では,要求される精度と効率のトレードオフに応じて,推論中に異なるキャパシティで実行可能な,簡便で効率的な意味セグメンテーション(slimseg)手法を提案する。 より具体的には、訓練中に段階的に下方への知識蒸留によりパラメトリズドチャネルスリム化を行う。 本研究は,各サブモデルのセグメンテーション結果の違いが主にセグメンテーション境界付近にあることを観察した結果,各サブモデルのさらなる性能向上を目的とした境界ガイド付きセグメンテーション損失を導入した。 提案手法は, 計算コストを動的に調整し, 性能を独立モデルよりも向上させるフレキシブルモデルを生成することができることを示す。 セマンティクスセグメンテーションベンチマーク、cityscapesおよびcamvidに関する広範な実験は、我々のフレームワークの一般化能力を示している。

Accurate semantic segmentation models typically require significant computational resources, inhibiting their use in practical applications. Recent works rely on well-crafted lightweight models to achieve fast inference. However, these models cannot flexibly adapt to varying accuracy and efficiency requirements. In this paper, we propose a simple but effective slimmable semantic segmentation (SlimSeg) method, which can be executed at different capacities during inference depending on the desired accuracy-efficiency tradeoff. More specifically, we employ parametrized channel slimming by stepwise downward knowledge distillation during training. Motivated by the observation that the differences between segmentation results of each submodel are mainly near the semantic borders, we introduce an additional boundary guided semantic segmentation loss to further improve the performance of each submodel. We show that our proposed SlimSeg with various mainstream networks can produce flexible models that provide dynamic adjustment of computational cost and better performance than independent models. Extensive experiments on semantic segmentation benchmarks, Cityscapes and CamVid, demonstrate the generalization ability of our framework.
翻訳日:2022-07-14 15:03:45 公開日:2022-07-13
# スタイル保存変調を用いた文脈整合意味画像編集

Context-Consistent Semantic Image Editing with Style-Preserved Modulation ( http://arxiv.org/abs/2207.06252v1 )

ライセンス: Link先を確認
Wuyang Luo, Su Yang, Hong Wang, Bo Long, and Weishan Zhang(参考訳) セマンティック画像編集は、ローカルセマンティックラベルマップを使用して、編集領域で所望のコンテンツを生成する。 最近の研究は、セマンティック画像編集を実現するためにSPADEブロックを借りている。 しかし, 編集領域と周辺画素とのスタイルの相違により, 満足な結果が得られない。 SPADEは画像に依存しない局所的なセマンティックレイアウトのみを使用するが、既知のピクセルに含まれる画像固有のスタイルを無視する。 この問題に対処するため、我々は2つの変調プロセスからなるスタイル保存型変調(SPM)を提案する: 最初の変調は文脈的スタイルと意味的レイアウトを取り入れ、2つの融合型変調パラメータを生成する。 第2の変調は、特徴写像を変調するために融合パラメータを用いる。 このような2つの変調を使用することで、SPMは画像固有のコンテキストスタイルを保持しながら、与えられたセマンティックレイアウトを注入することができる。 さらに,大まかに編集されたコンテンツを生成するためのプログレッシブアーキテクチャを設計する。 提案手法はコンテキスト一貫性のある結果を得ることができ、生成された領域と既知のピクセルとの間の不快な境界を著しく緩和することができる。

Semantic image editing utilizes local semantic label maps to generate the desired content in the edited region. A recent work borrows SPADE block to achieve semantic image editing. However, it cannot produce pleasing results due to style discrepancy between the edited region and surrounding pixels. We attribute this to the fact that SPADE only uses an image-independent local semantic layout but ignores the image-specific styles included in the known pixels. To address this issue, we propose a style-preserved modulation (SPM) comprising two modulations processes: The first modulation incorporates the contextual style and semantic layout, and then generates two fused modulation parameters. The second modulation employs the fused parameters to modulate feature maps. By using such two modulations, SPM can inject the given semantic layout while preserving the image-specific context style. Moreover, we design a progressive architecture for generating the edited content in a coarse-to-fine manner. The proposed method can obtain context-consistent results and significantly alleviate the unpleasant boundary between the generated regions and the known pixels.
翻訳日:2022-07-14 15:03:26 公開日:2022-07-13
# pointnorm: 正規化はポイントクラウド分析に必要なすべてです。

PointNorm: Normalization is All You Need for Point Cloud Analysis ( http://arxiv.org/abs/2207.06324v1 )

ライセンス: Link先を確認
Shen Zheng, Jinqian Pan, Changjie Lu, Gaurav Gupta(参考訳) ポイントクラウド分析は、ポイントクラウドデータ構造の不規則性のために困難である。 既存の作品では、通常はpointnet++のアドホックなサンプリンググループ化操作を使用し、さらに洗練されたローカルおよび/またはグローバルな特徴抽出器を使用してポイントクラウドの3d幾何学を利用する。 残念ながら、複雑な手作りのモデルデザインは、ここ数年で推論の遅延とパフォーマンスの飽和を悪化させてきた。 本稿では,不規則点雲上の古典的なサンプリンググループ化操作が,その後のMLP層において学習困難を引き起こすことを指摘した。 点雲の不規則性を低減するため,サンプリンググループ操作後にDualNormモジュールを導入する。 デュアルノーム加群は、サンプリングされた点に対する群点の正規化を行う点正規化と、サンプリングされた点からグループ化された点への逆点正規化からなる。 提案したPointNormは、ローカル平均およびグローバル標準偏差を利用して、ローカルおよびグローバル両方の特徴の恩恵を受けながら、忠実な推論速度を維持している。 ポイントクラウド分類実験により,ModelNet40およびScanObjectNNデータセットの最先端の精度が得られた。 また,このモデルをポイントクラウド部分セグメンテーションに一般化し,shapenetpartデータセット上での競合性能を示す。 コードはhttps://github.com/ShenZheng2000/PointNorm-for-Point-Cloud-Analysisで公開されている。

Point cloud analysis is challenging due to the irregularity of the point cloud data structure. Existing works typically employ the ad-hoc sampling-grouping operation of PointNet++, followed by sophisticated local and/or global feature extractors for leveraging the 3D geometry of the point cloud. Unfortunately, those intricate hand-crafted model designs have led to poor inference latency and performance saturation in the last few years. In this paper, we point out that the classical sampling-grouping operations on the irregular point cloud cause learning difficulty for the subsequent MLP layers. To reduce the irregularity of the point cloud, we introduce a DualNorm module after the sampling-grouping operation. The DualNorm module consists of Point Normalization, which normalizes the grouped points to the sampled points, and Reverse Point Normalization, which normalizes the sampled points to the grouped points. The proposed PointNorm utilizes local mean and global standard deviation to benefit from both local and global features while maintaining a faithful inference speed. Experiments on point cloud classification show that we achieved state-of-the-art accuracy on ModelNet40 and ScanObjectNN datasets. We also generalize our model to point cloud part segmentation and demonstrate competitive performance on the ShapeNetPart dataset. Code is available at https://github.com/ShenZheng2000/PointNorm-for-Point-Cloud-Analysis.
翻訳日:2022-07-14 15:03:11 公開日:2022-07-13
# 対称アウェア変圧器を用いたミラー検出

Symmetry-Aware Transformer-based Mirror Detection ( http://arxiv.org/abs/2207.06332v1 )

ライセンス: Link先を確認
Tianyu Huang, Bowen Dong, Jiaying Lin, Xiaohui Liu, Rynson W.H. Lau, Wangmeng Zuo(参考訳) ミラー検出は、入力画像内のミラー領域を識別することを目的としている。 既存の作品は主に、鏡と非鏡領域の類似性と不連続性を掘り起こすために意味的特徴と構造的特徴を統合すること、鏡の存在を分析するのに役立つ深さ情報の導入に重点を置いている。 本研究では、実物体が鏡の中の対応する反射とゆるい対称性の関係を形成するのが一般的であり、これは実物体と鏡を区別するのに有用である。 そこで本研究では,Symmetry-Aware Attention Module (SAAM) と Contrast と Fusion Decoder Module (CFDM) の2つの新しいモジュールを含む,デュアルパスのSymmetry-Aware Transformer-based mirror detection Network (SATNet) を提案する。 具体的には、まずトランスフォーマーバックボーンを導入し、画像におけるグローバル情報集約をモデル化し、2つのパスでマルチスケールな特徴を抽出する。 次に、高レベルなデュアルパス特徴をSAAMに供給し、対称性の関係を捉える。 最後に、デュアルパス機能を融合し、cfdmsと漸進的に予測マップを洗練し、最終的なミラーマスクを得る。 実験の結果,SATNet は RGB と RGB-D の両方のミラー検出手法より優れていることがわかった。

Mirror detection aims to identify the mirror regions in the given input image. Existing works mainly focus on integrating the semantic features and structural features to mine the similarity and discontinuity between mirror and non-mirror regions, or introducing depth information to help analyze the existence of mirrors. In this work, we observe that a real object typically forms a loose symmetry relationship with its corresponding reflection in the mirror, which is beneficial in distinguishing mirrors from real objects. Based on this observation, we propose a dual-path Symmetry-Aware Transformer-based mirror detection Network (SATNet), which includes two novel modules: Symmetry-Aware Attention Module (SAAM) and Contrast and Fusion Decoder Module (CFDM). Specifically, we first introduce the transformer backbone to model global information aggregation in images, extracting multi-scale features in two paths. We then feed the high-level dual-path features to SAAMs to capture the symmetry relations. Finally, we fuse the dual-path features and refine our prediction maps progressively with CFDMs to obtain the final mirror mask. Experimental results show that SATNet outperforms both RGB and RGB-D mirror detection methods on all available mirror detection datasets.
翻訳日:2022-07-14 15:02:47 公開日:2022-07-13
# 視覚異常極端環境における6次元カメラ再配置

6D Camera Relocalization in Visually Ambiguous Extreme Environments ( http://arxiv.org/abs/2207.06333v1 )

ライセンス: Link先を確認
Yang Zheng, Tolga Birdal, Fei Xia, Yanchao Yang, Yueqi Duan, Leonidas J. Guibas(参考訳) 本研究では,深海や地球外地形などの極端な環境下で得られた画像の列から,カメラのポーズを確実に推定する手法を提案する。 これらの困難な条件下で取得されたデータは、テクスチャのない表面、画像劣化、繰り返しかつ非常にあいまいな構造の存在によって破壊される。 ナレーションを施すと、実験分析で確認したように、最先端の手法がこれらのシナリオで失敗する可能性がある。 本稿では,このような極端な状況下でカメラの再局在化を実現することを試みる。 この目的のために提案します (i)時間的情報を活用した階層的局所化システム (ii)堅牢性と精度を高めるための新しい環境対応画像強調法。 火星のような砂漠に自律的な水中探査機を配置し、惑星ローバーを配置するという2つの極端な設定で、我々の手法は優れた性能を示しました。 さらに,20%のトレーニングデータを用いて,室内ベンチマーク (7-scenesデータセット) における最先端手法と同等の性能を実現する。

We propose a novel method to reliably estimate the pose of a camera given a sequence of images acquired in extreme environments such as deep seas or extraterrestrial terrains. Data acquired under these challenging conditions are corrupted by textureless surfaces, image degradation, and presence of repetitive and highly ambiguous structures. When naively deployed, the state-of-the-art methods can fail in those scenarios as confirmed by our empirical analysis. In this paper, we attempt to make camera relocalization work in these extreme situations. To this end, we propose: (i) a hierarchical localization system, where we leverage temporal information and (ii) a novel environment-aware image enhancement method to boost the robustness and accuracy. Our extensive experimental results demonstrate superior performance in favor of our method under two extreme settings: localizing an autonomous underwater vehicle and localizing a planetary rover in a Mars-like desert. In addition, our method achieves comparable performance with state-of-the-art methods on the indoor benchmark (7-Scenes dataset) using only 20% training data.
翻訳日:2022-07-14 15:02:21 公開日:2022-07-13
# 空間的時間的ビデオスーパーリゾリューションのための双方向インタラクション

You Only Align Once: Bidirectional Interaction for Spatial-Temporal Video Super-Resolution ( http://arxiv.org/abs/2207.06345v1 )

ライセンス: Link先を確認
Mengshun Hu, Kui Jiang, Zhixiang Nie, Zheng Wang(参考訳) 時空間ビデオ超解法(ST-VSR)技術は高解像度で高フレームレートで高品質なビデオを生成する。 S-VSRとT-VSR(S-VSRとT-VSR)を結合してST-VSRタスクを実現する。 これらの方法はS-VSRとT-VSRの2つのアライメントと融合を必要とするが、これは明らかに冗長であり、連続する空間LRフレームの情報フローを十分に探索することができない。 すべての入力フレームをカバーするために双方向学習(future-to-past and past-to-future)が導入されたが、最終的な予測の直接的融合は、全フレームからの双方向モーションラーニングと空間情報の本質的相関を十分に活用できない。 本稿では,ST-VSRの双方向相互作用を両立させる効果的な再帰的ネットワークを提案する。 具体的には、まず未来から過去までの後方推論を行い、続いて超解中間フレームへの前方推論を行う。 後方および前方の推論は、協調最適化により学習タスクを簡素化するために構造と詳細を学ぶために割り当てられる。 さらに,ハイブリット融合モジュール(hfm)は,情報を集約・蒸留し,空間情報を洗練し,高品質な映像フレームを再構築するように設計されている。 2つの公開データセットに関する広範囲な実験により、この手法が最先端の手法を効率良く上回り、計算コストを約22%削減できることが示されている。

Spatial-Temporal Video Super-Resolution (ST-VSR) technology generates high-quality videos with higher resolution and higher frame rates. Existing advanced methods accomplish ST-VSR tasks through the association of Spatial and Temporal video super-resolution (S-VSR and T-VSR). These methods require two alignments and fusions in S-VSR and T-VSR, which is obviously redundant and fails to sufficiently explore the information flow of consecutive spatial LR frames. Although bidirectional learning (future-to-past and past-to-future) was introduced to cover all input frames, the direct fusion of final predictions fails to sufficiently exploit intrinsic correlations of bidirectional motion learning and spatial information from all frames. We propose an effective yet efficient recurrent network with bidirectional interaction for ST-VSR, where only one alignment and fusion is needed. Specifically, it first performs backward inference from future to past, and then follows forward inference to super-resolve intermediate frames. The backward and forward inferences are assigned to learn structures and details to simplify the learning task with joint optimizations. Furthermore, a Hybrid Fusion Module (HFM) is designed to aggregate and distill information to refine spatial information and reconstruct high-quality video frames. Extensive experiments on two public datasets demonstrate that our method outperforms state-of-the-art methods in efficiency, and reduces calculation cost by about 22%.
翻訳日:2022-07-14 15:02:05 公開日:2022-07-13
# 河川スカム指数の混合拡大による水面パッチ分類

Water Surface Patch Classification Using Mixture Augmentation for River Scum Index ( http://arxiv.org/abs/2207.06388v1 )

ライセンス: Link先を確認
Takato Yasuno, Masahiro Okano, Sanae Goto, Junichiro Fujii, and Masazumi Amakata(参考訳) 都市河川は住宅に影響を及ぼす水環境を提供している。 河川表面のモニタリングは, 洗浄の優先順位決定や, 洗浄処理の開始時期を決定する上で重要である。 我々は、河川表面に蓄積する有機泥(scum)に焦点を当て、その独特の臭いと外部の経済効果を景観に与える。 分散した不安定な有機形状パターンの特徴から,監視の自動化が困難であることが判明した。 本研究では,河川面に浮かぶスカムと,建物,橋梁,ポール,バリアなどの周辺構造物が反射する河川面の絡み合った背景との多様性を高めるため,混合画像拡張を用いて河川面のスカム特徴を検出するパッチ分類パイプラインを提案する。 さらに, 河川を覆ったスカム指数を提案し, オンラインの悪化状況の監視, フローティングスカムの収集, 化学処理方針の決定を支援する。 最後に,本手法を,数日間にわたって河川スカムイベントを記録する10分毎のフレームで時系列データセット上で利用する方法を示す。 我々はパイプラインの価値とその実験結果について論じる。

Urban rivers provide a water environment that influences residential living. River surface monitoring has become crucial for making decisions about where to prioritize cleaning and when to automatically start the cleaning treatment. We focus on the organic mud, or "scum" that accumulates on the river's surface and gives it its peculiar odor and external economic effects on the landscape. Because of its feature of a sparsely distributed and unstable pattern of organic shape, automating the monitoring has proved difficult. We propose a patch classification pipeline to detect scum features on the river surface using mixture image augmentation to increase the diversity between the scum floating on the river and the entangled background on the river surface reflected by nearby structures like buildings, bridges, poles, and barriers. Furthermore, we propose a scum index covered on rivers to help monitor worse grade online, collecting floating scum and deciding on chemical treatment policies. Finally, we show how to use our method on a time series dataset with frames every ten minutes recording river scum events over several days. We discuss the value of our pipeline and its experimental findings.
翻訳日:2022-07-14 15:00:34 公開日:2022-07-13
# PyMAF-X:単眼画像からの完全体モデル回帰に向けて

PyMAF-X: Towards Well-aligned Full-body Model Regression from Monocular Images ( http://arxiv.org/abs/2207.06400v1 )

ライセンス: Link先を確認
Hongwen Zhang, Yating Tian, Yuxiang Zhang, Mengcheng Li, Liang An, Zhenan Sun, Yebin Liu(参考訳) 回帰に基づく手法は、生のピクセルを直接モデルパラメータにフィードフォワードでマッピングすることで、単眼画像から体、手、さらには全身モデルを推定することができる。 しかし、パラメータの小さな偏差は、特にフルボディメッシュ回復の文脈において、推定メッシュと入力イメージの間に顕著な不一致を引き起こす可能性がある。 この問題に対処するため,我々の回帰ネットワークにおけるPyMAF(Maraamidal Mesh Alignment Feedback)ループを提案し,それをPyMAF-Xに拡張し,表現力のあるフルボディモデルのリカバリを行う。 PyMAFの中核となる考え方は、機能ピラミッドを活用して、メッシュイメージのアライメントステータスに基づいて、予測されたパラメータを明示的に修正することだ。 具体的には、現在予測されているパラメータから、より微細な特徴からメッシュに沿ったエビデンスを抽出し、パラメータの修正をフィードバックする。 アライメントの知覚を高めるため、メッシュイメージ対応ガイダンスを提供するために補助的な高密度監視装置を採用し、空間アライメントの注意を払って、ネットワークのグローバルなコンテキストの認識を可能にする。 フルボディメッシュリカバリのためにpymafを拡張する際、pymaf-xで適応的統合戦略を提案し、肘関節回旋を調整し、部分特異的推定の性能を維持しながら自然な手首ポーズを生成する。 提案手法の有効性は,PyMAFとPyMAF-Xがメッシュ画像アライメントを効果的に改善し,新たな最先端結果が得られる,体のみおよび全体メッシュリカバリのためのベンチマークデータセットで検証されている。 コードとビデオ結果のプロジェクトページはhttps://www.liuyebin.com/pymaf-x.comにある。

Regression-based methods can estimate body, hand, and even full-body models from monocular images by directly mapping raw pixels to the model parameters in a feed-forward manner. However, minor deviation in parameters may lead to noticeable misalignment between the estimated meshes and input images, especially in the context of full-body mesh recovery. To address this issue, we propose a Pyramidal Mesh Alignment Feedback (PyMAF) loop in our regression network for well-aligned human mesh recovery and extend it to PyMAF-X for the recovery of expressive full-body models. The core idea of PyMAF is to leverage a feature pyramid and rectify the predicted parameters explicitly based on the mesh-image alignment status. Specifically, given the currently predicted parameters, mesh-aligned evidences will be extracted from finer-resolution features accordingly and fed back for parameter rectification. To enhance the alignment perception, an auxiliary dense supervision is employed to provide mesh-image correspondence guidance while a spatial alignment attention is introduced to enable the awareness of the global contexts for our network. When extending PyMAF for full-body mesh recovery, an adaptive integration strategy is proposed in PyMAF-X to adjust the elbow-twist rotations, which produces natural wrist poses while maintaining the well-aligned performance of the part-specific estimations. The efficacy of our approach is validated on several benchmark datasets for body-only and full-body mesh recovery, where PyMAF and PyMAF-X effectively improve the mesh-image alignment and achieve new state-of-the-art results. The project page with code and video results can be found at https://www.liuyebin.com/pymaf-x.
翻訳日:2022-07-14 15:00:14 公開日:2022-07-13
# ドロップアウトの暗黙の正規化

Implicit regularization of dropout ( http://arxiv.org/abs/2207.05952v1 )

ライセンス: Link先を確認
Zhongwang Zhang and Zhi-Qin John Xu(参考訳) 一般的な正規化手法であるドロップアウトが、ニューラルネットワークトレーニングが優れた一般化ソリューションを見つける上でどのように役立つかを理解することは重要である。 本研究では,ドロップアウトの暗黙的な正則化を理論的に導出し,損失関数のヘッセン行列とドロップアウト雑音の共分散行列の関係を一連の実験で検証する。 次に、ドロップアウトの暗黙的な正則化の2つの意味を数値的に研究する。 第一に、ドロップアウトによるトレーニングは、実験における標準勾配降下訓練と比較して、より平坦な最小限のニューラルネットワークを見つけ、暗黙の正規化が平坦な解を見つける鍵となる。 第二に、隠れたニューロンの入力重み(隠れたニューロンの入力重みは、入力層から隠れたニューロンへの重みとバイアス項からなる)は、孤立した向きに凝縮する傾向がある。 凝縮は非線形学習プロセスの特徴であり、ニューラルネットワークの複雑さを低くする。 我々の理論は主に最後の隠れ層で使われるドロップアウトに焦点を当てているが、実験はニューラルネットワークのトレーニングにおける一般的なドロップアウトに適用できる。 本研究は,ドロップアウトの特異な特性を確率的勾配降下と比較し,ドロップアウトを完全に理解するための重要な基礎となっている。

It is important to understand how the popular regularization method dropout helps the neural network training find a good generalization solution. In this work, we theoretically derive the implicit regularization of dropout and study the relation between the Hessian matrix of the loss function and the covariance matrix of the dropout noise, supported by a series of experiments. We then numerically study two implications of the implicit regularization of dropout, which intuitively rationalize why dropout helps generalization. First, we find that the training with dropout finds the neural network with a flatter minimum compared with standard gradient descent training in experiments, and the implicit regularization is the key for finding flat solutions. Second, trained with dropout, input weights of hidden neurons (the input weight of a hidden neuron consists of the weight from its input layer to the hidden neuron and its bias term) would tend to condense on isolated orientations. Condensation is a feature in non-linear learning process, which makes the neural network low complexity. Although our theory mainly focuses on the dropout used in the last hidden layer, our experiments apply for general dropout in training neural networks. This work points out the distinct characteristics of dropout compared with stochastic gradient descent and serves as an important basis for fully understanding dropout.
翻訳日:2022-07-14 14:58:51 公開日:2022-07-13
# (参考訳) BR-SNIS:バイアス低減による自己Normalized Importance Smpling

BR-SNIS: Bias Reduced Self-Normalized Importance Sampling ( http://arxiv.org/abs/2207.06364v1 )

ライセンス: CC BY-SA 4.0
Gabriel Cardoso, Sergey Samsonov, Achille Thin, Eric Moulines, Jimmy Olsson(参考訳) 重要サンプリング(Importance Smpling、IS)とは、提案分布と関連する重要度から独立したサンプルを用いて、目標分布下での期待を近似する手法である。 多くの応用において、ターゲット分布は正規化定数までしか知られておらず、そこでは自己正規化IS(SNIS)が用いられる。 自己正規化の使用は推定器の分散に正の影響を及ぼすが、バイアスをもたらす。 本研究では,SNISの複雑さが本質的に同じであり,分散を増大させることなくバイアスを大幅に低減するBR-SNISを提案する。 この方法は、SNISと同じ提案サンプルと重要重量を使用するという意味ではラッパーであるが、反復サンプリング-重要再サンプリング(ISIR)を巧みに利用して、推定器のバイアス低減バージョンを形成する。 提案手法には,新しいバイアス,分散,高確率境界を含む厳密な理論結果が与えられ,数値例で示される。

Importance Sampling (IS) is a method for approximating expectations under a target distribution using independent samples from a proposal distribution and the associated importance weights. In many applications, the target distribution is known only up to a normalization constant, in which case self-normalized IS (SNIS) can be used. While the use of self-normalization can have a positive effect on the dispersion of the estimator, it introduces bias. In this work, we propose a new method, BR-SNIS, whose complexity is essentially the same as that of SNIS and which significantly reduces bias without increasing the variance. This method is a wrapper in the sense that it uses the same proposal samples and importance weights as SNIS, but makes clever use of iterated sampling--importance resampling (ISIR) to form a bias-reduced version of the estimator. We furnish the proposed algorithm with rigorous theoretical results, including new bias, variance and high-probability bounds, and these are illustrated by numerical examples.
翻訳日:2022-07-14 14:56:22 公開日:2022-07-13
# Online Active Regression

Online Active Regression ( http://arxiv.org/abs/2207.05945v1 )

ライセンス: Link先を確認
Cheng Chen, Yi Li, Yiming Sun(参考訳) アクティブ回帰は、学習者が大量のデータポイントを受信するが、少数のラベルしか観測できない線形回帰問題を考える。 オンラインアルゴリズムは、インクリメンタルなトレーニングデータを扱うことができ、低計算コストを生かすことができるため、アクティブ回帰問題のオンライン拡張を考える: 学習者はデータポイントを1つずつ受け取り、対応するラベルを収集すべきかどうかを即座に決定する。 目標は、受信したデータポイントのレグレッションをラベルクエリの少ない予算で効率的に維持することである。 この問題に対する新しいアルゴリズムを$\ell_p$ Los, $p\in[1,2]$で提案する。 1+\epsilon)$-approximate 解を得るためには、提案するアルゴリズムはラベルのクエリに対して $\tilde{\mathcal{o}}(\epsilon^{-2} d \log(n\kappa))$ のみを必要とする。 その結果,提案手法はオフラインアクティブ回帰アルゴリズムと同等の性能を持つことがわかった。

Active regression considers a linear regression problem where the learner receives a large number of data points but can only observe a small number of labels. Since online algorithms can deal with incremental training data and take advantage of low computational cost, we consider an online extension of the active regression problem: the learner receives data points one by one and immediately decides whether it should collect the corresponding labels. The goal is to efficiently maintain the regression of received data points with a small budget of label queries. We propose novel algorithms for this problem under $\ell_p$ loss where $p\in[1,2]$. To achieve a $(1+\epsilon)$-approximate solution, our proposed algorithms only require $\tilde{\mathcal{O}}(\epsilon^{-2} d \log(n\kappa))$ queries of labels, where $n$ is the number of data points and $\kappa$ is a quantity, called the condition number, of the data points. The numerical results verify our theoretical results and show that our methods have comparable performance with offline active regression algorithms.
翻訳日:2022-07-14 14:22:58 公開日:2022-07-13
# TCT:ブートストラップ型ニューラルタンジェントカーネルを用いたフェデレーション学習

TCT: Convexifying Federated Learning using Bootstrapped Neural Tangent Kernels ( http://arxiv.org/abs/2207.06343v1 )

ライセンス: Link先を確認
Yaodong Yu and Alexander Wei and Sai Praneeth Karimireddy and Yi Ma and Michael I. Jordan(参考訳) 最先端のフェデレーション学習手法は、クライアントが異なるデータ分布を持つ場合、集中型の学習方法よりもはるかにパフォーマンスが悪くなります。 ニューラルネットワークでは、集中型SGDがすべてのクライアントで同時に動作するソリューションを容易に見つけることができても、現在のフェデレーション最適化手法は同等のソリューションに収束しない。 この性能格差は,非凸性が提示する最適化課題に起因すると考えられる。 具体的には、ネットワークの初期層は有用な機能を学ぶが、最終層はそれらを利用することができない。 すなわち、この非凸問題に適用されたフェデレーション最適化は最終層の学習を歪ませる。 そこで本研究では、まず、オフ・ザ・シェルフ法(例えば、FedAvg)を用いて特徴を学習し、次に、ネットワークの経験的ニューラルネットワークカーネル近似から得られる凸化問題を最適化するTrain-Convexify-Train(TCT)手順を提案する。 この手法では,fmnistでは最大36%,cifar10では37%の精度向上を実現している。

State-of-the-art federated learning methods can perform far worse than their centralized counterparts when clients have dissimilar data distributions. For neural networks, even when centralized SGD easily finds a solution that is simultaneously performant for all clients, current federated optimization methods fail to converge to a comparable solution. We show that this performance disparity can largely be attributed to optimization challenges presented by nonconvexity. Specifically, we find that the early layers of the network do learn useful features, but the final layers fail to make use of them. That is, federated optimization applied to this non-convex problem distorts the learning of the final layers. Leveraging this observation, we propose a Train-Convexify-Train (TCT) procedure to sidestep this issue: first, learn features using off-the-shelf methods (e.g., FedAvg); then, optimize a convexified problem obtained from the network's empirical neural tangent kernel approximation. Our technique yields accuracy improvements of up to +36% on FMNIST and +37% on CIFAR10 when clients have dissimilar data.
翻訳日:2022-07-14 14:22:32 公開日:2022-07-13
# リアルタイム反復学習による肺がん放射線治療における胸部内点運動の予測

Prediction of the motion of chest internal points using a recurrent neural network trained with real-time recurrent learning for latency compensation in lung cancer radiotherapy ( http://arxiv.org/abs/2207.05951v1 )

ライセンス: Link先を確認
Michel Pohl, Mitsuru Uesaka, Kazuyuki Demachi, Ritu Bhusal Chhatkuli(参考訳) 肺癌に対する放射線治療では, 腫瘍周辺の健全な組織への放射線照射を最小化する必要があるが, 呼吸運動とリニア加速器系の遅延のため困難である。 そこで本研究では,lucas-kanadeピラミッド型光フローアルゴリズムを用いて,肺癌4例の胸部ctスキャン画像の変形性画像登録を行った。 次に,前回計算した変形場に基づいて肺腫瘍近傍の3つの内部点を追跡し,リアルタイムリカレントラーニング(RTRL)と勾配クリッピングを用いてトレーニングしたリカレントニューラルネットワーク(RNN)を用いてその位置を予測する。 呼吸データは規則的であり、約2.5Hzでサンプリングされ、脊椎方向に人工的なドリフトを含む。 軌跡の運動振幅は12.0mmから22.7mmであった。 最後に, 線形対応モデルとNadaraya-Watson非線形回帰に基づいて, 追跡点と初期腫瘍像から3次元腫瘍像を復元・予測する簡単な手法を提案する。 テストセット上でのRNN予測に対応するルート平均二乗誤差,最大誤差,ジッタは,線形予測と最小平均二乗(LMS)で得られたのと同じ性能尺度よりも小さい。 特に、rnn に関連する最大予測誤差は 1.51mm に等しいが、線形予測と lms に関連する最大誤差よりもそれぞれ 16.1% と 5.0% 低い。 rtrlでの時間ステップ当たりの平均予測時間は119msであり、400msマーカ位置サンプリング時間よりも少ない。 予測画像の腫瘍位置は視力的に正しかったが, 原画像と予測画像の相互相関は0.955と高い値であった。

During the radiotherapy treatment of patients with lung cancer, the radiation delivered to healthy tissue around the tumor needs to be minimized, which is difficult because of respiratory motion and the latency of linear accelerator systems. In the proposed study, we first use the Lucas-Kanade pyramidal optical flow algorithm to perform deformable image registration of chest computed tomography scan images of four patients with lung cancer. We then track three internal points close to the lung tumor based on the previously computed deformation field and predict their position with a recurrent neural network (RNN) trained using real-time recurrent learning (RTRL) and gradient clipping. The breathing data is quite regular, sampled at approximately 2.5Hz, and includes artificial drift in the spine direction. The amplitude of the motion of the tracked points ranged from 12.0mm to 22.7mm. Finally, we propose a simple method for recovering and predicting 3D tumor images from the tracked points and the initial tumor image based on a linear correspondence model and Nadaraya-Watson non-linear regression. The root-mean-square error, maximum error, and jitter corresponding to the RNN prediction on the test set were smaller than the same performance measures obtained with linear prediction and least mean squares (LMS). In particular, the maximum prediction error associated with the RNN, equal to 1.51mm, is respectively 16.1% and 5.0% lower than the maximum error associated with linear prediction and LMS. The average prediction time per time step with RTRL is equal to 119ms, which is less than the 400ms marker position sampling time. The tumor position in the predicted images appears visually correct, which is confirmed by the high mean cross-correlation between the original and predicted images, equal to 0.955.
翻訳日:2022-07-14 14:21:59 公開日:2022-07-13
# THzチャネル推定のためのフェデレーション学習

Federated Learning for THz Channel Estimation ( http://arxiv.org/abs/2207.06017v1 )

ライセンス: Link先を確認
Ahmet M. Elbir and Wei Shi and Kumar Vijay Mishra and Symeon Chatzinotas(参考訳) 本稿では、テラヘルツ (THz) チャネル推定における2つの大きな課題について述べる。ビーム分割現象、すなわち、周波数非依存のアナログビームフォーマによるビームアライメントと、伝播損失を補うために超大質量アンテナを使用する計算複雑性である。 データ駆動技術は、この問題の複雑さを軽減するために知られているが、通常、ユーザーから巨大な通信オーバーヘッドを伴う中央サーバにデータセットを送信する必要がある。 本研究では,データ集合全体ではなくモデルパラメータのみを送信し,通信効率を向上させるためのthzチャネル推定を行うfederated learning(fl)を採用する。 ビームスプリットにもかかわらずチャネルを正確に推定するために,追加ハードウェアを必要としないビームスペース支持アライメント手法を提案する。 提案手法は,従来の手法に比べてチャネル推定精度が向上し,通信オーバーヘッドが約68ドル低減した。

This paper addresses two major challenges in terahertz (THz) channel estimation: the beam-split phenomenon, i.e., beam misalignment because of frequency-independent analog beamformers, and computational complexity because of the usage of ultra-massive number of antennas to compensate propagation losses. Data-driven techniques are known to mitigate the complexity of this problem but usually require the transmission of the datasets from the users to a central server entailing huge communications overhead. In this work, we employ federated learning (FL), wherein the users transmit only the model parameters instead of the whole dataset, for THz channel estimation to improve the communications-efficiency. In order to accurately estimate the channel despite beam-split, we propose a beamspace support alignment technique without requiring additional hardware. Compared to the previous works, our method provides higher channel estimation accuracy as well as approximately $68$ times lower communications overhead.
翻訳日:2022-07-14 14:21:25 公開日:2022-07-13
# ロバストエンドツーエンド音声認識のための視覚コンテキスト駆動型音声特徴強調

Visual Context-driven Audio Feature Enhancement for Robust End-to-End Audio-Visual Speech Recognition ( http://arxiv.org/abs/2207.06020v1 )

ライセンス: Link先を確認
Joanna Hong, Minsu Kim, Daehun Yoo, Yong Man Ro(参考訳) 本稿では,ノイズロバストなエンドツーエンド音声認識(AVSR)システムの設計に焦点をあてる。 そこで本研究では,音声・視覚対応の助けを借りて,入力ノイズの多い音声を高機能化するための視覚コンテキスト駆動型音声特徴強調モジュール(V-CAFE)を提案する。 提案するv-cafeは,唇運動,すなわち視覚環境の遷移を捉え,得られた視覚状況を考慮してノイズ低減マスクを生成する。 文脈依存モデリングにより、ビセメ対音素マッピングの曖昧さをマスク生成のために改善することができる。 ノイズキャンセリングはノイズ低減マスクでマスクされ、オーディオ機能が強化される。 拡張された音声特徴は視覚的特徴と融合し、音声認識のためにConformerとTransformerで構成されたエンコーダ・デコーダモデルに取り込まれる。 提案するV-CAFEによる終端AVSRは、AVSRのノイズロス性をさらに向上させることができることを示す。 提案手法の有効性は,2大音声視覚データセットであるLSS2とLSS3を用いて,雑音の多い音声認識および重複音声認識実験において評価される。

This paper focuses on designing a noise-robust end-to-end Audio-Visual Speech Recognition (AVSR) system. To this end, we propose Visual Context-driven Audio Feature Enhancement module (V-CAFE) to enhance the input noisy audio speech with a help of audio-visual correspondence. The proposed V-CAFE is designed to capture the transition of lip movements, namely visual context and to generate a noise reduction mask by considering the obtained visual context. Through context-dependent modeling, the ambiguity in viseme-to-phoneme mapping can be refined for mask generation. The noisy representations are masked out with the noise reduction mask resulting in enhanced audio features. The enhanced audio features are fused with the visual features and taken to an encoder-decoder model composed of Conformer and Transformer for speech recognition. We show the proposed end-to-end AVSR with the V-CAFE can further improve the noise-robustness of AVSR. The effectiveness of the proposed method is evaluated in noisy speech recognition and overlapped speech recognition experiments using the two largest audio-visual datasets, LRS2 and LRS3.
翻訳日:2022-07-14 14:20:47 公開日:2022-07-13
# 中国語事前学習モデルの文字表現強化のための単語セマンティクスの展開

Exploiting Word Semantics to Enrich Character Representations of Chinese Pre-trained Models ( http://arxiv.org/abs/2207.05928v1 )

ライセンス: Link先を確認
Wenbiao Li, Rui Sun, Yunfang Wu(参考訳) 中国のほとんどの事前訓練されたモデルは、下流作業の基本単位として文字を採用する。 しかし、これらのモデルは単語が持つ情報を無視するので、重要な意味論が失われる。 本稿では,単語構造を活用し,事前学習したモデルの文字表現に語彙意味を組み込む新しい手法を提案する。 具体的には、類似度重みに応じて単語の埋め込みを内部文字の埋め込みに投影する。 単語境界情報を強化するために,単語の内部文字の表現を混合する。 その後,重要でない文字をマスキングすることで重要文字を強調するために,単語間アライメントの注意機構を適用する。 さらに,単語のセグメンテーションによる誤りの伝播を低減するために,異なるトークンによるセグメンテーション結果を組み合わせたアンサンブル手法を提案する。 実験の結果,本手法は,感情分類,文対マッチング,自然言語推論,機械読解など,中国語のNLPタスクにおけるBERT,BERT-wwm,ERNIEよりも優れた性能を示すことがわかった。 モデルの各コンポーネントの有効性を証明するために、さらなる分析を行う。

Most of the Chinese pre-trained models adopt characters as basic units for downstream tasks. However, these models ignore the information carried by words and thus lead to the loss of some important semantics. In this paper, we propose a new method to exploit word structure and integrate lexical semantics into character representations of pre-trained models. Specifically, we project a word's embedding into its internal characters' embeddings according to the similarity weight. To strengthen the word boundary information, we mix the representations of the internal characters within a word. After that, we apply a word-to-character alignment attention mechanism to emphasize important characters by masking unimportant ones. Moreover, in order to reduce the error propagation caused by word segmentation, we present an ensemble approach to combine segmentation results given by different tokenizers. The experimental results show that our approach achieves superior performance over the basic pre-trained models BERT, BERT-wwm and ERNIE on different Chinese NLP tasks: sentiment classification, sentence pair matching, natural language inference and machine reading comprehension. We make further analysis to prove the effectiveness of each component of our model.
翻訳日:2022-07-14 14:18:54 公開日:2022-07-13
# Eコマースサイトにおける製品レビューからのコンポーネントコメントエクストラクタの開発

Developing a Component Comment Extractor from Product Reviews on E-Commerce Sites ( http://arxiv.org/abs/2207.05979v1 )

ライセンス: Link先を確認
Shogo Anda, Masato Kikuchi, Tadachika Ozono(参考訳) 消費者は商品の特定のコンポーネントを知りたがっているため、購入決定を伝えるために製品レビューを読むことが多い。 しかし、製品レビューの典型的な文には様々な詳細が含まれているため、ユーザーは多くのレビューの中で知りたいコンポーネントに関する文を識別する必要がある。 そこで本稿では,文中の商品の構成要素やアスペクト情報を識別・収集するシステムを開発することを目的とした。 BERTをベースとした分類器は, 特定の構成要素や側面についてコメントを付した文を抽出し, レビュー中の文にコンポーネントやアスペクトを参照するラベルを割り当てる。 製品レビューから識別された単語のパターンマッチングに基づいて適切なラベルを決定し,トレーニングデータを作成した。 単語をラベルとして使用できないため、単語の意味をカバーしたラベルを慎重に作成しました。 しかし、トレーニングデータはコンポーネントペアとアスペクトペアで不均衡であった。 バイアスを低減するためにWordNetを用いたデータ拡張手法を提案する。 本評価は,Eコマースサイトにおける部品や側面の指標の88%以上を網羅し,パターンマッチングを用いて道路自転車のラベルを決定することができることを示す。 さらに,データ拡張手法により,不備なデータのF1対策を0.66から0.76に改善することができる。

Consumers often read product reviews to inform their buying decision, as some consumers want to know a specific component of a product. However, because typical sentences on product reviews contain various details, users must identify sentences about components they want to know amongst the many reviews. Therefore, we aimed to develop a system that identifies and collects component and aspect information of products in sentences. Our BERT-based classifiers assign labels referring to components and aspects to sentences in reviews and extract sentences with comments on specific components and aspects. We determined proper labels based for the words identified through pattern matching from product reviews to create the training data. Because we could not use the words as labels, we carefully created labels covering the meanings of the words. However, the training data was imbalanced on component and aspect pairs. We introduced a data augmentation method using WordNet to reduce the bias. Our evaluation demonstrates that the system can determine labels for road bikes using pattern matching, covering more than 88\% of the indicators of components and aspects on e-commerce sites. Moreover, our data augmentation method can improve the-F1-measure on insufficient data from 0.66 to 0.76.
翻訳日:2022-07-14 14:18:35 公開日:2022-07-13
# (参考訳) 移動学習に基づくドイツ語のテキスト可読性評価モデル

A Transfer Learning Based Model for Text Readability Assessment in German ( http://arxiv.org/abs/2207.06265v1 )

ライセンス: CC BY 4.0
Salar Mohtaj, Babak Naderi, Sebastian M\"oller, Faraz Maschhur, Chuyang Wu, Max Reinhard(参考訳) テキスト可読性の評価は、言語学習者から障害者まで、さまざまな対象者に対して幅広い応用がある。 ウェブ上でのテキストコンテンツ制作の速いペースは、機械学習や自然言語処理技術の恩恵を受けずに、テキストの複雑さを測ることは不可能である。 近年の英語テキストの可読性評価には様々な研究がなされているが、他の言語に対するモデルの改善の余地は残っている。 本稿では,トランスファー学習に基づくドイツ語テキストのテキスト複雑性評価の新しいモデルを提案する。 その結果,入力テキストから抽出した言語的特徴に基づく古典的解よりも,モデルの方が優れていることがわかった。 最高のモデルはBERTの事前訓練言語モデルに基づいており、Root Mean Square Error (RMSE) は 0.483 である。

Text readability assessment has a wide range of applications for different target people, from language learners to people with disabilities. The fast pace of textual content production on the web makes it impossible to measure text complexity without the benefit of machine learning and natural language processing techniques. Although various research addressed the readability assessment of English text in recent years, there is still room for improvement of the models for other languages. In this paper, we proposed a new model for text complexity assessment for German text based on transfer learning. Our results show that the model outperforms more classical solutions based on linguistic features extraction from input text. The best model is based on the BERT pre-trained language model achieved the Root Mean Square Error (RMSE) of 0.483.
翻訳日:2022-07-14 14:17:31 公開日:2022-07-13
# (参考訳) DiverGet: ディープニューラルネットワーク量子化評価のための検索ベースのソフトウェアテストアプローチ

DiverGet: A Search-Based Software Testing Approach for Deep Neural Network Quantization Assessment ( http://arxiv.org/abs/2207.06282v1 )

ライセンス: CC BY 4.0
Ahmed Haj Yahmed, Houssem Ben Braiek, Foutse Khomh, Sonia Bouzidi, Rania Zaatour(参考訳) 量子化は、組み込みシステムや携帯電話にトレーニングされたDNNモデルをデプロイする際の、最も応用されたディープニューラルネットワーク(DNN)圧縮戦略の1つである。 これは、特定の特定のハードウェア(例えば、Google Coral Edge TPU)でのみ設計される特定の人工知能(AI)アクセラレータやコンパイラとは対照的に、幅広いアプリケーションや状況への単純さと適応性のためである。 量子化の需要が高まる中、この戦略の信頼性を確保することが重要な課題となっている。 より正確なデータを収集してより良い評価を行う従来のテスト手法は、入力空間の大きさと元のDNNと量子化されたデータとの高い類似性のため、実用的ではないことが多い。 その結果,高度な評価戦略が重要視されている。 本稿では,量子化評価のための検索ベースのテストフレームワークである diverget を提案する。 DiverGet は入力に自然に生じる歪みをシミュレートする変成関係の空間を定義する。 そして、これらの関係を最適に探索し、異なる算術精度のDNN間の相違を明らかにする。 ハイパースペクトルリモートセンシング画像に適用した最先端DNNにおけるDiverGetの性能評価を行った。 私たちは、気候変動研究や天文学といった重要な領域において、ますますエッジ(高揚力ドローンなど)に配備されるように、リモートセンシングDNNを選択しました。 以上の結果から, diverget は,確立された量子化手法の頑健性に対して,自然に変化するデータに対する挑戦に成功し,(平均して)4倍の成功率で最新のdiffchaser を上回った。

Quantization is one of the most applied Deep Neural Network (DNN) compression strategies, when deploying a trained DNN model on an embedded system or a cell phone. This is owing to its simplicity and adaptability to a wide range of applications and circumstances, as opposed to specific Artificial Intelligence (AI) accelerators and compilers that are often designed only for certain specific hardware (e.g., Google Coral Edge TPU). With the growing demand for quantization, ensuring the reliability of this strategy is becoming a critical challenge. Traditional testing methods, which gather more and more genuine data for better assessment, are often not practical because of the large size of the input space and the high similarity between the original DNN and its quantized counterpart. As a result, advanced assessment strategies have become of paramount importance. In this paper, we present DiverGet, a search-based testing framework for quantization assessment. DiverGet defines a space of metamorphic relations that simulate naturally-occurring distortions on the inputs. Then, it optimally explores these relations to reveal the disagreements among DNNs of different arithmetic precision. We evaluate the performance of DiverGet on state-of-the-art DNNs applied to hyperspectral remote sensing images. We chose the remote sensing DNNs as they're being increasingly deployed at the edge (e.g., high-lift drones) in critical domains like climate change research and astronomy. Our results show that DiverGet successfully challenges the robustness of established quantization techniques against naturally-occurring shifted data, and outperforms its most recent concurrent, DiffChaser, with a success rate that is (on average) four times higher.
翻訳日:2022-07-14 14:07:14 公開日:2022-07-13
# (参考訳) 生体細胞の形状生成モデルのための暗黙的神経表現

Implicit Neural Representations for Generative Modeling of Living Cell Shapes ( http://arxiv.org/abs/2207.06283v1 )

ライセンス: CC BY 4.0
David Wiesner, Julian Suk, Sven Dummer, David Svoboda, Jelmer M. Wolterink(参考訳) 現実的な細胞形状の合成を可能にする手法は、生体画像の細胞追跡とセグメンテーションを改善するためのトレーニングデータセットの作成に役立つ。 細胞形状合成のための深い生成モデルは、細胞の形状の軽量で柔軟な表現を必要とする。 しかし、一般的なボクセルベースの表現は高分解能な形状合成には適せず、ポリゴンメッシュは細胞成長や分裂といったトポロジーの変化をモデル化する際に制限がある。 本研究では,セル形状を表すために符号付き距離関数のレベルセット(SDF)を提案する。 3d+時間領域の任意の点でのsdf値の暗黙的な神経表現としてニューラルネットワークを最適化する。 モデルは潜在コードで条件付けされ、新しい形状シーケンスと未知の形状配列の合成を可能にする。 本手法は,増殖・分裂するc. elegans細胞と複雑な糸球体突起を持つ肺癌細胞に対して定量的・定性的に検証する。 以上の結果から, 合成細胞の形状記述子は実細胞の形状と類似しており, 複雑な細胞形状のトポロジカルな配列を3次元+時間で生成できることがわかった。

Methods allowing the synthesis of realistic cell shapes could help generate training data sets to improve cell tracking and segmentation in biomedical images. Deep generative models for cell shape synthesis require a light-weight and flexible representation of the cell shape. However, commonly used voxel-based representations are unsuitable for high-resolution shape synthesis, and polygon meshes have limitations when modeling topology changes such as cell growth or mitosis. In this work, we propose to use level sets of signed distance functions (SDFs) to represent cell shapes. We optimize a neural network as an implicit neural representation of the SDF value at any point in a 3D+time domain. The model is conditioned on a latent code, thus allowing the synthesis of new and unseen shape sequences. We validate our approach quantitatively and qualitatively on C. elegans cells that grow and divide, and lung cancer cells with growing complex filopodial protrusions. Our results show that shape descriptors of synthetic cells resemble those of real cells, and that our model is able to generate topologically plausible sequences of complex cell shapes in 3D+time.
翻訳日:2022-07-14 14:06:06 公開日:2022-07-13
# (参考訳) 強化学習による再帰的QAOA

Reinforcement Learning Assisted Recursive QAOA ( http://arxiv.org/abs/2207.06294v1 )

ライセンス: CC BY 4.0
Yash J. Patel, Sofiene Jerbi, Thomas B\"ack, Vedran Dunjko(参考訳) 近年、量子近似最適化アルゴリズム (QAOA) のような変分量子アルゴリズムは、強い組合せ最適化問題に対処するためにNISQデバイスを使うことを期待して人気を集めている。 しかし、低深さでは、QAOAの特定の局所性制約がその性能を制限することが知られている。 これらの制限を超えるために、近似解の品質を改善するために、局所的でないQAOA、すなわち再帰的QAOA(RQAOA)が提案された。 RQAOAはQAOAよりも比較的小さく研究されており、例えば、どの種類のインスタンスが高品質なソリューションを提供できないかなど、あまり理解されていない。 しかし、$\mathsf{NP}$-hard問題(具体的にはイジングスピンモデル)に対処しているため、RQAOAは失敗し、組合せ最適化のためのより優れた量子アルゴリズムを設計するという疑問が提起される。 本稿では,RQAOAが故障した症例を特定し解析し,RQAOAを改善する強化学習RQAOA変異体(RL-RQAOA)を提案する。 RL-RQAOA は、RQAOA が劣る特定インスタンスでは厳格に優れており、RQAOA がほぼ最適であるインスタンスでは同様に動作する。 私たちの研究は、ハード問題に対する新しいより優れたヒューリスティックの設計において、強化学習と量子(インスパイアされた)最適化の間の潜在的に有益な相乗効果を示している。

Variational quantum algorithms such as the Quantum Approximation Optimization Algorithm (QAOA) in recent years have gained popularity as they provide the hope of using NISQ devices to tackle hard combinatorial optimization problems. It is, however, known that at low depth, certain locality constraints of QAOA limit its performance. To go beyond these limitations, a non-local variant of QAOA, namely recursive QAOA (RQAOA), was proposed to improve the quality of approximate solutions. The RQAOA has been studied comparatively less than QAOA, and it is less understood, for instance, for what family of instances it may fail to provide high quality solutions. However, as we are tackling $\mathsf{NP}$-hard problems (specifically, the Ising spin model), it is expected that RQAOA does fail, raising the question of designing even better quantum algorithms for combinatorial optimization. In this spirit, we identify and analyze cases where RQAOA fails and, based on this, propose a reinforcement learning enhanced RQAOA variant (RL-RQAOA) that improves upon RQAOA. We show that the performance of RL-RQAOA improves over RQAOA: RL-RQAOA is strictly better on these identified instances where RQAOA underperforms, and is similarly performing on instances where RQAOA is near-optimal. Our work exemplifies the potentially beneficial synergy between reinforcement learning and quantum (inspired) optimization in the design of new, even better heuristics for hard problems.
翻訳日:2022-07-14 13:56:57 公開日:2022-07-13
# (参考訳) 聞いているマスクオートエンコーダ

Masked Autoencoders that Listen ( http://arxiv.org/abs/2207.06405v1 )

ライセンス: CC BY 4.0
Po-Yao (Bernie) Huang, Hu Xu, Juncheng Li, Alexei Baevski, Michael Auli, Wojciech Galuba, Florian Metze, Christoph Feichtenhofer(参考訳) 本稿では,画像ベースMasked Autoencoders(MAE)の音声スペクトログラムからの自己教師型表現学習への簡単な拡張について検討する。 mae のトランスコーダ-デコーダ設計に続いて、オーディオ-mae はまず高いマスキング比でオーディオスペクトログラムパッチを符号化し、非マスクトークンのみをエンコーダ層を通して供給する。 次にデコーダは、入力スペクトログラムを再構築するために、マスクトークンでパディングされたエンコードされたコンテキストを再順序付けしてデコードする。 音声スペクトログラムは局所時間帯と周波数帯に大きく相関しているため,デコーダにローカルウィンドウアテンションを組み込むことは有益である。 次に、ターゲットデータセットのマスキング比が低いエンコーダを微調整する。 経験的に、audio-maeは6つの音声と音声の分類タスクで最新のパフォーマンスを新たに設定し、外部教師付き事前トレーニングを使用する他のモデルよりも優れている。 コードとモデルはhttps://github.com/facebookresearch/AudioMAEにある。

This paper studies a simple extension of image-based Masked Autoencoders (MAE) to self-supervised representation learning from audio spectrograms. Following the Transformer encoder-decoder design in MAE, our Audio-MAE first encodes audio spectrogram patches with a high masking ratio, feeding only the non-masked tokens through encoder layers. The decoder then re-orders and decodes the encoded context padded with mask tokens, in order to reconstruct the input spectrogram. We find it beneficial to incorporate local window attention in the decoder, as audio spectrograms are highly correlated in local time and frequency bands. We then fine-tune the encoder with a lower masking ratio on target datasets. Empirically, Audio-MAE sets new state-of-the-art performance on six audio and speech classification tasks, outperforming other recent models that use external supervised pre-training. The code and models will be at https://github.com/facebookresearch/AudioMAE.
翻訳日:2022-07-14 13:24:24 公開日:2022-07-13
# AI推論を行う際の異種機器の消費電力推定

Estimating the Power Consumption of Heterogeneous Devices when performing AI Inference ( http://arxiv.org/abs/2207.06150v1 )

ライセンス: Link先を確認
Pedro Machado, Ivica Matic, Francisco de Lemos, Isibor Kennedy Ihianle, David Ada Adama(参考訳) 現代の生活はインターネットに接続された電子機器によって駆動される。 iot(internet-of-things, モノのインターネット)の新たな研究分野が人気を博している。 これらのデバイスの多くは \gls*{cv} タスクを実行するために使用されるため、性能に対する消費電力を理解することが不可欠である。 物体分類を行いながらNVIDIA Jetson Nanoボードの消費電力分布と解析を行った。 著者らは, YOLOv5モデルを用いて, フレーム毎の消費電力とフレーム毎秒 (FPS) の出力を広範囲に分析した。 その結果、YOLOv5nはスループット(12.34 fps)と低消費電力(0.154 mWh/frame)で他のYOLOV5よりも優れていた。

Modern-day life is driven by electronic devices connected to the internet. The emerging research field of the Internet-of-Things (IoT) has become popular, just as there has been a steady increase in the number of connected devices - now over 50 billion. Since many of these devices are utilised to perform \gls*{cv} tasks, it is essential to understand their power consumption against performance. We report the power consumption profile and analysis of the NVIDIA Jetson Nano board while performing object classification. The authors present an extensive analysis regarding power consumption per frame and the output in frames per second (FPS) using YOLOv5 models. The results show that the YOLOv5n outperforms other YOLOV5 variants in terms of throughput (i.e. 12.34 fps) and low power consumption (i.e. 0.154 mWh/frame).
翻訳日:2022-07-14 12:51:54 公開日:2022-07-13
# ニューラルTSにおけるテキスト駆動型感情スタイル制御とクロススピーカースタイル転送

Text-driven Emotional Style Control and Cross-speaker Style Transfer in Neural TTS ( http://arxiv.org/abs/2207.06000v1 )

ライセンス: Link先を確認
Yookyung Shin, Younggun Lee, Suhee Jo, Yeongtae Hwang, Taesu Kim(参考訳) 近年,表現的音声合成が向上している。 しかし、合成音声のスタイル制御は、しばしば個別の感情カテゴリーに限定され、ターゲット話者がターゲットスタイルで記録する訓練データを必要とする。 多くの実用的な状況では、ユーザはターゲット感情に記録された参照音声を持っていないが、望ましい感情スタイルのテキスト記述をタイプするだけで、音声スタイルを制御することに関心を持っている。 本稿では,マルチスピーカTSにおける感情的スタイル制御とクロススピーカスタイル転送のためのテキストベースインタフェースを提案する。 テキスト記述の埋め込みと、事前訓練された言語モデルによる音声スタイルの埋め込みのセマンティックな関係をモデル化するバイモーダルスタイルエンコーダを提案する。 異種多型データセット上でのクロススピーカー方式の転送をさらに改善するため,新しいスタイル損失を提案する。 実験の結果,本モデルは未熟なスタイルでも高品質な表現型音声を生成できることがわかった。

Expressive text-to-speech has shown improved performance in recent years. However, the style control of synthetic speech is often restricted to discrete emotion categories and requires training data recorded by the target speaker in the target style. In many practical situations, users may not have reference speech recorded in target emotion but still be interested in controlling speech style just by typing text description of desired emotional style. In this paper, we propose a text-based interface for emotional style control and cross-speaker style transfer in multi-speaker TTS. We propose the bi-modal style encoder which models the semantic relationship between text description embedding and speech style embedding with a pretrained language model. To further improve cross-speaker style transfer on disjoint, multi-style datasets, we propose the novel style loss. The experimental results show that our model can generate high-quality expressive speech even in unseen style.
翻訳日:2022-07-14 12:51:40 公開日:2022-07-13
# (参考訳) re2g: 検索、リランク、生成

Re2G: Retrieve, Rerank, Generate ( http://arxiv.org/abs/2207.06300v1 )

ライセンス: CC BY 4.0
Michael Glass, Gaetano Rossiello, Md Faisal Mahbub Chowdhury, Ankita Rajaram Naik, Pengshan Cai, Alfio Gliozzo(参考訳) GPT-3とT5が示すように、パラメータ空間が大きくなるにつれてトランスフォーマーは機能的に成長する。 しかし、大量の知識を必要とするタスクに対しては、非パラメトリックメモリは計算コストとGPUメモリ要求のサブ線形増加によってモデルを劇的に成長させることができる。 RAGやREALMといった最近のモデルでは、条件付き生成に検索を導入している。 これらのモデルには、パスのコーパスからの神経初期検索が組み込まれている。 我々は、ニューラルネットワークの初期検索とBARTに基づくシーケンス・ツー・シーケンス生成の両方を組み合わせたRe2Gを提案する。 提案手法では, スコアを伴わないソースからの検索結果をマージし, BM25とニューラル初期検索のアンサンブルを可能にする。 システムをエンドツーエンドに訓練するために, 目標系列出力の基底的真理のみを用いて, 初期検索, 再ランク付け, 生成を訓練するための新しい知識蒸留法を提案する。 我々は、ゼロショットスロットフィリング、質問応答、ファクトチェック、ダイアログの4つのタスクにおいて、従来のKILTリーダーボードと比較して9%から34%の上昇率で大きな利益を得た。 当社のコードはhttps://github.com/IBM/kgi-slot-filling/tree/re2gでオープンソースとして公開しています。

As demonstrated by GPT-3 and T5, transformers grow in capability as parameter spaces become larger and larger. However, for tasks that require a large amount of knowledge, non-parametric memory allows models to grow dramatically with a sub-linear increase in computational cost and GPU memory requirements. Recent models such as RAG and REALM have introduced retrieval into conditional generation. These models incorporate neural initial retrieval from a corpus of passages. We build on this line of research, proposing Re2G, which combines both neural initial retrieval and reranking into a BART-based sequence-to-sequence generation. Our reranking approach also permits merging retrieval results from sources with incomparable scores, enabling an ensemble of BM25 and neural initial retrieval. To train our system end-to-end, we introduce a novel variation of knowledge distillation to train the initial retrieval, reranker, and generation using only ground truth on the target sequence output. We find large gains in four diverse tasks: zero-shot slot filling, question answering, fact-checking, and dialog, with relative gains of 9% to 34% over the previous state-of-the-art on the KILT leaderboard. We make our code available as open source at https://github.com/IBM/kgi-slot-filling/tree/re2g.
翻訳日:2022-07-14 12:48:12 公開日:2022-07-13
# ホウマアライアンス書「古代手書き文字」の新データベースとそのベースラインアルゴリズム

A new database of Houma Alliance Book ancient handwritten characters and its baseline algorithm ( http://arxiv.org/abs/2207.05993v1 )

ライセンス: Link先を確認
Xiaoyu Yuan and Zhibo Zhang and Yabo Sun and Zekai Xue and Xiuyan Shao and Xiaohua Huang(参考訳) ホマアライアンスブック(英: Houma Alliance Book)は、中国の山西博物館町の博物館の国宝の一つ。 古代史の研究において重要な歴史を持つ。 これまで、ホウマ同盟書の研究は紙文書の識別に留まっており、表示・研究・公表が困難である。 したがって、ホウマリーグの認識された古代文字のデジタル化は、古代文字認識の効率を効果的に向上させ、より信頼性の高い技術的サポートとテキストデータを提供することができる。 本稿では,Huma Alliance Bookの古筆文字の新しいデータベースと,古筆文字認識のための多モーダル融合手法を提案する。 データベースでは、ホウマ同盟の古筆文字の297クラスと3,547サンプルが、原本集と人間の模倣筆から収集されている。 さらに、決定レベル分類器融合戦略を用いて、古代手書き文字認識のための3つの有名なディープニューラルネットワークアーキテクチャを融合する。 実験は新データベース上で実施した。 実験結果はまず,新しいデータベースのベースラインを研究コミュニティに提供し,提案手法の有効性を実証する。

The Houma Alliance Book is one of the national treasures of the Museum in Shanxi Museum Town in China. It has great historical significance in researching ancient history. To date, the research on the Houma Alliance Book has been staying in the identification of paper documents, which is inefficient to identify and difficult to display, study and publicize. Therefore, the digitization of the recognized ancient characters of Houma League can effectively improve the efficiency of recognizing ancient characters and provide more reliable technical support and text data. This paper proposes a new database of Houma Alliance Book ancient handwritten characters and a multi-modal fusion method to recognize ancient handwritten characters. In the database, 297 classes and 3,547 samples of Houma Alliance ancient handwritten characters are collected from the original book collection and by human imitative writing. Furthermore, the decision-level classifier fusion strategy is applied to fuse three well-known deep neural network architectures for ancient handwritten character recognition. Experiments are performed on our new database. The experimental results first provide the baseline result of the new database to the research community and then demonstrate the efficiency of our proposed method.
翻訳日:2022-07-14 12:27:20 公開日:2022-07-13
# 教師なし骨格学習のためのグローバル局所運動変換器

Global-local Motion Transformer for Unsupervised Skeleton-based Action Learning ( http://arxiv.org/abs/2207.06101v1 )

ライセンス: Link先を確認
Boeun Kim, Hyung Jin Chang, Jungho Kim, and Jin Young Choi(参考訳) 本研究では,骨格運動列の教師なし学習タスクのための新しいトランスフォーマーモデルを提案する。 教師なし骨格に基づく動作学習に使用される既存のトランスフォーマーモデルは,グローバルな動き情報のない隣接フレームから各関節の瞬時速度を学習する。 したがって、このモデルは全身運動や時間的に離れた関節よりも、世界的に注意をひくことが困難である。 また,このモデルでは対人インタラクションは考慮されていない。 本研究では,全身運動,長距離時間動学,対人インタラクションの学習に取り組み,グローバル・ローカルな注意機構を設計し,グローバルな身体運動と局所的な関節運動が互いに注意を払っている。 さらに,多様な時間帯におけるグローバル・ローカル両方の注意を学習するための,新しい事前学習戦略であるマルチインターバルポーズ変位予測を提案する。 提案モデルでは, 関節の局所力学を学習し, 動き列から大域的文脈を捉える。 我々のモデルは、代表ベンチマークで顕著なマージンで最先端モデルより優れています。 コードはhttps://github.com/Boeun-Kim/GL-Transformerで入手できる。

We propose a new transformer model for the task of unsupervised learning of skeleton motion sequences. The existing transformer model utilized for unsupervised skeleton-based action learning is learned the instantaneous velocity of each joint from adjacent frames without global motion information. Thus, the model has difficulties in learning the attention globally over whole-body motions and temporally distant joints. In addition, person-to-person interactions have not been considered in the model. To tackle the learning of whole-body motion, long-range temporal dynamics, and person-to-person interactions, we design a global and local attention mechanism, where, global body motions and local joint motions pay attention to each other. In addition, we propose a novel pretraining strategy, multi-interval pose displacement prediction, to learn both global and local attention in diverse time ranges. The proposed model successfully learns local dynamics of the joints and captures global context from the motion sequences. Our model outperforms state-of-the-art models by notable margins in the representative benchmarks. Codes are available at https://github.com/Boeun-Kim/GL-Transformer.
翻訳日:2022-07-14 12:27:01 公開日:2022-07-13
# ACLNet: 注意とクラスタリングに基づくクラウドセグメンテーションネットワーク

ACLNet: An Attention and Clustering-based Cloud Segmentation Network ( http://arxiv.org/abs/2207.06277v1 )

ライセンス: Link先を確認
Dhruv Makwana and Subhrajit Nag and Onkar Susladkar and Gayatri Deshmukh and Sai Chandra Teja R and Sparsh Mittal and C Krishna Mohan(参考訳) 地上画像からのクラウドセグメンテーションのための新しい深層学習モデルACLNetを提案する。 ACLNetは、ディープニューラルネットワークと機械学習(ML)アルゴリズムの両方を使用して補完的な特徴を抽出する。 具体的には、バックボーンとしてEfficientNet-B0を使用し、複数の受容領域で学習するために"trous spatial pyramid pooling"(ASPP)、画像からきめ細かい詳細を抽出するために"global attention module"(GAM)を学習する。 ACLNetはまた、クラウド境界をより正確に抽出するためにk平均クラスタリングを使用している。 ACLNetは昼夜両方の画像に有効である。 最先端のクラウドセグメンテーションモデルよりも低いエラー率、高いリコール、高いF1スコアを提供する。 ACLNetのソースコードは以下の通りである。

We propose a novel deep learning model named ACLNet, for cloud segmentation from ground images. ACLNet uses both deep neural network and machine learning (ML) algorithm to extract complementary features. Specifically, it uses EfficientNet-B0 as the backbone, "`a trous spatial pyramid pooling" (ASPP) to learn at multiple receptive fields, and "global attention module" (GAM) to extract finegrained details from the image. ACLNet also uses k-means clustering to extract cloud boundaries more precisely. ACLNet is effective for both daytime and nighttime images. It provides lower error rate, higher recall and higher F1-score than state-of-art cloud segmentation models. The source-code of ACLNet is available here: https://github.com/ckmvigil/ACLNet.
翻訳日:2022-07-14 12:26:45 公開日:2022-07-13
# N-Grammer: 潜時n-gramによるトランスフォーマーの拡張

N-Grammer: Augmenting Transformers with latent n-grams ( http://arxiv.org/abs/2207.06366v1 )

ライセンス: Link先を確認
Aurko Roy, Rohan Anil, Guangda Lai, Benjamin Lee, Jeffrey Zhao, Shuyuan Zhang, Shibo Wang, Ye Zhang, Shen Wu, Rigel Swavely, Tao (Alex) Yu, Phuong Dao, Christopher Fifty, Zhifeng Chen, Yonghui Wu(参考訳) トランスフォーマーモデルは最近、自然言語処理の基礎モデルの一つとして登場しており、副産物として、これらのモデルのスケーリングに対する最近の大きな関心と投資がある。 しかし、これらの大きなトランスフォーマー言語モデルの訓練と推論のコストは禁止されており、より効率的な変種を特定するためのさらなる研究が必要となる。 本研究では,テキストシーケンスの離散潜在表現から構築したn-gramでモデルを拡張することにより,統計言語モデリングの文献に触発されたトランスフォーマーアーキテクチャの簡易かつ効果的な変更を提案する。 我々は、C4データセットの言語モデリングにおけるN-GrammerモデルとSuperGLUEデータセットのテキスト分類を評価し、TransformerやPrimerといった強力なベースラインよりも優れていることを示す。 私たちはJaxで再現性のためのモデルをオープンソースにしています。

Transformer models have recently emerged as one of the foundational models in natural language processing, and as a byproduct, there is significant recent interest and investment in scaling these models. However, the training and inference costs of these large Transformer language models are prohibitive, thus necessitating more research in identifying more efficient variants. In this work, we propose a simple yet effective modification to the Transformer architecture inspired by the literature in statistical language modeling, by augmenting the model with n-grams that are constructed from a discrete latent representation of the text sequence. We evaluate our model, the N-Grammer on language modeling on the C4 data-set as well as text classification on the SuperGLUE data-set, and find that it outperforms several strong baselines such as the Transformer and the Primer. We open-source our model for reproducibility purposes in Jax.
翻訳日:2022-07-14 12:26:31 公開日:2022-07-13
# DocCoder: Docsの検索と読み込みによるコード生成

DocCoder: Generating Code by Retrieving and Reading Docs ( http://arxiv.org/abs/2207.05987v1 )

ライセンス: Link先を確認
Shuyan Zhou and Uri Alon and Frank F. Xu and Zhengbao JIang and Graham Neubig(参考訳) 自然言語からコードへのモデルは、自然言語(NL)の意図を与えられたコードスニペットを生成することを学ぶ。 しかし、公開されているライブラリとプロプライエタリなライブラリと関数の両方が急速に成長しているため、トレーニング例を使用してすべてのapiをカバーすることは不可能である。 したがって、既存のモデルは、トレーニングデータに組み込むだけでは、目に見えない関数やライブラリを使用するようには一般化できない。 対照的に、人間のプログラマがプログラムを書くとき、しばしばコードマニュアル、ドキュメンテーション、チュートリアルなどのテキストリソースを参照して、利用可能なライブラリ機能を調べ、理解する。 この観察にインスパイアされたDocCoderは、(1)NLインテントが与えられたドキュメントを検索し、(2)NLインテントと検索されたドキュメントに基づいてコードを生成することによって、コードマニュアルとドキュメントを明示的に活用するアプローチです。 我々のアプローチは一般に、どんなプログラミング言語にも適用可能で、基盤となる神経モデルとは無関係です。 DocCoderは、新しいBashデータセットtldrの強いベースラインよりも11倍高い精度で、人気のあるPython CoNaLaベンチマークでは、強力なベースラインよりも1.65BLEUで改善されています。

Natural-language-to-code models learn to generate a code snippet given a natural language (NL) intent. However, the rapid growth of both publicly available and proprietary libraries and functions makes it impossible to cover all APIs using training examples, as new libraries and functions are introduced daily. Thus, existing models inherently cannot generalize to using unseen functions and libraries merely through incorporating them into the training data. In contrast, when human programmers write programs, they frequently refer to textual resources such as code manuals, documentation, and tutorials, to explore and understand available library functionality. Inspired by this observation, we introduce DocCoder: an approach that explicitly leverages code manuals and documentation by (1) retrieving the relevant documentation given the NL intent, and (2) generating the code based on the NL intent and the retrieved documentation. Our approach is general, can be applied to any programming language, and is agnostic to the underlying neural model. We demonstrate that DocCoder consistently improves NL-to-code models: DocCoder achieves 11x higher exact match accuracy than strong baselines on a new Bash dataset tldr; on the popular Python CoNaLa benchmark, DocCoder improves over strong baselines by 1.65 BLEU.
翻訳日:2022-07-14 12:26:15 公開日:2022-07-13
# デュアルノイズ最小化によるマルチカーネルクラスタリング

Multiple Kernel Clustering with Dual Noise Minimization ( http://arxiv.org/abs/2207.06041v1 )

ライセンス: Link先を確認
Junpu Zhang and Liang Li and Siwei Wang and Jiyuan Liu and Yue Liu and Xinwang Liu and En Zhu(参考訳) クラスタリングは、マルチモーダルおよびマルチビューシナリオに広く適用される、教師なしの代表的な方法である。 マルチカーネルクラスタリング(MKC)は、ベースカーネルからの補完情報を統合することでデータをグループ化する。 代表として、後期融合MKCはまずカーネルを直交分割行列に分解し、それからコンセンサスを学習し、最近は有望な性能を達成した。 しかし,これらの手法は分割行列内のノイズを考慮せず,クラスタリング性能が向上するのを防ぐ。 その結果,n-ノイズとc-ノイズ(ヌル空間ノイズとカラム空間ノイズ)という分離可能な2成分に分解できることがわかった。 本稿では,二重雑音を厳密に定義し,パラメータフリーなmkcアルゴリズムを提案する。 結果の最適化問題を解決するために,効率的な2段階反復戦略を設計する。 我々の知る限りでは、カーネル空間のパーティション内の二重ノイズを調査するのは初めてである。 二重ノイズはブロック対角構造を汚染し,クラスタリング性能の劣化を招き,CノイズはNノイズよりも強い破壊を示す。 両雑音を最小化する効率的な機構により,提案アルゴリズムは近年の手法を大きなマージンで上回っている。

Clustering is a representative unsupervised method widely applied in multi-modal and multi-view scenarios. Multiple kernel clustering (MKC) aims to group data by integrating complementary information from base kernels. As a representative, late fusion MKC first decomposes the kernels into orthogonal partition matrices, then learns a consensus one from them, achieving promising performance recently. However, these methods fail to consider the noise inside the partition matrix, preventing further improvement of clustering performance. We discover that the noise can be disassembled into separable dual parts, i.e. N-noise and C-noise (Null space noise and Column space noise). In this paper, we rigorously define dual noise and propose a novel parameter-free MKC algorithm by minimizing them. To solve the resultant optimization problem, we design an efficient two-step iterative strategy. To our best knowledge, it is the first time to investigate dual noise within the partition in the kernel space. We observe that dual noise will pollute the block diagonal structures and incur the degeneration of clustering performance, and C-noise exhibits stronger destruction than N-noise. Owing to our efficient mechanism to minimize dual noise, the proposed algorithm surpasses the recent methods by large margins.
翻訳日:2022-07-14 12:24:06 公開日:2022-07-13
# ニューラルコンビネート最適化のためのシミュレーション誘導ビーム探索

Simulation-guided Beam Search for Neural Combinatorial Optimization ( http://arxiv.org/abs/2207.06190v1 )

ライセンス: Link先を確認
Jinho Choo, Yeong-Dae Kwon, Jihoon Kim, Jeongwoo Jae, Andr\'e Hottung, Kevin Tierney, Youngjune Gwon(参考訳) 組合せ最適化(co)のためのニューラルアプローチは、複雑な実世界の問題を解決するための強力なヒューリスティックを見つけるための学習メカニズムを提供する。 単一ショットで高品質なソリューションを実現できるニューラルネットワークが出現する一方で、最先端のアプローチでは、それらが利用できる問題解決時間を十分に活用できないことが多い。 対照的に、手作りのヒューリスティックは、非常に効果的な検索をうまく行い、それらに与えられた計算時間を活用するが、解決されるデータセットに適応するのが難しいヒューリスティックを含む。 本稿では,ニューラルネットワークのアプローチに対して強力な探索手順を提供することを目的として,固定幅木探索における候補解を探索するシミュレーション誘導ビーム探索(sgbs)を提案し,ニューラルネットワークネット学習ポリシとシミュレーション(ロールアウト)の両方が有望であることを示す。 さらに,効率的な能動探索(EAS)によるSGBSのハイブリダイゼーションを行い,SGBSはEASでバックプロパゲーションされたソリューションの品質を高め,EASはSGBSで使用されるポリシーの品質を向上させる。 提案手法をよく知られたCOベンチマークで評価し,SGBSが合理的な実行条件下でのソリューションの品質を著しく向上することを示す。

Neural approaches for combinatorial optimization (CO) equip a learning mechanism to discover powerful heuristics for solving complex real-world problems. While neural approaches capable of high-quality solutions in a single shot are emerging, state-of-the-art approaches are often unable to take full advantage of the solving time available to them. In contrast, hand-crafted heuristics perform highly effective search well and exploit the computation time given to them, but contain heuristics that are difficult to adapt to a dataset being solved. With the goal of providing a powerful search procedure to neural CO approaches, we propose simulation-guided beam search (SGBS), which examines candidate solutions within a fixed-width tree search that both a neural net-learned policy and a simulation (rollout) identify as promising. We further hybridize SGBS with efficient active search (EAS), where SGBS enhances the quality of solutions backpropagated in EAS, and EAS improves the quality of the policy used in SGBS. We evaluate our methods on well-known CO benchmarks and show that SGBS significantly improves the quality of the solutions found under reasonable runtime assumptions.
翻訳日:2022-07-14 12:23:47 公開日:2022-07-13
# 外因性入力を持つMDPの視線学習

Hindsight Learning for MDPs with Exogenous Inputs ( http://arxiv.org/abs/2207.06272v1 )

ライセンス: Link先を確認
Sean R. Sinclair, Felipe Frujeri, Ching-An Cheng, Adith Swaminathan(参考訳) 我々は,資源配分や在庫管理など,逐次決定や外因性不確実性を扱うアプリケーションのための強化学習(RL)フレームワークを開発する。 これらのアプリケーションでは、不確実性は将来の要求のような外因性変数によってのみ生じる。 一般的なアプローチは、履歴データを使用して外因性変数を予測し、その予測で計画する。 しかし、この間接的アプローチでは、下流の優れた意思決定を保証するために、外因性プロセスの高忠実性モデリングが必要である。 本研究では,外因性プロセスのモデル化を側面から行う,後向き学習に基づく代替手法を提案する。 我々の重要な洞察は、Sim2Real RLとは異なり、過去の決定を過去のデータで再考し、これらのアプリケーションにおける他のアクションに対する反実的な結果をもたらすことができるということです。 本フレームワークは,政策訓練信号として後方最適行動を用い,意思決定性能に関する理論的確証が強い。 現実世界のMicrosoft Azureワークロードに計算リソースを割り当てるアルゴリズムを開発した。 その結果,本手法はドメイン固有のヒューリスティックスやSim2Real RLベースラインよりも優れたポリシーを学習できることがわかった。

We develop a reinforcement learning (RL) framework for applications that deal with sequential decisions and exogenous uncertainty, such as resource allocation and inventory management. In these applications, the uncertainty is only due to exogenous variables like future demands. A popular approach is to predict the exogenous variables using historical data and then plan with the predictions. However, this indirect approach requires high-fidelity modeling of the exogenous process to guarantee good downstream decision-making, which can be impractical when the exogenous process is complex. In this work we propose an alternative approach based on hindsight learning which sidesteps modeling the exogenous process. Our key insight is that, unlike Sim2Real RL, we can revisit past decisions in the historical data and derive counterfactual consequences for other actions in these applications. Our framework uses hindsight-optimal actions as the policy training signal and has strong theoretical guarantees on decision-making performance. We develop an algorithm using our framework to allocate compute resources for real-world Microsoft Azure workloads. The results show our approach learns better policies than domain-specific heuristics and Sim2Real RL baselines.
翻訳日:2022-07-14 12:21:00 公開日:2022-07-13
# 文脈決定木

Contextual Decision Trees ( http://arxiv.org/abs/2207.06355v1 )

ライセンス: Link先を確認
Tommaso Aldinucci and Enrico Civitelli and Leonardo di Gangi and Alessandro Sestini(参考訳) ランダムフォレストに着目し,学習したアンサンブルの1本の浅い木を特徴量ベースで選択する,マルチアームのコンテキスト型バンドイットレコメンデーションフレームワークを提案する。 トレーニングされたシステムはランダムフォレスト上で動作し、最終的な出力を提供するためのベース予測器を動的に識別する。 このように、推奨木の規則を観察することで、局所的な解釈を得る。 実験の結果,我々の動的手法は独立したCART決定木よりも優れており,予測性能の面ではブラックボックスのランダムフォレスト全体に匹敵することがわかった。

Focusing on Random Forests, we propose a multi-armed contextual bandit recommendation framework for feature-based selection of a single shallow tree of the learned ensemble. The trained system, which works on top of the Random Forest, dynamically identifies a base predictor that is responsible for providing the final output. In this way, we obtain local interpretations by observing the rules of the recommended tree. The carried out experiments reveal that our dynamic method is superior to an independent fitted CART decision tree and comparable to the whole black-box Random Forest in terms of predictive performances.
翻訳日:2022-07-14 12:20:42 公開日:2022-07-13
# 深層学習と不確実性定量化によるセマンティックセグメンテーションデータセットにおけるラベル誤りの自動検出

Automated Detection of Label Errors in Semantic Segmentation Datasets via Deep Learning and Uncertainty Quantification ( http://arxiv.org/abs/2207.06104v1 )

ライセンス: Link先を確認
Matthias Rottmann and Marco Reese(参考訳) 本研究では,画像データセットのセマンティックセグメンテーション,すなわち画素単位のクラスラベルを用いてラベル誤りを検出する手法を初めて提示する。 セマンティクスセグメンテーションデータセットのためのアノテーション取得は時間がかかり、多くの人的労力を必要とする。 特に、レビュープロセスは時間がかかり、ラベルのエラーは人間が容易に見落としてしまう。 その結果はベンチマークに偏りがあり、極端な場合では、そのようなデータセットでトレーニングされたディープニューラルネットワーク(DNN)のパフォーマンス劣化も発生する。 セグメンテーションのためのDNNは、不確実性定量化によるラベルエラーの検出を複雑なタスクとする画素ワイズ予測を生成する。 不確実性は予測の連結成分間の遷移において特に顕著である。 予測されたコンポーネントのレベルに対する不確実性を考慮することで、DNNとコンポーネントレベルの不確実性定量化を併用してラベルエラーの検出を可能にする。 そこで本研究では,carla driving simulatorから抽出したデータセットから,cityscapesデータセットからラベルをドロップすることでラベル誤り検出のタスクをベンチマークする手法を提案する。 実験の結果,偽のラベル誤り検出回数を制御しながら,ラベルエラーの大部分を検出できることがわかった。 さらに,コンピュータビジョンコミュニティが頻繁に使用しているセグメンテーションデータセットに本手法を適用し,サンプル統計とともにラベルエラーの集合を示す。

In this work, we for the first time present a method for detecting label errors in image datasets with semantic segmentation, i.e., pixel-wise class labels. Annotation acquisition for semantic segmentation datasets is time-consuming and requires plenty of human labor. In particular, review processes are time consuming and label errors can easily be overlooked by humans. The consequences are biased benchmarks and in extreme cases also performance degradation of deep neural networks (DNNs) trained on such datasets. DNNs for semantic segmentation yield pixel-wise predictions, which makes detection of label errors via uncertainty quantification a complex task. Uncertainty is particularly pronounced at the transitions between connected components of the prediction. By lifting the consideration of uncertainty to the level of predicted components, we enable the usage of DNNs together with component-level uncertainty quantification for the detection of label errors. We present a principled approach to benchmarking the task of label error detection by dropping labels from the Cityscapes dataset as well from a dataset extracted from the CARLA driving simulator, where in the latter case we have the labels under control. Our experiments show that our approach is able to detect the vast majority of label errors while controlling the number of false label error detections. Furthermore, we apply our method to semantic segmentation datasets frequently used by the computer vision community and present a collection of label errors along with sample statistics.
翻訳日:2022-07-14 12:20:31 公開日:2022-07-13
# ハードラベルを超える:データラベルディストリビューションの調査

Beyond Hard Labels: Investigating data label distributions ( http://arxiv.org/abs/2207.06224v1 )

ライセンス: Link先を確認
Vasco Grossmann, Lars Schmarje, Reinhard Koch(参考訳) 高品質なデータは、現代の機械学習の重要な側面である。 しかし、人間が生成するラベルは、ラベルノイズやクラス曖昧さといった問題に苦しんでいる。 我々は,ハードラベルが根底にある真理分布を表現するのに十分かどうかという疑問を提起する。 そこで本研究では,学習の相違を,合成および実世界のデータセットに対して定量的,質的に比較する。 ソフトラベルの適用により性能が向上し,内部特徴空間のより規則的な構造が得られることを示す。

High-quality data is a key aspect of modern machine learning. However, labels generated by humans suffer from issues like label noise and class ambiguities. We raise the question of whether hard labels are sufficient to represent the underlying ground truth distribution in the presence of these inherent imprecision. Therefore, we compare the disparity of learning with hard and soft labels quantitatively and qualitatively for a synthetic and a real-world dataset. We show that the application of soft labels leads to improved performance and yields a more regular structure of the internal feature space.
翻訳日:2022-07-14 12:20:08 公開日:2022-07-13
# (参考訳) ニューラルフィールドに基づく3次元概念グラウンドニング

3D Concept Grounding on Neural Fields ( http://arxiv.org/abs/2207.06403v1 )

ライセンス: CC0 1.0
Yining Hong, Yilun Du, Chunru Lin, Joshua B. Tenenbaum, Chuang Gan(参考訳) 本稿では,rgbd画像を見たり,ペアの質問や回答を推論することで,3次元概念の基盤化(すなわち,視覚概念のセグメンテーションと学習)の課題を解決する。 既存の視覚的推論手法は、典型的には、2Dセグメンテーションマスクを抽出するために教師付き手法を用いる。 対照的に、人間はイメージの基盤となる3d表現に概念を基礎付けることができる。 しかし、伝統的に推論された3d表現(ポイントクラウド、ボクセルグリッド、メッシュなど)は連続した3d機能を柔軟に捉えられないため、参照されるオブジェクトの言語記述に基づいて概念を3d領域に移すことが難しい。 両問題に対処するため,我々は,ニューラルネットワークの連続的かつ微分可能な性質を活用し,概念を分割し学習することを提案する。 具体的には、シーン内の各3d座標を高次元ディスクリプタとして表現する。 概念基盤化は、3次元座標の記述ベクトルと言語概念のベクトル埋め込みとの類似性を計算することにより実現され、セグメンテーションと概念学習を異なる方法でニューラルネットワーク上で共同で学習することができる。 その結果、3Dセマンティクスとインスタンスセグメンテーションの両方が、ニューラルネットワーク上に定義されたニューラルネットワーク(例えばフィルタリングとカウント)のセットを使用して、質問応答の監督から直接現れる。 実験の結果,提案フレームワークは,意味とインスタンスのセグメンテーションタスクにおいて教師なし/言語経由のセグメンテーションモデルよりも優れており,また3d認識による視覚的推論タスクでは既存のモデルよりも優れていることがわかった。 さらに,本フレームワークは,見えない形状のカテゴリや実スキャンによく応用できる。

In this paper, we address the challenging problem of 3D concept grounding (i.e. segmenting and learning visual concepts) by looking at RGBD images and reasoning about paired questions and answers. Existing visual reasoning approaches typically utilize supervised methods to extract 2D segmentation masks on which concepts are grounded. In contrast, humans are capable of grounding concepts on the underlying 3D representation of images. However, traditionally inferred 3D representations (e.g., point clouds, voxelgrids, and meshes) cannot capture continuous 3D features flexibly, thus making it challenging to ground concepts to 3D regions based on the language description of the object being referred to. To address both issues, we propose to leverage the continuous, differentiable nature of neural fields to segment and learn concepts. Specifically, each 3D coordinate in a scene is represented as a high-dimensional descriptor. Concept grounding can then be performed by computing the similarity between the descriptor vector of a 3D coordinate and the vector embedding of a language concept, which enables segmentations and concept learning to be jointly learned on neural fields in a differentiable fashion. As a result, both 3D semantic and instance segmentations can emerge directly from question answering supervision using a set of defined neural operators on top of neural fields (e.g., filtering and counting). Experimental results show that our proposed framework outperforms unsupervised/language-mediated segmentation models on semantic and instance segmentation tasks, as well as outperforms existing models on the challenging 3D aware visual reasoning tasks. Furthermore, our framework can generalize well to unseen shape categories and real scans.
翻訳日:2022-07-14 12:18:30 公開日:2022-07-13
# 3次元視覚のための自己教師付き事前学習における不変性について

A Closer Look at Invariances in Self-supervised Pre-training for 3D Vision ( http://arxiv.org/abs/2207.04997v2 )

ライセンス: Link先を確認
Lanxiao Li and Michael Heizmann(参考訳) 3Dビジョンのための自己監督型事前訓練は近年研究の関心が高まっている。 情報表現を学ぶために、以前の多くの研究は、例えば、同じシーンのビュー間の視点不変性、深さとRGB画像間のモード不変性、点雲とボクセル間のフォーマット不変性といった3D特徴の不変性を利用する。 彼らは有望な結果を得たが、以前の研究ではこれらの不変性の体系的および公正な比較が欠けている。 この問題に対処するため,本研究では,様々な事前学習手法を検討可能な統合フレームワークを初めて導入した。 詳細な実験を行い,3次元事前学習における異なる不変性の寄与について詳しく検討する。 また,コントラスト学習を用いた3次元エンコーダと深度マップエンコーダを併用した簡易かつ効果的な事前学習手法を提案する。 我々の手法で事前訓練されたモデルは下流タスクにおいて大幅な性能向上をもたらす。 例えば、事前訓練されたVoteNetは、SUN RGB-DとScanNetオブジェクト検出ベンチマークにおいて、明らかなマージンで、以前のメソッドよりも優れている。

Self-supervised pre-training for 3D vision has drawn increasing research interest in recent years. In order to learn informative representations, a lot of previous works exploit invariances of 3D features, e.g., perspective-invariance between views of the same scene, modality-invariance between depth and RGB images, format-invariance between point clouds and voxels. Although they have achieved promising results, previous researches lack a systematic and fair comparison of these invariances. To address this issue, our work, for the first time, introduces a unified framework, under which various pre-training methods can be investigated. We conduct extensive experiments and provide a closer look at the contributions of different invariances in 3D pre-training. Also, we propose a simple but effective method that jointly pre-trains a 3D encoder and a depth map encoder using contrastive learning. Models pre-trained with our method gain significant performance boost in downstream tasks. For instance, a pre-trained VoteNet outperforms previous methods on SUN RGB-D and ScanNet object detection benchmarks with a clear margin.
翻訳日:2022-07-14 12:02:10 公開日:2022-07-13
# 画像テキスト検索のためのモード内制約損失

Intra-Modal Constraint Loss For Image-Text Retrieval ( http://arxiv.org/abs/2207.05024v2 )

ライセンス: Link先を確認
Jianan Chen, Lu Zhang, Qiong Wang, Cong Bai, Kidiyo Kpalma(参考訳) クロスモーダル検索はコンピュータビジョンと自然言語処理領域の両方で注目を集めている。 畳み込みと繰り返しのニューラルネットワークの開発により、画像-テキストモダリティ間の検索のボトルネックはもはや画像とテキストの特徴の抽出ではなく、埋め込み空間における効率的な損失関数学習である。 多くの損失関数は不均一なモジュラリティからペアワイズな特徴に近づこうとする。 本稿では,画像とテキストの結合埋め込みをモダル内制約損失関数を用いて学習し,同じ均一なモードから負対の違反を低減する方法を提案する。 実験の結果,Flickr30KおよびMicrosoft COCOデータセット上で,最先端の双方向画像テキスト検索手法よりも優れていた。 私たちのコードは、https://github.com/CanonChen/IMC.comで公開されています。

Cross-modal retrieval has drawn much attention in both computer vision and natural language processing domains. With the development of convolutional and recurrent neural networks, the bottleneck of retrieval across image-text modalities is no longer the extraction of image and text features but an efficient loss function learning in embedding space. Many loss functions try to closer pairwise features from heterogeneous modalities. This paper proposes a method for learning joint embedding of images and texts using an intra-modal constraint loss function to reduce the violation of negative pairs from the same homogeneous modality. Experimental results show that our approach outperforms state-of-the-art bi-directional image-text retrieval methods on Flickr30K and Microsoft COCO datasets. Our code is publicly available: https://github.com/CanonChen/IMC.
翻訳日:2022-07-14 12:01:51 公開日:2022-07-13
# HelixFold: PaddlePaddleを使用したAlphaFold2の効率的な実装

HelixFold: An Efficient Implementation of AlphaFold2 using PaddlePaddle ( http://arxiv.org/abs/2207.05477v2 )

ライセンス: Link先を確認
Guoxia Wang, Xiaomin Fang, Zhihua Wu, Yiqun Liu, Yang Xue, Yingfei Xiang, Dianhai Yu, Fan Wang, Yanjun Ma(参考訳) 正確なタンパク質構造予測は生命科学の発展を著しく加速させる。 端から端までの構造予測システムであるalphafold2の精度は、すでに実験的な決定技術に近い。 複雑なモデルアーキテクチャと大量のメモリ消費のため、alphafold2のトレーニングと推論をスクラッチから実装するには、多くの計算リソースと時間が必要です。 オリジナルのAlphaFold2を走らせるコストは、ほとんどの個人や機関にとって高い。 そのため、このコスト削減は生命科学の発展を加速させる可能性がある。 我々はPaddlePaddle、すなわちHelixFoldを使ってAlphaFold2を実装し、トレーニングと推論速度を改善し、メモリ消費を減らす。 演算子融合、テンソル融合、ハイブリッド並列計算により性能が向上し、メモリはRecompute、BFloat16、メモリ読み取り/書き込みで最適化される。 オリジナルのAlphaFold2(Jaxで実装)とOpenFold(PyTorchで実装)と比較して、HelixFoldは完全なエンドツーエンドのトレーニングを完了するのに7.5日、ハイブリッド並列性を使用するのに5.3日しか要しない。 HelixFoldは1倍のトレーニング時間を節約する。 我々は、HelixFoldの精度がCASP14およびCAMEOデータセット上のAlphaFold2と同等であることを確認した。 HelixFoldのコードはGitHubで無料でダウンロードできる。 https://github.com/PaddlePaddle/PaddleHelix/tree/dev/apps/oprotein_folding/helixfold。

Accurate protein structure prediction can significantly accelerate the development of life science. The accuracy of AlphaFold2, a frontier end-to-end structure prediction system, is already close to that of the experimental determination techniques. Due to the complex model architecture and large memory consumption, it requires lots of computational resources and time to implement the training and inference of AlphaFold2 from scratch. The cost of running the original AlphaFold2 is expensive for most individuals and institutions. Therefore, reducing this cost could accelerate the development of life science. We implement AlphaFold2 using PaddlePaddle, namely HelixFold, to improve training and inference speed and reduce memory consumption. The performance is improved by operator fusion, tensor fusion, and hybrid parallelism computation, while the memory is optimized through Recompute, BFloat16, and memory read/write in-place. Compared with the original AlphaFold2 (implemented with Jax) and OpenFold (implemented with PyTorch), HelixFold needs only 7.5 days to complete the full end-to-end training and only 5.3 days when using hybrid parallelism, while both AlphaFold2 and OpenFold take about 11 days. HelixFold saves 1x training time. We verified that HelixFold's accuracy could be on par with AlphaFold2 on the CASP14 and CAMEO datasets. HelixFold's code is available on GitHub for free download: https://github.com/PaddlePaddle/PaddleHelix/tree/dev/apps/protein_folding/helixfold, and we also provide stable web services on https://paddlehelix.baidu.com/app/drug/protein/forecast.
翻訳日:2022-07-14 12:01:38 公開日:2022-07-13
# 表現学習における独立機構解析のロバスト性の検討

Probing the Robustness of Independent Mechanism Analysis for Representation Learning ( http://arxiv.org/abs/2207.06137v1 )

ライセンス: Link先を確認
Joanna Sliwa, Shubhangi Ghosh, Vincent Stimper, Luigi Gresele, Bernhard Sch\"olkopf(参考訳) 表現学習の1つの目的は、データを生成する元の潜在コード、追加情報や帰納バイアスを必要とするタスクを復元することである。 最近提案された独立機構解析 (ima) は、各潜在源は観測された混合物に独立に影響を与え、標準の非線形独立成分分析を補完し、独立因果機構の原理からインスピレーションを得ていると仮定している。 IMAが真の潜伏剤の回収に有効であることを示す理論や実験で示されたが、この手法の性能はモデリングの前提が正確に満たされている場合にのみ特徴付けられる。 ここでは,基礎となる仮定の違反に対するロバスト性をテストする。 IMAの正則化による真の情報源の回復の利点は、IMAの原理に違反する様々な度合いの混合関数にまで及んでいるが、標準正則化では同様の利点が得られない。 さらに,IMAの原理から体系的に逸脱する混合関数を非正規化最大値で回収し,IMAに基づく正規化の利点を解明する論証を提供する。

One aim of representation learning is to recover the original latent code that generated the data, a task which requires additional information or inductive biases. A recently proposed approach termed Independent Mechanism Analysis (IMA) postulates that each latent source should influence the observed mixtures independently, complementing standard nonlinear independent component analysis, and taking inspiration from the principle of independent causal mechanisms. While it was shown in theory and experiments that IMA helps recovering the true latents, the method's performance was so far only characterized when the modeling assumptions are exactly satisfied. Here, we test the method's robustness to violations of the underlying assumptions. We find that the benefits of IMA-based regularization for recovering the true sources extend to mixing functions with various degrees of violation of the IMA principle, while standard regularizers do not provide the same merits. Moreover, we show that unregularized maximum likelihood recovers mixing functions which systematically deviate from the IMA principle, and provide an argument elucidating the benefits of IMA-based regularization.
翻訳日:2022-07-14 11:58:00 公開日:2022-07-13
# コスト効果のあるオンライン文脈モデル選択

Cost-Effective Online Contextual Model Selection ( http://arxiv.org/abs/2207.06030v1 )

ライセンス: Link先を確認
Xuefeng Liu, Fangfang Xia, Rick L. Stevens, Yuxin Chen(参考訳) 任意の異種データストリームを提示した場合、モデル選択ポリシーを学ぶために最も有用なラベルをどうやって収集できるのか? 本稿では,このタスクを,学習者が文脈とともにラベルのないデータポイントを受信する,オンラインコンテキストアクティブモデル選択問題として定式化する。 目標は、過度のラベルを得ることなく、任意のコンテキストに対して最適なモデルを出力することです。 特に,事前学習された分類器の選択課題に着目し,適応型モデル選択のために与えられたポリシークラス上で定義された新しい不確実性サンプリングクエリ基準に依存する文脈アクティブモデル選択アルゴリズム(cams)を提案する。 先行技術と比較して,本アルゴリズムはグローバル最適モデルを仮定しない。 我々は,後悔と問合せの複雑さについて,逆境と確率的設定の両方において厳密な理論的解析を行う。 いくつかのベンチマーク分類データセットに対する実験は、後悔とクエリの複雑さの両方の観点からアルゴリズムの有効性を示す。 同じ精度を達成するために、CAMSはCIFAR10の最高のオンラインモデル選択ベースラインと比較して、ラベルコストの10%未満を発生させる。

How can we collect the most useful labels to learn a model selection policy, when presented with arbitrary heterogeneous data streams? In this paper, we formulate this task as an online contextual active model selection problem, where at each round the learner receives an unlabeled data point along with a context. The goal is to output the best model for any given context without obtaining an excessive amount of labels. In particular, we focus on the task of selecting pre-trained classifiers, and propose a contextual active model selection algorithm (CAMS), which relies on a novel uncertainty sampling query criterion defined on a given policy class for adaptive model selection. In comparison to prior art, our algorithm does not assume a globally optimal model. We provide rigorous theoretical analysis for the regret and query complexity under both adversarial and stochastic settings. Our experiments on several benchmark classification datasets demonstrate the algorithm's effectiveness in terms of both regret and query complexity. Notably, to achieve the same accuracy, CAMS incurs less than 10% of the label cost when compared to the best online model selection baselines on CIFAR10.
翻訳日:2022-07-14 11:57:38 公開日:2022-07-13
# MRF-UNets:MarkovランダムフィールドでUNetを検索

MRF-UNets: Searching UNet with Markov Random Fields ( http://arxiv.org/abs/2207.06168v1 )

ライセンス: Link先を確認
Zifu Wang, Matthew B. Blaschko(参考訳) UNet[27]はその単純さと有効性のためにセマンティックセグメンテーションで広く使われている。 しかし、その手動設計アーキテクチャは、アーキテクチャの最適化なしで、または、時間消費であり、副最適化になり得る手動チューニングによって、多くの問題設定に適用される。 本稿では,まず,最近の適応的最適ネットワーク幅探索法(aows)法 [4] を拡張し,改良したマルコフ確率場ニューラルネットワーク探索(mrf-nas)を提案する。 (i)より一般的なMRFフレームワーク (ii)多様なMベストループ推論 (iii)微分可能なパラメータ学習。 これは、スキップ接続から発生するループを含むループ推論グラフを誘導するネットワークアーキテクチャを効率的に探索するために必要なnasフレームワークを提供する。 バックボーンとしてUNetを用いると、いくつかの興味深い特徴を示すアーキテクチャ MRF-UNet が見つかる。 次に、これらの特徴のレンズを用いて、元のUNetアーキテクチャのサブ最適性を同定し、MDF-UNetV2による結果をさらに改善する。 MRF-UNetsは、低計算コストを維持しながら、3つの航空画像データセットと2つの医療画像データセットのベンチマークを著しく上回りました。 コードは、https://github.com/zifuwanggg/MRF-UNets.comで入手できる。

UNet [27] is widely used in semantic segmentation due to its simplicity and effectiveness. However, its manually-designed architecture is applied to a large number of problem settings, either with no architecture optimizations, or with manual tuning, which is time consuming and can be sub-optimal. In this work, firstly, we propose Markov Random Field Neural Architecture Search (MRF-NAS) that extends and improves the recent Adaptive and Optimal Network Width Search (AOWS) method [4] with (i) a more general MRF framework (ii) diverse M-best loopy inference (iii) differentiable parameter learning. This provides the necessary NAS framework to efficiently explore network architectures that induce loopy inference graphs, including loops that arise from skip connections. With UNet as the backbone, we find an architecture, MRF-UNet, that shows several interesting characteristics. Secondly, through the lens of these characteristics, we identify the sub-optimality of the original UNet architecture and further improve our results with MRF-UNetV2. Experiments show that our MRF-UNets significantly outperform several benchmarks on three aerial image datasets and two medical image datasets while maintaining low computational costs. The code is available at: https://github.com/zifuwanggg/MRF-UNets.
翻訳日:2022-07-14 11:57:01 公開日:2022-07-13
# Task Agnostic Representation Consolidation: 自己教師型連続学習アプローチ

Task Agnostic Representation Consolidation: a Self-supervised based Continual Learning Approach ( http://arxiv.org/abs/2207.06267v1 )

ライセンス: Link先を確認
Prashant Bhat, Bahram Zonooz, Elahe Arani(参考訳) 非定常データストリームに対する連続学習(CL)は、破滅的な忘れがちなディープニューラルネットワーク(DNN)における長年の課題のひとつだ。 clモデルは、より一般化されたタスク非依存の機能を学ぶことができるため、自己教師付き事前トレーニングの恩恵を受ける。 しかし,タスクシーケンスの長さが増加するにつれて,自己指導型事前学習の効果は低下する。 さらに、事前学習データ分布とタスク分布との領域シフトにより、学習表現の一般化性が低下する。 これらの制約に対処するため,タスク非依存型およびタスク特化型学習に介入するCLの2段階トレーニングパラダイムであるタスク非依存型表現統合(TARC)を提案する。 自己教師段階における学習表現からの逸脱をさらに抑制するため、教師段階においてタスク非依存の補助損失を用いる。 我々のトレーニングパラダイムは、メモリや正規化ベースのアプローチに簡単に追加できることを示し、より困難なCL設定に対して一貫したパフォーマンス向上を提供する。 さらに、より堅牢で校正されたモデルにつながることを示す。

Continual learning (CL) over non-stationary data streams remains one of the long-standing challenges in deep neural networks (DNNs) as they are prone to catastrophic forgetting. CL models can benefit from self-supervised pre-training as it enables learning more generalizable task-agnostic features. However, the effect of self-supervised pre-training diminishes as the length of task sequences increases. Furthermore, the domain shift between pre-training data distribution and the task distribution reduces the generalizability of the learned representations. To address these limitations, we propose Task Agnostic Representation Consolidation (TARC), a two-stage training paradigm for CL that intertwines task-agnostic and task-specific learning whereby self-supervised training is followed by supervised learning for each task. To further restrict the deviation from the learned representations in the self-supervised stage, we employ a task-agnostic auxiliary loss during the supervised stage. We show that our training paradigm can be easily added to memory- or regularization-based approaches and provides consistent performance gain across more challenging CL settings. We further show that it leads to more robust and well-calibrated models.
翻訳日:2022-07-14 11:56:43 公開日:2022-07-13
# デュアル空間一貫性サンプリングによるトランスダクティブオープンセット認識のための直交符号化に基づく特徴生成

Orthogonal-Coding-Based Feature Generation for Transductive Open-Set Recognition via Dual-Space Consistent Sampling ( http://arxiv.org/abs/2207.05957v1 )

ライセンス: Link先を確認
Jiayin Sun and Qiulei Dong(参考訳) Open-set Recognition (OSR)は、未知のクラスサンプルを同時に検出し、既知のクラスサンプルを分類することを目的としている。 既存のosrメソッドのほとんどは帰納的メソッドであり、一般に既知のクラスドメインから学習されたモデルが未知のクラスドメインに適合しないかもしれないドメインシフト問題に苦しむ。 本稿では,多くのビジュアルタスクにおける領域シフト問題を解決するためのトランスダクティブ学習の成功に触発されて,信頼性サンプリングモジュール,機能生成モジュール,ベースライン更新モジュールを含む3つの探索モジュールを反復的に実装した,it-osrと呼ばれる反復的トランスダクティブosrフレームワークを提案する。 具体的には、各イテレーションにおいて、任意の帰納的osr法であるベースライン法によって割り当てられた擬似ラベルに従って、テストサンプルから比較的信頼性の高いものを選択するための、検討された信頼性サンプリングモジュールにデュアルスペース一貫したサンプリングアプローチが提示される。 そして、この特徴生成モジュールにおいて、直交符号化条件下での条件付き双対対生成ネットワークを設計し、選択したテストサンプルと擬似ラベルとに基づいて、未知クラスと未知クラスの識別サンプル特徴を生成する。 最後に、生成された特徴、選択されたテストサンプルに擬似ラベルとトレーニングサンプルを併用することにより、ベースライン更新モジュールのサンプル再予測のためにベースラインメソッドを更新する。 提案したIT-OSRフレームワークに2つの典型的なインダクティブOSRメソッドを導入することで,ほとんどの場合において15の最先端手法よりも優れた性能が得られることを示す。

Open-set recognition (OSR) aims to simultaneously detect unknown-class samples and classify known-class samples. Most of the existing OSR methods are inductive methods, which generally suffer from the domain shift problem that the learned model from the known-class domain might be unsuitable for the unknown-class domain. Addressing this problem, inspired by the success of transductive learning for alleviating the domain shift problem in many other visual tasks, we propose an Iterative Transductive OSR framework, called IT-OSR, which implements three explored modules iteratively, including a reliability sampling module, a feature generation module, and a baseline update module. Specifically, at each iteration, a dual-space consistent sampling approach is presented in the explored reliability sampling module for selecting some relatively more reliable ones from the test samples according to their pseudo labels assigned by a baseline method, which could be an arbitrary inductive OSR method. Then, a conditional dual-adversarial generative network under an orthogonal coding condition is designed in the feature generation module to generate discriminative sample features of both known and unknown classes according to the selected test samples with their pseudo labels. Finally, the baseline method is updated for sample re-prediction in the baseline update module by jointly utilizing the generated features, the selected test samples with pseudo labels, and the training samples. Extensive experimental results on both the standard-dataset and the cross-dataset settings demonstrate that the derived transductive methods, by introducing two typical inductive OSR methods into the proposed IT-OSR framework, achieve better performances than 15 state-of-the-art methods in most cases.
翻訳日:2022-07-14 11:55:59 公開日:2022-07-13
# (参考訳) 敵対的攻撃に対する連続学習の感受性

Susceptibility of Continual Learning Against Adversarial Attacks ( http://arxiv.org/abs/2207.05225v2 )

ライセンス: CC BY 4.0
Hikmat Khan, Pir Masoom Shah, Syed Farhan Alam Zaidi, Saif ul Islam(参考訳) 近年の連続的(増分的または生涯的)学習の進歩は、破滅的な結果につながる忘れの予防に集中しているが、対処すべき課題は2つある。 1つ目は,提案手法の堅牢性の評価である。 2つめは、学習したタスクのセキュリティを確保することです。 本稿では,忘れやすい連続学習タスク(現在のタスクと以前に学習されたタスクの両方を含む)の感受性に関する包括的研究を行う。 このような敵攻撃に対するタスクの脆弱性は、データの完全性とプライバシーに大きな問題を引き起こす。 タスク・インクリメンタル・ラーニング(Task-IL)のシナリオを考察し,正規化に基づく3つの実験,リプレイに基づく3つの実験,応答と模範的アプローチに基づく1つのハイブリッド手法について検討する。 これらの手法の堅牢性について検討する。 特に、現在または以前に学習されたタスクに属するクラスが誤分類されやすいことを実証するケースについて考察する。 我々の観察では、既存のタスク-ilアプローチの潜在的な限界が浮かび上がっています。 本研究は,提案する継続学習アプローチの頑健性を検討し,破滅的な学習の軽減に多大な努力を注ぐことを推奨する。

The recent advances in continual (incremental or lifelong) learning have concentrated on the prevention of forgetting that can lead to catastrophic consequences, but there are two outstanding challenges that must be addressed. The first is the evaluation of the robustness of the proposed methods. The second is ensuring the security of learned tasks remains largely unexplored. This paper presents a comprehensive study of the susceptibility of the continually learned tasks (including both current and previously learned tasks) that are vulnerable to forgetting. Such vulnerability of tasks against adversarial attacks raises profound issues in data integrity and privacy. We consider the task incremental learning (Task-IL) scenario and explore three regularization-based experiments, three replay-based experiments, and one hybrid technique based on the reply and exemplar approach. We examine the robustness of these methods. In particular, we consider cases where we demonstrate that any class belonging to the current or previously learned tasks is prone to misclassification. Our observations highlight the potential limitations of existing Task-IL approaches. Our empirical study recommends that the research community consider the robustness of the proposed continual learning approaches and invest extensive efforts in mitigating catastrophic forgetting.
翻訳日:2022-07-14 11:53:58 公開日:2022-07-13
# DCCF:高分解能画像調和のための深層包括カラーフィルタ学習フレームワーク

DCCF: Deep Comprehensible Color Filter Learning Framework for High-Resolution Image Harmonization ( http://arxiv.org/abs/2207.04788v2 )

ライセンス: Link先を確認
Ben Xue, Shenghui Ran, Quan Chen, Rongfei Jia, Binqiang Zhao, Xing Tang(参考訳) 画像色調和アルゴリズムは、異なる条件下で撮影された前景と背景画像の色分布を自動的に一致させることを目的としている。 従来のディープラーニングモデルでは、高解像度(HR)画像処理とモデルの理解性という、実用上重要な2つの問題を無視していた。 本稿では,高分解能画像調和のための新しいDeep Comprehensible Color Filter (DCCF) 学習フレームワークを提案する。 具体的には、DCCFは最初、元の入力画像をその低解像度(LR)カウンタにサンプリングし、最後に4つの人間の理解可能なニューラルフィルタ(色調、飽和度、値、減衰率)をエンドツーエンドに学習し、最終的にこれらのフィルタを元の入力画像に適用し、調和した結果を得る。 理解しやすいニューラルフィルタから恩恵を受ければ、ユーザがディープモデルと協力して必要な結果を得るためのシンプルで効率的なハンドラを、必要ならばごくわずかな労力で提供できるでしょう。 大規模な実験により、DCCF学習フレームワークの有効性が実証され、MSEとPSNRでそれぞれ7.63%と1.69%の改善を達成し、iHarmony4データセットにおける最先端のポストプロセッシング手法よりも優れていた。

Image color harmonization algorithm aims to automatically match the color distribution of foreground and background images captured in different conditions. Previous deep learning based models neglect two issues that are critical for practical applications, namely high resolution (HR) image processing and model comprehensibility. In this paper, we propose a novel Deep Comprehensible Color Filter (DCCF) learning framework for high-resolution image harmonization. Specifically, DCCF first downsamples the original input image to its low-resolution (LR) counter-part, then learns four human comprehensible neural filters (i.e. hue, saturation, value and attentive rendering filters) in an end-to-end manner, finally applies these filters to the original input image to get the harmonized result. Benefiting from the comprehensible neural filters, we could provide a simple yet efficient handler for users to cooperate with deep model to get the desired results with very little effort when necessary. Extensive experiments demonstrate the effectiveness of DCCF learning framework and it outperforms state-of-the-art post-processing method on iHarmony4 dataset on images' full-resolutions by achieving 7.63% and 1.69% relative improvements on MSE and PSNR respectively.
翻訳日:2022-07-14 11:35:12 公開日:2022-07-13
# LudVision -- ドローン搭載マルチスペクトルデータによる外来水生植物のリモート検出

LudVision -- Remote Detection of Exotic Invasive Aquatic Floral Species using Drone-Mounted Multispectral Data ( http://arxiv.org/abs/2207.05620v2 )

ライセンス: Link先を確認
Ant\'onio J. Abreu, Lu\'is A. Alexandre, Jo\~ao A. Santos, Filippo Basso(参考訳) リモートセンシング(英: Remote Sensor)は、反射放射と放射放射放射を距離で測定することで、領域の物理的特性を検知し、監視するプロセスである。 主に生態系の保全のために広く使用されている。 侵略的な種の報告は生態系の自然のバランスに影響を与えている。 エキゾチックな外来種は、新しい生態系に導入されると重大な影響を及ぼし、原生生物の絶滅につながる可能性がある。 本研究では,欧州連合が水生侵入種とみなすLudwigia peploidesに着目した。 その存在は周囲の生態系や農業、漁業、航海といった人間の活動に悪影響を及ぼす可能性がある。 我々の目標は、種の存在を特定する方法を開発することであった。 ドローンに搭載されたマルチスペクトルセンサーが収集した画像を使ってこれを実現し、LudVisionデータセットを作成しました。 収集した画像から対象種を特定するため,ludwigia pの新しい検出法を提案する。 マルチスペクトル画像です この方法は、マルチスペクトルデータを扱うために修正された既存の最先端セマンティックセグメンテーションメソッドに基づいている。 提案手法は, 製作者の精度79.9%, ユーザの精度95.5%を達成した。

Remote sensing is the process of detecting and monitoring the physical characteristics of an area by measuring its reflected and emitted radiation at a distance. It is being broadly used to monitor ecosystems, mainly for their preservation. Ever-growing reports of invasive species have affected the natural balance of ecosystems. Exotic invasive species have a critical impact when introduced into new ecosystems and may lead to the extinction of native species. In this study, we focus on Ludwigia peploides, considered by the European Union as an aquatic invasive species. Its presence can negatively impact the surrounding ecosystem and human activities such as agriculture, fishing, and navigation. Our goal was to develop a method to identify the presence of the species. We used images collected by a drone-mounted multispectral sensor to achieve this, creating our LudVision data set. To identify the targeted species on the collected images, we propose a new method for detecting Ludwigia p. in multispectral images. The method is based on existing state-of-the-art semantic segmentation methods modified to handle multispectral data. The proposed method achieved a producer's accuracy of 79.9% and a user's accuracy of 95.5%.
翻訳日:2022-07-14 11:34:44 公開日:2022-07-13
# マルチスタディブースティング:メルジング対組立の理論的考察

Multi-Study Boosting: Theoretical Considerations for Merging vs. Ensembling ( http://arxiv.org/abs/2207.04588v2 )

ライセンス: Link先を確認
Cathy Shyr, Pragya Sur, Giovanni Parmigiani and Prasad Patil(参考訳) クロススタディの再現性は、予測の一般化性を強調する強力なモデル評価基準である。 クロススタディレプリカブル予測モデルをトレーニングする場合、研究のマージと処理を別々に決定することが重要である。 我々は,予測・アウトカム関係における潜在的不均一性の存在下での促進アルゴリズムについて研究し,2つのマルチスタディ学習戦略を比較した。 1)すべての研究と訓練を1つのモデルに統合し、 2)マルチスタディ・アンサンブルは,各研究で個別のモデルを訓練し,その結果の予測をアンサンブルする。 回帰設定では,解析的遷移点に基づく理論的指針を提供し,マージがより有益であるか,あるいは線形学習者との協調が重要であるかを判断する。 さらに,成分単位線形学習者によるブースティングのための推定誤差の偏分散分解を特徴付ける。 本研究は, 乳がん遺伝子の発現データに対するマージ対アンサンブルの決定をいかに導くか, シミュレーションによる理論的遷移点の検証を行った。

Cross-study replicability is a powerful model evaluation criterion that emphasizes generalizability of predictions. When training cross-study replicable prediction models, it is critical to decide between merging and treating the studies separately. We study boosting algorithms in the presence of potential heterogeneity in predictor-outcome relationships across studies and compare two multi-study learning strategies: 1) merging all the studies and training a single model, and 2) multi-study ensembling, which involves training a separate model on each study and ensembling the resulting predictions. In the regression setting, we provide theoretical guidelines based on an analytical transition point to determine whether it is more beneficial to merge or to ensemble for boosting with linear learners. In addition, we characterize a bias-variance decomposition of estimation error for boosting with component-wise linear learners. We verify the theoretical transition point result in simulation and illustrate how it can guide the decision on merging vs. ensembling in an application to breast cancer gene expression data.
翻訳日:2022-07-14 11:34:28 公開日:2022-07-13
# Snipper: ビデオスニペットにおける同時多人数3次元姿勢推定と予測のための時空間変換器

Snipper: A Spatiotemporal Transformer for Simultaneous Multi-Person 3D Pose Estimation Tracking and Forecasting on a Video Snippet ( http://arxiv.org/abs/2207.04320v2 )

ライセンス: Link先を確認
Shihao Zou, Yuanlu Xu, Chao Li, Lingni Ma, Li Cheng, Minh Vo(参考訳) RGBビデオからの多人数ポーズ理解には、ポーズ推定、トラッキング、モーション予測という3つの複雑なタスクが含まれる。 これら3つのタスクのうち、ポーズ推定とトラッキングは相関しており、トラッキングはモーション予測に不可欠である。 ほとんどの既存の作業は1つのタスクに集中するか、個別のタスクを個別に解くためにカスケードされたメソッドを使う。 本稿では,複数人の3次元ポーズ推定,追跡,動作予測を同時に行うフレームワークであるsnipperを提案する。 具体的には、まず、ビデオスニペットから時空間情報を集約する変形可能な注意機構を提案する。 この変形可能な注意に基づいて、視覚トランスフォーマは、多フレーム画像から時空間的特徴をエンコードし、情報的なポーズ特徴を復号して多人数のポーズクエリを更新することを学習する。 最後に、これらのクエリは、複数人のポーズの軌跡と1つの前方通過における将来の動きを予測するために後退される。 実験では,ポーズ推定,追跡,予測のための最先端のベースラインに匹敵する3つの難解なパブリックデータセットに対して,スナイパーの有効性を示す。 コードはhttps://github.com/JimmyZou/Snipperで入手できる。

Multi-person pose understanding from RGB videos includes three complex tasks: pose estimation, tracking and motion forecasting. Among these three tasks, pose estimation and tracking are correlated, and tracking is crucial to motion forecasting. Most existing works either focus on a single task or employ cascaded methods to solve each individual task separately. In this paper, we propose Snipper, a framework to perform multi-person 3D pose estimation, tracking and motion forecasting simultaneously in a single inference. Specifically, we first propose a deformable attention mechanism to aggregate spatiotemporal information from video snippets. Building upon this deformable attention, a visual transformer is learned to encode the spatiotemporal features from multi-frame images and to decode informative pose features to update multi-person pose queries. Last, these queries are regressed to predict multi-person pose trajectories and future motions in one forward pass. In the experiments, we show the effectiveness of Snipper on three challenging public datasets where a generic model rivals specialized state-of-art baselines for pose estimation, tracking, and forecasting. Code is available at https://github.com/JimmyZou/Snipper
翻訳日:2022-07-14 11:33:27 公開日:2022-07-13
# CCPL:Versatileスタイル転送におけるコントラストコヒーレンス保護

CCPL: Contrastive Coherence Preserving Loss for Versatile Style Transfer ( http://arxiv.org/abs/2207.04808v2 )

ライセンス: Link先を確認
Zijie Wu, Zhen Zhu, Junping Du and Xiang Bai(参考訳) 本稿では,トレーニング中に映像を見ることなく,芸術的,写真的,映像的スタイルの同時転送が可能な汎用的なスタイル転送手法を提案する。 従来の単一フレーム法は、時間的一貫性を維持するために画像全体に強い制約を課しており、多くのケースで違反する可能性がある。 代わりに、グローバル不整合が局所的不整合に支配されているという軽微で合理的な仮定をし、局所的パッチに適用された一般的なコントラストコヒーレンス保存損失(CCPL)を考案する。 ccplはスタイライゼーションを損なうことなく、スタイル転送中にコンテンツソースの一貫性を保つことができる。 さらに、隣接する調節機構を持ち、局所的な歪みが大幅に減少し、視覚品質が大幅に向上する。 万能なスタイル転送における優れたパフォーマンスとは別に、画像から画像への変換など他のタスクにも容易に拡張できる。 さらに,コンテンツとスタイル機能を融合させるため,コンテンツ特徴の2次統計をスタイル特徴と効果的に整合させる簡易共分散変換(sct)を提案する。 CCPLを用いた多目的移動モデルの有効性を示す実験を行った。

In this paper, we aim to devise a universally versatile style transfer method capable of performing artistic, photo-realistic, and video style transfer jointly, without seeing videos during training. Previous single-frame methods assume a strong constraint on the whole image to maintain temporal consistency, which could be violated in many cases. Instead, we make a mild and reasonable assumption that global inconsistency is dominated by local inconsistencies and devise a generic Contrastive Coherence Preserving Loss (CCPL) applied to local patches. CCPL can preserve the coherence of the content source during style transfer without degrading stylization. Moreover, it owns a neighbor-regulating mechanism, resulting in a vast reduction of local distortions and considerable visual quality improvement. Aside from its superior performance on versatile style transfer, it can be easily extended to other tasks, such as image-to-image translation. Besides, to better fuse content and style features, we propose Simple Covariance Transformation (SCT) to effectively align second-order statistics of the content feature with the style feature. Experiments demonstrate the effectiveness of the resulting model for versatile style transfer, when armed with CCPL.
翻訳日:2022-07-14 11:33:06 公開日:2022-07-13