このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220606となっている論文です。

PDF登録状況(公開日: 20220606)

TitleAuthorsAbstract論文公表日・翻訳日
# SDP初期化によるQAOAの古典と量子のブリッジング

Bridging Classical and Quantum with SDP initialized warm-starts for QAOA ( http://arxiv.org/abs/2010.14021v3 )

ライセンス: Link先を確認
Reuben Tate, Majid Farhadi, Creston Herold, Greg Mohler, Swati Gupta(参考訳) 量子近似最適化アルゴリズム(QAOA)をMax-Cut問題を用いて検討する。 短期(ノイズの多い)量子デバイスは(正確には)低回路深度でのみQAOAを実行することができ、一方QAOAはグラフ全体を見るために比較的高い回路深度を必要とする。 我々は、qaoaを初期化する古典的な前処理ステップを導入し、ウォームスタートと呼ばれるグラフのすべてのカットをバイアス付き重ね合わせします。 特に、この初期化は、Max-Cut問題の低ランク半定値プログラミング緩和に対する解によってQAOAに通知する。 実験の結果,QAOA-Warmと呼ばれるこのQAOAは,トレーニング時間(QAOAの変動パラメータの最適化段階)が低い回路深度で標準QAOAより優れていることがわかった。 提案フレームワークの性能に関する理論的直観と実験的な証拠を提供する。

We study the Quantum Approximate Optimization Algorithm (QAOA) in the context of the Max-Cut problem. Near-term (noisy) quantum devices are only able to (accurately) execute QAOA at low circuit depths while QAOA requires a relatively high circuit-depth in order to "see" the whole graph. We introduce a classical pre-processing step that initializes QAOA with a biased superposition of all possible cuts in the graph, referred to as a warm-start. In particular, our initialization informs QAOA by a solution to a low-rank semidefinite programming relaxation of the Max-Cut problem. Our experimental results show that this variant of QAOA, called QAOA-Warm, is able to outperform standard QAOA on lower circuit depths with less training time (in the optimization stage for QAOA's variational parameters). We provide experimental evidence as well as theoretical intuition on performance of the proposed framework.
翻訳日:2023-04-27 08:50:11 公開日:2022-06-06
# 巨大モード偏光エンタングル二光子周波数コム

Massive-mode polarization entangled biphoton frequency comb ( http://arxiv.org/abs/2101.04410v2 )

ライセンス: Link先を確認
Tomohiro Yamazaki, Rikizo Ikuta, Toshiki Kobayashi, Shigehito Miki, Fumihiro China, Hirotaka Terai, Nobuyuki Imoto and Takashi Yamamoto(参考訳) 周波数多重光子対と高次元超多角光子対は高容量量子通信を実現するのに有用である。 二光子周波数コム(BFC)は、両状態の準備に用いられる。 サニャックループ内にLiNbO3波導波路共振器を1400以上の周波数モードで1400個以上設置し, 従来の共振器よりも約2桁大きい分極結合型BFCを実演する。 BFCは、結合スペクトル強度、相互相関、自己相関を測定することで示される。 さらに、周波数モードの代表群における偏光絡み合いは、各忠実度が0.7を超える量子状態トモグラフィーによって検証される。 大規模モードの絡み合ったBFCの効率的な生成は、量子通信におけるキャパシティの増大を促進することが期待されている。

A frequency-multiplexed entangled photon pair and a high-dimensional hyperentangled photon pair are useful to realize a high-capacity quantum communication. A biphoton frequency comb (BFC) with entanglement can be used to prepare both states. We demonstrate polarization entangled BFCs with over 1400 frequency modes, which is approximately two orders of magnitude larger than those of earlier entangled BFCs, by placing a singly resonant periodically poled LiNbO3 waveguide resonator within a Sagnac loop. The BFCs are demonstrated by measuring the joint spectral intensity, cross-correlation, and autocorrelation. Moreover, the polarization entanglement at representative groups of frequency modes is verified by quantum state tomography, where each fidelity is over 0.7. The efficient generation of a massive-mode entangled BFC is expected to accelerate the increase of capacity in quantum communication.
翻訳日:2023-04-17 00:42:46 公開日:2022-06-06
# 弱測定誘起幾何相における位相遷移の観測

Observing a Topological Transition in Weak-Measurement-Induced Geometric Phases ( http://arxiv.org/abs/2102.05660v2 )

ライセンス: Link先を確認
Yunzhao Wang, Kyrylo Snizhko, Alessandro Romito, Yuval Gefen, and Kater Murch(参考訳) 測定は量子システムの制御において重要な役割を果たす。 射影測定に関連する初期化と読み出しの他に、特にシステムのバックアクションを通じて弱い測定は、様々なレベルのコヒーレント制御を可能にする可能性がある。 後者は、量子軌道の観測から状態のドラッグとステアリングまで幅広い。 さらに、ベリー相を誘導することが知られている量子状態の断熱的進化と同様に、シーケンシャルな測定は経路依存の幾何学的位相をもたらす。 ここでは、弱い測定列によって誘導される幾何位相を測定し、測定強度によって制御される幾何位相の位相遷移を示す。 この弱い測定誘起量子力学とトポロジカル遷移の接続は、測定に基づく量子系の操作において微妙なトポロジカルな特徴を示す。 私たちのプロトコルは、本質的にトポロジカルなオペレーションクラス(例えば、ブレイディング)に実装できます。 さらに,多体トポロジカル状態の計測可能な量子制御のための新しい地平線を開く。

Measurement plays a quintessential role in the control of quantum systems. Beyond initialization and readout which pertain to projective measurements, weak measurements in particular, through their back-action on the system, may enable various levels of coherent control. The latter ranges from observing quantum trajectories to state dragging and steering. Furthermore, just like the adiabatic evolution of quantum states that is known to induce the Berry phase, sequential weak measurements may lead to path-dependent geometric phases. Here we measure the geometric phases induced by sequences of weak measurements and demonstrate a topological transition in the geometric phase controlled by measurement strength. This connection between weak measurement induced quantum dynamics and topological transitions reveals subtle topological features in measurement-based manipulation of quantum systems. Our protocol could be implemented for classes of operations (e.g. braiding) which are topological in nature. Furthermore, our results open new horizons for measurement-enabled quantum control of many-body topological states.
翻訳日:2023-04-12 00:40:08 公開日:2022-06-06
# 3量子グリーンベルガー・ホルン・ザイリンガー対称状態の局所性

Locality of three-qubit Greenberger-Horne-Zeilinger-symmetric states ( http://arxiv.org/abs/2102.06367v3 )

ライセンス: Link先を確認
Dian Zhu and Gang-Gang He and Fu-Lin Zhang(参考訳) 多成分系における非局所性と絡み合いの階層は、量子物理学における根本的な問題の1つである。 確率的局所演算と古典的通信(SLOCC)の絡み合い分類を考慮した3ビットシステムでこの話題を研究する。 SLOCCの下での同値性は、3ビット状態を分離可能で分岐可能、Wとグリーンバーガー・ホーネ・ザイリンガー(GHZ)クラスに分割する。 我々は、GHZ状態の対称性を共有し、SLOCCクラスを完全に特徴づけるGHZ対称状態の族を研究対象として採用する。 二分性領域(二分性絡み合いを持つ)では、完全に局所的なGHZ対称状態が存在する。 さらに、theWクラスとGHZクラスの両方にローカルな状態が存在する。 すなわち、真の三部類絡みのサブクラスは、真の三部類非局所性を保証することができない。

The hierarchy of nonlocality and entanglement in multipartite systems is one of the fundamental problems in quantum physics. We study this topic in three-qubit systems considering the entanglement classification of stochastic local operations and classical communication (SLOCC). The equivalence under SLOCC divides threequbit states into separable, biseparable, W, and Greenberger-Horne-Zeilinger (GHZ) classes. The W and GHZ are two subclasses of genuine tripartite entanglement.We adopt the family of GHZ-symmetric states as a research subject, which share the symmetries of the GHZ state and have a complete characterization of SLOCC classes. In the biseparable region (with bipartite entanglement), there exist GHZ-symmetric states that are found to be fully local. In addition, there are bilocal states in both theW and GHZ classes. That is, neither of the subclasses of genuine tripartite entanglement can ensure genuinely tripartite nonlocality.
翻訳日:2023-04-11 08:12:43 公開日:2022-06-06
# 量子および古典過程の初期状態における統合的、即時、変動的エントロピー生成の依存性

Dependence of integrated, instantaneous, and fluctuating entropy production on the initial state in quantum and classical processes ( http://arxiv.org/abs/2103.05734v4 )

ライセンス: Link先を確認
Artemy Kolchinsky, David H. Wolpert(参考訳) 我々は、ある初期状態$\rho$における固定量子過程または古典的過程によって引き起こされる追加エントロピー生成(EP)を、任意の初期状態において同じプロセスによって引き起こされる最小のEPより上位に考える。 この追加のepは「$\rho$ のミスマッチコスト」と呼ばれ、普遍的な情報理論的な形式を持つ:それは、相対エントロピーが $\rho$ と最小散逸初期状態 $\varphi$ の間の縮約によって与えられる。 本研究は, プロセス中に発生する統合EP, 軌道レベルの変動EP, 即時EPレートについて, この結果のバージョンを導出する。 また、EPのゆらぎに対するミスマッチコストは積分揺らぎ定理に従うことを示した。 その結果,「熱力学的不可逆性」(EPの生成)と「論理的不可逆性」(与えられた最終状態に対応する初期状態を知ることができない)の基本的な関係が示された。 この関係は、量子誤差補正の熱力学の量的境界を導出し、量子チャネルの論理的可逆性に関する熱力学的に操作された測度を提案するために用いられる。 我々の結果は有限次元系と無限次元系の両方に留まり、非断熱EP、自由エネルギー損失、エントロピーゲインを含む多くの熱力学的コストにEPを超えて一般化する。

We consider the additional entropy production (EP) incurred by a fixed quantum or classical process on some initial state $\rho$, above the minimum EP incurred by the same process on any initial state. We show that this additional EP, which we term the "mismatch cost of $\rho$", has a universal information-theoretic form: it is given by the contraction of the relative entropy between $\rho$ and the least-dissipative initial state $\varphi$ over time. We derive versions of this result for integrated EP incurred over the course of a process, for trajectory-level fluctuating EP, and for instantaneous EP rate. We also show that mismatch cost for fluctuating EP obeys an integral fluctuation theorem. Our results demonstrate a fundamental relationship between "thermodynamic irreversibility" (generation of EP) and "logical irreversibility" (inability to know the initial state corresponding to a given final state). We use this relationship to derive quantitative bounds on the thermodynamics of quantum error correction and to propose a thermodynamically-operationalized measure of the logical irreversibility of a quantum channel. Our results hold for both finite and infinite dimensional systems, and generalize beyond EP to many other thermodynamic costs, including nonadiabatic EP, free energy loss, and entropy gain.
翻訳日:2023-04-08 15:43:00 公開日:2022-06-06
# 真のアンサンブルとしての波動関数

The wavefunction as a true ensemble ( http://arxiv.org/abs/2109.02676v3 )

ライセンス: Link先を確認
Jonte R. Hance and Sabine Hossenfelder(参考訳) 量子力学では、波動関数は測定結果の確率を予測するが、実験の各実行で個々の結果が実現されるわけではない。 これは、隠れた変数の異なる値を持つ状態のアンサンブルを記述することを示唆する。 ここでは、現在知られている定理と実験を参照して、この概念を分析する。 我々は、$\psi$-ontic/epistemicの区別は、アンサンブル解釈を適切に識別せず、より有用な定義を提案している。 次に、量子力学を再現する全ての局所$\psi$アンサンブル解釈が統計的独立性に反することを示す。 この性質を持つ理論は、一般に超決定論または再帰論と呼ばれる。 最後に、この解釈が、遅延選択実験、エリツール・ベイドマン爆弾検出器、拡張ウィグナーの友人のシナリオなど、量子力学におけるその他の不自然な現象を理解するのにどのように役立つかを説明する。

In quantum mechanics, the wavefunction predicts probabilities of possible measurement outcomes, but not which individual outcome is realised in each run of an experiment. This suggests that it describes an ensemble of states with different values of a hidden variable. Here, we analyse this idea with reference to currently known theorems and experiments. We argue that the $\psi$-ontic/epistemic distinction fails to properly identify ensemble interpretations and propose a more useful definition. We then show that all local $\psi$-ensemble interpretations which reproduce quantum mechanics violate Statistical Independence. Theories with this property are commonly referred to as superdeterministic or retrocausal. Finally, we explain how this interpretation helps make sense of some otherwise puzzling phenomena in quantum mechanics, such as the delayed choice experiment, the Elitzur-Vaidman bomb detector, and the Extended Wigner's Friends Scenario.
翻訳日:2023-03-16 00:39:27 公開日:2022-06-06
# 単一光子検出器の異常超線形応答の実験的観察

Experimental observation of anomalous supralinear response of single-photon detectors ( http://arxiv.org/abs/2109.08347v2 )

ライセンス: Link先を確認
Josef Hlou\v{s}ek, Ivo Straka, Miroslav Je\v{z}ek(参考訳) 前例のない精度で単一光子検出器の絶対非線形性を直接測定する。 単光子アバランシェダイオードの驚くべき超線形挙動を発見し、既知の理論モデルでは説明できないことを示す。 また, 超伝導ナノワイヤ単光子検出器のサブ・超線形動作特性を完全に把握し, かすかな連続照明下での超線形性を明らかにする。 その結果, 単一光子レベルでの非線形効果に関する既存の知識に取って代わる新しい検出器異常が同定された。

We demonstrate a direct single-source measurement of absolute nonlinearity of single-photon detectors with unprecedented accuracy. We discover a surprising supralinear behavior of single-photon avalanche diodes and show that it cannot be explained using known theoretical models. We also fully characterize sub- and supra-linear operation regimes of superconducting nanowire single-photon detectors and uncover the supralinearity under faint continuous illumination. The results identify new detector anomalies that supersede existing knowledge of nonlinear effects at the single-photon level.
翻訳日:2023-03-14 11:44:16 公開日:2022-06-06
# メソスコピック2次元フェルミガス中のクーパーペアの観測

Observation of Cooper Pairs in a Mesoscopic 2D Fermi Gas ( http://arxiv.org/abs/2109.11511v2 )

ライセンス: Link先を確認
Marvin Holten, Luca Bayha, Keerthan Subramanian, Sandra Brandstetter, Carl Heintze, Philipp Lunt, Philipp M. Preiss and Selim Jochim(参考訳) ペアリングはフェルミオン超流動性と超伝導の基本的な要件である。 ペア形成の背後にあるメカニズムを理解することは、多くの強相関フェルミオン系の研究において現在進行中の課題である。 クーパー対は従来の超伝導の微視的説明としてbcs理論の重要な要素である。 これらは対向スピンの粒子と系のフェルミ面の運動量の間に形成される。 ここでは, 2次元フェルミ気体中のクーパー対を直接観測する。 我々は,強い相互作用を持つフェルミガスの運動量分布を単一粒子とスピン分解能で抽出できるイメージング手法を適用した。 当社の超低温ガスは、完全に相互作用しない非相互作用系と弱いアトラクションを自由に調整することができ、フェルミ表面でクーパー対の相関を見出すことができる。 さらに魅力的な相互作用を増加させると、ペアは徐々にフェルミ表面を分解する深い結合分子へと変化する。 メソスコピック系は、核物理学、超伝導粒子、量子ドットと密接に関連している。 実験における相互作用、粒子数、潜在的景観の精密な制御により、我々が本研究で確立した可観測性は、そのようなメソスコピックなシステムだけでなく、そのマクロな世界とのつながりに関する長年の疑問に対する新しいアプローチを提供する。

Pairing is the fundamental requirement for fermionic superfluidity and superconductivity. To understand the mechanism behind pair formation is an ongoing challenge in the study of many strongly correlated fermionic systems. Cooper pairs are the key ingredient to BCS theory as the microscopic explanation of conventional superconductivity. They form between particles of opposite spin and momentum at the Fermi surface of the system. Here, we directly observe Cooper pairs in a mesoscopic two-dimensional Fermi gas. We apply an imaging scheme that enables us to extract the full in-situ momentum distribution of a strongly interacting Fermi gas with single particle and spin resolution. Our ultracold gas allows us to freely tune between a completely non-interacting, unpaired system and weak attractions, where we find Cooper pair correlations at the Fermi surface. When increasing the attractive interactions even further, the pairs gradually turn into deeply bound molecules breaking up the Fermi surface. Our mesoscopic system is closely related to the physics of nuclei, superconducting grains or quantum dots. With the precise control over interactions, particle number and potential landscape in our experiment, the observables we establish in this work provide a new approach to longstanding questions concerning not only such mesoscopic systems but also their connection to the macroscopic world.
翻訳日:2023-03-13 23:02:52 公開日:2022-06-06
# パンデミック・インパクトアセスメント複合指標構築のための複数基準アプローチ:ポルトガルにおけるCovid-19の事例

A multiple criteria approach for constructing a pandemic impact assessment composite indicator: The case of Covid-19 in Portugal ( http://arxiv.org/abs/2109.11828v2 )

ライセンス: Link先を確認
Jos\'e Rui Figueira, Henrique M. Oliveira, Ana Paula Serro, Rog\'erio Cola\c{c}o, Filipe Froes, Carlos Robalo Cordeiro, Ant\'onio Diniz, Miguel Guimar\~aes(参考訳) 新型コロナウイルス(covid-19)のパンデミックは、社会、経済、健康システム(その他)に大きな被害と混乱を引き起こし、その強いネガティブな影響を軽減するための対策の設計と実施に関して、公衆衛生と政策/意思決定者に前例のない課題をもたらした。 ポルトガル保健当局は現在、このパンデミックの影響を評価し、各郡、地域、国全体の対策を実施するために、いくつかの決定分析のような手法を使用している。 このような決定ツールはいくつかの批判を招き、多くの利害関係者は新たなアプローチを求め、特に新しいウイルス変異やワクチンから生じるパンデミック行動の動的な変化を考慮に入れている。 リスボア大学(CCIST)のCovid-19 Committee of Instituto Superior T\'ecnico(英語版)の研究者とポルトガル医学会危機局(英語版)(GCOM)の専門家チーム(英語版)の医師が協力し、パンデミックとの戦いにおける政治家や意思決定者を支援する新しいツールを提案するために協力した。 本稿では,ポルトガルにおけるパンデミック・インパクト・アセスメント・コンポジット・インジケータの構築に繋がる主要なステップと要素について述べる。 パンデミックアセスメント複合指標(PACI)を構築するために, 付加的多属性値理論(MAVT)集約モデルに基づく多重基準手法を用いた。 加法モデルのパラメータは、CCISTとGCOMチームメンバー間の社会工学的共構築的対話プロセスを通して構築された。 カードのデッキは、価値関数の構築と基準ウェイトの評価を支援するために採用された技術ツールである。

The Covid-19 pandemic has caused impressive damages and disruptions in social, economic, and health systems (among others), and posed unprecedented challenges to public health and policy/decision-makers concerning the design and implementation of measures to mitigate its strong negative impacts. The Portuguese health authorities are currently using some decision analysis-like techniques to assess the impact of this pandemic and implementing measures for each county, region, or the whole country. Such decision tools led to some criticism and many stakeholders asked for novel approaches, in particular those having in consideration dynamical changes in the pandemic behavior arising, e.g., from new virus variants or vaccines. A multidisciplinary team formed by researchers of the Covid-19 Committee of Instituto Superior T\'ecnico at Universidade de Lisboa (CCIST analysts team) and medical doctors from the Crisis Office of the Portuguese Medical Association (GCOM experts team) gathered efforts and worked together in order to propose a new tool to help politicians and decision-makers in the combat of the pandemic. This paper presents the main steps and elements, which led to the construction of a pandemic impact assessment composite indicator, applied to the particular case of {\sc{Covid-19}} in Portugal. A multiple criteria approach based on an additive multi-attribute value theory (MAVT) aggregation model was used to construct the pandemic assessment composite indicator (PACI). The parameters of the additive model were built through a sociotechnical co-constructive interactive process between CCIST and GCOM team members. The deck of cards method was the technical tool adopted to help in building the value functions and the assessment of the criteria weights.
翻訳日:2023-03-13 21:07:55 公開日:2022-06-06
# 多対数量子ビットとゲート複雑性を持つ第二量子化フェルミオン作用素

Second-quantized fermionic operators with polylogarithmic qubit and gate complexity ( http://arxiv.org/abs/2109.14465v4 )

ライセンス: Link先を確認
William Kirby, Bryce Fuller, Charles Hadfield, and Antonio Mezzacapo(参考訳) 電子構造問題のように、フェルミオン数が保存されているとき、量子ビット内の第二量子化フェルミオン系を符号化する方法を提案する。 フェルミオンの数$f$がモード数$m$よりはるかに小さい場合、この対称性は情報理論上必要とされる量子ビットの数を$\theta(m)$から$o(f\log m)$に減少させる。 この制限では、符号化には$O(F^2\log^4 M)$ qubitsが必要であるが、符号化されたフェルミオン生成と消滅演算子は2量子ゲートで$O(F^2\log^5 M)$である。 ランダム化シミュレーション法に組み込まれた場合、これは$m$ に対する多対数な明示的な依存だけで時間発展をシミュレートできる。 これは量子ビットとゲートのコストがM$の多元対数であり、多くのモードの高精度な状態におけるフェルミオン系の研究を可能にする最初の量子化符号化である。

We present a method for encoding second-quantized fermionic systems in qubits when the number of fermions is conserved, as in the electronic structure problem. When the number $F$ of fermions is much smaller than the number $M$ of modes, this symmetry reduces the number of information-theoretically required qubits from $\Theta(M)$ to $O(F\log M)$. In this limit, our encoding requires $O(F^2\log^4 M)$ qubits, while encoded fermionic creation and annihilation operators have cost $O(F^2\log^5 M)$ in two-qubit gates. When incorporated into randomized simulation methods, this permits simulating time-evolution with only polylogarithmic explicit dependence on $M$. This is the first second-quantized encoding of fermions in qubits whose costs in qubits and gates are both polylogarithmic in $M$, which permits studying fermionic systems in the high-accuracy regime of many modes.
翻訳日:2023-03-13 04:58:22 公開日:2022-06-06
# 粒子運動量測定結果に対する波動関数による制約

Restrictions imposed by the wave function on the results of measurements of the particle momentum ( http://arxiv.org/abs/2111.06221v3 )

ライセンス: Link先を確認
N. L. Chuprikov(参考訳) Using the example of the quantum dynamics of a particle in a one-dimensional configuration space (OCS), it is shown that to know the wave function implies not only statistical restrictions on the measurement results: the integrand in the standard formula for calculating the average values of (self-adjoint) operators and the Schr\"{o}dinger equation for the modulus and phase of the wave function uniquely also define ' fields of operators' as functions of coordinate and time. A key role in establishing the physical meaning of these fields is played by the fact that the field of the kinetic energy operator contains two heterogeneous contributions: the first is determined by the field of the momentum operator, which is related only to the phase of the wave function, and the second coincides with the so-called "quantum mechanical potential", which is related only to the amplitude of the wave function. OCSの各点におけるこれらのフィールドの値は、一対の非相互作用粒子(一対の粒子アンサンブルの系)に対する対応する可観測物の平均値と見なされる。 それぞれの点において、運動エネルギーの場への最初の寄与は、一対の粒子の質量の中心の運動エネルギーと、その運動の質量の中心に対するエネルギーを記述している。 運動量作用素の場と運動エネルギー作用素の場は、k\"{o}nig の定理を考慮して、ocs において ocs の各点における粒子運動量値の2つの場を一意的に決定する。 運動量作用素の場から両方の運動量場の偏差に対するハイゼンベルクの不等式の類似式を得る。

Using the example of the quantum dynamics of a particle in a one-dimensional configuration space (OCS), it is shown that to know the wave function implies not only statistical restrictions on the measurement results: the integrand in the standard formula for calculating the average values of (self-adjoint) operators and the Schr\"{o}dinger equation for the modulus and phase of the wave function uniquely also define ' fields of operators' as functions of coordinate and time. A key role in establishing the physical meaning of these fields is played by the fact that the field of the kinetic energy operator contains two heterogeneous contributions: the first is determined by the field of the momentum operator, which is related only to the phase of the wave function, and the second coincides with the so-called "quantum mechanical potential", which is related only to the amplitude of the wave function. The values of these fields at each point of the OCS are considered as the average values of the corresponding observables for a pair of noninteracting particles (for a pair of systems of a one-particle ensemble). At each such point, the first contribution to the field of kinetic energy describes the kinetic energy of the center of mass of a pair of particles, and the second -- the energy of their motion relative to the center of mass. The field of the momentum operator and the field of the kinetic energy operator, taking into account the K\"{o}nig theorem, uniquely determine in the OCS two fields of particle momentum values at each point of the OCS. An analogue of the Heisenberg inequality for the deviations of both momentum fields from the field of the momentum operator is obtained.
翻訳日:2023-03-08 17:48:33 公開日:2022-06-06
# SNAP置換配列を最適化したウィグナー陰性状態のロバストな準備

Robust preparation of Wigner-negative states with optimized SNAP-displacement sequences ( http://arxiv.org/abs/2111.07965v2 )

ライセンス: Link先を確認
Marina Kudra, Mikael Kervinen, Ingrid Strandberg, Shahnawaz Ahmed, Marco Scigliuzzo, Amr Osman, Daniel P\'erez Lozano, Mats O. Thol\'en, Riccardo Borgani, David B. Haviland, Giulia Ferrini, Jonas Bylander, Anton Frisk Kockum, Fernando Quijandr\'ia, Per Delsing, Simone Gasparinetti(参考訳) 三次元マイクロ波キャビティにおける光の非古典的状態のホストは、連続可変量子情報処理において有望なパラダイムとして現れている。 ここでは、量子計算に有用な、Schr\"{o}dinger-cat状態、二項状態、Gottesman-Kitaev-Preskill状態(GKP)状態、および立方相状態などのウィグナー負状態の高忠実度生成を実験的に示す。 後者の状態は量子光学において長い間追求され、実験的に達成されることはなかった。 そのため、インターリーブされた選択数依存任意の位相 (SNAP) ゲートと変位の列を用いる。 状態準備を2ステップで最適化する。 まず、SNAPと変位ゲートのパラメータを最適化するために勾配差アルゴリズムを用いる。 次に、SNAPゲートを実装したパルスのエンベロープを最適化する。 その結果,高調波発振器における非古典状態の生成は,量子周波数や分散シフトなどのシステムパラメータの変動に頑健であることがわかった。

Hosting non-classical states of light in three-dimensional microwave cavities has emerged as a promising paradigm for continuous-variable quantum information processing. Here we experimentally demonstrate high-fidelity generation of a range of Wigner-negative states useful for quantum computation, such as Schr\"{o}dinger-cat states, binomial states, Gottesman-Kitaev-Preskill (GKP) states, as well as cubic phase states. The latter states have been long sought after in quantum optics and were never achieved experimentally before. To do so, we use a sequence of interleaved selective number-dependent arbitrary phase (SNAP) gates and displacements. We optimize the state preparation in two steps. First we use a gradient-descent algorithm to optimize the parameters of the SNAP and displacement gates. Then we optimize the envelope of the pulses implementing the SNAP gates. Our results show that this way of creating highly non-classical states in a harmonic oscillator is robust to fluctuations of the system parameters such as the qubit frequency and the dispersive shift.
翻訳日:2023-03-08 02:18:13 公開日:2022-06-06
# すべてを支配する義務がある:断熱からゼノまで

One bound to rule them all: from Adiabatic to Zeno ( http://arxiv.org/abs/2111.08961v2 )

ライセンス: Link先を確認
Daniel Burgarth, Paolo Facchi, Giovanni Gramegna, Kazuya Yuasa(参考訳) 我々は、時間依存ハミルトニアンが生成するユニタリ進化の間の距離に関する普遍的非摂動的境界を、それらの積分作用の違いの観点から導出する。 この結果を用いて、回転波近似に対する明示的な誤差境界を提供し、量子ビットのケースを超えて一般化する。 回転波近似の長い時間と時間依存振幅変調の存在下での誤差について考察する。 また、我々の普遍境界は、ゼノ制御や動的デカップリングを含む量子制御戦略に関連する強結合極限、断熱定理、積公式などの他の既知の定理を導出し一般化するためにどのように用いられるかを示す。 最後に、トロッター積公式の一般化バージョンを証明し、その妥当性を標準スケーリング仮定を超えて拡張する。

We derive a universal nonperturbative bound on the distance between unitary evolutions generated by time-dependent Hamiltonians in terms of the difference of their integral actions. We apply our result to provide explicit error bounds for the rotating-wave approximation and generalize it beyond the qubit case. We discuss the error of the rotating-wave approximation over long time and in the presence of time-dependent amplitude modulation. We also show how our universal bound can be used to derive and to generalize other known theorems such as the strong-coupling limit, the adiabatic theorem, and product formulas, which are relevant to quantum-control strategies including the Zeno control and the dynamical decoupling. Finally, we prove generalized versions of the Trotter product formula, extending its validity beyond the standard scaling assumption.
翻訳日:2023-03-07 21:54:14 公開日:2022-06-06
# 乱れ量子多体系に対する適応重み付きツリーテンソルネットワーク

Adaptive-weighted tree tensor networks for disordered quantum many-body systems ( http://arxiv.org/abs/2111.12398v2 )

ライセンス: Link先を確認
Giovanni Ferrari, Giuseppe Magnifico, Simone Montangero(参考訳) 適応重み付きツリーテンソルネットワークを導入し、乱れや不均一な量子多体系の研究を行う。 このアンサッツは物理系のランダムなカップリングに基づいて組み立てられ、完全にバランスの取れない木を避けるためにチューナブルな重みパラメータを考える手順で組み立てられる。 この手法を用いて, 2次元量子イジングモデルの基底状態のクエンチされた乱数とフラストレーションの存在下で計算し, 格子サイズは32 \times 32$ である。 本研究では, 標準等質木テンソルネットワークと完全自己組立木テンソルネットワークを用いて得られたものと比較し, 特に大規模システムにおいて, 重みパラメータの関数としての数値精度の明確な向上を示す。

We introduce an adaptive-weighted tree tensor network, for the study of disordered and inhomogeneous quantum many-body systems. This ansatz is assembled on the basis of the random couplings of the physical system with a procedure that considers a tunable weight parameter to prevent completely unbalanced trees. Using this approach, we compute the ground state of the two-dimensional quantum Ising model in the presence of quenched random disorder and frustration, with lattice size up to $32 \times 32$. We compare the results with the ones obtained using the standard homogeneous tree tensor networks and the completely self-assembled tree tensor networks, demonstrating a clear improvement of numerical precision as a function of the weight parameter, especially for large system sizes.
翻訳日:2023-03-07 00:05:50 公開日:2022-06-06
# 低次元連続ボゾン系におけるRenyiエントロピーの量子後クエンチ成長

Post-Quantum Quench Growth of Renyi Entropies in Low Dimensional Continuum Bosonic Systems ( http://arxiv.org/abs/2112.04412v3 )

ライセンス: Link先を確認
Sara Murciano, Pasquale Calabrese, Robert M. Konik(参考訳) 相関系へのエネルギー注入後のレニイエントロピーの成長は、その絡み合い特性のダイナミクスの窓となる。 ここでは, 任意の相互作用を持つルッティンガー液体系において, 液体にギャップを導入するものであっても, この成長を決定できるシミュレーションスキームを開発した。 このスキームをsine-Gordon場理論の実験的なクエンチに適用する。 短時間で第2および第3レニーエントロピーの成長を解析的に表現し、より長い時間にアクセスできるようにするが、このスキームを断続的なスペクトル法と組み合わせる。

The growth of Renyi entropies after the injection of energy into a correlated system provides a window upon the dynamics of its entanglement properties. We develop here a simulation scheme by which this growth can be determined in Luttinger liquids systems with arbitrary interactions, even those introducing gaps into the liquid. We apply this scheme to an experimentally relevant quench in the sine-Gordon field theory. While for short times we provide an analytic expression for the growth of the second and third Renyi entropy, to access longer times, we combine our scheme with truncated spectrum methods.
翻訳日:2023-03-05 03:04:12 公開日:2022-06-06
# 量子力学の奇性について

On the strangeness of quantum mechanics ( http://arxiv.org/abs/2112.15503v3 )

ライセンス: Link先を確認
Marcello Poletti(参考訳) 量子力学の余波は、自然哲学に関する議論を日々豊かにすることは決してない。 絡み合い、非局所性、崩壊、多くの世界、多くの心、主観主義は世代の思想家に挑戦してきた。 そのアプローチは、ベルの不等式を破って量子力学の「ストレンジネス」が「測定される」量子論理の流れの中に置かれる可能性があり、そこから現実主義を保ちながらそれを覆す解釈的経路を試み、qmの基本的なメカニズムを強い実在論の論理的な必要性として再現する。

The extravagances of quantum mechanics never fail to enrich daily the debate around natural philosophy. Entanglement, non-locality, collapse, many worlds, many minds, and subjectivism have challenged generations of thinkers. Its approach can perhaps be placed in the stream of quantum logic, in which the "strangeness" of quantum mechanics is "measured" through the violation of Bell's inequalities and, from there, attempts an interpretative path that preserves realism yet ends up overturning it, restating the fundamental mechanisms of QM as a logical necessity for a strong realism.
翻訳日:2023-03-03 03:34:56 公開日:2022-06-06
# エントロピー非文脈不等式のモノガミー関係とその実験的実現

Monogamy relations of entropic non-contextual inequalities and their experimental realization ( http://arxiv.org/abs/2201.02330v2 )

ライセンス: Link先を確認
Dileep Singh, Jaskaran Singh, Kavita Dorai, Arvind(参考訳) 本研究では,エントロピー的非コンテキスト性(ENC)の不等式の一様関係を解析するためのグラフ理論に基づく理論的枠組みを開発する。 encの不等式は量子情報理論において重要であり、よく研究されているが、その単元的性質の理論的および実験的実証はいまだに解明されていない。 ENCの不等式が一夫一婦関係を示す条件を提供し、一般的なシナリオでも同様に導出する。 3成分のシナリオに作用するベル・チェシュの不等式(英語版)の2つのエントロピーバージョンは一夫多妻関係を示し、理論的な証明とnmr量子情報処理における実験的検証を提供する。 エントロピー評価のための実験手法は,観測対象の期待値のみを測定することでエントロピーに関する情報を得るように設計されている。

We develop a theoretical framework based on a graph theoretic approach to analyze monogamous relationships of entropic non-contextuality (ENC) inequalities. While ENC inequalities are important in quantum information theory and are well studied, theoretical as well as experimental demonstration of their monogamous nature is still elusive. We provide conditions for ENC inequalities to exhibit a monogamous relationship and derive the same for general scenarios. We show that two entropic versions of the Bell-CHSH inequality acting on a tripartite scenario exhibit a monogamous relationship, for which we provide a theoretical proof as well as an experimental validation on an NMR quantum information processor. Our experimental technique to evaluate entropies has been designed to obtain information about entropies via measurement of only the expectation values of observables.
翻訳日:2023-03-02 01:35:57 公開日:2022-06-06
# マルチコピーシナリオにおける量子状態の真のマルチパーティタイト絡み合い

Genuine multipartite entanglement of quantum states in the multiple-copy scenario ( http://arxiv.org/abs/2201.08694v3 )

ライセンス: Link先を確認
Carlos Palazuelos, Julio I. de Vicente(参考訳) GME(Genuine multipartite entanglement)は、2つの分離不能な状態、すなわち、パーティの異なる分割にまたがる部分分離可能な状態の混合に対応するため、強力なエンタングルメントの形式と考えられている。 本研究では,与えられた状態の完全なコピーを多数生成・制御できるマルチコピー方式において,この現象を研究する。 このシナリオでは、上記の定義は、biseparable state が gme-activaable、すなわち、biseparable state の複数のコピーが gme を表示することができるため、微妙な複雑さをもたらす。 状態が gme-activaable であるとは、それが当事者の1つの二分法で部分的に分離できない場合に限り、その状態は gme-activaable である。 これは、負に答えるgmeの活性化を観察するために考慮する必要があるコピー数に一般的な上限が存在するかどうかという2つ目の問題につながる。 特に、明示的な構成を提供することにより、任意の個数と任意の数 $k\in\mathbb{N}$ に対して、固定(すなわち$k$とは独立)な局所次元の GME-アクティヴァブルな多部状態が存在し、$k$のコピーが二分可能であることを証明できる。

Genuine multipartite entanglement (GME) is considered a powerful form of entanglement since it corresponds to those states that are not biseparable, i.e.\ a mixture of partially separable states across different bipartitions of the parties. In this work we study this phenomenon in the multiple-copy regime, where many perfect copies of a given state can be produced and controlled. In this scenario the above definition leads to subtle intricacies as biseparable states can be GME-activatable, i.e.\ several copies of a biseparable state can display GME. We show that the set of GME-activatable states admits a simple characterization: a state is GME-activatable if and only if it is not partially separable across one bipartition of the parties. This leads to the second question of whether there is a general upper bound in the number of copies that needs to be considered in order to observe the activation of GME, which we answer in the negative. In particular, by providing an explicit construction, we prove that for any number of parties and any number $k\in\mathbb{N}$ there exist GME-activatable multipartite states of fixed (i.e.\ independent of $k$) local dimensions such that $k$ copies of them remain biseparable.
翻訳日:2023-02-28 06:04:04 公開日:2022-06-06
# 多電子量子ドット系における交換相互作用の磁場調整スイートスポットに関する微視的理論

Microscopic theory on magnetic-field-tuned sweet spot of exchange interactions in multielectron quantum-dot systems ( http://arxiv.org/abs/2202.02308v2 )

ライセンス: Link先を確認
Guo Xuan Chan and Xin Wang(参考訳) 二重量子ドット系における二電子状態によって定義される一重項量子ビットの交換相互作用(二電子一重項量子ビット)は、通常、交換相互作用と単調に変化し、甘い点を持たない。 ここでは、二重量子ドット系("four-electron singlet-triplet qubit")における四電子状態によって定義される一重項量子ビットについて検討する。 4電子単項三重項量子ビットにおいて、調律関数としての交換エネルギーは非単調であることを示し、スイートスポットの存在を示唆する。 さらに、垂直磁場によるスイーツスポットのチューニングとそれに対応する交換エネルギーが、軌道分割のばらつきに関連していることが示される。 以上の結果から,2電子以上の一重項量子ビットは量子コンピューティングの実現に有利であることが示唆された。

The exchange interaction in a singlet-triplet qubit defined by two-electron states in the double-quantum-dot system ("two-electron singlet-triplet qubit") typically varies monotonically with the exchange interaction and thus carries no sweet spot. Here we study a singlet-triplet qubit defined by four-electron states in the double-quantum-dot system ("four-electron singlet-triplet qubit"). We demonstrate, using configuration-interaction calculations, that in the four-electron singlet-triplet qubit the exchange energy as a function of detuning can be non-monotonic, suggesting existence of sweet spots. We further show that the tuning of the sweet spot and the corresponding exchange energy by perpendicular magnetic field can be related to the variation of orbital splitting. Our results suggest that a singlet-triplet qubit with more than two electrons can have advantages in the realization of quantum computing.
翻訳日:2023-02-26 20:41:54 公開日:2022-06-06
# 一般相関環境における衝突的開量子力学:テンソルネットワークにおける完全可解性

Collisional open quantum dynamics with a generally correlated environment: Exact solvability in tensor networks ( http://arxiv.org/abs/2202.04697v2 )

ライセンス: Link先を確認
Sergey N. Filippov and Ilia A. Luchnikov(参考訳) 量子衝突モデルは、開量子系の力学における多くの非自明な現象を記述することで注目を集めている。 基本的および実用的両方の一般的なシナリオでは、量子システムは個々の粒子やモードと繰り返し相互作用し、相関し、構造化された貯水池を形成するが、古典的および量子環境の相関は系の力学の計算と解釈を大いに複雑にする。 本稿では,テンソルネットワーク形式に基づくこの問題に対する厳密な解法を提案する。 システム力学の自然なマルコフ埋め込みは,ネットワークの仮想指標によって補助的なシステムの役割を担っている。 構築された埋め込みは、2光子波束とのシステム相互作用、構造的なフォトニック状態、一次元スピン鎖など、多くのタイムリーな問題に対する解析的な処理に適している。 また、時間畳み込みマスター方程式を導出し、そのメモリカーネルと環境相関関数を関連付けることにより、力学におけるメモリ効果の物理像を明らかにする。 その結果、量子光学と量子輸送の分野におけるテンソルネットワーク法が進歩する。

Quantum collision models are receiving increasing attention as they describe many nontrivial phenomena in dynamics of open quantum systems. In a general scenario of both fundamental and practical interest, a quantum system repeatedly interacts with individual particles or modes forming a correlated and structured reservoir; however, classical and quantum environment correlations greatly complicate the calculation and interpretation of the system dynamics. Here we propose an exact solution to this problem based on the tensor network formalism. We find a natural Markovian embedding for the system dynamics, where the role of an auxiliary system is played by virtual indices of the network. The constructed embedding is amenable to analytical treatment for a number of timely problems like the system interaction with two-photon wavepackets, structured photonic states, and one-dimensional spin chains. We also derive a time-convolution master equation and relate its memory kernel with the environment correlation function, thus revealing a clear physical picture of memory effects in the dynamics. The results advance tensor-network methods in the fields of quantum optics and quantum transport.
翻訳日:2023-02-26 06:47:36 公開日:2022-06-06
# 厳密解モデルにおけるユビリアン皮膚効果

Liouvillian Skin Effect in an Exactly Solvable Model ( http://arxiv.org/abs/2203.01333v2 )

ライセンス: Link先を確認
Fan Yang, Qing-Dong Jiang, Emil J. Bergholtz(参考訳) 散逸,トポロジ,境界条件に対する感度の相互作用は,近年,非エルミート的非エルミート的記述のレベルで大きな注目を集めている。 ここでは、開境界条件 (OBC) と周期境界条件 (PBC) の両方に対するフェルミオンの散逸的トポロジカルSu-Schrieffer-Heeger (SSH) 鎖を記述する量子力学的リンドブラッドマスター方程式を正確に解く。 その結果,非エルミート皮膚効果に関連する境界条件に対する極度の感度は,リウビリアン皮膚効果を生じる密度行列の時間発展を規定する速さに直接反映されることがわかった。 これは境界感度減衰挙動、有限周期系の定常状態電流、大規模系の限界における緩和時間の変化など、いくつかの興味深い現象をもたらす。 これらの系におけるトポロジーの役割が、有効な非エルミートハミルトニアン極限とフルマスター方程式の枠組みにおいてどのように異なるかを明らかにする。

The interplay between dissipation, topology and sensitivity to boundary conditions has recently attracted tremendous amounts of attention at the level of effective non-Hermitian descriptions. Here we exactly solve a quantum mechanical Lindblad master equation describing a dissipative topological Su-Schrieffer-Heeger (SSH) chain of fermions for both open boundary condition (OBC) and periodic boundary condition (PBC). We find that the extreme sensitivity on the boundary conditions associated with the non-Hermitian skin effect is directly reflected in the rapidities governing the time evolution of the density matrix giving rise to a Liouvillian skin effect. This leads to several intriguing phenomena including boundary sensitive damping behavior, steady state currents in finite periodic systems, and diverging relaxation times in the limit of large systems. We illuminate how the role of topology in these systems differs in the effective non-Hermitian Hamiltonian limit and the full master equation framework.
翻訳日:2023-02-23 07:52:21 公開日:2022-06-06
# 量子、コヒーレント、熱光を用いた測定のエネルギーコスト

Energetic cost of measurements using quantum, coherent, and thermal light ( http://arxiv.org/abs/2203.01329v3 )

ライセンス: Link先を確認
Xiayu Linpeng, L\'ea Bresque, Maria Maffei, Andrew N. Jordan, Alexia Auff\`eves, and Kater W. Murch(参考訳) 量子計測は、量子情報の研究と応用において重要な役割を果たす基本的な演算である。 回路量子力学における光の量子、コヒーレント、および古典的な熱状態の利用が、それぞれの測定バックアクションと測定信号と光子当たりの雑音比を比較することで、量子測定の性能に与える影響について検討する。 強い分散限界では、熱光はコヒーレント光に匹敵する効率で量子測定を行うことができ、どちらも単光子光よりも優れていた。 次に各測定方式の熱力学的コストを解析する。 単光子光は情報ゲイン当たりのエネルギーコストの面で優位性を示し、基本的な熱力学的コストに達する。

Quantum measurements are basic operations that play a critical role in the study and application of quantum information. We study how the use of quantum, coherent, and classical thermal states of light in a circuit quantum electrodynamics setup impacts the performance of quantum measurements, by comparing their respective measurement backaction and measurement signal to noise ratio per photon. In the strong dispersive limit, we find that thermal light is capable of performing quantum measurements with comparable efficiency to coherent light, both being outperformed by single-photon light. We then analyze the thermodynamic cost of each measurement scheme. We show that single-photon light shows an advantage in terms of energy cost per information gain, reaching the fundamental thermodynamic cost.
翻訳日:2023-02-23 07:51:53 公開日:2022-06-06
# 分散化の失敗時にbitcoinを保護した匿名グループとの協力

Cooperation among an anonymous group protected Bitcoin during failures of decentralization ( http://arxiv.org/abs/2206.02871v1 )

ライセンス: Link先を確認
Alyssa Blackburn, Christoph Huber, Yossi Eliaz, Muhammad S. Shamim, David Weisz, Goutham Seshadri, Kevin Kim, Shengqi Hang, and Erez Lieberman Aiden(参考訳) bitcoinは、匿名エージェントの分散的で信頼できないネットワークに依存するように設計されたデジタル通貨である。 99%の感度と99%の特異性を達成する偽のアドレスリンク手順を使って、ローンチ(2009年1月3日)と1ドル(2011年2月9日)の間、ほとんどのbitcoinはたったの46のエージェントによって採掘された。 これは、ビットコイン収入のパレート分布が急速に出現し、現代のビットコインアドレスのほとんど全てが6つの取引の連鎖によってこれらの上位エージェントと接続できるような広範な資源集中化を生み出したためである。 中央集権化は社会ジレンマを生み出した。 攻撃者は「51%の攻撃」によってbitcoinを日常的に悪用し、同じbitcoinを何度も使うことができる。 しかし、それはコミュニティに害を与える。 驚いたことに、攻撃の可能性は常に協力することを選んだ。 このジレンマを n-player centipede のゲームでモデル化し、匿名プレイヤーが悪用を選択できる。 理論と経済実験を組み合わせることで,個別のペイオフが変更されていない場合でも,匿名グループによるゲームプレイでは協調がより頻繁に行われることを示す。 bitcoinは匿名エージェントの分散的で信頼できないネットワークに依存するように設計されていたが、初期の成功は利他的創業者の小さなグループとの協力によるものだった。

Bitcoin is a digital currency designed to rely on a decentralized, trustless network of anonymous agents. Using a pseudonymous-address-linking procedure that achieves >99% sensitivity and >99% specificity, we reveal that between launch (January 3rd, 2009), and when the price reached $1 (February 9th, 2011), most bitcoin was mined by only sixty-four agents. This was due to the rapid emergence of Pareto distributions in bitcoin income, producing such extensive resource centralization that almost all contemporary bitcoin addresses can be connected to these top agents by a chain of six transactions. Centralization created a social dilemma. Attackers could routinely exploit bitcoin via a "51% attack", making it possible for them to repeatedly spend the same bitcoins. Yet doing so would harm the community. Strikingly, we find that potential attackers always chose to cooperate instead. We model this dilemma using an N-player Centipede game in which anonymous players can choose to exploit, and thereby undermine, an appreciating good. Combining theory and economic experiments, we show that, even when individual payoffs are unchanged, cooperation is more frequent when the game is played by an anonymous group. Although bitcoin was designed to rely on a decentralized, trustless network of anonymous agents, its early success rested instead on cooperation among a small group of altruistic founders.
翻訳日:2023-02-19 17:30:13 公開日:2022-06-06
# 入門プログラミングのためのプラジャリズム抑止

Plagiarism deterrence for introductory programming ( http://arxiv.org/abs/2206.02848v1 )

ライセンス: Link先を確認
Simon J. Cohen, Michael J. Martin, Chance A. Shipley, Abhishek Kumar, Andrew R. Cohen(参考訳) 入門プログラミングコースにおけるプラジャリズムは、学生と機関の両方にとって大きな課題である。 学生にとって、学業発展の早い段階で他人の仕事に頼ることは、将来独立して成功するために必要なスキルを習得することは不可能である。 教育機関にとって、広範な学生の不正行為は、提供される教育経験の質を損なう可能性がある。 現在利用可能なソリューションは、学生の提出と懲罰的抑止の2つの比較のみを考慮に入れている。 このアプローチは,生徒の努力の独立性を表す直感的な新しいp値を通じて,明確かつセキュアに学生と共有できるクラス全体の統計特性に依存する。 圧縮に基づく類似度検出アルゴリズムは、代入間の関係をより正確に捉える。 自動抑止システムは、生徒の行動が密に監視されていることを警告するために使用される。 high-confidenceインスタンスは、オープンソースツールキットを使用してインストラクタレビューを直接利用できます。 無バイアスのスコアリングシステムは、学生とインストラクターが真の努力の独立を理解するのを助ける。 予備的な結果から,1週目から独立性の有意義な測定が得られ,技術教育の効果が向上することが示唆された。

Plagiarism in introductory programming courses is an enormous challenge for both students and institutions. For students, relying on the work of others too early in their academic development can make it impossible to acquire necessary skills for independent success in the future. For institutions, widespread student cheating can dilute the quality of the educational experience being offered. Currently available solutions consider only pairwise comparisons between student submissions and focus on punitive deterrence. Our approach instead relies on a class-wide statistical characterization that can be clearly and securely shared with students via an intuitive new p-value representing independence of student effort. A pairwise, compression-based similarity detection algorithm captures relationships between assignments more accurately. An automated deterrence system is used to warn students that their behavior is being closely monitored. High-confidence instances are made directly available for instructor review using our open-source toolkit. An unbiased scoring system aids students and the instructor in understanding true independence of effort. Preliminary results indicate that the system can provide meaningful measurements of independence from week one, improving the efficacy of technical education.
翻訳日:2023-02-19 17:29:48 公開日:2022-06-06
# AIにおける透明性とエンゲージメントを改善するフェミニストにインスパイアされたソーシャル・イマジナリー

Terms-we-Serve-with: a feminist-inspired social imaginary for improved transparency and engagement in AI ( http://arxiv.org/abs/2206.02492v1 )

ライセンス: Link先を確認
Bogdana Rakova, Megan Ma, Renee Shelby(参考訳) 人々とデジタル技術企業間の力と情報の対称性は、多種多様な人々に有意義な同意と競争力を与えることに失敗した契約契約を通じて、主に合法化されてきた。 我々は,アルゴリズム的害の個人的および集団的経験において,人事の改善を可能にするために,権力の非対称性と中心周辺ダイナミクスを再構築するための社会的,計算的,法的契約(TwSw)という,規制フレームワークの将来に関する学際的多次元的視点を提供する。

Power and information asymmetries between people and digital technology companies have predominantly been legitimized through contractual agreements that have failed to provide diverse people with meaningful consent and contestability. We offer an interdisciplinary multidimensional perspective on the future of regulatory frameworks - the Terms-we-Serve-with (TwSw) social, computational, and legal contract for restructuring power asymmetries and center-periphery dynamics to enable improved human agency in individual and collective experiences of algorithmic harms.
翻訳日:2023-02-19 17:29:34 公開日:2022-06-06
# 多目的最適化による物質輸送問題のモデル化

Modeling the Material-Inventory Transportation Problem Using Multi-Objective Optimization ( http://arxiv.org/abs/2206.02350v1 )

ライセンス: Link先を確認
Issarapong Khuankrue, Sudchai Boonto and Yasuhiro Tsujimura(参考訳) 産業4.0の時代には、サプライチェーン管理の調達が情報管理システムの発展の鍵となる。 生産計画の失敗に直接影響する。 この場合、材料在庫が通常段階にあり、生産ラインで製品を製造することができるのは、準備と確認のプロセスである。 産業情報学の分野では、工場間でのデータ共有を活用するための情報管理アプローチを提供することができる。 多目的最適化は、材料インベントリ、生産計画とモニタリング、輸送計画コラボレーションの統合によって実現される。 物質-発明輸送問題は、生産計画が失敗した場合の仮想工場の状況である。 それぞれの工場間で材料を輸送し、顧客へ配布するコストがかかる。 本研究では, ある工場から別の工場へ, どうすれば他の資材を輸送できるのかという課題について考察する。 本研究では,輸送による材料在庫の調整に関するモデルを提案した。 このモデルの目的は、生産コストと総輸送コストを最小化することである。

In the era of industry 4.0, procurement in supply chain management is the key to developing information management systems. It directly affects production planning failure. In this case, it is the process to prepare and confirming the material inventory is in the ordinal stages and be able to produce the products in any production line. In terms of industrial informatics, it can provide information management approaches for leveraging data sharing between factories. The multiobjective optimization will be enabled by integrating material inventory, production planning and monitoring, and transportation planning collaboration. The material-inventory transportation problem is the virtual factory situation when production plan failure occurs. It becomes the cost to transport material between each factory and the distribution to clients. In this study, the question of the material-inventory transportation problem is: How can we transport other materials from one factory into another factory? This study proposed a model to find out about the adjustment of material inventory through transportation. The objective of this model is to minimize the whole production cost and total transportation cost.
翻訳日:2023-02-19 17:29:22 公開日:2022-06-06
# 認証ミームとコーディネートミーム間の視覚テーマのマッピング

Mapping Visual Themes among Authentic and Coordinated Memes ( http://arxiv.org/abs/2206.02306v1 )

ライセンス: Link先を確認
Keng-Chi Chang(参考訳) 本物のミームと州立俳優が作ったミームの区別は? 私は、DeepCluster (Caron et al. 2019) という自己監督型視覚モデルを使って、ミームの低次元視覚埋め込みを学習し、K平均を、追加の入力なしで協調的にクラスタリングする。 本物のミームとコーディネートされたミームは、多くの視覚的テーマを共有しています。 ロシアのIRAアカウントのコーディネートミームは、有名人、引用文、スクリーンショット、軍、性別に関するテーマを増やす。 redditの本物のミームには、コミックや映画のキャラクターのテーマが含まれている。 低次元埋め込みにおける単純なロジスティック回帰は、IRAミームとRedditミームを区別し、サンプル外テスト精度は0.84である。

What distinguishes authentic memes from those created by state actors? I utilize a self-supervised vision model, DeepCluster (Caron et al. 2019), to learn low-dimensional visual embeddings of memes and apply K-means to jointly cluster authentic and coordinated memes without additional inputs. I find that authentic and coordinated memes share a large fraction of visual themes but with varying degrees. Coordinated memes from Russian IRA accounts promote more themes around celebrities, quotes, screenshots, military, and gender. Authentic Reddit memes include more themes with comics and movie characters. A simple logistic regression on the low-dimensional embeddings can discern IRA memes from Reddit memes with an out-sample testing accuracy of 0.84.
翻訳日:2023-02-19 17:29:08 公開日:2022-06-06
# 共同受賞:本当に勝つか? インドにおけるワクチン接種反応の不平等の分析

Co-WIN: Really Winning? Analysing Inequity in India's Vaccination Response ( http://arxiv.org/abs/2202.04433v2 )

ライセンス: Link先を確認
Tanvi Karandikar, Avinash Prabhu, Mehul Mathur, Megha Arora, Hemank Lamba, Ponnurangam Kumaraguru(参考訳) 新型コロナウイルス(covid-19)のパンデミックは世界中で550万人が死亡し、そのうち8.7%がインド出身だ。 パンデミックはインドの医療システムの弱点を悪化させた。 2022年1月20日時点で、インドは382万件の報告があり、死者は487万人である。 疫学者によると、ワクチンはパンデミックの拡散を防ぐ重要な手段である。 インドの予防接種は2021年1月16日に始まり、社会の異なる人口を優先する政府の政策が導入された。 ワクチン接種の推進を通じて、ワクチンが容易に利用でき、ワクチン接種範囲が増加するよう、複数の新しい方針が導入された。 しかし同時に、導入された政府政策のいくつかは、意図しない人口の不平等を招いた。 本報告では,インドの予防接種政策に存在した不平等を列挙し,分析するとともに,導入した新政策の効果を計算した。 我々は,これらの潜在的不平等を質的だけでなく定量的に分析し,政府のポータルから得られるデータを活用する。 具体的には a) 政策に存在する可能性のある不平等を発見する。 (b)予防接種率を高めるために導入された新規政策の効果を定量化し、 (c) 異なるデータソースにまたがるデータの相違点も指摘する。

The COVID-19 pandemic has so far accounted for reported 5.5M deaths worldwide, with 8.7% of these coming from India. The pandemic exacerbated the weakness of the Indian healthcare system. As of January 20, 2022, India is the second worst affected country with 38.2M reported cases and 487K deaths. According to epidemiologists, vaccines are an essential tool to prevent the spread of the pandemic. India's vaccination drive began on January 16, 2021 with governmental policies being introduced to prioritize different populations of the society. Through the course of the vaccination drive, multiple new policies were also introduced to ensure that vaccines are readily available and vaccination coverage is increased. However, at the same time, some of the government policies introduced led to unintended inequities in the populations being targeted. In this report, we enumerate and analyze the inequities that existed in India's vaccination policy drive, and also compute the effect of the new policies that were introduced. We analyze these potential inequities not only qualitatively but also quantitatively by leveraging the data that was made available through the government portals. Specifically, (a) we discover inequities that might exist in the policies, (b) we quantify the effect of new policies introduced to increase vaccination coverage, and (c) we also point the data discrepancies that exist across different data sources.
翻訳日:2023-02-19 14:47:52 公開日:2022-06-06
# 量子電池の散逸帯電における集合効果と量子コヒーレンス

Collective effects and quantum coherence in dissipative charging of quantum batteries ( http://arxiv.org/abs/2205.06897v2 )

ライセンス: Link先を確認
Franco Mayo and Augusto J. Roncaglia(参考訳) 非エネルギー保存相互作用を用いて蓄熱槽にバッテリを結合する衝突モデルを用いて, 量子電池の消散充電過程を考察する。 まず, 低温においては, 電池数に比例して多元的に増大する帯電力が得られることを示す。 私たちが見つけたスケーリングは$N^3$であり、ユニタリプロセスで得られたバウンダリよりもグラターであるが、効率は低い。 そこで,エネルギーベースでコヒーレンスを生成する時間依存ハミルトニアンを用いて,単電池の消散充電過程について検討した。 この場合、コヒーレンスの存在は充電力と効率を高めることができる。 最後に、このプロセスが、そのオープンストロークの1つとして充電プロセスを含む量子熱エンジンでどのように使用できるかを示す。

We consider the dissipative charging process of quantum batteries in terms of a collisional model, where the batteries are coupled to a heat bath using non-energy preserving interactions. First, we show that for low temperatures the collective process can attain a charging power that increases polynomically with the number of batteries. The scaling we find is $N^3$ that, while being grater than the bound obtained for unitary processes, it has a lower efficiency. Then, we study the dissipative charging process of single battery using a time dependent Hamiltonian that generates coherences in the energy basis. In this case we find that the presence of coherence could enhance the charging power and also its efficiency. Finally, we show how this process can be used in a quantum heat engine that contains the charging process as one of its open strokes.
翻訳日:2023-02-13 06:41:14 公開日:2022-06-06
# 非エルミートスピン鎖の定常状態を持つパラメータ推定

Parameter estimation with the steady states of non-Hermitian spin chains ( http://arxiv.org/abs/2206.02322v1 )

ライセンス: Link先を確認
Huiqin Zhang and Jiasen Jin(参考訳) 非エルミートスピン鎖の定常状態を用いたパラメータ推定法を提案する。 推定されるパラメータは、チェーンの第一部位に課される外部磁場を介してシステム内で符号化される。 2つの部位のスピン鎖の解析スペクトルを得る。 量子フィッシャー情報 (qfi) は励起場の振幅について発散し, 方位角に関するqfiは例外点において最大値に達する。 さらに、短距離相関のみを印加磁場によって誘導するため、システムサイズが増大し、十分に長いスピンチェーンが飽和するにつれてQFIが向上する。

We propose a scheme for parameter estimation with the steady states of non-Hermitian spin chains. The parameters to be estimated are encoded in the system via the external magnetic field that imposed on the first site of the chain. We obtain the analytical spectrum for the spin chain of two sites. We find that the quantum Fisher information (QFI) about the amplitude of the imposing field diverges while the QFI about the azimuthal angle reaches to the maximum at exceptional points. Moreover, the QFI is enhanced as the system size increasing and saturates for sufficiently long spin chain because only short-range correlations are induced by the imposing field.
翻訳日:2023-02-10 09:48:46 公開日:2022-06-06
# 最大エントロピー形式に基づく量子状態トモグラフィーへの変分アプローチ

Variational Approach to Quantum State Tomography based on Maximal Entropy Formalism ( http://arxiv.org/abs/2206.02304v1 )

ライセンス: Link先を確認
Rishabh Gupta, Manas Sajjan, Raphael D. Levine, Sabre Kais(参考訳) 量子状態トモグラフィーは量子計算の不可欠な部分であり、様々な量子デバイスを検証するための出発点を提供する。 状態トモグラフィーの分野における中心的な課題の1つは、量子系の量子状態である高忠実度で再構成することである。 実量子デバイス上の実験から、異なる演算子の平均測定値を得ることができる。 このようなデータを入力として、この報告では最大エントロピー形式を用いて、与えられた期待値の集合と一致する最小バイアスの混合量子状態を構築する。 原則として、報告された形式主義は極めて一般的であり、任意の観測可能な集合に対して働くべきであるが、実際には、エルミート作用素の情報完全(ic)集合上でアルゴリズムの有効性を実証する。 このような集合は、実験的な測定がサンプリングされた単一の量子状態を一意に特定する利点があり、したがって、最小バイアスの量子状態を構築するだけでなく、プリセットの許容範囲内で実験的に準備された正確な状態を複製する稀な機会を与える。 アルゴリズムの主な作業は、システムの有効ハミルトニアンとして指定したエネルギー関数を再構成し、最大エントロピーの形式主義に従ってラグランジュ乗算器でパラメータ化することである。 これらのパラメータは変分的に最適化され、システムの再構成された量子状態が誤差しきい値内で真の量子状態に収束する。 そこで本研究では,パラメータ化量子回路とハイブリッド量子古典変分アルゴリズムを用いて,近い将来の量子デバイスで容易に実装可能なターゲット状態を得る。

Quantum state tomography is an integral part of quantum computation and offers the starting point for the validation of various quantum devices. One of the central tasks in the field of state tomography is to reconstruct with high fidelity, the quantum states of a quantum system. From an experiment on a real quantum device, one can obtain the mean measurement values of different operators. With such a data as input, in this report we employ the maximal entropy formalism to construct the least biased mixed quantum state that is consistent with the given set of expectation values. Even though in principle, the reported formalism is quite general and should work for an arbitrary set of observables, in practice we shall demonstrate the efficacy of the algorithm on an informationally complete (IC) set of Hermitian operators. Such a set possesses the advantage of uniquely specifying a single quantum state from which the experimental measurements have been sampled and hence renders the rare opportunity to not only construct a least-biased quantum state but even replicate the exact state prepared experimentally within a preset tolerance. The primary workhorse of the algorithm is re-constructing an energy function which we designate as the effective Hamiltonian of the system, and parameterizing it with Lagrange multipliers, according to the formalism of maximal entropy. These parameters are thereafter optimized variationally so that the reconstructed quantum state of the system converges to the true quantum state within an error threshold. To this end, we employ a parameterized quantum circuit and a hybrid quantum-classical variational algorithm to obtain such a target state making our recipe easily implementable on a near-term quantum device.
翻訳日:2023-02-10 09:48:12 公開日:2022-06-06
# ボソンサンプリングに基づく偏りのない量子乱数生成器

An Unbiased Quantum Random Number Generator Based on Boson Sampling ( http://arxiv.org/abs/2206.02292v1 )

ライセンス: Link先を確認
Jinjing Shi, Tongge Zhao, Yizhi Wang, Chunlin Yu, Yuhu Lu, Ronghua Shi, Shichao Zhang and Junjie Wu(参考訳) ボーソンサンプリングは光量子計算の非常に有望なモデルであることが証明されており、量子コンピュータの設計に効果的に適用されている。 しかし、特定の量子力学的分布から正当性と重要性が証明されたボソンサンプリング結果の有意なランダム性は、利用されていない。 In this research, Boson sampling is applied to design a novel Quantum Random Number Generator (QRNG) by fully exploiting the randomness of Boson sampling results, and its prototype system is constructed with the programmable silicon photonic processor, which can generate uniform and unbiased random sequences and overcome the shortcomings of the existing discrete QRNGs such as source-related, high demand for the photon number resolution capability of the detector and slow self-detection generator speed. ボゾンサンプリングをランダムエントロピー源として実装し、サンプリング結果の処理後、ランダム性及び均一性が良好なランダムビット列を得ることができる。 実作業のための実用的なプロトタイプシステムの開発にボソンサンプリング結果のランダム性を適用するための最初のアプローチであり、実験の結果、ボソンサンプリングに基づくQRNGプロトタイプシステムは、NIST SP 800-22統計テストコンポーネントの15のテストに合格した。

It has been proven that Boson sampling is a much promising model of optical quantum computation, which has been applied to designing quantum computer successfully, such as "Jiuzhang". However, the meaningful randomness of Boson sampling results, whose correctness and significance were proved from a specific quantum mechanical distribution, has not been utilized or exploited. In this research, Boson sampling is applied to design a novel Quantum Random Number Generator (QRNG) by fully exploiting the randomness of Boson sampling results, and its prototype system is constructed with the programmable silicon photonic processor, which can generate uniform and unbiased random sequences and overcome the shortcomings of the existing discrete QRNGs such as source-related, high demand for the photon number resolution capability of the detector and slow self-detection generator speed. Boson sampling is implemented as a random entropy source, and random bit strings with satisfactory randomness and uniformity can be obtained after post-processing the sampling results. It is the first approach for applying the randomness of Boson sampling results to develop a practical prototype system for actual tasks, and the experiment results demonstrate the designed Boson sampling-based QRNG prototype system pass 15 tests of the NIST SP 800-22 statistical test component, which prove that Boson sampling has great potential for practical applications with desirable performance besides quantum advantage.
翻訳日:2023-02-10 09:47:45 公開日:2022-06-06
# 2光子量子ラビモデルのスペクトル決定式

Spectral determinant of the two-photon quantum Rabi model ( http://arxiv.org/abs/2206.02509v1 )

ライセンス: Link先を確認
Daniel Braak(参考訳) 2光子量子ラビモデルの様々な一般化スペクトル決定因子(G-関数)は、正則スペクトルの定性的側面に重点を置いて分析される。 いずれも正則固有値の少なくとも1つの部分集合を生成するが、Chenらによって2012年に提案されたG-函数のみが、崩壊点へのアプローチを規定する明確な極構造を示す。 この関数はモデルの$\mathbb{z}_4$対称性を厳密に利用し、その零点が完全正則スペクトルに対応することを示す。

The various generalized spectral determinants (G-functions) of the two-photon quantum Rabi model are analyzed with emphasis on the qualitative aspects of the regular spectrum. Whereas all of them yield at least a subset of the exact regular eigenvalues, only the G-function proposed by Chen et al. in 2012 exhibits an explicitly known pole structure which dictates the approach to the collapse point. We derive this function rigorously employing the $\mathbb{Z}_4$-symmetry of the model and show that its zeros correspond to the complete regular spectrum.
翻訳日:2023-02-10 09:43:16 公開日:2022-06-06
# 決定論的スクイズドschr\"odinger-cat状態のオールオプティカル生成

All-optical generation of deterministic squeezed Schr\"odinger-cat states ( http://arxiv.org/abs/2206.02497v1 )

ライセンス: Link先を確認
Zhucheng Zhang, Lei Shao, Wangjun Lu, and Xiaoguang Wang(参考訳) 量子状態は重要な資源であり、その準備は全ての量子技術にとって必須の前提条件である。 しかし、避けられない放散のために非常に脆弱である。 ここでは、消散に基づく決定論的圧縮Schr$\ddot{\mathrm{o}}$dinger-cat状態の全光学的生成を提案する。 本システムは、3つの光モード間のフレドキン型相互作用に基づいており、そのうちの1つはコヒーレントな2光子駆動であり、残りはコヒーレント駆動である。 その結果, 2つの光子の同時損失が生じ, 決定論的に圧縮されたschr$\ddot{\mathrm{o}}$dinger-cat状態が発生することが分かった。 より重要なことに、我々のシステムの駆動場を制御することで、2光子損失を調整でき、スクイーズされたschr$\ddot{\mathrm{o}}$dinger-cat状態の生成を加速できる。 さらに、圧縮されたschr$\ddot{\mathrm{o}}$dinger-cat状態を利用して光干渉計の位相を推定し、位相に関する量子フィッシャー情報が大きな光子数の限界でハイゼンベルク限界に達することを示した。 一方、低光子数の領域ではハイゼンベルク限界よりも桁違いに改善できるが、これは大きな光子フラックスに耐えることができない脆弱なシステムにとって非常に有用である。 本研究は、圧縮されたschr$\ddot{\mathrm{o}}$dinger-cat状態を高速かつ他の物理プラットフォームにも一般化可能な全光学スキームを提案する。

Quantum states are important resources and their preparations are essential prerequisites to all quantum technologies. However, they are extremely fragile due to the inevitable dissipations. Here, an all-optical generation of a deterministic squeezed Schr$\ddot{\mathrm{o}}$dinger-cat state based on dissipation is proposed. Our system is based on the Fredkin-type interaction between three optical modes, one of which is subject to coherent two-photon driving and the rest are coherent driving. We show that an effective degenerate three-wave mixing process can be engineered in our system, which can cause the simultaneous loss of two photons, resulting in the generation of a deterministic squeezed Schr$\ddot{\mathrm{o}}$dinger-cat state. More importantly, by controlling the driving fields in our system, the two-photon loss can be adjustable, which can accelerate the generation of squeezed Schr$\ddot{\mathrm{o}}$dinger-cat states. Besides, we exploit the squeezed Schr$\ddot{\mathrm{o}}$dinger-cat states to estimate the phase in the optical interferometer, and show that the quantum Fisher information about the phase can reach the Heisenberg limit in the limit of a large photon number. Meanwhile, it can have an order of magnitude factor improvement over the Heisenberg limit in the low-photon-number regime, which is very valuable for fragile systems that cannot withstand large photon fluxes. This work proposes an all-optical scheme to deterministically prepare the squeezed Schr$\ddot{\mathrm{o}}$dinger-cat state with high speed and can also be generalized to other physical platforms.
翻訳日:2023-02-10 09:42:20 公開日:2022-06-06
# 乱流における長距離伝搬のためのレーザービーム揺らぎ

Laser beam fluctuations for long distance propagation in the turbulent atmosphere ( http://arxiv.org/abs/2206.02487v1 )

ライセンス: Link先を確認
V. L. Andriichuk, O. O. Chumak, L. A. Derzhypolska, I. V. Matsniev(参考訳) 光子分布関数(PDF)は乱流大気中を伝播する光の変動を研究するために用いられる。 我々の分析は飽和変動の状況に関するものである。 ビームの移動現象と光子密度変動に対する部分コヒーレンスの影響に焦点が当てられている。 量子部は増大する一方,移動の準古典的部分のサイズは伝播距離とともに減少することが示された。 ビームフラグメンテーションは, 個々の部分間の相関の損失を伴うため, この質的差異を説明する。 位相拡散器が照射の第4モーメント(FM)に与える影響を考慮する。 得られたFMの明示的表現は、通信チャネルにおけるノイズの顕著な低減の可能性を示している。 ディフューザは、デルタ関連(空間領域内)のショットノイズをスムーズに分散する。 ここで開発された理論は、位相拡散器が光のゆらぎに与える影響を推定するために用いられる。

The method of photon distribution function (PDF) is used to study fluctuations of light beams propagating through a turbulent atmosphere. Our analysis concerns the regime of saturated fluctuations. The focus is on the phenomena of beam wandering and the effect of partial coherence on photon density fluctuations. It is shown that the size of the quasiclassical part of wandering decreases with the propagation distance, while the quantum part increases. We explain this qualitative difference by beam fragmentation, which is accompanied by a loss of correlation between individual parts. The effect of the phase diffuser on the fourth moment (FM) of the irradiance is taken into account. The obtained explicit expression for the FM indicates the possibility of a significant reduction of noise in the communication channel. The diffuser changes the shot noise from delta-correlated (in the spatial domain) to smoothly distributed. The theory developed here is used to estimate the influence of the phase diffuser on light fluctuations.
翻訳日:2023-02-10 09:41:30 公開日:2022-06-06
# 量子ニューラルネットワークにおけるエンタングルメントエントロピー生成

Entanglement entropy production in Quantum Neural Networks ( http://arxiv.org/abs/2206.02474v1 )

ライセンス: Link先を確認
Marco Ballarin, Stefano Mangini, Simone Montangero, Chiara Macchiavello and Riccardo Mengoni(参考訳) 量子ニューラルネットワーク(QNN)は、ノイズ中間スケール量子コンピュータ(NISQ)時代において量子優位性を達成するための候補と考えられている。 いくつかのQNNアーキテクチャが提案され、機械学習のベンチマークデータセットで成功した。 しかし、QNN生成エンタングルメントの定量的研究は詳細は研究されておらず、最大で数量子ビットしか研究されていない。 テンソルネットワーク法では、様々なシナリオで多数の量子ビットを持つ量子回路をエミュレートすることができる。 本稿では,最近研究されたQNNアーキテクチャを,最大50量子ビットで特徴付けるために行列積状態を用いて,量子ビット間の絡み合いのエントロピーで測定されたその絡み合いが,QNNの深さが増加するにつれて,Haar分布ランダム状態の傾向を示す。 任意のqnnアーキテクチャにおける絡み合いエントロピー生成に対する普遍的な振る舞いを示し,qnnにおける絡み合い生成を特徴付ける新しい手法である絡み合い速度を提案する。 最後に、文献における既知の結果と一致して、QNNによる量子優位性の最も有望な規則は、高い絡み合いと表現性の間のトレードオフによって定義されると論じる。

Quantum Neural Networks (QNN) are considered a candidate for achieving quantum advantage in the Noisy Intermediate Scale Quantum computer (NISQ) era. Several QNN architectures have been proposed and successfully tested on benchmark datasets for machine learning. However, quantitative studies of the QNN-generated entanglement have not been investigated in details, and only for up to few qubits. Tensor network methods allow to emulate quantum circuits with a large number of qubits in a wide variety of scenarios. Here, we employ matrix product states to characterize recently studied QNN architectures with up to fifty qubits showing that their entanglement, measured in terms of entanglement entropy between qubits, tends to that of Haar distributed random states as the depth of the QNN is increased. We show a universal behavior for the entanglement entropy production for any given QNN architecture, consequently we introduce a new measure to characterize the entanglement production in QNNs: the entangling speed. Finally, in agreement with known results in the literature, we argue that the most promising regime for quantum advantage with QNNs is defined by a trade-off between high entanglement and expressibility.
翻訳日:2023-02-10 09:41:15 公開日:2022-06-06
# 共振器QEDにおける可変非線形完全吸収と反射

Tunable nonlinear coherent perfect absorption and reflection in cavity QED ( http://arxiv.org/abs/2206.02418v1 )

ライセンス: Link先を確認
Miaodi Guo(参考訳) チューナブルコヒーレント完全吸収(CPA)と反射(CPR)を3段階の$\Lambda$型原子空洞系で実現するためのスキームを提案し,解析する。 コヒーレントカップリングレーザーによって誘導されるEIT型干渉により、2光子共鳴においてCPR近傍でチューナブルを得る新しい方法が提供される。 結合強度の違いにより、システムは線形CPA状態から非線形に二安定なCPA状態に励起され、プローブ場の周波数を変化させることなく、安定性のヒステリシスサイクルを制御できる。 さらに、CPA体制は、制御可能な原子コヒーレンスと非コヒーレントポンプ場によって誘導される線形吸収により、近CPR体制に移行することができる。 本研究は, 論理ゲートや光スイッチでコヒーレント光コンピューティングや通信に応用可能な, 極端吸収(0%, 100%)の操作機構を提案する。

We propose and analyze a scheme for realizing tunable coherent perfect absorption (CPA) and reflection (CPR) in a three-level $\Lambda$-type atom-cavity system. With EIT-type interference induced by a coherent coupling laser, the scheme provides a new method of attaining tunable near CPR at two-photon resonance. By different coupling strength, the system can be excited from linear CPA regime into nonlinear even bistable CPA regime without changing the frequency of the probe field, where the hysteresis cycle of the bistability is controllable. In addition, the CPA regime can be transferred into the near CPR regime with controllable atomic coherence and linear absorption induced by an incoherent pump field. Our work suggests a mechanism for manipulation on extreme absorption (0% and 100%), which can potentially be applied in logical gates and optical switches for coherent optical computing and communication.
翻訳日:2023-02-10 09:40:30 公開日:2022-06-06
# 環境崩壊モデル

Environmental Collapse Models ( http://arxiv.org/abs/2206.02711v1 )

ライセンス: Link先を確認
Adrian Kent(参考訳) 確率的崩壊項が光子や重力子にのみ影響する動的崩壊モデルを提案する。 原則として、質量粒子のみからなる孤立系は、そのようなモデルにおいて一元的に進化することができる。 実際には、光子と重力子は普遍的であり、巨大な粒子から散乱するため、前者の動的崩壊は後者の崩壊を効果的に引き起こす。 素粒子数が保存され相互作用が古典的ポテンシャルによってモデル化される非相対論的モデルでは、質量系はポテンシャルによって束縛された素粒子の集合としてモデル化され、光子や重力子の環境と相互作用する。 この図では、光子および重力崩壊ダイナミクスは、大系を効果的に局所化するが、これらの崩壊は、大系が間接的に影響する環境の近似測定の効果的な形を取る。 これらの環境崩壊モデル、例えば標準の質量依存自発局所化モデルは、顕微鏡システム上での量子実験と一致し、マクロスケールの大規模システムの非常に高速な効率的な崩壊を予測し、量子測定問題に対する潜在的な解決策であると論じる。 しかし、ここで考慮されたモデルは、標準質量依存自発局所化モデルとは異なる実験的なシグネチャを持つ。 例えば、デコヒーレント環境から単離された粒子のメソスコピック系における標準量子干渉法からの逸脱を予測せず、また標準質量依存自発的局在モデルによるタイプ予測の孤立物質からの異常自然放射を予測できない。 モデル内のデコヒーレンス率に関する経験的境界を得るためには,新しい実験と解析が必要である。

We propose dynamical collapse models in which the stochastic collapse terms affect only photons and/or gravitons. In principle, isolated systems comprising only massive particles could evolve unitarily indefinitely in such models. In practice, since photons and gravitons are ubiquitous and scatter from massive particles, dynamical collapses of the former will effectively induce collapses of the latter. In non-relativistic models in which particle number is conserved and interactions are modelled by classical potentials, massive systems can be modelled as collections of elementary massive particles bound by potentials, interacting with an environment of photons and gravitons. In this picture, although the photon and/or graviton collapse dynamics effectively localize massive systems, these collapses take the effective form of approximate measurements on the environment whose effect on the massive systems is indirect. We argue that these environmental collapse models, like standard mass-dependent spontaneous localisation models, may be consistent with quantum experiments on microscopic systems while predicting very rapid effective collapse of macroscopic massive systems, and hence a potential solution to the quantum measurement problem. However, the models considered here have different experimental signatures from standard mass-dependent spontaneous localisation models. For example, they predict no deviations from standard quantum interferometry for mesoscopic systems of massive particles isolated from a decohering environment, nor do they predict anomalous spontaneous emission of radiation from isolated matter of the type prediction by standard mass-dependent spontaneous localization models. New experiments and analyses are required to obtain empirical bounds on the decoherence rate in our models.
翻訳日:2023-02-10 09:34:29 公開日:2022-06-06
# トラップ量子コンピュータにおける2量子ゲートのクロストーク抑制

Crosstalk Suppression in Individually Addressed Two-Qubit Gates in a Trapped-Ion Quantum Computer ( http://arxiv.org/abs/2206.02703v1 )

ライセンス: Link先を確認
Chao Fang, Ye Wang, Shilin Huang, Kenneth R. Brown, Jungsang Kim(参考訳) 制御信号の流出によるターゲットと隣接するオブザーバキュービット間のクロストークは、量子コンピュータにおける2量子エンタングルゲートの忠実度を制限する主要なエラー源である。 レーザー駆動型捕捉イオン系コヒーレントクロストーク誤差は残差の$X\hat{\sigma}_{\phi}$相互作用としてモデル化でき、単一量子エコーパルスでアクティブにキャンセルできることを示す。 本研究では,全一階クロストークを除去するクロストーク抑制方式を提案し,実演する。 2量子ベル状態の忠実度は99.52(6) \%$で、集合ゲートの後に適用されるエコーパルスは99.37(5) \%$であり、5イオンチェーンの各ゲートに適用されるエコーパルスは99.37(5) \%$である。 このスキームは、類似の相互作用ハミルトニアンを持つ他のプラットフォームにも広く適用できる。

Crosstalk between target and neighboring spectator qubits due to spillover of control signals represents a major error source limiting the fidelity of two-qubit entangling gates in quantum computers. We show that in our laser-driven trapped-ion system coherent crosstalk error can be modelled as residual $X\hat{\sigma}_{\phi}$ interaction and can be actively cancelled by single-qubit echoing pulses. We propose and demonstrate a crosstalk suppression scheme that eliminates all first-order crosstalk, yet only requires local control by driving rotations solely on the target qubits. We report a two-qubit Bell state fidelity of $99.52(6) \%$ with the echoing pulses applied after collective gates and $99.37(5) \%$ with the echoing pulses applied to each gate in a 5-ion chain. This scheme is widely applicable to other platforms with analogous interaction Hamiltonians.
翻訳日:2023-02-10 09:34:00 公開日:2022-06-06
# 普遍的フォールトトレラント量子コンピューティングのためのフォールトトレラント回路合成

Fault-tolerant circuit synthesis for universal fault-tolerant quantum computing ( http://arxiv.org/abs/2206.02691v1 )

ライセンス: Link先を確認
Yongsoo Hwang(参考訳) 本稿では,連結符号に基づく普遍的フォールトトレラント量子計算を実現するための量子回路合成アルゴリズムを提案する。 フォールトトレラント量子コンピューティングを実現するために、フォールトトレラント量子プロトコルは、最寄り-neighbor相互作用に基づいて実行可能な量子回路に変換されるべきである。 局所演算に基づいて定義される位相符号とは異なり、連結符号に対しては、量子回路合成を適用して局所演算からなる回路を得ることができる。 しかし、通常の量子計算アルゴリズムのために開発された既存の量子回路合成により、プロトコルのフォールトトレラントは結果の回路に保存されない。 さらに、普遍的なフォールトトレラント量子コンピューティングの量子回路を実装することを考える必要がある。 まず、幾何学的局所性制約を満たすために量子ビット移動経路(\emph{swap}ゲートの列)を選択するとき、データキュービット上で量子エラーを伝播する必要がない。 第二に、回路は状況によらず独立して動作できるように自己完結するべきである。 第三に、普遍的なフォールトトレラント量子コンピューティングには、同じ入力、論理データキュービットに作用する複数のフォールトトレラント量子プロトコルの複数のフォールトトレラント量子回路が必要である。 最後に、シンドローム測定やエンコーダなどのフォールトトレラントプロトコルを暗黙的に、測定結果に条件付き古典的な制御処理を組み込まなければならないため、設計者が意図したように、量子回路を時間の流れに分割し、古典的な制御を実行する必要がある。 本稿では,その要件を解決する回路合成手法を提案するとともに,一般的なフォールトトレラントプロトコルのセットを$[[7,1,3]$ Steane符号と$[23, 1, 7]$ Golay符号のシンドローム測定プロトコルで合成する方法を示す。

We present a quantum circuit synthesis algorithm for implementing universal fault-tolerant quantum computing based on concatenated codes. To realize fault-tolerant quantum computing, the fault-tolerant quantum protocols should be transformed into executable quantum circuits based on the nearest-neighbor interaction. Unlike topological codes that are defined based on local operations fundamentally, for the concatenated codes, it is possible to obtain the circuits composed of the local operations by applying the quantum circuit synthesis. However, by the existing quantum circuit synthesis developed for ordinary quantum computational algorithms, the fault-tolerant of the protocol may not be preserved in the resulting circuit. Besides, we have to consider something more to implement the quantum circuit of universal fault-tolerant quantum computing. First, we have not to propagate quantum errors on data qubits when selecting a qubit move path (a sequence of \emph{SWAP} gates) to satisfy the geometric locality constraint. Second, the circuit should be self-contained so that it is possible to act independently regardless of the situation. Third, for universal fault-tolerant quantum computing, we require multiple fault-tolerant quantum circuits of multiple fault-tolerant quantum protocols acting on the same input, a logical data qubit. Last, we need to recall fault-tolerant protocols such as syndrome measure and encoder implicitly include classical control processing conditioned on the measurement outcomes, and therefore have to partition the quantum circuits in time flow to execute the classical control as the architect intended. We propose the circuit synthesis method resolving the requirements and show how to synthesize the set of universal fault-tolerant protocols for $[[7,1,3]]$ Steane code and the syndrome measurement protocol of $[[23, 1, 7]]$ Golay code.
翻訳日:2023-02-10 09:33:43 公開日:2022-06-06
# 2つの状態ベクトル形式論の非パラドックスシナリオにおける文脈的優位性

No contextual advantage in non-paradoxical scenarios of two state vector formalism ( http://arxiv.org/abs/2206.02673v1 )

ライセンス: Link先を確認
Jaskaran Singh and Rajendra Singh Bhati and Arvind(参考訳) 2つの状態ベクトル形式論 (TSVF) は、量子系上の測定結果の確率の非実効的な割り振方法を提供するために、Aharonov, Bergmann, Lebowitz (ABL) によって提案された。 この形式主義は量子論の基礎の様々な側面を基礎としており、弱い値やいくつかの量子的文脈性の証明の発展に顕著に使われている。 我々は,前・後選択(PPS)とそれに対応するABL規則を用いたTSVFの適用を,量子的文脈性を明らかにする手段として検討する。 我々は排他主義の原理を用いて、選択後のシナリオをパラドックス的または非パラドックス的のいずれかに分類する。 これを踏まえて、PSSシナリオにおける文脈性の出現の過去の証明は、排他性の原理が破られ、従ってパラドックス的に分類される場合にのみ可能である。 これらは文脈性の適切なテストを構成するものではないと我々は主張する。 さらに,tsvfのパラダイムに適用されるkcbsシナリオの数値解析を行い,非パラドックスシナリオが文脈上の利点を提供しないことを示す。 私たちのアプローチは、他のコンテキストシナリオに対しても簡単に一般化できます。

The two state vector formalism (TSVF) was proposed by Aharonov, Bergmann, and Lebowitz (ABL) to provide a way for the counterfactual assignment of the probabilities of outcomes of contemplated but unperformed measurements on quantum systems. This formalism underlies various aspects of foundations of quantum theory and has been used significantly in the development of weak values and several proofs of quantum contextuality. We consider the application of TSVF, with pre- and post-selection (PPS) and the corresponding ABL rule, as a means to unearth quantum contextuality. We use the principle of exclusivity to classify the resultant pre- and post-selection scenarios as either paradoxical or non-paradoxical. In light of this, we find that several previous proofs of the emergence of contextuality in PPS scenarios are only possible if the principle of exclusivity is violated and are therefore classified as paradoxical. We argue that these do not constitute a proper test of contextuality. Furthermore, we provide a numerical analysis for the KCBS scenario as applied in the paradigm of TSVF and find that non-paradoxical scenarios do not offer any contextual advantage. Our approach can be easily generalized for other contextual scenarios as well.
翻訳日:2023-02-10 09:32:43 公開日:2022-06-06
# 開Haldane-Shastry鎖 : 熱力学と臨界

The open Haldane-Shastry chain: thermodynamics and criticality ( http://arxiv.org/abs/2206.02651v1 )

ライセンス: Link先を確認
Federico Finkel, Artemio Gonz\'alez-L\'opez(参考訳) bc_n$型のsu($m|n$)ハルダン-シャストリ鎖の熱力学と臨界性について一般の化学ポテンシャル項で検討した。 まず、このモデルのスペクトルの完全な記述を$bc_n$-型モチーフを用いて導出し、そこから分割関数の表現を、サイトに依存した転移行列の積のトレースとして推測する。 熱力学極限において、この式は転移行列の連続極限のペロン・フロベニウス固有値の観点からスピン当たりの自由エネルギーの単純な式を生成する。 この固有値を評価すると、$m,n\le2$ の鎖の熱力学関数に対する閉形式式が得られる。 ここで導出されるスペクトルのモチーフに基づく記述を用いて、これらのモデルの基底状態と低エネルギー励起を詳細に研究する。 このようにして、化学ポテンシャル空間における臨界間隔を特定し、対応するフェルミ速度を計算する。 従来研究されてきたこのタイプのモデルとは対照的に、線形エネルギー-準同型関係を持つ2種類の低エネルギー励起がある。 最後に、スピン毎の自由エネルギーに対する表現の低温的挙動を解析することにより、全ての臨界相の中心電荷を決定する。

We study the thermodynamics and criticality of the su($m|n$) Haldane-Shastry chain of $BC_N$ type with a general chemical potential term. We first derive a complete description of the spectrum of this model in terms of $BC_N$-type motifs, from which we deduce a representation for the partition function as the trace of a product of site-dependent transfer matrices. In the thermodynamic limit, this formula yields a simple expression for the free energy per spin in terms of the Perron-Frobenius eigenvalue of the continuum limit of the transfer matrix. Evaluating this eigenvalue we obtain closed-form expressions for the thermodynamic functions of the chains with $m,n\le2$. Using the motif-based description of the spectrum derived here, we study in detail the ground state of these models and their low energy excitations. In this way we identify the critical intervals in chemical potential space and compute their corresponding Fermi velocities. By contrast with previously studied models of this type, we find in some cases two types of low energy excitations with linear energy-quasimomentum relation. Finally, we determine the central charge of all the critical phases by analyzing the low-temperature behavior of the expression for the free energy per spin.
翻訳日:2023-02-10 09:32:22 公開日:2022-06-06
# 時間における量子テクスチュアリティ

Quantum Contextuality in Time ( http://arxiv.org/abs/2206.02581v1 )

ライセンス: Link先を確認
Md. Manirul Ali(参考訳) ベル=コッヘン・スペックカーの定理は、非文脈的隠れ変数理論は量子力学の予測を完全に再現することはできないと述べる。 アシュエル・ペレスは、2つのスピン-1/2粒子の4次元ヒルベルト空間における量子的文脈性の驚くほど単純な証明を与えた。 ペレスの主張は、コチェンやスペクターよりもはるかに単純である。 ペレス文脈性(Peres contextuality)は、量子力学と非コンテキスト隠れ変数モデルの間の論理的矛盾を、ある量子観測可能な集合に非コンテキスト定値を割り当てるときに矛盾を示すことによって示している。 本研究では,ペレスの文脈性引数の時間的バージョンを用いて,時間内の量子文脈性の証明を提案する。 2つの異なる位置におけるスピン測定の文脈におけるペレスの文脈性議論の2粒子バージョンと類似して、ここでは2つの異なる時間 t1 と t2 における1粒子スピン測定を考える。

Bell-Kochen-Specker theorem states that a non-contextual hidden-variable theory cannot completely reproduce the predictions of quantum mechanics. Asher Peres gave a remarkably simple proof of quantum contextuality in a four-dimensional Hilbert space of two spin-1/2 particles. Peres's argument is enormously simpler than that of Kochen and Specker. Peres contextuality demonstrates a logical contradiction between quantum mechanics and the noncontextual hidden variable models by showing an inconsistency when assigning noncontextual definite values to a certain set of quantum observables. In this work, we present a proof of quantum contextuality in time using the temporal version of Peres's contextuality argument. In analogy with the two-particle version of Peres's contextuality argument in the context of spin measurements at two different locations, we consider here single-particle spin measurements at two different times t1 and t2 where the context is provided through the time separation.
翻訳日:2023-02-10 09:31:28 公開日:2022-06-06
# 非ゲージ変動子による甘味点の高次量子ビット強調:対称性の破断とフロッケ保護

High-Order Qubit Dephasing at Sweet Spots by Non-Gaussian Fluctuators: Symmetry Breaking and Floquet Protection ( http://arxiv.org/abs/2206.02827v1 )

ライセンス: Link先を確認
Ziwen Huang and Xinyuan You and Ugur Alyanak and Alexander Romanenko and Anna Grassellino and Shaojiang Zhu(参考訳) ガウスノイズの仮定はキュービットデコヒーレンスの研究で広く採用されているが、非ガウスノイズ源、特に強い離散ゆらぎが多くのキュービットで検出されている。 非ガウス雑音の独特なデコヒーレンス効果をさらに理解し緩和することが重要な課題である。 本稿では,非ガウスゆらぎによる量子ビットの劣化について検討し,非ガウス雑音に特有の対称性破壊効果を予測する。 この破れた対称性は、デファスメントレートの極端点とキュービット周波数の間の実験的に測定可能なミスマッチを生じさせ、ノイズの特徴付けと最適な作業点の特定に余分な注意を要する。 スイートスポットにおけるコヒーレンス時間をさらに向上するため,フロッケ工学による2次量子ビット周波数の導出を抑制することを提案する。 ヘビーフラクソニウムを用いたシミュレーションでは,ドライブの騒音を含む場合においても,デファスメント時間の桁違いな改善が見られた。

Although the Gaussian-noise assumption is widely adopted in the study of qubit decoherence, non-Gaussian noise sources, especially the strong discrete fluctuators, have been detected in many qubits. It remains an important task to further understand and mitigate the distinctive decoherence effect of the non-Gaussian noise. Here, we study the qubit dephasing caused by the non-Gaussian fluctuators, and predict a symmetry-breaking effect that is unique to the non-Gaussian noise. This broken symmetry results in an experimentally measurable mismatch between the extremum points of the dephasing rate and qubit frequency, which demands extra carefulness in characterizing the noise and locating the optimal working point. To further enhance the coherence time at the sweet spot, we propose to suppress the second-order derivative of the qubit frequency by the Floquet engineering. Our simulation with a heavy fluxonium shows an order of magnitude improvement of the dephasing time, even after including the noise introduced by the drive.
翻訳日:2023-02-10 09:25:33 公開日:2022-06-06
# フーリエに基づく量子信号処理

Fourier-based quantum signal processing ( http://arxiv.org/abs/2206.02826v1 )

ライセンス: Link先を確認
Thais de Lima Silva, Lucas Borges, Leandro Aolita(参考訳) 演算子の一般関数を実装することは、量子計算において強力なツールである。 行列の反転、実時間および虚数時間発展、行列のパワーなど様々な量子アルゴリズムの基礎として使うことができる。 量子信号処理は、変換される作用素が拡大ヒルベルト空間に作用するユニタリ行列のブロックとして与えられることを仮定して、この目的のための技術状態である。 本稿では,その操作者に対するユニタリ進化によって与えられたオラクルからのエルミート演算子関数設計のアルゴリズムを提案する。 提案アルゴリズムは,単一キュービットゲートの基本列の反復に基づいて,対象関数のフーリエ近似を実装し,その表現性を証明する。 さらに,フーリエ級数係数からパラメータを計算するための効率的な古典アルゴリズムを提案する。 本アルゴリズムでは, 近似級数によらず, 1 個の qubit アンシラのみを用いる。 これは、拡大度で増大するサイズの補助レジスタを必要とする以前の提案とは対照的である。 提案手法は、トロッター化ハミルトンシミュレーションスキームやハイブリッドデジタルアナログ手法と互換性がある。

Implementing general functions of operators is a powerful tool in quantum computation. It can be used as the basis for a variety of quantum algorithms including matrix inversion, real and imaginary-time evolution, and matrix powers. Quantum signal processing is the state of the art for this aim, assuming that the operator to be transformed is given as a block of a unitary matrix acting on an enlarged Hilbert space. Here we present an algorithm for Hermitian-operator function design from an oracle given by the unitary evolution with respect to that operator at a fixed time. Our algorithm implements a Fourier approximation of the target function based on the iteration of a basic sequence of single-qubit gates, for which we prove the expressibility. In addition, we present an efficient classical algorithm for calculating its parameters from the Fourier series coefficients. Our algorithm uses only one qubit ancilla regardless the degree of the approximating series. This contrasts with previous proposals, which required an ancillary register of size growing with the expansion degree. Our methods are compatible with Trotterised Hamiltonian simulations schemes and hybrid digital-analog approaches.
翻訳日:2023-02-10 09:25:12 公開日:2022-06-06
# 絡み合いから生じる動力学から重力異常とキラル中心電荷へ

From entanglement generated dynamics to the gravitational anomaly and chiral central charge ( http://arxiv.org/abs/2206.02823v1 )

ライセンス: Link先を確認
Ruihua Fan(参考訳) 我々は、基底状態波動関数の量子次数を特徴づけるためにモジュラーフロー -- 絡み合い生成ダイナミクス -- を適用する。 特に,モジュラーフローに対する単連結領域の絡み合いエントロピーの線形応答について検討した。 まず、(1+1)d共形場の理論に適用し、キラル中心電荷(あるいは摂動的重力異常)との関係を示す。 次に、(2+1)dガッピング基底状態に適用し、kimらによって最近提案された公式に還元する。 al. エッジキラル中心電荷を計算すると推測される。 モジュラーフローは、バルクエッジ対応に基づくこの予想の直感的な図を与える。 無償のフェルミオンモデルに関する数値も提供しています。

We apply modular flow -- entanglement generated dynamics -- to characterize quantum orders of ground state wavefunctions. In particular, we study the linear response of the entanglement entropy of a simply connected region with respect to modular flow. First, we apply it to (1+1)D conformal field theories and demonstrate its relationship to the chiral central charge -- or equivalently the perturbative gravitational anomaly -- which is shown to vanish. Next, we apply it to (2+1)D gapped ground states where it reduces to a recently proposed formula by Kim et. al. that is conjectured to compute the edge chiral central charge. Modular flow provides an intuitive picture for this conjecture based on bulk-edge correspondence. We also provide numerics on free fermion models that lend support to our picture.
翻訳日:2023-02-10 09:24:59 公開日:2022-06-06
# 最適メトロロジー性能のための局所ハミルトニアンの最適化

Optimizing local Hamiltonians for the best metrological performance ( http://arxiv.org/abs/2206.02820v1 )

ライセンス: Link先を確認
\'Arp\'ad Luk\'acs, R\'obert Tr\'enyi, Tam\'as V\'ertesi, G\'eza T\'oth(参考訳) 両部量子系における局所ハミルトニアンのメトロジー性能を最適化する効率的な手法について議論する。 与えられた量子状態に対して、我々の手法は、量子メトロロジーの観点から、状態が分離可能な状態を上回る最高の局所ハミルトニアンを見つける。 この問題は、ある種のハミルトニアンの量子フィッシャー情報を最大化するために還元できることを示した。 量子フィッシャー情報を双線型形式で提示し,各ステップが半定値計画に基づいているシーソーを反復することにより,それを最大化する。 また、より小さなシステムで非常にうまく機能するモーメントの手法によって、この問題も解決する。 我々は、同様の方法で解くことができる量子情報理論の他の多くの問題を考える。 例えば、cnnr(computable cross norm-realignment)の基準に最大に違反する束縛された量子状態を決定する。

We discuss efficient methods to optimize the metrological performance over local Hamiltonians in a bipartite quantum system. For a given quantum state, our methods find the best local Hamiltonian for which the state outperforms separable states the most from the point of view of quantum metrology. We show that this problem can be reduced to maximize the quantum Fisher information over a certain set of Hamiltonians. We present the quantum Fisher information in a bilinear form and maximize it by iterating a see-saw, in which each step is based on semidefinite programming. We also solve the problem with the method of moments that works very well for smaller systems. We consider a number of other problems in quantum information theory that can be solved in a similar manner. For instance, we determine the bound entangled quantum states that maximally violate the Computable Cross Norm-Realignment (CNNR) criterion.
翻訳日:2023-02-10 09:24:46 公開日:2022-06-06
# マルチコピー非局所蒸留の利点と通信複雑性の最小化への応用

Advantages of multi-copy nonlocality distillation and its application to minimizing communication complexity ( http://arxiv.org/abs/2206.02817v1 )

ライセンス: Link先を確認
Giorgos Eftaxias and Mirjam Weilenmann and Roger Colbeck(参考訳) 非局所相関は量子論の中心的な特徴であり、なぜ量子論が限定的な非局所性を持つのかを理解することは根本的な問題である。 非局所性はまた、例えばデバイスに依存しない暗号のための技術応用も持っているので、それをリソースとして理解し、特に異なるタイプの非局所性がどのように相互変換されるかを理解することは有用である。 ここでは,非局所的資源を複数コピーしてより非局所的資源を生成させる非局所的蒸留に着目する。 量子相関を含む非局所相関の集合の延長部分を除去する蒸留方式をいくつか導入する。 我々のスキームは、基礎となる理論に関係なく適用できる配線と呼ばれる自然な操作手順に基づいている。 2コピープロトコルを繰り返し使用する逐次アルゴリズムもあるが、真の3コピー蒸留プロトコルであるものもある。 いくつかの地域では、真の3コピープロトコルが2コピープロトコルよりも厳密に優れていることを証明しています。 新しいプロトコルを適用することで、非局所的な相関が知られ、簡単な通信の複雑さをもたらす領域も増やします。 これにより、情報理論の原理から回復できる非局所的相関の集合の理解に近づき、量子論で特別なものについての理解を深める。

Nonlocal correlations are a central feature of quantum theory, and understanding why quantum theory has a limited amount of nonlocality is a fundamental problem. Since nonlocality also has technological applications, e.g., for device-independent cryptography, it is useful to understand it as a resource and, in particular, whether and how different types of nonlocality can be interconverted. Here we focus on nonlocality distillation which involves using several copies of a nonlocal resource to generate one with more nonlocality. We introduce several distillation schemes which distil an extended part of the set of nonlocal correlations including quantum correlations. Our schemes are based on a natural set of operational procedures known as wirings that can be applied regardless of the underlying theory. Some are sequential algorithms that repeatedly use a two-copy protocol, while others are genuine three-copy distillation protocols. In some regions we prove that genuine three-copy protocols are strictly better than two-copy protocols. By applying our new protocols we also increase the region in which nonlocal correlations are known to give rise to trivial communication complexity. This brings us closer to an understanding of the sets of nonlocal correlations that can be recovered from information-theoretic principles, which, in turn, enhances our understanding of what is special about quantum theory.
翻訳日:2023-02-10 09:24:32 公開日:2022-06-06
# SU($N$)フェルミオンの物質波の干渉ダイナミクス

Interference dynamics of matter-waves of SU($N$) fermions ( http://arxiv.org/abs/2206.02807v1 )

ライセンス: Link先を確認
Wayne J. Chetcuti, Andreas Osterloh, Luigi Amico and Juan Polo(参考訳) 有効磁束によるリング状格子内の強い相関を持つsu($n$)フェルミオンのモーメントに関連する2つの物理観測値:ホモダイン(momentum distribution)と自己ヘテロダイン干渉パターンを解析した。 これらの分析によって、永続的な現在のパターンを監視できることを示す。 ホモダインと自己ヘテロダインの干渉は、フェルミ分布の構造と粒子の相関に特異的に依存していることが判明した。 ホモダインプロトコルでは、運動量分布は2つの異なる方法で粒子統計によって影響を受ける。 ゼロ相互作用において、運動量$\mathbf{k}=0$の周りの運動量分布の特徴的な穴は、SU($N$) フェルミ球の半分が変位すると開になる。 2つ目の効果は相互作用に由来する: 相互作用系における分数化は、穴の発生のフラックスに追加の 'delay' によってそれ自体を現わし、それが現在$\mathbf{k}=0$ で抑うつとなる。 自己ヘテロダイン干渉パターンの場合、我々は監視できるだけでなく、分数化も観察できる。 実際、分数化された角モーメントは、系内の平面交差によって、干渉図に存在する転位に反映される。 我々の分析は、干渉縞の研究によって、SU($N$)フェルミオンの粒子数と成分数の両方にアクセスできることを示す。

We analyze the two main physical observables related to the momenta of strongly correlated SU($N$) fermions in ring-shaped lattices pierced by an effective magnetic flux: homodyne (momentum distribution) and self-heterodyne interference patterns. We demonstrate how their analysis allows us to monitor the persistent current pattern. We find that both homodyne and self-heterodyne interference display a specific dependence on the structure of the Fermi distribution and particles' correlations. For homodyne protocols, the momentum distribution is affected by the particle statistics in two distinctive ways. The first effect is a purely statistical one: at zero interactions, the characteristic hole in the momentum distribution around the momentum $\mathbf{k}=0$ opens up once half of the SU($N$) Fermi sphere is displaced. The second effect originates from interaction: the fractionalization in the interacting system manifests itself by an additional `delay' in the flux for the occurrence of the hole, that now becomes a depression at $\mathbf{k}=0$. In the case of self-heterodyne interference patterns, we are not only able to monitor, but also observe the fractionalization. Indeed, the fractionalized angular momenta, due to level crossings in the system, are reflected in dislocations present in interferograms. Our analysis demonstrate how the study of the interference fringes grants us access to both number of particles and number of components of SU($N$) fermions.
翻訳日:2023-02-10 09:24:10 公開日:2022-06-06
# 客観的古典情報の増幅・推論・表現

Amplification, inference, and the manifestation of objective classical information ( http://arxiv.org/abs/2206.02805v1 )

ライセンス: Link先を確認
Michael Zwolak(参考訳) 我々の日常生活は、量子システムと相互作用する環境によって選択され増幅される客観的情報$\unicode{x2013}$informationによって特徴づけられる。 多くの観測者は、環境の断片を計測することで、その情報を間接的に正確に推測することができる。 システムの相関である$\mathcal{S}$と、環境のフラグメントである$\mathcal{F}$は、量子相互情報や、量子チャネル$\mathcal{F}$によって送信される$\mathcal{S}$に関する古典的な情報を束縛するホルレヴォ量によって、しばしば定量化される。 後者は量子相互情報であるが、測定結果が $\mathcal{S}$ で選択された古典量子状態である。 この測定は、残りの環境である$\mathcal{e}/\mathcal{f}$の影響を総称的に反映するが、$\mathcal{s}\mathcal{f}$相関の構造を推測する仮説的な疑問を反映することもできる。 touilらは最近、量子古典状態(量子$\mathcal{s}$から測定された$\mathcal{f}$)から異なるホールボ量を調べた。 上述の通り、この量は$\mathcal{S}$ in $\mathcal{F}$に関する任意の古典的情報を上界とし、典型的なホレヴォ量よりも厳密な境界が得られる。 良いデコヒーレンスが存在する場合、$\unicode{x2013}$ 残りの環境では、$\mathcal{E}/\mathcal{F}$ は、$\mathcal{S}$$\unicode{x2013}$ このアクセシビリティ境界がアクセス可能な情報である。 touil et al. の特定のモデルでは、アクセス可能な情報は最適検出の誤差確率と関連しており、従って量子チャーンオフ境界と同じ振舞いを持つ。 後者は増幅を反映し、シングルショットフレームワークと同様に、$\mathcal{S}$に関する古典的な情報の欠如を定量化する普遍的なアプローチを提供する。

Our everyday reality is characterized by objective information$\unicode{x2013}$information that is selected and amplified by the environment that interacts with quantum systems. Many observers can accurately infer that information indirectly by making measurements on fragments of the environment. The correlations between the system, $\mathcal{S}$, and a fragment, $\mathcal{F}$, of the environment, $\mathcal{E}$, is often quantified by the quantum mutual information or the Holevo quantity that bounds the classical information about $\mathcal{S}$ transmittable by a quantum channel $\mathcal{F}$. The latter is a quantum mutual information but of a classical-quantum state where measurement has selected outcomes on $\mathcal{S}$. The measurement generically reflects the influence of the remaining environment, $\mathcal{E}/\mathcal{F}$, but can also reflect hypothetical questions to deduce the structure of $\mathcal{S}\mathcal{F}$ correlations. Recently, Touil et al. examined a different Holevo quantity, one from a quantum-classical state (a quantum $\mathcal{S}$ to a measured $\mathcal{F}$). As shown here, this quantity upper bounds any accessible classical information about $\mathcal{S}$ in $\mathcal{F}$ and can yield a tighter bound than the typical Holevo quantity. When good decoherence is present$\unicode{x2013}$when the remaining environment, $\mathcal{E}/\mathcal{F}$, has effectively measured the pointer states of $\mathcal{S}$$\unicode{x2013}$this accessibility bound is the accessible information. For the specific model of Touil et al., the accessible information is related to the error probability for optimal detection and, thus, has the same behavior as the quantum Chernoff bound. The latter reflects amplification and provides a universal approach, as well as a single-shot framework, to quantify records of the missing, classical information about $\mathcal{S}$.
翻訳日:2023-02-10 09:23:44 公開日:2022-06-06
# 量子ConGESTモデルにおける偏心性と全ペア短経路の複雑さ

Complexity of Eccentricities and All-Pairs Shortest Paths in the Quantum CONGEST Model ( http://arxiv.org/abs/2206.02766v1 )

ライセンス: Link先を確認
ChengSheng Wang, Xudong Wu and Penghui Yao(参考訳) 直径、半径、偏心、全パイア短路(apsp)を含むネットワークの距離パラメータを計算することは、分散コンピューティングにおける中心的な問題である。 本稿では,量子CONGESTモデルにおけるヘテロジスタンスパラメータを調査し,古典的な上界と一致する偏心性およびAPSPのほぼ線形下界を確立する。 私たちの結果は、この2つの問題に量子スピードアップはないことを示している。 直径と半径とは対照的に、量子メッセージの交換は、ネットワークの直径が小さいときに通信を節約できる(Le Gall and Magniez, PODC 2018]。 我々は、集合交叉の双方向量子通信複雑性(Razborov, Izvestiya Mathematics 2003)からの還元により下界を得る。

Computing the distance parameters of a network, including the diameter, radius, eccentricities and the all-pairs shortest paths (APSP) is a central problem in distributed computing. This paper investigates he dtistance parameters in the quantum CONGEST models and establishes almost linear lower bounds on eccentricities and APSP, which match the classical upper bounds. Our results imply that there is not quantum speedup for these two problems. In contrast with the diameter and radius, exchanging quantum messages is able to save the communication when the networks have low diameters [Le Gall and Magniez, PODC 2018]. We obtain the lower bounds via a reduction from the two-way quantum communication complexity of the set intersection [Razborov, Izvestiya Mathematics 2003].
翻訳日:2023-02-10 09:22:26 公開日:2022-06-06
# 量子undo演算のための原子チップ上の最適時間反転の実験的実現

Experimental realization of optimal time-reversal on an atom chip for quantum undo operations ( http://arxiv.org/abs/2206.02746v1 )

ライセンス: Link先を確認
Ivana Mastroserio, Stefano Gherardini, Cosimo Lovecchio, Tommaso Calarco, Simone Montangero, Francesco Saverio Cataliotti, Filippo Caruso(参考訳) 本稿では,量子コンピューティングから量子通信まで,量子技術分野に適用可能な量子undo演算の実装のための時間反転手順を実現するために,dcrab最適制御アルゴリズムの利用について報告する。 アンドコマンドにより、外部ユーザによって選択された任意の新規操作を適用可能な条件を完璧に復元するために、実際に最後に実行された操作をタイムリバースすることができる。 さらに、この概念をさらに一般化することにより、undoコマンドは過去の一般的な瞬間における量子演算の反転を可能にする。 ここでは、最適時間反転ルーチンにより、これらのすべての機能は、原子チップで実現された非相互作用の$^{87}$Rb原子のボース=アインシュタイン凝縮(BEC)の5倍のF=2ヒルベルト空間に実験的に実装される。 具体的には、各時間反転変換は、最適な変調された無線周波数場を設計し、任意の試験で平均92%の精度で達成される。 実験結果はLoschmidtエコーに基づく熱力学的解釈を伴う。 本研究は,5レベルシステムよりも複雑な構造を持つゲート型量子コンピューティングの現実シナリオにおける時間反転演算の実装を促進することが期待されている。

We report on the use of the dCRAB optimal control algorithm to realize time-reversal procedures for the implementation of quantum undo operations, to be applied in quantum technology contexts ranging from quantum computing to quantum communications. By means of the undo command, indeed, the last performed operation can be time-reversed so as to perfectly restore a condition in which an arbitrary new operation, chosen by the external user, can be applied. Moreover, by further generalizing this concept, the undo command can also allow for the reversing of a quantum operation in a generic instant of the past. Here, thanks to optimal time-reversal routines, all these functionalities are experimentally implemented on the five-fold F=2 Hilbert space of a Bose-Einstein condensate (BEC) of non-interacting $^{87}$Rb atoms in the ground state, realized with an atom chip. Specifically, each time-reversal transformation is attained by designing an optimal modulated radio frequency field, achieving on average an accuracy of around 92% in any performed test. The experimental results are accompanied by a thermodynamic interpretation based on the Loschmidt echo. Our findings are expected to promote the implementation of time-reversal operations in a real scenario of gate-based quantum computing with a more complex structure than the five-level system here considered.
翻訳日:2023-02-10 09:22:14 公開日:2022-06-06
# 脳腫瘍の分節と分類のためのトポロジカル最適化畳み込みビジュアルリカレントネットワーク

Topological Optimized Convolutional Visual Recurrent Network for Brain Tumor Segmentation and Classification ( http://arxiv.org/abs/2207.13021v1 )

ライセンス: Link先を確認
Dhananjay Joshi, Kapil Kumar Nagwanshi, Nitin S. Choubey, and Naveen Singh Rajput(参考訳) 今日の医療の世界では、脳腫瘍(bt)の検出が一般的になっている。 しかし、手動BT分類アプローチは時間がかかり、いくつかの診断センターでのみ利用可能である。 そこで,Deep Convolutional Neural Network (DCNN) が医療分野に導入され,正確な診断を行い,手術前の患者の治療を支援する。 しかし、これらのネットワークには過剰フィッティングや分類に必要な特徴の抽出ができないといった問題がある。 これらの問題を克服するために、BTセグメンテーションと分類のためのTDA-IPHと畳み込み変換学習、およびElephant Herding Optimization hyper-parameter tuning (CTVR-EHO)モデルを用いたビジュアルリカレント学習を開発した。 当初,TDA-IPH(Topological Data Analysis based Improved Persistent Homology)はBT画像のセグメント化を目的としている。 そして、セグメント画像から、AlexNetモデルとBidirectional Visual Long Short Term Memory(Bi-VLSTM)を介してTLを用いて特徴を同時に抽出する。 Elephant Herding Optimization (EHO)は、両方のネットワークのハイパーパラメータを調整して最適な結果を得るために使用される。 最後に、抽出した特徴をソフトマックス活性化層を用いて連結分類する。 このCTVR-EHO法とTDA-IPH法のシミュレーション結果は、精度、精度、リコール、損失、Fスコアなどの指標に基づいて分析される。 他の既存のbtセグメンテーションおよび分類モデルと比較すると、提案するctvr-ehoおよびtda-iphアプローチは高い精度(99.8%)、高いリコール(99.23%)、高い精度(99.67%)、高いfスコア(99.59%)を示す。

In today's world of health care, brain tumor (BT) detection has become a common occurrence. However, the manual BT classification approach is time-consuming and only available at a few diagnostic centres. So Deep Convolutional Neural Network (DCNN) is introduced in the medical field for making accurate diagnoses and aiding in the patient's treatment before surgery. But these networks have problems such as overfitting and being unable to extract necessary features for classification. To overcome these problems, we developed the TDA-IPH and Convolutional Transfer learning and Visual Recurrent learning with Elephant Herding Optimization hyper-parameter tuning (CTVR-EHO) models for BT segmentation and classification. Initially, the Topological Data Analysis based Improved Persistent Homology (TDA-IPH) is designed to segment the BT image. Then, from the segmented image, features are extracted simultaneously using TL via the AlexNet model and Bidirectional Visual Long Short Term Memory (Bi-VLSTM). Elephant Herding Optimization (EHO) is used to tune the hyper parameters of both networks to get an optimal result. Finally, extracted features are concatenated and classified using the softmax activation layer. The simulation result of this proposed CTVR-EHO and TDA-IPH method is analysed based on some metrics such as precision, accuracy, recall, loss, and F score. When compared to other existing BT segmentation and classification models, the proposed CTVR-EHO and TDA-IPH approaches show high accuracy (99.8%), high recall (99.23%), high precision (99.67%), and high F score (99.59%).
翻訳日:2023-02-10 09:15:56 公開日:2022-06-06
# 絡み合いと経路積分

Entanglement and the Path Integral ( http://arxiv.org/abs/2206.02945v1 )

ライセンス: Link先を確認
Ken Wharton and Raylor Liu(参考訳) 経路積分は一般には、任意の実験を単純な要約履歴計算を可能にする形式に変換する標準的なツールボックスがないため、絡み合い実験の解析に使われない。 このツールボックスの最後の部分(絡み合った方法で多粒子計測を行う技術)を完了した後、この代替技術を用いて興味深い4粒子と6粒子の実験を行った。 測定結果の合同確率は常に従来の量子力学と等価であるが、計算の相違は、非局所性、遡及性、および絡み合い自体の客観性に関する多くの基礎的洞察を動機付ける。

The path integral is not typically utilized for analyzing entanglement experiments, in part because there is no standard toolbox for converting an arbitrary experiment into a form allowing a simple sum-over-history calculation. After completing the last portion of this toolbox (a technique for implementing multi-particle measurements in an entangled basis), some interesting 4- and 6-particle experiments are analyzed with this alternate technique. While the joint probabilities of measurement outcomes are always equivalent to conventional quantum mechanics, differences in the calculations motivate a number of foundational insights, concerning nonlocality, retrocausality, and the objectivity of entanglement itself.
翻訳日:2023-02-10 09:14:58 公開日:2022-06-06
# ランダムスピン鎖における量子情報拡散

Quantum information spreading in random spin chains ( http://arxiv.org/abs/2206.02934v1 )

ライセンス: Link先を確認
Paola Ruggiero and Xhek Turkeshi(参考訳) 臨界障害を有する1次元量子スピンチェーンにおける量子相関と情報の拡散を無限ランダム性固定点で符号化する。 具体的には、R'enyiエントロピーの量子クエンチの後、ランダム結合と異方性パラメータを持つ原始型XXZスピン鎖の相互情報と絡み合う負性について、ダイナミクスに焦点を当てる。 実空間再正規化グループ法に基づくスケーリングシステムにおける解析的予測を行う。 これらの知見を,非相互作用限界における数値シミュレーションによって支持する。

We study the spreading of quantum correlations and information in a one-dimensional quantum spin chain with critical disorder as encoded in an infinite randomness fixed point. Specifically, we focus on the dynamics after a quantum quench of the R\'enyi entropies, of the mutual information and of the entanglement negativity in the prototypical XXZ spin chain with random bonds and anisotropy parameters. We provide analytic predictions in the scaling regime based on real-space renormalization group methods. We support these findings through numerical simulations in the non-interacting limit, where we can access the scaling regime.
翻訳日:2023-02-10 09:14:47 公開日:2022-06-06
# マルチパーティ状態分布を持つ量子ネットワークトモグラフィ

Quantum Network Tomography with Multi-party State Distribution ( http://arxiv.org/abs/2206.02920v1 )

ライセンス: Link先を確認
Matheus Guedes de Andrade, Jaime D\'ias, Jake Navas, Saikat Guha, In\`es Monta\~no, Brian Smith, Michael Raymer, Don Towsley(参考訳) 量子情報の脆弱な性質により、量子チャネル伝送下でのノイズから量子状態を完全に分離することは事実上不可能である。 量子ネットワーク (quantum network) は、量子処理装置の相互接続によって形成される複雑なシステムである。 この文脈では、伝送量子状態のノイズをチャネルがどのように導入するかを特徴付けることが最重要となる。 非一意的な量子チャネルによって導入されたエラー分布の正確な記述は、特定のエラーモデルの操作を調整するための量子エラー訂正プロトコルを通知することができる。 さらに、ネットワークをエンドツーエンドの測定で監視することで、ネットワークリンクの状態を予測することができる。 本研究では,量子ネットワーク・トモグラフィの問題を導入することにより,量子ネットワーク内の量子チャネルのエンドツーエンド特性評価を行う。 この問題の解は、終端ノードでのみ行われる測定値を用いて、ネットワーク内のすべての量子チャネルのクラウス分解を定義する確率の推定子である。 我々は、ビットフリップ量子チャネルのような単一のパウリ作用素によって記述される量子チャネルを持つ任意の恒星量子ネットワークの場合、この問題を詳細に研究する。 多項式サンプル複雑性を持つネットワークに対する解を提供する。 提案手法は,パラメータの同定性の観点から,事前共有された絡み合いが推定に利点をもたらすことを示す。

The fragile nature of quantum information makes it practically impossible to completely isolate a quantum state from noise under quantum channel transmissions. Quantum networks are complex systems formed by the interconnection of quantum processing devices through quantum channels. In this context, characterizing how channels introduce noise in transmitted quantum states is of paramount importance. Precise descriptions of the error distributions introduced by non-unitary quantum channels can inform quantum error correction protocols to tailor operations for the particular error model. In addition, characterizing such errors by monitoring the network with end-to-end measurements enables end-nodes to infer the status of network links. In this work, we address the end-to-end characterization of quantum channels in a quantum network by introducing the problem of Quantum Network Tomography. The solution for this problem is an estimator for the probabilities that define a Kraus decomposition for all quantum channels in the network, using measurements performed exclusively in the end-nodes. We study this problem in detail for the case of arbitrary star quantum networks with quantum channels described by a single Pauli operator, like bit-flip quantum channels. We provide solutions for such networks with polynomial sample complexity. Our solutions provide evidence that pre-shared entanglement brings advantages for estimation in terms of the identifiability of parameters.
翻訳日:2023-02-10 09:14:38 公開日:2022-06-06
# 普遍リンドブラッド方程式から得られる高精度定常状態

High accuracy steady states obtained from the Universal Lindblad Equation ( http://arxiv.org/abs/2206.02917v1 )

ライセンス: Link先を確認
Frederik Nathan, Mark S. Rudner(参考訳) 普遍リンドブラッド方程式 (ule) は観測可能な可観測値の定常的な期待値を、系-バスカップリングと線形にスケールする厳密な有界な補正、$\gamma$ までキャプチャする。 さらに,弱結合限界において定常値自体が消滅する電流のような可観測性に対しても,0 への相対的偏差を_\gamma$ でジェネリックに保証する単純な準局所変換を同定する。 この結果は、lindblad型マスター方程式の精度に関する最近特定された制限に対する解決策を提供する。これは、定常値が$\gamma$で消えるオブザーバブルに対して、signifiが相対誤差を許さないことを意味するが、ほとんどの一般的なオブザーバブルは忠実に捕獲される。 この変換は、リンドブラッド型マスター方程式の安定性と物理性を保ちながら、敏感な可観測性の高忠実な計算を可能にする。

We show that the universal Lindblad equation (ULE) captures steady-state expectation values of observables up to rigorously bounded corrections that scale linearly with the system-bath coupling, $\Gamma$. We moreover identify a simple quasilocal transformation, whose application guarantees a relative deviation generically scaling to zero with $\Gamma$, even for observables such as currents whose steady-state values themselves vanish in the weak coupling limit. This result provides a solution to recently identified limitations on the accuracy of Lindblad-form master equations, which imply significan't relative errors for observables whose steady-state values vanish with $\Gamma$, while most generic observables are otherwise captured faithfully. The transformation allows for high-fidelity computation of sensitive observables while retaining the stability and physicality of a Lindblad-form master equation.
翻訳日:2023-02-10 09:14:17 公開日:2022-06-06
# 実シュアノルムとアダマール行列

Real Schur norms and Hadamard matrices ( http://arxiv.org/abs/2206.02863v1 )

ライセンス: Link先を確認
John Holbrook, Nathaniel Johnston, Jean-Pierre Schoch(参考訳) シュールノルム $\|m\|_{s}=\max\{ \|m\circ c\|: \|c\|=1\}$, ここで m はエントリが$\pm1$である行列であり、$\circ$ は行列のエントリワイズ(すなわちシュールまたはハダマール)積を表す。 そのような行列 M が n × n であれば、そのシュールノルムは$\sqrt{n}$ で有界であり、等式がアダマール行列である場合に限り成り立つことを示す。 シュールノルムを数値的に効率的に計算する手法を開発し,その結果を応用し,従来より優れたアダマール行列をいくつか提示する。

We present a preliminary study of Schur norms $\|M\|_{S}=\max\{ \|M\circ C\|: \|C\|=1\}$, where M is a matrix whose entries are $\pm1$, and $\circ$ denotes the entrywise (i.e., Schur or Hadamard) product of the matrices. We show that, if such a matrix M is n-by-n, then its Schur norm is bounded by $\sqrt{n}$, and equality holds if and only if it is a Hadamard matrix. We develop a numerically efficient method of computing Schur norms, and as an application of our results we present several almost Hadamard matrices that are better than were previously known.
翻訳日:2023-02-10 09:14:00 公開日:2022-06-06
# RFN:カーネルヒルベルト空間再生における経験的リスク最小化のためのランダム機能に基づくニュートン法

RFN: A Random-Feature Based Newton Method for Empirical Risk Minimization in Reproducing Kernel Hilbert Spaces ( http://arxiv.org/abs/2002.04753v4 )

ライセンス: Link先を確認
Ting-Jui Chang, Shahin Shahrampour(参考訳) カーネル手法を用いた教師付き学習では、再現カーネルヒルベルト空間(RKHS)上で大規模な有限サム最小化が発生することが多い。 大規模な有限サム問題はニュートン法の効率的な変種を用いて解くことができ、ヘッセンはデータのサブサンプルによって近似される。 しかし、RKHSでは、ペナルティ関数のカーネルへの依存は、グラム行列が低ランクの形で利用できないため、標準的なサブサンプリングアプローチを適用できない。 本稿では,このような問題に対して,ニュートン法を高速化するためにカーネル近似を自然に利用できることを考察する。 カーネル近似のランダム化特徴に着目し,局所超線形収束と大域的線形収束(高確率)を楽しむ2次アルゴリズムを提案する。 我々は、近似された Hessian がノルム意味で真の Hessian に近づくのに必要なランダムな特徴の数に対する理論的な下界を導出する。 実世界のデータに関する数値実験により,本手法の効率をいくつかのベンチマークと比較した。

In supervised learning using kernel methods, we often encounter a large-scale finite-sum minimization over a reproducing kernel Hilbert space (RKHS). Large-scale finite-sum problems can be solved using efficient variants of Newton method, where the Hessian is approximated via sub-samples of data. In RKHS, however, the dependence of the penalty function to kernel makes standard sub-sampling approaches inapplicable, since the gram matrix is not readily available in a low-rank form. In this paper, we observe that for this class of problems, one can naturally use kernel approximation to speed up the Newton method. Focusing on randomized features for kernel approximation, we provide a novel second-order algorithm that enjoys local superlinear convergence and global linear convergence (with high probability). We derive the theoretical lower bound for the number of random features required for the approximated Hessian to be close to the true Hessian in the norm sense. Our numerical experiments on real-world data verify the efficiency of our method compared to several benchmarks.
翻訳日:2023-01-01 19:12:04 公開日:2022-06-06
# ドラゴンの訓練方法:セマンティックビデオセグメンテーションのための為のワープネットワーク

How to Train Your Dragon: Tamed Warping Network for Semantic Video Segmentation ( http://arxiv.org/abs/2005.01344v3 )

ライセンス: Link先を確認
Junyi Feng, Songyuan Li, Yifeng Chen, Fuxian Huang, Jiabao Cui, and Xi Li(参考訳) 高精細度ビデオのリアルタイムセマンティクスセグメンテーションは,速度の厳しい要件から困難である。 最近のアプローチでは、フレーム間の連続性を利用して、隣接するフレームにまたがる特徴マップをゆがめて冗長な計算を削減し、推論フェーズを大幅に高速化している。 しかし,不正確な動き推定と誤差蓄積により,精度は著しく低下する。 本稿では,warping 型モデルの精度と頑健性を向上させるため,tamed warping network (twnet) というフレームワークを構築するため,warping ステージ直後の簡易かつ効果的な修正ステージを導入することを提案する。 Cityscapesデータセットの実験結果によると、補正によってmIoUの精度は67.3%から71.6%に向上し、スピードエッジは65.5 FPSから61.8 FPSに低下した。 人間」や「対象」のような厳格でないカテゴリーでは、IoUの改善は18パーセント以上である。

Real-time semantic segmentation on high-resolution videos is challenging due to the strict requirements of speed. Recent approaches have utilized the inter-frame continuity to reduce redundant computation by warping the feature maps across adjacent frames, greatly speeding up the inference phase. However, their accuracy drops significantly owing to the imprecise motion estimation and error accumulation. In this paper, we propose to introduce a simple and effective correction stage right after the warping stage to form a framework named Tamed Warping Network (TWNet), aiming to improve the accuracy and robustness of warping-based models. The experimental results on the Cityscapes dataset show that with the correction, the accuracy (mIoU) significantly increases from 67.3% to 71.6%, and the speed edges down from 65.5 FPS to 61.8 FPS. For non-rigid categories such as "human" and "object", the improvements of IoU are even higher than 18 percentage points.
翻訳日:2022-12-07 01:04:38 公開日:2022-06-06
# (参考訳) ポートフォリオ管理における利益、リスク、持続可能性のバランス

Balancing Profit, Risk, and Sustainability for Portfolio Management ( http://arxiv.org/abs/2207.02134v1 )

ライセンス: CC BY 4.0
Charl Maree and Christian W. Omlin(参考訳) 株式ポートフォリオ最適化(英: Stock portfolio optimization)は、株式選択に対する資金の継続的な再配分のプロセスである。 これは特に強化学習に適した問題であり、日々の報酬は複雑であり、客観的機能には単なる利益、例えばリスクや持続可能性以上のものが含まれる可能性がある。 本研究では,リスクを表すシャープ比と持続可能性を表す環境,社会,ガバナンススコア(ESG)を用いた新しいユーティリティ機能を開発した。 本研究では, パラメータ最適化のための遺伝的アルゴリズムに勾配勾配勾配を置き換えた上で, 平坦な政策勾配による最適政策の発見に失敗することを示す。 本システムは,連続的な動作空間を可能にすることにより,深いq-learningアプローチを改良しつつ,maddpgよりも優れることを示す。 重要なことは、実用機能にリスクとサステナビリティの基準を組み込むことで、ポートフォリオ最適化のための強化学習の最先端を改善し、リスクとサステナビリティは現代の取引戦略において不可欠であり、これらの指標を単に報告するだけでなく、ポートフォリオを改善するために積極的にポートフォリオを最適化するシステムを提案する。

Stock portfolio optimization is the process of continuous reallocation of funds to a selection of stocks. This is a particularly well-suited problem for reinforcement learning, as daily rewards are compounding and objective functions may include more than just profit, e.g., risk and sustainability. We developed a novel utility function with the Sharpe ratio representing risk and the environmental, social, and governance score (ESG) representing sustainability. We show that a state-of-the-art policy gradient method - multi-agent deep deterministic policy gradients (MADDPG) - fails to find the optimum policy due to flat policy gradients and we therefore replaced gradient descent with a genetic algorithm for parameter optimization. We show that our system outperforms MADDPG while improving on deep Q-learning approaches by allowing for continuous action spaces. Crucially, by incorporating risk and sustainability criteria in the utility function, we improve on the state-of-the-art in reinforcement learning for portfolio optimization; risk and sustainability are essential in any modern trading strategy and we propose a system that does not merely report these metrics, but that actively optimizes the portfolio to improve on them.
翻訳日:2022-07-10 17:37:11 公開日:2022-06-06
# 教師付きメタラーニングによるネットワークアーキテクチャによる教師なし学習の積み重ね

Stacked unsupervised learning with a network architecture found by supervised meta-learning ( http://arxiv.org/abs/2206.02716v1 )

ライセンス: Link先を確認
Kyle Luther and H. Sebastian Seung(参考訳) 積み重ねた教師なし学習(SUL)は、学習が各層に局所的であるため、バックプロパゲーションよりも生物学的に妥当であるように見える。 しかし、SULは実践的な応用には程遠いため、SULが脳がどのように学習するかを説明できるという考えを弱めている。 本稿では,バックプロパゲーションに基づく教師なしアルゴリズムと同等の精度でmnist桁の教師なしクラスタリングを行うsulアルゴリズムを示す。 本アルゴリズムは,幾何学的歪みによる学習データ拡張を必要とする自己教師あり手法によってのみ超過される。 教師なしアルゴリズムにおける唯一の事前知識は、ネットワークアーキテクチャにおいて暗黙である。 複数の畳み込みの「エネルギー層」は、一次視覚野の「エネルギーモデル」にインスパイアされた2乗の非線形性を含む。 畳み込みカーネルはk-部分空間アルゴリズムの高速実装によって学習される。 高い精度では、初期ホワイトニング層による前処理、学習よりも推論時にスパースが少ない表現、ゲインコントロールのための再スケーリングが必要である。 ネットワークアーキテクチャのハイパーパラメータは教師なしのクラスタリング精度を最適化する教師なしメタラーニングによって見出される。 ネットワークアーキテクチャにおいて暗黙の事前知識に対する教師なし学習の依存は生物学的に妥当であり、進化史における脳アーキテクチャの依存と類似していると考える。

Stacked unsupervised learning (SUL) seems more biologically plausible than backpropagation, because learning is local to each layer. But SUL has fallen far short of backpropagation in practical applications, undermining the idea that SUL can explain how brains learn. Here we show an SUL algorithm that can perform completely unsupervised clustering of MNIST digits with comparable accuracy relative to unsupervised algorithms based on backpropagation. Our algorithm is exceeded only by self-supervised methods requiring training data augmentation by geometric distortions. The only prior knowledge in our unsupervised algorithm is implicit in the network architecture. Multiple convolutional "energy layers" contain a sum-of-squares nonlinearity, inspired by "energy models" of primary visual cortex. Convolutional kernels are learned with a fast minibatch implementation of the K-Subspaces algorithm. High accuracy requires preprocessing with an initial whitening layer, representations that are less sparse during inference than learning, and rescaling for gain control. The hyperparameters of the network architecture are found by supervised meta-learning, which optimizes unsupervised clustering accuracy. We regard such dependence of unsupervised learning on prior knowledge implicit in network architecture as biologically plausible, and analogous to the dependence of brain architecture on evolutionary history.
翻訳日:2022-06-26 14:45:48 公開日:2022-06-06
# CHEF:中国のエビデンスベースのFact-Checkingのパイロットデータセット

CHEF: A Pilot Chinese Dataset for Evidence-Based Fact-Checking ( http://arxiv.org/abs/2206.11863v1 )

ライセンス: Link先を確認
Xuming Hu, Zhijiang Guo, Guanyu Wu, Aiwei Liu, Lijie Wen, Philip S. Yu(参考訳) メディアエコシステムに拡散する誤報の爆発は、ファクトチェックの自動化を促す。 誤情報は地理的および言語的境界にまたがるが、この分野のほとんどの仕事は英語に焦点をあてている。 中国語などの他の言語で利用できるデータセットやツールは限られている。 このギャップを埋めるため、我々は、10万の現実世界のクレームのFact-checkingデータセットであるCHEFを構築した。 このデータセットは、政治から公衆衛生まで、複数のドメインをカバーし、インターネットから得られた注釈付き証拠を提供する。 さらに,証拠検索を潜在変数としてモデル化し,検証精度予測モデルとの協調トレーニングをエンドツーエンドで実現する,確立されたベースラインと新しいアプローチを開発した。 大規模な実験により、CHEFはノンイングリッシュクレームを検索し、推論するために設計されたファクトチェックシステムの開発に挑戦的なテストベッドを提供することが示された。

The explosion of misinformation spreading in the media ecosystem urges for automated fact-checking. While misinformation spans both geographic and linguistic boundaries, most work in the field has focused on English. Datasets and tools available in other languages, such as Chinese, are limited. In order to bridge this gap, we construct CHEF, the first CHinese Evidence-based Fact-checking dataset of 10K real-world claims. The dataset covers multiple domains, ranging from politics to public health, and provides annotated evidence retrieved from the Internet. Further, we develop established baselines and a novel approach that is able to model the evidence retrieval as a latent variable, allowing jointly training with the veracity prediction model in an end-to-end fashion. Extensive experiments show that CHEF will provide a challenging testbed for the development of fact-checking systems designed to retrieve and reason over non-English claims.
翻訳日:2022-06-26 12:13:38 公開日:2022-06-06
# Score-based Out-of-distribution Generation による化学空間の探索

Exploring Chemical Space with Score-based Out-of-distribution Generation ( http://arxiv.org/abs/2206.07632v1 )

ライセンス: Link先を確認
Seul Lee, Jaehyeong Jo, Sung Ju Hwang(参考訳) 分子生成に関する既存の研究の有名な制限は、生成された分子がトレーニングセットの分子と非常によく似ていることである。 デ・ノボの薬物発見のための既知の分子よりも優れた性質を持つ全く異なる構造を持つ真に新しい分子を生成するためには、化学空間におけるより強力な探索が必要である。 本研究では,超パラメータの簡単な制御により生成的確率微分方程式 (sde) にout-of-distribution (ood) 制御を組み込んだ新しいスコアベースの拡散スキームである分子外分散拡散 (mood) を提案する。 しかし、いくつかの新規分子は化学的に有り得ないかもしれないし、現実世界の薬物の基本的な要件を満たしていないかもしれない。 したがって、MOODは、タンパク質-リガンド相互作用、薬物類似性、合成性などの複数の目的特性に応じて、逆時間拡散をハイスコア領域に導く特性予測ネットワークからの勾配を利用して条件付き生成を行う。 これにより、MOODは目に見えないが自明な分子を生成するのではなく、新規で有意義な分子を探すことができる。 実験により,ムードがトレーニング分布を超えた化学空間を探索し,既存の手法で検出した分子や,当初のトレーニングプールの0.01%を上回る分子を生成できることを検証した。

A well-known limitation of existing works on molecule generation is that the generated molecules highly resemble those in the training set. To generate truly novel molecules with completely different structures that may have even better properties than known molecules for de novo drug discovery, more powerful exploration in the chemical space is necessary. To this end, we propose Molecular Out-Of-distribution Diffusion (MOOD), a novel score-based diffusion scheme that incorporates out-of-distribution (OOD) control in the generative stochastic differential equation (SDE) with simple control of a hyperparameter, thus requires no additional computational costs unlike existing methods (e.g., RL-based methods). However, some novel molecules may be chemically implausible, or may not meet the basic requirements of real-world drugs. Thus, MOOD performs conditional generation by utilizing the gradients from a property prediction network that guides the reverse-time diffusion to high-scoring regions according to multiple target properties such as protein-ligand interactions, drug-likeness, and synthesizability. This allows MOOD to search for novel and meaningful molecules rather than generating unseen yet trivial ones. We experimentally validate that MOOD is able to explore the chemical space beyond the training distribution, generating molecules that outscore ones found with existing methods, and even the top 0.01% of the original training pool.
翻訳日:2022-06-19 23:04:52 公開日:2022-06-06
# 単調演算子学習(MOL)を用いた安定・高効率画像復元

Stable and memory-efficient image recovery using monotone operator learning (MOL) ( http://arxiv.org/abs/2206.04797v1 )

ライセンス: Link先を確認
Aniket Pramanik, Mathews Jacob(参考訳) 画像における大規模逆問題に対するモノトン深部平衡学習フレームワークを提案する。 提案手法は,各反復がスコア関数を含む勾配降下と,データ一貫性を促進する共役勾配アルゴリズムからなる前方後方分割に依拠する。 スコア関数は単調畳み込みニューラルネットワークとしてモデル化される。 モノトン演算子の使用は、圧縮センシングにおける凸先の使用と同様に、収束の保証、固定点の特異性、入力摂動に対する堅牢性など、いくつかの利点を提供する。 さらに,提案手法は未ロール法に比べてメモリ効率が著しく向上し,現在の未ロールアルゴリズムでは処理できない3次元問題にも適用できる。 実験により,提案手法は入力摂動の有無で安定でありながら,3次元設定における性能向上を図っている。

We introduce a monotone deep equilibrium learning framework for large-scale inverse problems in imaging. The proposed algorithm relies on forward-backward splitting, where each iteration consists of a gradient descent involving the score function and a conjugate gradient algorithm to encourage data consistency. The score function is modeled as a monotone convolutional neural network. The use of a monotone operator offers several benefits, including guaranteed convergence, uniqueness of fixed point, and robustness to input perturbations, similar to the use of convex priors in compressive sensing. In addition, the proposed formulation is significantly more memory-efficient than unrolled methods, which allows us to apply it to 3D problems that current unrolled algorithms cannot handle. Experiments show that the proposed scheme can offer improved performance in 3D settings while being stable in the presence of input perturbations.
翻訳日:2022-06-19 22:47:56 公開日:2022-06-06
# 抽象化による汎用無線mac通信プロトコルの学習

Learning Generalized Wireless MAC Communication Protocols via Abstraction ( http://arxiv.org/abs/2206.06331v1 )

ライセンス: Link先を確認
Luciano Miuccio, Salvatore Riolo, Sumudu Samarakoony, Daniela Panno, and Mehdi Bennis(参考訳) 5G(B5G)を超えるヘテロジニアスな要件と将来の6G無線ネットワークに対処するためには、ベースステーション(BS)とユーザ機器(UE)が高度に多様なサービスに対応する革新的なMACプロトコルを自動的に学習できるように、従来のメディアアクセス制御(MAC)手順を進化させる必要がある。 この話題は注目されており、bssとuesをエージェントとして使用する強化学習(rl)アルゴリズムが、エージェントのローカルな観察に基づいて通信ポリシーを学ぶ目的で利用可能である。 しかしながら、現在のアプローチは一般的に、トレーニング対象の環境に過度に適合し、目に見えない条件に対する堅牢性を欠き、異なる環境での一般化に失敗する。 この問題を克服するために,本稿では,高次元・冗長な観測空間におけるポリシーを学習する代わりに,環境から有用な情報抽出に根ざした観測抽象化(OA)の概念を活用する。 これにより、現在のベースラインよりも堅牢で、はるかに優れた一般化能力を持つ通信プロトコルを学ぶことができる。 観察から抽象化された情報を学習するために,autoencoder (ae) に基づくアーキテクチャを提案し,マルチエージェント・近位政策最適化 (mappo) フレームワークに組み込む。 シミュレーション結果は、ues数、送信するデータパケット数、チャネル条件の観点から、環境をまたいで一般化することにより、学習プロトコルの抽象化を活用することの有効性を実証する。

To tackle the heterogeneous requirements of beyond 5G (B5G) and future 6G wireless networks, conventional medium access control (MAC) procedures need to evolve to enable base stations (BSs) and user equipments (UEs) to automatically learn innovative MAC protocols catering to extremely diverse services. This topic has received significant attention, and several reinforcement learning (RL) algorithms, in which BSs and UEs are cast as agents, are available with the aim of learning a communication policy based on agents' local observations. However, current approaches are typically overfitted to the environment they are trained in, and lack robustness against unseen conditions, failing to generalize in different environments. To overcome this problem, in this work, instead of learning a policy in the high dimensional and redundant observation space, we leverage the concept of observation abstraction (OA) rooted in extracting useful information from the environment. This in turn allows learning communication protocols that are more robust and with much better generalization capabilities than current baselines. To learn the abstracted information from observations, we propose an architecture based on autoencoder (AE) and imbue it into a multi-agent proximal policy optimization (MAPPO) framework. Simulation results corroborate the effectiveness of leveraging abstraction when learning protocols by generalizing across environments, in terms of number of UEs, number of data packets to transmit, and channel conditions.
翻訳日:2022-06-19 22:46:44 公開日:2022-06-06
# (参考訳) ランダム特徴回帰モデルのための最適活性化関数

Optimal Activation Functions for the Random Features Regression Model ( http://arxiv.org/abs/2206.01332v2 )

ライセンス: CC BY 4.0
Jianxin Wang and Jos\'e Bento(参考訳) 近年,ランダム特徴回帰モデル(rfr)の漸近的平均二乗検定誤差と感度が研究されている。 我々はこの研究に基づいて、異なる関数parsimonyの概念の下でrfrのテストエラーと感度の組み合わせを最小化するアクティベーション関数ファミリー(afs)をクローズドフォームで特定する。 最適afsが線形、飽和線型関数、あるいはエルミート多項式を用いて表現可能なシナリオを見いだす。 最後に, 最適afsの利用が, 二重降下曲線などのrfrモデルの確立した特性や, 観測騒音レベルに対する最適正規化パラメータの依存性にどのように影響するかを示す。

The asymptotic mean squared test error and sensitivity of the Random Features Regression model (RFR) have been recently studied. We build on this work and identify in closed-form the family of Activation Functions (AFs) that minimize a combination of the test error and sensitivity of the RFR under different notions of functional parsimony. We find scenarios under which the optimal AFs are linear, saturated linear functions, or expressible in terms of Hermite polynomials. Finally, we show how using optimal AFs impacts well-established properties of the RFR model, such as its double descent curve, and the dependency of its optimal regularization parameter on the observation noise level.
翻訳日:2022-06-12 21:31:23 公開日:2022-06-06
# (参考訳) 小児新型コロナウイルス(covid-19)患者の重篤な健康リスクの深層学習予測 : 2021年のbardaデータ課題を中心に

Deep Learning Prediction of Severe Health Risks for Pediatric COVID-19 Patients with a Large Feature Set in 2021 BARDA Data Challenge ( http://arxiv.org/abs/2206.01696v2 )

ライセンス: CC BY 4.0
Sajid Mahmud, Elham Soltanikazemi, Frimpong Boadu, Ashwin Dhakal, Jianlin Cheng(参考訳) 新型コロナウイルスに感染したほとんどの子供たちは、軽度または軽度な症状を伴わず、自分で自動的に回復できるが、一部の小児科の患者は入院や集中治療を受ける必要がある(例えば、侵襲的な機械換気や心臓血管サポートなど)。 したがって、新型コロナウイルス感染が小児にもたらした深刻な健康リスクを予測し、脆弱な小児感染症患者に対して正確かつタイムリーな医療を提供することが重要である。 しかし、子どもを含む新型コロナウイルス患者の深刻な健康リスクを予測することは依然として大きな課題であり、その影響の根底にある多くの医学的要因はいまだに不明である。 本研究では, 予測に最も有用な機能を探す代わりに, 各種の医療状況と新型コロナウイルス患者の測定値を表現するための, 単語の大規模化手法を考案した。 論理的回帰に基づく簡易な特徴フィルタリングの後、深層学習法を用いて、新型コロナウイルス感染児の入院リスクと、入院した小児の合併症リスクの両方を予測する。 2021年9月15日から12月17日まで行われたBARDA(Biomedical Advanced Research and Development Authority)小児新型コロナウイルスデータチャレンジのデータセットをトレーニングし、検証した。 その結果,小児の新型コロナウイルス患者の入院リスクや重篤な合併症を正確に予測することが可能であり,ディープラーニングは他の機械学習手法よりも正確であることが示唆された。

Most children infected with COVID-19 have no or mild symptoms and can recover automatically by themselves, but some pediatric COVID-19 patients need to be hospitalized or even to receive intensive medical care (e.g., invasive mechanical ventilation or cardiovascular support) to recover from the illnesses. Therefore, it is critical to predict the severe health risk that COVID-19 infection poses to children to provide precise and timely medical care for vulnerable pediatric COVID-19 patients. However, predicting the severe health risk for COVID-19 patients including children remains a significant challenge because many underlying medical factors affecting the risk are still largely unknown. In this work, instead of searching for a small number of most useful features to make prediction, we design a novel large-scale bag-of-words like method to represent various medical conditions and measurements of COVID-19 patients. After some simple feature filtering based on logistical regression, the large set of features is used with a deep learning method to predict both the hospitalization risk for COVID-19 infected children and the severe complication risk for the hospitalized pediatric COVID-19 patients. The method was trained and tested the datasets of the Biomedical Advanced Research and Development Authority (BARDA) Pediatric COVID-19 Data Challenge held from Sept. 15 to Dec. 17, 2021. The results show that the approach can rather accurately predict the risk of hospitalization and severe complication for pediatric COVID-19 patients and deep learning is more accurate than other machine learning methods.
翻訳日:2022-06-12 18:06:17 公開日:2022-06-06
# データ分析におけるディファレンシャルプライバシの実用化に向けて--プライベートermにおけるepsilonの効果の理解

Towards Practical Differential Privacy in Data Analysis: Understanding the Effect of Epsilon on Utility in Private ERM ( http://arxiv.org/abs/2206.03488v1 )

ライセンス: Link先を確認
Yuzhe Li, Yong Liu, Bo Li, Weiping Wang, Nan Liu(参考訳) 本稿では,最もよく用いられるデータ分析手法の一つであるERM(Private Empirical Risk Minimization)に注目した。 我々は、epsilon(プライバシー保証の強さを決定する差分プライバシーのパラメータ)が学習モデルの有用性に与える影響を理論的に検討することで、上記の問題を解決するための第一歩を踏み出します。 エプシロンの修飾によるユーティリティの変化を追跡し,エプシロンとユーティリティの関係を明らかにする。 次に,この関係を形式化し,エプシロンの任意の値の下での有用性を推定するための実用的な手法を提案する。 理論解析と実験の結果はともに高い推定精度を示し,本手法の実用的応用の可能性を示した。 可能な限りプライバシを付与する強力なユーティリティ保証をアルゴリズムに提供することがますます受け入れられるようになり、当社のアプローチは実用的価値が高く、プライバシを守りたいがユーティリティに妥協を望まない企業や組織に採用される可能性が高くなります。

In this paper, we focus our attention on private Empirical Risk Minimization (ERM), which is one of the most commonly used data analysis method. We take the first step towards solving the above problem by theoretically exploring the effect of epsilon (the parameter of differential privacy that determines the strength of privacy guarantee) on utility of the learning model. We trace the change of utility with modification of epsilon and reveal an established relationship between epsilon and utility. We then formalize this relationship and propose a practical approach for estimating the utility under an arbitrary value of epsilon. Both theoretical analysis and experimental results demonstrate high estimation accuracy and broad applicability of our approach in practical applications. As providing algorithms with strong utility guarantees that also give privacy when possible becomes more and more accepted, our approach would have high practical value and may be likely to be adopted by companies and organizations that would like to preserve privacy but are unwilling to compromise on utility.
翻訳日:2022-06-09 13:17:55 公開日:2022-06-06
# (参考訳) 深海底圧力容器のための深層学習型FAAサロゲート

Deep Learning-based FEA surrogate for sub-sea pressure vessel ( http://arxiv.org/abs/2206.03322v1 )

ライセンス: CC BY 4.0
Harsh Vardhan, Janos Sztipanovits(参考訳) 自律型水中車両(AUV)の設計過程において、圧力容器は重要な役割を果たす。 圧力容器には、ドライエレクトロニクス、電源、その他浸水できないセンサーが含まれている。 圧力容器設計の伝統的な設計手法は、複数の有限要素解析(FEA)に基づくシミュレーションを実行し、要求を満たす最適な設計を見つけるために設計を最適化することである。 これらの実行は、あらゆる最適化プロセスにとって計算コストが非常に高く、数百もの評価を実行することが困難になる。 そのような場合、より優れたアプローチは、FEAベースの予測を学習ベースの回帰器に置き換えることを目的としたサロゲート設計である。 サロゲートがクラス問題のために訓練されると、学習された応答面は、そのクラス問題に対するfeaを実行することなくストレス効果を分析するために使用できる。 問題クラスのサロゲートを作成するという課題は、データ生成です。 このプロセスは計算コストがかかるため、設計空間を密にサンプリングすることは不可能であり、スパースデータセットの学習応答面は困難になる。 実験中、深層学習に基づくサーロゲートが、そのようなスパースデータ上で他の回帰モデルを上回ることを観察した。 本研究では,Deep Learningベースのモデルを用いて,コストのかかる有限要素解析に基づくシミュレーションプロセスを置き換える。 サーロゲートを作成することで、直接有限要素分析よりもずっと高速に他の設計の予測を高速化できる。 また、dlベースのsurrogateと、他の古典的な機械学習(ml)ベースの回帰モデル(ランダムフォレストと勾配強化レグレッサー)を比較した。 我々は,スペーサーデータにおいて,DLに基づくサロゲートは他の回帰モデルよりも優れた性能を示した。

During the design process of an autonomous underwater vehicle (AUV), the pressure vessel has a critical role. The pressure vessel contains dry electronics, power sources, and other sensors that can not be flooded. A traditional design approach for a pressure vessel design involves running multiple Finite Element Analysis (FEA) based simulations and optimizing the design to find the best suitable design which meets the requirement. Running these FEAs are computationally very costly for any optimization process and it becomes difficult to run even hundreds of evaluation. In such a case, a better approach is the surrogate design with the goal of replacing FEA-based prediction with some learning-based regressor. Once the surrogate is trained for a class of problem, then the learned response surface can be used to analyze the stress effect without running the FEA for that class of problem. The challenge of creating a surrogate for a class of problems is data generation. Since the process is computationally costly, it is not possible to densely sample the design space and the learning response surface on sparse data set becomes difficult. During experimentation, we observed that a Deep Learning-based surrogate outperforms other regression models on such sparse data. In the present work, we are utilizing the Deep Learning-based model to replace the costly finite element analysis-based simulation process. By creating the surrogate we speed up the prediction on the other design much faster than direct Finite element Analysis. We also compared our DL-based surrogate with other classical Machine Learning (ML) based regression models( random forest and Gradient Boost regressor). We observed on the sparser data, the DL-based surrogate performs much better than other regression models.
翻訳日:2022-06-09 11:33:09 公開日:2022-06-06
# (参考訳) 下水管網の早期異常検出:各種異常検出アルゴリズムの袋詰め

Early Abnormal Detection of Sewage Pipe Network: Bagging of Various Abnormal Detection Algorithms ( http://arxiv.org/abs/2206.03321v1 )

ライセンス: CC BY 4.0
Zhen-Yu Zhang, Guo-Xiang Shao, Chun-Ming Qiu, Yue-Jie Hou, En-Ming Zhao, and Chi-Chun Zhou(参考訳) 下水道管網の異常は市全体の正常な運営に影響を及ぼす。 したがって、早期に異常を検出することが重要である。 本稿では早期異常検出法を提案する。 1) 下水道管網(超音波ドップラー流量計など)に設置されたセンサによって測定された現在のデータと過去のデータとを全体データセットとし、そのデータ異常を診断するために従来の異常検出法を用いて一般データセットを検出する。 異常とは、データセット全体の他のサンプルとは異なるサンプルを指す。 異常の定義はアルゴリズムではなくデータセット全体を通じて行われるので、データセット全体の構築が早期異常検出アルゴリズムを提案する鍵となる。 2) 様々な従来の異常検出アルゴリズムのバギング戦略を提案し, 高精度・高精度な異常検出を実現する。 本手法は,最大精度98.21%,リコール率63.58%,f1-score 0.774で早期異常検出が可能であった。

Abnormalities of the sewage pipe network will affect the normal operation of the whole city. Therefore, it is important to detect the abnormalities early. This paper propose an early abnormal-detection method. The abnormalities are detected by using the conventional algorithms, such as isolation forest algorithm, two innovations are given: (1) The current and historical data measured by the sensors placed in the sewage pipe network (such as ultrasonic Doppler flowmeter) are taken as the overall dataset, and then the general dataset is detected by using the conventional anomaly detection method to diagnose the anomaly of the data. The anomaly refers to the sample different from the others samples in the whole dataset. Because the definition of anomaly is not through the algorithm, but the whole dataset, the construction of the whole dataset is the key to propose the early abnormal-detection algorithms. (2) A bagging strategy for a variety of conventional anomaly detection algorithms is proposed to achieve the early detection of anomalies with the high precision and recall. The results show that this method can achieve the early anomaly detection with the highest precision of 98.21%, the recall rate 63.58% and F1-score of 0.774.
翻訳日:2022-06-09 11:25:34 公開日:2022-06-06
# (参考訳) FIFA:不均衡データでトレーニングされた分類器で公平性をより一般化可能に

FIFA: Making Fairness More Generalizable in Classifiers Trained on Imbalanced Data ( http://arxiv.org/abs/2206.02792v1 )

ライセンス: CC BY 4.0
Zhun Deng, Jiayao Zhang, Linjun Zhang, Ting Ye, Yates Coley, Weijie J. Su, James Zou(参考訳) アルゴリズム的公正は機械学習において重要な役割を担い、学習中に公正性制約を課すことは一般的なアプローチである。 しかし、多くのデータセットは特定のラベルクラス(例えば「健康」)と敏感なサブグループ(例えば「高齢者」)で不均衡である。 経験上、この不均衡は分類だけでなくフェアネス特性、特に過剰パラメータモデルにも一般化可能性の欠如をもたらす。 例えば、公正を意識したトレーニングは、トレーニングデータに対して等化確率(EO)を保証しますが、EOは新規ユーザに満足するには程遠いものです。 本稿では,fifa (imbalance-fairness-aware) という理論的手法を提案する。 具体的には、FIFAは分類と公平性の一般化を奨励し、ロジットに基づく多くの既存の公正学習手法と柔軟に組み合わせることができる。 主な焦点はEOだが、FIFAは平等化の機会(EqOpt)を達成するために直接適用することができる。 提案アルゴリズムは,FIFAと一般的なフェア分類アルゴリズムを組み合わせることで,実世界の複数のデータセットに対して,より優れたフェアネスの一般化を実現する。

Algorithmic fairness plays an important role in machine learning and imposing fairness constraints during learning is a common approach. However, many datasets are imbalanced in certain label classes (e.g. "healthy") and sensitive subgroups (e.g. "older patients"). Empirically, this imbalance leads to a lack of generalizability not only of classification, but also of fairness properties, especially in over-parameterized models. For example, fairness-aware training may ensure equalized odds (EO) on the training data, but EO is far from being satisfied on new users. In this paper, we propose a theoretically-principled, yet Flexible approach that is Imbalance-Fairness-Aware (FIFA). Specifically, FIFA encourages both classification and fairness generalization and can be flexibly combined with many existing fair learning methods with logits-based losses. While our main focus is on EO, FIFA can be directly applied to achieve equalized opportunity (EqOpt); and under certain conditions, it can also be applied to other fairness notions. We demonstrate the power of FIFA by combining it with a popular fair classification algorithm, and the resulting algorithm achieves significantly better fairness generalization on several real-world datasets.
翻訳日:2022-06-09 11:11:13 公開日:2022-06-06
# (参考訳) ガス金属アーク溶接t接合部の溶接ビード形状パラメータ決定のための機械学習モデル -比較-

Machine learning models for determination of weldbead shape parameters for gas metal arc welded T-joints -- A comparative study ( http://arxiv.org/abs/2206.02794v1 )

ライセンス: CC BY 4.0
R. Pradhan, A.P Joshi, M.R Sunny, and A. Sarkar(参考訳) 溶接ビーズの形状は溶接継手の質を評価する上で重要である。 特に、これは数値解析から得られた結果の精度に大きな影響を与えている。 本研究は,遮蔽ガス金属アーク溶接継手の溶接ビード形状パラメータを予測するための統計的設計手法と人工ニューラルネットワークに焦点を当てた。 厚みが3mmから10mmの低炭素軟鋼板に対して広範囲な試験を行った。 溶接電圧,溶接電流,移動熱源速度を溶接パラメータとして検討した。 対話的・高次項を考慮したGMAWビーズ形状パラメータを定義するための経験方程式を確立するために、3種類の多重回帰モデル(MLR)を開発した。 さらに、同様のスキームに基づいて人工ニューラルネットワーク(ANN)モデルを作成し、SHAP(SHapley Additive exPlanations)を用いて特定の特徴の関連性を検討した。 その結果, MLRに基づくアプローチは予測可能性や誤差評価の観点から, ANNベースのモデルよりも優れていることがわかった。 本研究は溶接の数値解析を支援するための予測ツールの有用性を示す。

The shape of a weld bead is critical in assessing the quality of the welded joint. In particular, this has a major impact in the accuracy of the results obtained from a numerical analysis. This study focuses on the statistical design techniques and the artificial neural networks, to predict the weld bead shape parameters of shielded Gas Metal Arc Welded (GMAW) fillet joints. Extensive testing was carried out on low carbon mild steel plates of thicknesses ranging from 3mm to 10mm. Welding voltage, welding current, and moving heat source speed were considered as the welding parameters. Three types of multiple linear regression models (MLR) were created to establish an empirical equation for defining GMAW bead shape parameters considering interactive and higher order terms. Additionally, artificial neural network (ANN) models were created based on similar scheme, and the relevance of specific features was investigated using SHapley Additive exPlanations (SHAP). The results reveal that MLR-based approach performs better than the ANN based models in terms of predictability and error assessment. This study shows the usefulness of the predictive tools to aid numerical analysis of welding.
翻訳日:2022-06-09 10:39:58 公開日:2022-06-06
# (参考訳) 統計モデルとオントロジーに基づくセマンティックモデリングを用いた19例の予測:リアルタイムデータ分析アプローチ

Forecasting COVID- 19 cases using Statistical Models and Ontology-based Semantic Modelling: A real time data analytics approach ( http://arxiv.org/abs/2206.02795v1 )

ライセンス: CC BY 4.0
Sadhana Tiwari, Ritesh Chandra, Sonali Agarwal(参考訳) SARS-COV-19は、多くの国が現在直面している最も顕著な問題である。 感染、回復、死亡の頻繁な変化は、このパンデミックのダイナミックな性質を表している。 このウイルスの拡散率を予測することは、ウイルスによる感染状況との戦い、コミュニティにおけるウイルス感染の追跡と制御に対する正確な判断を行う上で非常に重要である。 本研究では,SARIMA や FBProphet などの統計時系列モデルを用いて,COVID-19 の日常的,回復的,死亡例を正確にモニタリングする予測モデルを開発した。 次に、各患者(身長、体重、性別など)のさまざまな詳細を参考に、セマンティックWebルール言語と、COVID-19感染患者を個別に扱うための数学的モデルを用いて、一連のルールを設計した。 すべてのモデルを組み合わせて、リスクファクタを蓄積し、適切な診断、予防、予防的提案を提供する、設計オントロジー上のSPARQLクエリを使用して、さまざまなクエリを実行します。 SARIMAモデルとFBProphetのパフォーマンスを比較した結果,SARIMAモデルでは新型コロナウイルスの予測精度が向上した。 個別に新型コロナウイルスのケース予測、近似。 497個のサンプルが検査され、covid-19, no covid, high risk covid case, medium to high risk case, and control necessary caseといった5つのレベルのcovid-19クラスに分類されている。

SARS-COV-19 is the most prominent issue which many countries face today. The frequent changes in infections, recovered and deaths represents the dynamic nature of this pandemic. It is very crucial to predict the spreading rate of this virus for accurate decision making against fighting with the situation of getting infected through the virus, tracking and controlling the virus transmission in the community. We develop a prediction model using statistical time series models such as SARIMA and FBProphet to monitor the daily active, recovered and death cases of COVID-19 accurately. Then with the help of various details across each individual patient (like height, weight, gender etc.), we designed a set of rules using Semantic Web Rule Language and some mathematical models for dealing with COVID19 infected cases on an individual basis. After combining all the models, a COVID-19 Ontology is developed and performs various queries using SPARQL query on designed Ontology which accumulate the risk factors, provide appropriate diagnosis, precautions and preventive suggestions for COVID Patients. After comparing the performance of SARIMA and FBProphet, it is observed that the SARIMA model performs better in forecasting of COVID cases. On individual basis COVID case prediction, approx. 497 individual samples have been tested and classified into five different levels of COVID classes such as Having COVID, No COVID, High Risk COVID case, Medium to High Risk case, and Control needed case.
翻訳日:2022-06-09 10:19:08 公開日:2022-06-06
# (参考訳) FedNST: 音声認識のためのフェデレーションノイズ学習

FedNST: Federated Noisy Student Training for Automatic Speech Recognition ( http://arxiv.org/abs/2206.02797v1 )

ライセンス: CC BY 4.0
Haaris Mehmood, Agnieszka Dobrowolska, Karthikeyan Saravanan, Mete Ozay(参考訳) federated learning(fl)は、分散システムのユーザデバイス(クライアント)上で、最先端の自動音声認識(asr)モデルをトレーニングすることを可能にする。 FL for ASRの実践的な採用に直面している重要な課題は、クライアントの地味なラベルを取得することだ。 既存のアプローチでは、クライアントが音声を手作業で書き起こしているため、大規模なトレーニングコーパスを得ることは現実的ではない。 有望な代替手段は、セミ/セルフ教師付き学習アプローチを使用して、問題のないユーザデータを活用することだ。 そこで本研究では,非ラベルユーザデータを用いた分散asrモデルの雑音学習のためのフェデレートasr手法fenstを提案する。 非ラベルデータとラベル付きデータの比率の異なるトレーニングモデルなど、fennstのさまざまな側面を調査し、1173のシミュレーションクライアントに対して提案手法を評価した。 LibriSpeech上でのFedNSTの評価では、960時間の音声データがサーバ(labelled)データとクライアント(labelled)データに等しく分割され、サーバデータのみに基づいてトレーニングされた教師付きベースラインに対して22.5%の相対的な単語エラー率削減(WERR)が示された。

Federated Learning (FL) enables training state-of-the-art Automatic Speech Recognition (ASR) models on user devices (clients) in distributed systems, hence preventing transmission of raw user data to a central server. A key challenge facing practical adoption of FL for ASR is obtaining ground-truth labels on the clients. Existing approaches rely on clients to manually transcribe their speech, which is impractical for obtaining large training corpora. A promising alternative is using semi-/self-supervised learning approaches to leverage unlabelled user data. To this end, we propose a new Federated ASR method called FedNST for noisy student training of distributed ASR models with private unlabelled user data. We explore various facets of FedNST , such as training models with different proportions of unlabelled and labelled data, and evaluate the proposed approach on 1173 simulated clients. Evaluating FedNST on LibriSpeech, where 960 hours of speech data is split equally into server (labelled) and client (unlabelled) data, showed a 22.5% relative word error rate reduction (WERR) over a supervised baseline trained only on server data.
翻訳日:2022-06-09 09:58:47 公開日:2022-06-06
# (参考訳) 対向剤を用いた協調線形帯域:準最適回帰境界

Collaborative Linear Bandits with Adversarial Agents: Near-Optimal Regret Bounds ( http://arxiv.org/abs/2206.02834v1 )

ライセンス: CC BY 4.0
Aritra Mitra, Arman Adibi, George J. Pappas, and Hamed Hassani(参考訳) 我々は, 後悔を最小限に抑えるために, 中央サーバを介して協調できるM$エージェントを含む線形確率的盗賊問題を考える。 これらのエージェントのわずかな$\alpha$は、敵対的であり、任意に振る舞うことができ、次の緊張に繋がる。 本研究は, 厳密な信頼区間を慎重に構築し, 探索・探索トレードオフのバランスをとる新しいアルゴリズムを設計することによって, この緊張関係を根本的に理解するものである。 また、厳密な分析でアルゴリズムを補完します。 まず,各エージェントに対して$\tilde{o}\left(\alpha+ 1/\sqrt{m}\right) \sqrt{dt}$ regret for each good agent; ここで,$d$ はモデル次元であり,$t$ は水平方向である。 小さい$\alpha$の場合、この結果は敵対者にもかかわらずコラボレーションの明確な利点を示します。 情報理論的な議論を用いて、一致する下限を証明し、敵と協調する線形バンディットに対して、最初の厳密で最適に近い後悔境界を与える。 さらに,近年の高次元ロバスト統計学の進歩を活かし,アルゴリズムの考え方と結果を大きく拡張した。 (i)非線形観測マップを可能にする一般化線形帯域モデル、及び (ii)時変特徴ベクトルを可能にする文脈的バンディット設定。

We consider a linear stochastic bandit problem involving $M$ agents that can collaborate via a central server to minimize regret. A fraction $\alpha$ of these agents are adversarial and can act arbitrarily, leading to the following tension: while collaboration can potentially reduce regret, it can also disrupt the process of learning due to adversaries. In this work, we provide a fundamental understanding of this tension by designing new algorithms that balance the exploration-exploitation trade-off via carefully constructed robust confidence intervals. We also complement our algorithms with tight analyses. First, we develop a robust collaborative phased elimination algorithm that achieves $\tilde{O}\left(\alpha+ 1/\sqrt{M}\right) \sqrt{dT}$ regret for each good agent; here, $d$ is the model-dimension and $T$ is the horizon. For small $\alpha$, our result thus reveals a clear benefit of collaboration despite adversaries. Using an information-theoretic argument, we then prove a matching lower bound, thereby providing the first set of tight, near-optimal regret bounds for collaborative linear bandits with adversaries. Furthermore, by leveraging recent advances in high-dimensional robust statistics, we significantly extend our algorithmic ideas and results to (i) the generalized linear bandit model that allows for non-linear observation maps; and (ii) the contextual bandit setting that allows for time-varying feature vectors.
翻訳日:2022-06-09 09:44:00 公開日:2022-06-06
# (参考訳) EVC-Net:脳抽出のための条件ランダムフィールド付きマルチスケールVネットワーク

EVC-Net: Multi-scale V-Net with Conditional Random Fields for Brain Extraction ( http://arxiv.org/abs/2206.02837v1 )

ライセンス: CC BY 4.0
Jong Sung Park, Shreyas Fadnavis, Eleftherios Garyfallidis(参考訳) 脳抽出は3D脳MRIデータを前処理する最初のステップの1つである。 これは今後の脳画像解析の前提条件である。 しかし、脳と人間の頭部の複雑な構造のため、単純なセグメンテーションの問題ではない。 文献では複数の解法が提案されているが,真に堅牢な方法には程遠い。 従来の手法では,コンピュータビジョンタスクにおける深層学習の発達に伴い,構造的・幾何学的優先順位を持つ機械学習が用いられてきたが,この意味的セグメンテーションタスクでは畳み込みニューラルネットワークアーキテクチャが提案されている。 しかし、ほとんどのモデルは、アーキテクチャの変更をほとんど受けずに、トレーニングデータと損失関数を改善することに焦点を合わせています。 本稿では,EVC-Netと呼ぶ新しいアーキテクチャを提案する。 EVC-Netは各エンコーダブロックに低スケール入力を追加する。 これにより、v-netアーキテクチャのマルチスケールスキームが強化され、モデルの効率が向上する。 ディープラーニング時代以前のイメージセグメンテーションの一般的なアプローチである条件付きランダムフィールドは、ネットワークの出力を精細化し、セグメンテーションのきめ細かい結果をキャプチャするための追加ステップとして、ここで再導入される。 hd-bet, synthstrip,brainyなどの最先端の手法と比較した。 その結果,EVC-Netはトレーニングリソースが限られていても,高いDice CoefficientとJaccard Indexと低い表面距離を達成できることがわかった。

Brain extraction is one of the first steps of pre-processing 3D brain MRI data. It is a prerequisite for any forthcoming brain imaging analyses. However, it is not a simple segmentation problem due to the complex structure of the brain and human head. Although multiple solutions have been proposed in the literature, we are still far from having truly robust methods. While previous methods have used machine learning with structural/geometric priors, with the development of deep learning in computer vision tasks, there has been an increase in proposed convolutional neural network architectures for this semantic segmentation task. Yet, most models focus on improving the training data and loss functions with little change in the architecture. In this paper, we propose a novel architecture we call EVC-Net. EVC-Net adds lower scale inputs on each encoder block. This enhances the multi-scale scheme of the V-Net architecture, hence increasing the efficiency of the model. Conditional Random Fields, a popular approach for image segmentation before the deep learning era, are re-introduced here as an additional step for refining the network's output to capture fine-grained results in segmentation. We compare our model to state-of-the-art methods such as HD-BET, Synthstrip and brainy. Results show that even with limited training resources, EVC-Net achieves higher Dice Coefficient and Jaccard Index along with lower surface distance.
翻訳日:2022-06-09 09:41:07 公開日:2022-06-06
# (参考訳) 深層時空間ネットワークの符号化 - 静的情報と動的情報の定量化-

A Deeper Dive Into What Deep Spatiotemporal Networks Encode: Quantifying Static vs. Dynamic Information ( http://arxiv.org/abs/2206.02846v1 )

ライセンス: CC BY 4.0
Matthew Kowal, Mennatullah Siam, Md Amirul Islam, Neil D. B. Bruce, Richard P. Wildes, Konstantinos G. Derpanis(参考訳) 深い時空間モデルは、アクション認識やビデオオブジェクトのセグメンテーションなど、様々なコンピュータビジョンタスクで使用される。 現在、これらのモデルが取得した情報をその中間表現で限定的に理解している。 例えば、アクション認識アルゴリズムは単一の静的フレームの視覚的な外観に大きく影響されていることが観察されているが、動的情報に対するバイアス(例えば動き)と比較して、潜在表現における静的バイアスを評価する定量的な方法は存在しない。 我々は、時空間モデルの静的および動的バイアスを定量化する新しいアプローチを提案することで、この課題に取り組む。 提案手法の有効性を示すために,動作認識と映像オブジェクトのセグメンテーションという,広く研究されている2つのタスクを分析した。 私たちの重要な発見は3つあります (i)ほとんどの時空間モデルは静的情報に偏りがあるが,相互接続のある2ストリームアーキテクチャでは静的情報と動的情報のバランスが良くなっている。 (ii)一般的にダイナミクスに偏っていると仮定されるデータセットのいくつかは、実際には静的情報に偏っている。 (iii)アーキテクチャ内の個々の単位(チャネル)は、静的、動的、または2つの組み合わせに偏りがある。

Deep spatiotemporal models are used in a variety of computer vision tasks, such as action recognition and video object segmentation. Currently, there is a limited understanding of what information is captured by these models in their intermediate representations. For example, while it has been observed that action recognition algorithms are heavily influenced by visual appearance in single static frames, there is no quantitative methodology for evaluating such static bias in the latent representation compared to bias toward dynamic information (e.g. motion). We tackle this challenge by proposing a novel approach for quantifying the static and dynamic biases of any spatiotemporal model. To show the efficacy of our approach, we analyse two widely studied tasks, action recognition and video object segmentation. Our key findings are threefold: (i) Most examined spatiotemporal models are biased toward static information; although, certain two-stream architectures with cross-connections show a better balance between the static and dynamic information captured. (ii) Some datasets that are commonly assumed to be biased toward dynamics are actually biased toward static information. (iii) Individual units (channels) in an architecture can be biased toward static, dynamic or a combination of the two.
翻訳日:2022-06-09 09:32:06 公開日:2022-06-06
# (参考訳) グラフ注意アーキテクチャの鳥のチュートリアル

A Bird's-Eye Tutorial of Graph Attention Architectures ( http://arxiv.org/abs/2206.02849v1 )

ライセンス: CC BY 4.0
Kaustubh D. Dhole and Carl Yang(参考訳) グラフニューラルネットワーク(gnns)は,特に自然言語処理やコンピュータビジョン,レコメンダシステムといった領域において,グラフ構造問題のパフォーマンスが著しく向上している。 トランスフォーマーアーキテクチャの成功に触発されて、これらの問題の多くで芸術の進歩を図ろうとするGNNの注目の変種について、絶え間なく研究が続けられてきた。 グラフマイニングに"注意"を組み込むことは、グラフ構造化データに関連するノイズ、異質性、複雑さを克服し、ソフトインダクティブバイアスを符号化する方法として見なされている。 したがって、これらの変種を鳥の目の観点から研究し、その強さと弱点を評価することは重要である。 我々は,グラフ構造問題を扱う研究者に利益をもたらすために,注目に基づくGNNを中心に,体系的で集中的なチュートリアルを提供する。 本チュートリアルでは、注目機能の観点からGNNの変種を考察し、異なるグラフ注意変種に対する読者の理解を反復的に構築する。

Graph Neural Networks (GNNs) have shown tremendous strides in performance for graph-structured problems especially in the domains of natural language processing, computer vision and recommender systems. Inspired by the success of the transformer architecture, there has been an ever-growing body of work on attention variants of GNNs attempting to advance the state of the art in many of these problems. Incorporating "attention" into graph mining has been viewed as a way to overcome the noisiness, heterogenity and complexity associated with graph-structured data as well as to encode soft-inductive bias. It is hence crucial and advantageous to study these variants from a bird's-eye view to assess their strengths and weaknesses. We provide a systematic and focused tutorial centered around attention based GNNs in a hope to benefit researchers dealing with graph-structured problems. Our tutorial looks at GNN variants from the point of view of the attention function and iteratively builds the reader's understanding of different graph attention variants.
翻訳日:2022-06-09 09:07:06 公開日:2022-06-06
# (参考訳) 効率的なエンティティベース強化学習

Efficient entity-based reinforcement learning ( http://arxiv.org/abs/2206.02855v1 )

ライセンス: CC BY 4.0
Vince Jankovics, Michael Garcia Ortiz, Eduardo Alonso(参考訳) 近年の深層強化学習(DRL)の成功は、固定サイズの観測入力(画像、状態変数など)からエンドツーエンドの学習に依存している。 However, many challenging and interesting problems in decision making involve observations or intermediary representations which are best described as a set of entities: either the image-based approach would miss small but important details in the observations (e.g. ojects on a radar, vehicles on satellite images, etc.), the number of sensed objects is not fixed (e.g. robotic manipulation), or the problem simply cannot be represented in a meaningful way as an image (e.g. power grid control, or logistics). このタイプの構造化表現は、現在のDRLアーキテクチャと直接互換性がないが、構造化情報を直接ターゲットとする機械学習技術が増加しており、この問題に対処する可能性がある。 DRLアルゴリズムの応用範囲を拡大し,近年の集合表現とスロットアテンションとグラフニューラルネットワークを組み合わせた構造化データ処理を提案する。 このアプローチは、効率良くスケーラブルな方法でエンティティベースの問題に対処することができる。 Atari Learning EnvironmentとSimple Playgroundsの複数の環境において、トレーニング時間と堅牢性を大幅に向上させ、構造化されたドメインと純粋に視覚的なドメインを扱う可能性を示す。

Recent deep reinforcement learning (DRL) successes rely on end-to-end learning from fixed-size observational inputs (e.g. image, state-variables). However, many challenging and interesting problems in decision making involve observations or intermediary representations which are best described as a set of entities: either the image-based approach would miss small but important details in the observations (e.g. ojects on a radar, vehicles on satellite images, etc.), the number of sensed objects is not fixed (e.g. robotic manipulation), or the problem simply cannot be represented in a meaningful way as an image (e.g. power grid control, or logistics). This type of structured representations is not directly compatible with current DRL architectures, however, there has been an increase in machine learning techniques directly targeting structured information, potentially addressing this issue. We propose to combine recent advances in set representations with slot attention and graph neural networks to process structured data, broadening the range of applications of DRL algorithms. This approach allows to address entity-based problems in an efficient and scalable way. We show that it can improve training time and robustness significantly, and demonstrate their potential to handle structured as well as purely visual domains, on multiple environments from the Atari Learning Environment and Simple Playgrounds.
翻訳日:2022-06-09 08:50:07 公開日:2022-06-06
# (参考訳) 規範参加基盤言語

Norm Participation Grounds Language ( http://arxiv.org/abs/2206.02885v1 )

ライセンス: CC BY 4.0
David Schlangen(参考訳) 言語のみの機械学習モデルから、一見意味のある言語行動を引き出すという、最近の顕著な進歩は、明確な制限が表面化して、言語のみのモードを超えて、これらのモデルを“世界で”構築する必要性が顕在化している。 これを実現するための提案は細部によって異なるが、このソリューションは画像やビデオストリームのような非言語的なデータ型を追加し、学習のモードを一定に保っている。 私は、接地がどのように理解されるべきかという、異なる、より広い範囲の考えを提案します。 正しいことを行うための標準があり、これらの標準は公的かつ権威的であり、同時に、規範的地位を持つ者だけが正しく参加できる相互作用において、権威の受容は議論され、交渉されなければならない。 根拠となる言語とは、言語ユーザがそれに対して決定的な利用をすることであり、それが根拠となっているのは、言語ユーザのコミュニティである。 私はこのアイデアをスケッチし、意味のある言語使用の計算モデリングにいくつかの結論を導きます。

The striking recent advances in eliciting seemingly meaningful language behaviour from language-only machine learning models have only made more apparent, through the surfacing of clear limitations, the need to go beyond the language-only mode and to ground these models "in the world". Proposals for doing so vary in the details, but what unites them is that the solution is sought in the addition of non-linguistic data types such as images or video streams, while largely keeping the mode of learning constant. I propose a different, and more wide-ranging conception of how grounding should be understood: What grounds language is its normative nature. There are standards for doing things right, these standards are public and authoritative, while at the same time acceptance of authority can and must be disputed and negotiated, in interactions in which only bearers of normative status can rightfully participate. What grounds language, then, is the determined use that language users make of it, and what it is grounded in is the community of language users. I sketch this idea, and draw some conclusions for work on computational modelling of meaningful language use.
翻訳日:2022-06-09 08:37:45 公開日:2022-06-06
# (参考訳) 環境に基づく拡張によるグラフの合理化

Graph Rationalization with Environment-based Augmentations ( http://arxiv.org/abs/2206.02886v1 )

ライセンス: CC BY 4.0
Gang Liu, Tong Zhao, Jiaxin Xu, Tengfei Luo, Meng Jiang(参考訳) rationaleは、機械学習モデルによる予測を最も説明またはサポートする入力機能のサブセットとして定義される。 Rationaleの識別により、視覚と言語データに対するニューラルネットワークの一般化性と解釈性が向上した。 分子や高分子特性予測などのグラフアプリケーションでは、グラフ論理として名付けられた代表サブグラフ構造がグラフニューラルネットワークの性能において重要な役割を果たす。 既存のグラフプーリングおよび/または分配介入手法は、最適なグラフ論理を識別するサンプルの不足に悩まされる。 本研究では,仮想データを自動的に生成して合理的な識別を改善する環境代替という新たな拡張操作を提案する。 本稿では,グラフの復号化と符号化の複雑さを回避するために,有理環境分離と実例,拡張例の表現学習を行う効率的なフレームワークを提案する。 近年の手法と比較して、7つの分子および4つのポリマー実データに対する実験は、拡張に基づくグラフ合理化フレームワークの有効性と効率を実証している。

Rationale is defined as a subset of input features that best explains or supports the prediction by machine learning models. Rationale identification has improved the generalizability and interpretability of neural networks on vision and language data. In graph applications such as molecule and polymer property prediction, identifying representative subgraph structures named as graph rationales plays an essential role in the performance of graph neural networks. Existing graph pooling and/or distribution intervention methods suffer from lack of examples to learn to identify optimal graph rationales. In this work, we introduce a new augmentation operation called environment replacement that automatically creates virtual data examples to improve rationale identification. We propose an efficient framework that performs rationale-environment separation and representation learning on the real and augmented examples in latent spaces to avoid the high complexity of explicit graph decoding and encoding. Comparing against recent techniques, experiments on seven molecular and four polymer real datasets demonstrate the effectiveness and efficiency of the proposed augmentation-based graph rationalization framework.
翻訳日:2022-06-09 08:25:22 公開日:2022-06-06
# (参考訳) ディープネットワークを用いた低次元マニフォールドの非パラメトリックオフポリティ評価のサンプル複雑さ

Sample Complexity of Nonparametric Off-Policy Evaluation on Low-Dimensional Manifolds using Deep Networks ( http://arxiv.org/abs/2206.02887v1 )

ライセンス: CC BY 4.0
Xiang Ji, Minshuo Chen, Mengdi Wang, Tuo Zhao(参考訳) 深層ニューラルネットワークを用いた強化学習のオフポリシー評価問題を考える。 我々は、未知の行動ポリシーからデータを生成する際に、対象ポリシーの期待累積報酬を推定するための深い適合Q評価法を分析する。 ネットワークサイズを適切に選択することにより,マルコフ決定過程において低次元多様体構造を活用でき,高次元の呪いに苦しむことなくサンプル効率の高い推定値が得られることを示す。 具体的には、本質的な低次元、状態-作用空間の滑らかさ、および関数のクラス制限付き$\chi^2$-divergenceに依存する適合Q-評価の鋭い誤差を確立する。 制限された$\chi^2$-divergence は2つのポリシーが表形式で互いに近接していなくても小さくなるような振る舞いと対象ポリシー' {\it mismatch in the function space} を測定することに注意が必要である。 理論解析を支援するために数値実験を行った。

We consider the off-policy evaluation problem of reinforcement learning using deep neural networks. We analyze the deep fitted Q-evaluation method for estimating the expected cumulative reward of a target policy, when the data are generated from an unknown behavior policy. We show that, by choosing network size appropriately, one can leverage the low-dimensional manifold structure in the Markov decision process and obtain a sample-efficient estimator without suffering from the curse of high representation dimensionality. Specifically, we establish a sharp error bound for the fitted Q-evaluation that depends on the intrinsic low dimension, the smoothness of the state-action space, and a function class-restricted $\chi^2$-divergence. It is noteworthy that the restricted $\chi^2$-divergence measures the behavior and target policies' {\it mismatch in the function space}, which can be small even if the two policies are not close to each other in their tabular forms. Numerical experiments are provided to support our theoretical analysis.
翻訳日:2022-06-09 08:03:12 公開日:2022-06-06
# (参考訳) 時間依存2レベルシステムのための条件付きseq2seqモデル

Conditional Seq2Seq model for the time-dependent two-level system ( http://arxiv.org/abs/2206.02889v1 )

ライセンス: CC BY 4.0
Bin Yang, Mengxi Wu, Winfried Teizer(参考訳) 量子光学系の2レベル系にディープラーニングニューラルネットワークアーキテクチャを適用し,時間依存シュロディンガー方程式を解く。 ネットワーク構造とチューニングパラメータを慎重に設計することにより、ランダム電場の場合、超長期予測における90%以上の精度が達成され、2段階系の時間依存方程式を解くための有望な新しい方法が示される。 このネットワークをわずかに修正することで、従来の手法よりも効率的に2次元あるいは3次元の時間依存シュロディンガー方程式を解くことができると考える。

We apply the deep learning neural network architecture to the two-level system in quantum optics to solve the time-dependent Schrodinger equation. By carefully designing the network structure and tuning parameters, above 90 percent accuracy in super long-term predictions can be achieved in the case of random electric fields, which indicates a promising new method to solve the time-dependent equation for two-level systems. By slightly modifying this network, we think that this method can solve the two- or three-dimensional time-dependent Schrodinger equation more efficiently than traditional approaches.
翻訳日:2022-06-09 07:39:54 公開日:2022-06-06
# (参考訳) 70万人のウェアラブルデータを用いた人間行動認識のための自己教師付き学習

Self-supervised Learning for Human Activity Recognition Using 700,000 Person-days of Wearable Data ( http://arxiv.org/abs/2206.02909v1 )

ライセンス: CC BY 4.0
Hang Yuan, Shing Chan, Andrew P. Creagh, Catherine Tong, David A. Clifton, Aiden Doherty(参考訳) 人間のアクティビティ認識のためのディープラーニングの進歩は、大きなラベル付きデータセットがないため、比較的制限されている。 本研究では,英国のバイオバンク・アクティビティ・トラッカー(biobank activity tracker)データセット上で,自己教師付き学習技術を活用する。 結果として得られたアクティビティ認識モデルは、7つのベンチマークデータセットの強いベースラインを一貫して上回っており、f1の相対的な改善は2.5%-100%(中間18.4%)でした。 これまでの研究とは対照的に、結果は外部データセット、デバイス、環境にまたがって一般化します。 私たちのオープンソースモデルは、研究者や開発者がカスタマイズ可能で汎用的なアクティビティ分類器を高性能で構築するのに役立ちます。

Advances in deep learning for human activity recognition have been relatively limited due to the lack of large labelled datasets. In this study, we leverage self-supervised learning techniques on the UK-Biobank activity tracker dataset--the largest of its kind to date--containing more than 700,000 person-days of unlabelled wearable sensor data. Our resulting activity recognition model consistently outperformed strong baselines across seven benchmark datasets, with an F1 relative improvement of 2.5%-100% (median 18.4%), the largest improvements occurring in the smaller datasets. In contrast to previous studies, our results generalise across external datasets, devices, and environments. Our open-source model will help researchers and developers to build customisable and generalisable activity classifiers with high performance.
翻訳日:2022-06-09 07:31:46 公開日:2022-06-06
# (参考訳) ディープニューラルネットワークのための8ビット数値フォーマット

8-bit Numerical Formats for Deep Neural Networks ( http://arxiv.org/abs/2206.02915v1 )

ライセンス: CC BY-SA 4.0
Badreddine Noune, Philip Jones, Daniel Justus, Dominic Masters, and Carlo Luschi(参考訳) 機械学習アーキテクチャのサイズと複雑さが増大する現在のトレンドを考えると、モデルトレーニングの計算効率を改善するための新しいアプローチを特定することが重要になっている。 本研究では,固定点表現よりも浮動小数点の利点に対処し,8ビット浮動小数点数形式をアクティベーション,重み,勾配に用いた訓練と推論の両方に用いた詳細な研究を提案する。 異なるビット幅の指数と符号と異なる指数バイアスの効果について検討する。 実験結果から,これらの低精度フォーマットの適切な選択は,画像分類や言語処理の深層学習モデルの精度を低下させることなく,より高速な学習と消費電力削減を可能にすることが示された。

Given the current trend of increasing size and complexity of machine learning architectures, it has become of critical importance to identify new approaches to improve the computational efficiency of model training. In this context, we address the advantages of floating-point over fixed-point representation, and present an in-depth study on the use of 8-bit floating-point number formats for activations, weights, and gradients for both training and inference. We explore the effect of different bit-widths for exponents and significands and different exponent biases. The experimental results demonstrate that a suitable choice of these low-precision formats enables faster training and reduced power consumption without any degradation in accuracy for a range of deep learning models for image classification and language processing.
翻訳日:2022-06-09 07:09:29 公開日:2022-06-06
# (参考訳) 機械学習実践者のデータドキュメンテーションの認識、ニーズ、課題、デシラタを理解する

Understanding Machine Learning Practitioners' Data Documentation Perceptions, Needs, Challenges, and Desiderata ( http://arxiv.org/abs/2206.02923v1 )

ライセンス: CC BY 4.0
Amy Heger, Elizabeth B. Marquis, Mihaela Vorvoreanu, Hanna Wallach, Jennifer Wortman Vaughan(参考訳) データは機械学習(ML)モデルの開発と評価の中心である。 しかし、問題のあるデータセットや不適切なデータセットを使用することは、結果のモデルがデプロイされたときに害をもたらす可能性がある。 データセットに対するより慎重なリフレクションと、それらが作成されるプロセスに関する透明性を通じて、責任あるaiの実践を促進するために、研究者や実践者はデータドキュメントの増加を提唱し始め、いくつかのデータドキュメントフレームワークを提案している。 しかし、これらのデータドキュメンテーションフレームワークがデータセットを作成し、消費するML実践者のニーズを満たすかどうかについてはほとんど研究されていない。 このギャップに対処するため、私たちは、ML実践者のデータドキュメンテーションの認識、ニーズ、課題、そしてデシラタを理解するために、将来のデータドキュメンテーションフレームワークに通知できる設計要件の導出を目標にしました。 1つの大規模国際技術企業で14人のML実践者との半構造化インタビューを行った。 データセット用のdatasheets(gebru, 2021)から取られた質問のリストに答えてもらいました。 以上の結果から,データドキュメンテーションへの現在のアプローチは,本質的にはアドホックかつミオピックであることがわかった。 参加者は、データドキュメントフレームワークが自身のコンテキストに適応し、既存のツールやワークフローに統合され、可能な限り自動化される必要性を表明した。 データドキュメンテーションフレームワークは、しばしば責任あるAIの観点から動機づけられるという事実にもかかわらず、参加者は回答を求められた質問と責任あるAIの影響との間には関連性を持たなかった。 加えて、参加者はデータセット消費者のニーズを優先順位付けし、データセットに慣れていない人が知る必要がある情報を提供するのが困難だった。 これらの知見に基づいて、将来のデータドキュメンテーションフレームワークの設計要件を7つ導き出す。

Data is central to the development and evaluation of machine learning (ML) models. However, the use of problematic or inappropriate datasets can result in harms when the resulting models are deployed. To encourage responsible AI practice through more deliberate reflection on datasets and transparency around the processes by which they are created, researchers and practitioners have begun to advocate for increased data documentation and have proposed several data documentation frameworks. However, there is little research on whether these data documentation frameworks meet the needs of ML practitioners, who both create and consume datasets. To address this gap, we set out to understand ML practitioners' data documentation perceptions, needs, challenges, and desiderata, with the goal of deriving design requirements that can inform future data documentation frameworks. We conducted a series of semi-structured interviews with 14 ML practitioners at a single large, international technology company. We had them answer a list of questions taken from datasheets for datasets (Gebru, 2021). Our findings show that current approaches to data documentation are largely ad hoc and myopic in nature. Participants expressed needs for data documentation frameworks to be adaptable to their contexts, integrated into their existing tools and workflows, and automated wherever possible. Despite the fact that data documentation frameworks are often motivated from the perspective of responsible AI, participants did not make the connection between the questions that they were asked to answer and their responsible AI implications. In addition, participants often had difficulties prioritizing the needs of dataset consumers and providing information that someone unfamiliar with their datasets might need to know. Based on these findings, we derive seven design requirements for future data documentation frameworks.
翻訳日:2022-06-09 06:43:43 公開日:2022-06-06
# (参考訳) 大規模データセットの持続的ホモロジーのためのタイトベースサイクル代表

Tight basis cycle representatives for persistent homology of large data sets ( http://arxiv.org/abs/2206.02925v1 )

ライセンス: CC BY 4.0
Manu Aggarwal, Vipul Periwal(参考訳) 永続ホモロジー(PH)はトポロジカルデータ解析の一般的なツールであり、様々な分野の研究に応用されている。 様々な不確かさの源を含む離散的な実験観測において、ロバストな位相特徴を計算するための厳密な方法を提供する。 理論的には強力だが、phは大きなデータセットへの応用を妨げる高い計算コストに苦しむ。 さらに、PHを用いたほとんどの分析は非自明な特徴の存在を計算することに限定されている。 これらの特徴の正確な局所化は、定義上、局所化表現が一意ではなく、さらに高い計算コストのため、一般的には試みられていない。 科学的応用において、そのような正確な位置は機能的重要性を決定するための正準非位である。 ここでは,大規模データセットにおける非自明なロバストな特徴に関する厳密な境界を計算するための戦略とアルゴリズムを提供する。 アルゴリズムの効率と計算境界の精度を示すため,異なる科学分野の3つのデータセットを解析した。 ヒトゲノムでは、クロマチンループ形成の障害により、染色体13および性染色体のループに予期せぬ効果が認められた。 宇宙の銀河の分布では、統計的に有意な空洞が見つかった。 トポロジーが著しく異なるタンパク質ホモログでは,リガンド相互作用,突然変異,種間の違いに起因するヴォイドが検出された。

Persistent homology (PH) is a popular tool for topological data analysis that has found applications across diverse areas of research. It provides a rigorous method to compute robust topological features in discrete experimental observations that often contain various sources of uncertainties. Although powerful in theory, PH suffers from high computation cost that precludes its application to large data sets. Additionally, most analyses using PH are limited to computing the existence of nontrivial features. Precise localization of these features is not generally attempted because, by definition, localized representations are not unique and because of even higher computation cost. For scientific applications, such a precise location is a sine qua non for determining functional significance. Here, we provide a strategy and algorithms to compute tight representative boundaries around nontrivial robust features in large data sets. To showcase the efficiency of our algorithms and the precision of computed boundaries, we analyze three data sets from different scientific fields. In the human genome, we found an unexpected effect on loops through chromosome 13 and the sex chromosomes, upon impairment of chromatin loop formation. In a distribution of galaxies in the universe, we found statistically significant voids. In protein homologs with significantly different topology, we found voids attributable to ligand-interaction, mutation, and differences between species.
翻訳日:2022-06-09 06:11:33 公開日:2022-06-06
# (参考訳) カリフォルニアにおける電力インフラの火災リスク予測

Predicting Electricity Infrastructure Induced Wildfire Risk in California ( http://arxiv.org/abs/2206.02930v1 )

ライセンス: CC BY 4.0
Mengqi Yao, Meghana Bharadwaj, Zheng Zhang, Baihong Jin and Duncan S. Callaway(参考訳) 本稿では,電気インフラによる山火事の発生時期と発生位置を予測するためのリスクモデルについて検討する。 われわれのデータには、2015年から2019年にかけて太平洋ガス・電気の領域で収集されたグリッドインフラストラクチャによって引き起こされた歴史的着火とワイヤーダウンポイントと、さまざまな天候、植生、そして位置、年齢、材料を含むグリッドインフラストラクチャに関する非常に高解像度のデータが含まれている。 これらのデータを用いて、トレーニングデータの不均衡を管理するためのさまざまな機械学習手法と戦略を探索する。 我々が取得した受信機動作特性の最も優れた領域は、分布給電用 0.776 と伝送線路のワイヤダウンイベント 0.824 であり、どちらもアンダーサンプリング付きヒストグラムベースの勾配昇降木アルゴリズム (HGB) を用いている。 次に、これらのモデルを使用して、最も予測的な価値を提供する情報を特定する。 線長の後に、着火やワイヤダウンのリスクにおいて、天気と植生の特徴が最も重要な特徴の一覧であることがわかった。 配電着火モデルでは, 燃焼指数, エネルギー放出量, 樹高などの緩やかな植生変数への依存度が高いが, 送電線ダウンモデルは風速や降水量といった一次気象変数に依存している。 これらの結果は,送電線ダウンモデルにおける植生モデルの改善と天気予報の改善が重要であることを示している。 インフラの機能はリスクモデル予測能力に小さなが有意義な改善をもたらす。

This paper examines the use of risk models to predict the timing and location of wildfires caused by electricity infrastructure. Our data include historical ignition and wire-down points triggered by grid infrastructure collected between 2015 to 2019 in Pacific Gas & Electricity territory along with various weather, vegetation, and very high resolution data on grid infrastructure including location, age, materials. With these data we explore a range of machine learning methods and strategies to manage training data imbalance. The best area under the receiver operating characteristic we obtain is 0.776 for distribution feeder ignitions and 0.824 for transmission line wire-down events, both using the histogram-based gradient boosting tree algorithm (HGB) with under-sampling. We then use these models to identify which information provides the most predictive value. After line length, we find that weather and vegetation features dominate the list of top important features for ignition or wire-down risk. Distribution ignition models show more dependence on slow-varying vegetation variables such as burn index, energy release content, and tree height, whereas transmission wire-down models rely more on primary weather variables such as wind speed and precipitation. These results point to the importance of improved vegetation modeling for feeder ignition risk models, and improved weather forecasting for transmission wire-down models. We observe that infrastructure features make small but meaningful improvements to risk model predictive power.
翻訳日:2022-06-09 06:09:39 公開日:2022-06-06
# 組み込みシステムの効率的な機械学習・コンパイラ・最適化

Efficient Machine Learning, Compilers, and Optimizations for Embedded Systems ( http://arxiv.org/abs/2206.03326v1 )

ライセンス: Link先を確認
Xiaofan Zhang, Yao Chen, Cong Hao, Sitao Huang, Yuhong Li, Deming Chen(参考訳) Deep Neural Networks(DNN)は、高品質なコンピュータビジョン、自然言語処理、仮想現実アプリケーションを提供することによって、膨大な数の人工知能(AI)アプリケーションで大きな成功を収めている。 しかし、これらの新興AIアプリケーションは、計算とメモリ要求の増加も伴うため、特に計算/メモリリソースの制限、電力予算の厳格化、小さなフォームファクターが要求される組み込みシステムでは、処理が困難である。 リアルタイム応答、高スループットのパフォーマンス、信頼性の高い推測精度など、さまざまなアプリケーション固有の要件も課題だ。 これらの課題に対処するため,本章では,効率的なアルゴリズム,コンパイラ,組込みシステムに対する様々な最適化を実現するための,効率的な設計手法のシリーズを紹介する。

Deep Neural Networks (DNNs) have achieved great success in a massive number of artificial intelligence (AI) applications by delivering high-quality computer vision, natural language processing, and virtual reality applications. However, these emerging AI applications also come with increasing computation and memory demands, which are challenging to handle especially for the embedded systems where limited computation/memory resources, tight power budgets, and small form factors are demanded. Challenges also come from the diverse application-specific requirements, including real-time responses, high-throughput performance, and reliable inference accuracy. To address these challenges, we will introduce a series of effective design methods in this book chapter to enable efficient algorithms, compilers, and various optimizations for embedded systems.
翻訳日:2022-06-08 16:55:33 公開日:2022-06-06
# 銀河間ガンマ線放射の離散成分の深層学習モデル

Deep Learning Models of the Discrete Component of the Galactic Interstellar Gamma-Ray Emission ( http://arxiv.org/abs/2206.02819v1 )

ライセンス: Link先を確認
Alexander Shmakov, Mohammadamin Tavakoli, Pierre Baldi, Christopher M. Karwin, Alex Broughton, Simona Murgia(参考訳) H2星間ガスの小さなスケール(あるいは離散的な)構造からの重要な点状成分はフェルミ・LATデータに存在するが、この放出のモデル化は、空の限られた領域でしか利用できない希ガストレーサの観測に依存する。 この貢献を識別することは、星間ガスからガンマ線源を識別し、拡張ガンマ線源をよりよく特徴付けるために重要である。 これらの希少トレーサの観測が存在しないこの放出を予測するために畳み込みニューラルネットワークを設計・訓練し,フェルミ・ラトデータの解析におけるこの成分の影響について考察した。 特に,データ中の点状構造の正確なモデリングにより,フェルミ・ラト銀河中心の過大評価において,この手法を活用する可能性を評価し,点状あるいは滑らかな性質の区別を支援する。 本研究では,これらの希少なh2プロキシが追跡するガンマ線放射を,データ豊富な領域における統計的意義の中で効果的にモデル化し,これらの手法を未観測領域で採用する可能性を示唆する。

A significant point-like component from the small scale (or discrete) structure in the H2 interstellar gas might be present in the Fermi-LAT data, but modeling this emission relies on observations of rare gas tracers only available in limited regions of the sky. Identifying this contribution is important to discriminate gamma-ray point sources from interstellar gas, and to better characterize extended gamma-ray sources. We design and train convolutional neural networks to predict this emission where observations of these rare tracers do not exist and discuss the impact of this component on the analysis of the Fermi-LAT data. In particular, we evaluate prospects to exploit this methodology in the characterization of the Fermi-LAT Galactic center excess through accurate modeling of point-like structures in the data to help distinguish between a point-like or smooth nature for the excess. We show that deep learning may be effectively employed to model the gamma-ray emission traced by these rare H2 proxies within statistical significance in data-rich regions, supporting prospects to employ these methods in yet unobserved regions.
翻訳日:2022-06-08 16:54:14 公開日:2022-06-06
# 離散リーマン曲面上の境界情報逆PDE問題

Boundary informed inverse PDE problems on discrete Riemann surfaces ( http://arxiv.org/abs/2206.02911v1 )

ライセンス: Link先を確認
Mehdi Garrousian and Amirhossein Nouranizadeh(参考訳) 境界を持つ離散リーマン面上の逆偏微分方程式に取り組むためにニューラルネットワークを用いる。 この目的のために、これらの曲面を自然な方法でモデル化する境界付きグラフの概念を導入する。 提案手法は,未知の微分演算子の追跡にメッセージパッシング手法を用い,時間内進化を捉えるために線法を用いてニューラルODEソルバを用いた。 トレーニングデータとして、様々なタイムスタンプのグラフ上のシーブのノイズと不完全な観察を用いる。 このアプローチの目新しさは、非自明なトポロジーを持つ多様体を扱い、教師強制技術を通してグラフ境界のデータを活用することである。 有限な観察から力学系を学ぶことへの関心が高まっているにもかかわらず、現在の多くの方法は2つの一般的な方法で制限されている: 1つは、位相的に自明な空間で、もう1つは、基底空間上の境界データを体系的な方法で処理できないことである。 現在の研究は、これらの制限に対処する試みである。 我々は、正の属と境界を持つ配向曲面上の線形および非線形拡散系の合成データを用いて実験を行い、さらに既存のパラダイムの改善の証拠を提供する。

We employ neural networks to tackle inverse partial differential equations on discretized Riemann surfaces with boundary. To this end, we introduce the concept of a graph with boundary which models these surfaces in a natural way. Our method uses a message passing technique to keep track of an unknown differential operator while using neural ODE solvers through the method of lines to capture the evolution in time. As training data, we use noisy and incomplete observations of sheaves on graphs at various timestamps. The novelty of this approach is in working with manifolds with nontrivial topology and utilizing the data on the graph boundary through a teacher forcing technique. Despite the increasing interest in learning dynamical systems from finite observations, many current methods are limited in two general ways: first, they work with topologically trivial spaces, and second, they fail to handle the boundary data on the ground space in a systematic way. The present work is an attempt at addressing these limitations. We run experiments with synthetic data of linear and nonlinear diffusion systems on orientable surfaces with positive genus and boundary, and moreover, provide evidences for improvements upon the existing paradigms.
翻訳日:2022-06-08 16:53:51 公開日:2022-06-06
# 3次元小分子と高分子錯体のための効率的かつ正確な物理量認識多重グラフニューラルネットワーク

Efficient and Accurate Physics-aware Multiplex Graph Neural Networks for 3D Small Molecules and Macromolecule Complexes ( http://arxiv.org/abs/2206.02789v1 )

ライセンス: Link先を確認
Shuo Zhang, Yang Liu, Lei Xie(参考訳) グラフニューラルネットワーク(GNN)を分子科学に適用する最近の進歩は、3次元3次元構造表現をGNNで学習する能力を示している。 しかし、既存のGNNのほとんどは、多様な相互作用のモデリング不足、計算コストの高い演算、ベクトル値の無知の限界に悩まされている。 そこで我々は,新しいGNNモデルである物理対応多重グラフニューラルネットワーク(PaxNet)を提案し,小さな有機化合物とマクロ分子複合体の3次元分子の表現を効率的かつ正確に学習する。 PaxNetは、分子力学にインスパイアされた局所的および非局所的な相互作用のモデリングを分離し、高価な角度関連計算を減らす。 スカラー特性の他に、paxnetは各原子の関連するベクトルを学習することでベクトル特性を予測できる。 PaxNetの性能を評価するために,2つのタスクにおける最先端のベースラインと比較する。 量子化学特性を予測するための小さな分子データセットでは、PaxNetは予測誤差を15%削減し、最高のベースラインよりも73%少ないメモリを使用する。 タンパク質-リガンド結合親和性を予測するマクロ分子データセットでは、PaxNetはメモリ消費を33%減らし、推論時間を85%減らしながら、最高のベースラインを上回っている。 したがって、PaxNetは分子の大規模機械学習のための普遍的で堅牢で正確な方法を提供する。

Recent advances in applying Graph Neural Networks (GNNs) to molecular science have showcased the power of learning three-dimensional (3D) structure representations with GNNs. However, most existing GNNs suffer from the limitations of insufficient modeling of diverse interactions, computational expensive operations, and ignorance of vectorial values. Here, we tackle these limitations by proposing a novel GNN model, Physics-aware Multiplex Graph Neural Network (PaxNet), to efficiently and accurately learn the representations of 3D molecules for both small organic compounds and macromolecule complexes. PaxNet separates the modeling of local and non-local interactions inspired by molecular mechanics, and reduces the expensive angle-related computations. Besides scalar properties, PaxNet can also predict vectorial properties by learning an associated vector for each atom. To evaluate the performance of PaxNet, we compare it with state-of-the-art baselines in two tasks. On small molecule dataset for predicting quantum chemical properties, PaxNet reduces the prediction error by 15% and uses 73% less memory than the best baseline. On macromolecule dataset for predicting protein-ligand binding affinities, PaxNet outperforms the best baseline while reducing the memory consumption by 33% and the inference time by 85%. Thus, PaxNet provides a universal, robust and accurate method for large-scale machine learning of molecules.
翻訳日:2022-06-08 16:01:56 公開日:2022-06-06
# 機械学習モデルによる効率的な近似クエリについて

On Efficient Approximate Queries over Machine Learning Models ( http://arxiv.org/abs/2206.02845v1 )

ライセンス: Link先を確認
Dujian Ding, Sihem Amer-Yahia, Laks VS Lakshmanan(参考訳) ML予測に対するクエリに回答する問題は、データベースコミュニティで注目を集めている。 高品質な回答を見つけるコストは、DBのすべての項目で人間の専門家や高価なディープニューラルネットワークモデルといった託宣を呼び起こし、クエリを適用することに対応するため、この問題は難しい。 精度目標(pt)とリコール目標(rt)の両方に対して、oracleが高品質の回答を見つけることを最小限に抑えるためにプロキシを利用して、近似クエリ応答のための新しい統一フレームワークを開発した。 我々のフレームワークは、データサンプルに高価なオラクルを呼び出し、DB内のオブジェクトに安価なプロキシを適用するという、司法的な組み合わせを使用します。 それは2つの仮定に依存する。 プロキシ品質の仮定の下では、プロキシ品質は確率的な方法で量子化することができる。 これにより、高い確率でオラクル呼び出しのない高品質な回答を効率的に見つけるPQAと、少数のオラクル呼び出しで経験的に優れたパフォーマンスを達成するヒューリスティックな拡張であるPQEの2つのアルゴリズムを開発することができる。 あるいは、Core Set Closureの仮定の下で、高い確率と最小のオラクル使用率で効率よく高品質な回答を返すCSCと、より一般的な設定に拡張するCSEの2つのアルゴリズムを開発する。 クエリタイプptとrtの5つの実世界のデータセットに関する広範な実験は、我々のアルゴリズムが最先端を上回っており、統計的保証によって高い結果品質を達成していることを示している。

The question of answering queries over ML predictions has been gaining attention in the database community. This question is challenging because the cost of finding high quality answers corresponds to invoking an oracle such as a human expert or an expensive deep neural network model on every single item in the DB and then applying the query. We develop a novel unified framework for approximate query answering by leveraging a proxy to minimize the oracle usage of finding high quality answers for both Precision-Target (PT) and Recall-Target (RT) queries. Our framework uses a judicious combination of invoking the expensive oracle on data samples and applying the cheap proxy on the objects in the DB. It relies on two assumptions. Under the Proxy Quality assumption, proxy quality can be quantified in a probabilistic manner w.r.t. the oracle. This allows us to develop two algorithms: PQA that efficiently finds high quality answers with high probability and no oracle calls, and PQE, a heuristic extension that achieves empirically good performance with a small number of oracle calls. Alternatively, under the Core Set Closure assumption, we develop two algorithms: CSC that efficiently returns high quality answers with high probability and minimal oracle usage, and CSE, which extends it to more general settings. Our extensive experiments on five real-world datasets on both query types, PT and RT, demonstrate that our algorithms outperform the state-of-the-art and achieve high result quality with provable statistical guarantees.
翻訳日:2022-06-08 16:01:31 公開日:2022-06-06
# 人中心によるモデルモニタリング

A Human-Centric Take on Model Monitoring ( http://arxiv.org/abs/2206.02868v1 )

ライセンス: Link先を確認
Murtuza N Shergadwala, Himabindu Lakkaraju, Krishnaram Kenthapadi(参考訳) 予測モデルは、医療、金融、政策といった高リスク領域で様々な一連の決定を下すためにますます使われています。 これらのモデルが正確な予測を行い、データのシフトに頑健であり、急激な特徴に依存しておらず、少数派グループに対して不当に差別的でないことを保証することが重要になる。 この目的のために, 説明可能性, 公平性, 頑健性など, 様々な分野にまたがるアプローチが近年提案されている。 このようなアプローチは,ユーザに対するモデル理解に配慮して,人間中心で行う必要がある。 しかし、機械学習(ML)モデルをデプロイした時に監視する人間中心のニーズと課題を理解するには、研究のギャップがある。 このギャップを埋めるため,我々は,金融サービス,医療,雇用,オンライン小売,計算広告,会話型アシスタントといった分野にまたがる顧客との関わり,mlモデルの展開の交差点での経験のある13人の実践者を対象に,インタビュー調査を行った。 実世界のアプリケーションにおいて,モデル監視のさまざまな人間中心の課題と要件を特定した。 具体的には,モニタリングが結果に与える影響を明らかにするために,モデル監視システムの必要性と課題を見出した。 さらに、このような洞察はアクション可能で、堅牢で、ドメイン固有のユースケース用にカスタマイズ可能でなければならず、情報過負荷を避けるために認知的に考慮する必要があります。

Predictive models are increasingly used to make various consequential decisions in high-stakes domains such as healthcare, finance, and policy. It becomes critical to ensure that these models make accurate predictions, are robust to shifts in the data, do not rely on spurious features, and do not unduly discriminate against minority groups. To this end, several approaches spanning various areas such as explainability, fairness, and robustness have been proposed in recent literature. Such approaches need to be human-centered as they cater to the understanding of the models to their users. However, there is a research gap in understanding the human-centric needs and challenges of monitoring machine learning (ML) models once they are deployed. To fill this gap, we conducted an interview study with 13 practitioners who have experience at the intersection of deploying ML models and engaging with customers spanning domains such as financial services, healthcare, hiring, online retail, computational advertising, and conversational assistants. We identified various human-centric challenges and requirements for model monitoring in real-world applications. Specifically, we found the need and the challenge for the model monitoring systems to clarify the impact of the monitoring observations on outcomes. Further, such insights must be actionable, robust, customizable for domain-specific use cases, and cognitively considerate to avoid information overload.
翻訳日:2022-06-08 16:01:05 公開日:2022-06-06
# アルゴリズムフェアネス・ユーティリティ・トレードオフの分析のための正義に基づく枠組み

A Justice-Based Framework for the Analysis of Algorithmic Fairness-Utility Trade-Offs ( http://arxiv.org/abs/2206.02891v1 )

ライセンス: Link先を確認
Corinna Hertweck, Joachim Baumann, Michele Loi, Eleonora Vigan\`o, Christoph Heitz(参考訳) 予測に基づく意思決定システムでは、異なる視点が相反する可能性がある: 意思決定者の短期的ビジネス目標はしばしば、公平に扱われる意思決定者の願望と矛盾する。 これら2つの視点のバランスは価値の問題である。 これらの価値ある選択を明確にするためのフレームワークを提供します。 そのため、私たちは訓練されたモデルが与えられ、意思決定者や意思決定対象の視点をバランスさせる決定ルールを見つけたいと思っています。 我々は、意思決定者の有用性と意思決定者に対する公平性を評価するために、両方の視点を形式化するアプローチを提供する。 どちらの場合も、意思決定者や意思決定の主題から価値を引き出して、測定可能なものに変えるという考え方です。 公平性評価のために,福祉に基づく公平性に関する文献を構築し,有用性(あるいは福祉)の公平性がどのようなものであるかを問う。 このステップでは、分配的正義のよく知られた理論を構築します。 これにより公正度スコアを導出し、意思決定者のユーティリティと多くの異なる決定ルールを比較します。 本研究では,意思決定システムにおける意思決定者の有用性と意思決定主体に対する公平さのバランスをとるためのアプローチを提案する。

In prediction-based decision-making systems, different perspectives can be at odds: The short-term business goals of the decision makers are often in conflict with the decision subjects' wish to be treated fairly. Balancing these two perspectives is a question of values. We provide a framework to make these value-laden choices clearly visible. For this, we assume that we are given a trained model and want to find decision rules that balance the perspective of the decision maker and of the decision subjects. We provide an approach to formalize both perspectives, i.e., to assess the utility of the decision maker and the fairness towards the decision subjects. In both cases, the idea is to elicit values from decision makers and decision subjects that are then turned into something measurable. For the fairness evaluation, we build on the literature on welfare-based fairness and ask what a fair distribution of utility (or welfare) looks like. In this step, we build on well-known theories of distributive justice. This allows us to derive a fairness score that we then compare to the decision maker's utility for many different decision rules. This way, we provide an approach for balancing the utility of the decision maker and the fairness towards the decision subjects for a prediction-based decision-making system.
翻訳日:2022-06-08 16:00:45 公開日:2022-06-06
# fair mlの基礎的前提としての分散的正義--集団公平度メトリクスの統一、拡張、解釈

Distributive Justice as the Foundational Premise of Fair ML: Unification, Extension, and Interpretation of Group Fairness Metrics ( http://arxiv.org/abs/2206.02897v1 )

ライセンス: Link先を確認
Joachim Baumann, Corinna Hertweck, Michele Loi, Christoph Heitz(参考訳) グループフェアネス指標は、予測に基づく意思決定システムの公正性を評価する確立された方法である。 しかし、これらの指標はいまだに哲学理論と不十分に結びついており、その道徳的意味はしばしば不明である。 本稿では,異なる規範的立場に対応する「正義のパターン」を包含する,分配的正義の理論に基づく意思決定システムの公正性を分析するための一般的な枠組みを提案する。 最も一般的なグループフェアネスの指標は、我々のアプローチの特別なケースと解釈できることを示す。 そこで,我々は,集団公平度指標の統一的・解釈的枠組みを提供し,それぞれに結びついた規範的選択を明らかにし,そのモラルを理解できるようにする。 同時に、現在フェアml文献で議論されているものを超えて、可能な公平度メトリクスの空間の拡張を提供する。 また,本研究の枠組みは,(1)同一性に基づく集団間平等の何らかの形態を要求すること,(2)集団間の意思決定のみを比較すること,(2)これらの集団に対する結果ではないこと,(3)分配正義文学の全幅が十分に表現されていないこと,など,文献で批判されている集団公平度指標のいくつかの制限を克服することを可能にする。

Group fairness metrics are an established way of assessing the fairness of prediction-based decision-making systems. However, these metrics are still insufficiently linked to philosophical theories, and their moral meaning is often unclear. We propose a general framework for analyzing the fairness of decision systems based on theories of distributive justice, encompassing different established ``patterns of justice'' that correspond to different normative positions. We show that the most popular group fairness metrics can be interpreted as special cases of our approach. Thus, we provide a unifying and interpretative framework for group fairness metrics that reveals the normative choices associated with each of them and that allows understanding their moral substance. At the same time, we provide an extension of the space of possible fairness metrics beyond the ones currently discussed in the fair ML literature. Our framework also allows overcoming several limitations of group fairness metrics that have been criticized in the literature, most notably (1) that they are parity-based, i.e., that they demand some form of equality between groups, which may sometimes be harmful to marginalized groups, (2) that they only compare decisions across groups, but not the resulting consequences for these groups, and (3) that the full breadth of the distributive justice literature is not sufficiently represented.
翻訳日:2022-06-08 15:59:02 公開日:2022-06-06
# 配向研究研究:教師なし分析

Researching Alignment Research: Unsupervised Analysis ( http://arxiv.org/abs/2206.02841v1 )

ライセンス: Link先を確認
Jan H. Kirchner, Logan Smith, Jacques Thibodeau, Kyle McDonell, Laria Reynolds(参考訳) AIアライメント研究は、人工知能(AI)が人間に利益をもたらすことを保証する研究分野である。 マシンインテリジェンスが進歩するにつれ、この研究はますます重要になりつつある。 フィールドの研究者たちは、情報の交換をスピードアップするために、さまざまなメディアでアイデアを共有している。 しかし、このスピードにフォーカスすることは、研究現場が不透明であることを意味するため、若い研究者がこの分野に入るのが困難である。 このプロジェクトでは、既存のAIアライメント研究を収集、分析した。 フィールドは急速に成長しており、いくつかのサブフィールドが平行して出現している。 我々は,各サブフィールドを調べた結果,著名な研究者,繰り返し話題,コミュニケーションのさまざまなモードが同定された。 さらに,aiアライメント研究の論文を学習した分類器は,当初データセットに含まれなかった関連記事を検出することが可能であることが判明した。 私たちはこのデータセットを研究コミュニティと共有し、確立された研究者と若い研究者の両方がこの分野に参加するのに役立つツールの開発を望んでいる。

AI alignment research is the field of study dedicated to ensuring that artificial intelligence (AI) benefits humans. As machine intelligence gets more advanced, this research is becoming increasingly important. Researchers in the field share ideas across different media to speed up the exchange of information. However, this focus on speed means that the research landscape is opaque, making it difficult for young researchers to enter the field. In this project, we collected and analyzed existing AI alignment research. We found that the field is growing quickly, with several subfields emerging in parallel. We looked at the subfields and identified the prominent researchers, recurring topics, and different modes of communication in each. Furthermore, we found that a classifier trained on AI alignment research articles can detect relevant articles that we did not originally include in the dataset. We are sharing the dataset with the research community and hope to develop tools in the future that will help both established researchers and young researchers get more involved in the field.
翻訳日:2022-06-08 15:33:58 公開日:2022-06-06
# 最適化理論と自己教師付き学習による物理と意味的インフォームドマルチセンサキャリブレーション

Physics and semantic informed multi-sensor calibration via optimization theory and self-supervised learning ( http://arxiv.org/abs/2206.02856v1 )

ライセンス: Link先を確認
Shmuel Y. Hayoun, Meir Halachmi, Doron Serebro, Kfir Twizer, Elinor Medezinski, Liron Korkidi, Moshik Cohen and Itai Orr(参考訳) 安全で信頼性の高い自動運転を実現するには、正確で堅牢な認識システムを実現する能力に大きく依存するが、正確な校正センサーがなければ完全には実現できない。 環境および運用条件および不適切なメンテナンスは、センサ融合を阻害する校正誤差を発生させ、その結果、知覚性能を低下させる。 従来、センサキャリブレーションは1つ以上の既知の目標を持つ制御環境で行われる。 このような手順はドライブ間でのみ実行でき、手動操作を必要とする。 このことが近年のオンラインターゲットレス手法への関心を喚起し、知覚された環境特徴に基づいて幾何変換を生成できるようになったが、各モダリティによって捉えられる特徴やその特異性が異なるため、知覚的モダリティに必要とされる冗長性がさらに困難になる。 カメラライダー・レーダートリオの連成校正に対する総合的なアプローチを提案する。 これらのセンシングモダリティの事前知識と物理特性を意味情報とともに活用し,直接オンライン最適化によるコスト最小化フレームワークにおける2つの目標のないキャリブレーション手法と,ssl(self-supervised learning)による2つの手法を提案する。

Achieving safe and reliable autonomous driving relies greatly on the ability to achieve an accurate and robust perception system; however, this cannot be fully realized without precisely calibrated sensors. Environmental and operational conditions as well as improper maintenance can produce calibration errors inhibiting sensor fusion and, consequently, degrading the perception performance. Traditionally, sensor calibration is performed in a controlled environment with one or more known targets. Such a procedure can only be carried out in between drives and requires manual operation; a tedious task if needed to be conducted on a regular basis. This sparked a recent interest in online targetless methods, capable of yielding a set of geometric transformations based on perceived environmental features, however, the required redundancy in sensing modalities makes this task even more challenging, as the features captured by each modality and their distinctiveness may vary. We present a holistic approach to performing joint calibration of a camera-lidar-radar trio. Leveraging prior knowledge and physical properties of these sensing modalities together with semantic information, we propose two targetless calibration methods within a cost minimization framework once via direct online optimization, and second via self-supervised learning (SSL).
翻訳日:2022-06-08 15:33:44 公開日:2022-06-06
# 残らないパラメータ:蒸留とモデルサイズがゼロショット検索に与える影響

No Parameter Left Behind: How Distillation and Model Size Affect Zero-Shot Retrieval ( http://arxiv.org/abs/2206.02873v1 )

ライセンス: Link先を確認
Guilherme Moraes Rosa and Luiz Bonifacio and Vitor Jeronymo and Hugo Abonizio and Marzieh Fadaee and Roberto Lotufo and Rodrigo Nogueira(参考訳) 最近の研究により、小さな蒸留言語モデルは、幅広い情報検索タスクにおいて桁違いに大きく、遅いモデルと強力な競合関係にあることが示されている。 これにより、レイテンシの制約により、実世界の検索アプリケーションでデプロイする上で、蒸留と密集したモデルが選択できるようになった。 本研究では,検索モデルの一般化能力において,パラメータの数と初期クエリ文書間相互作用が重要な役割を果たすことを示す。 実験の結果, モデルサイズの増加はドメイン内テストセットの限界ゲインをもたらすが, ファインチューニング中に見つからなかった新しいドメインでは, はるかに大きなゲインが得られることがわかった。 さらに,複数のタスクにおいて,リランクがほぼ同じ大きさの密集したものよりも優れていることを示す。 当社の最大のリランカは,benchmark-ir(beir)の18のデータセットのうち12つでアートの状態を到達し,それまでのアートの状態を3ポイント上回っています。 最後に、ドメイン内の有効性はゼロショット効果のよい指標ではないことを確認した。 コードはhttps://github.com/guilhermemr04/scaling-zero-shot-retrieval.gitで入手できる。

Recent work has shown that small distilled language models are strong competitors to models that are orders of magnitude larger and slower in a wide range of information retrieval tasks. This has made distilled and dense models, due to latency constraints, the go-to choice for deployment in real-world retrieval applications. In this work, we question this practice by showing that the number of parameters and early query-document interaction play a significant role in the generalization ability of retrieval models. Our experiments show that increasing model size results in marginal gains on in-domain test sets, but much larger gains in new domains never seen during fine-tuning. Furthermore, we show that rerankers largely outperform dense ones of similar size in several tasks. Our largest reranker reaches the state of the art in 12 of the 18 datasets of the Benchmark-IR (BEIR) and surpasses the previous state of the art by 3 average points. Finally, we confirm that in-domain effectiveness is not a good indicator of zero-shot effectiveness. Code is available at https://github.com/guilhermemr04/scaling-zero-shot-retrieval.git
翻訳日:2022-06-08 15:31:32 公開日:2022-06-06
# 3次元画像ソナー再構成のための空間音響投影

Spatial Acoustic Projection for 3D Imaging Sonar Reconstruction ( http://arxiv.org/abs/2206.02840v1 )

ライセンス: Link先を確認
Sascha Arnold, Bilal Wehbe(参考訳) 本研究では,マルチビーム画像ソナーを用いた3次元表面再構成手法を提案する。 3次元格子内の固定セル位置の異なる視点からソナーによって測定された強度を統合する。 各セルに対して、離散化された視点の平均強度を保持する特徴ベクトルを統合する。 基底真理情報として機能する特徴ベクトルと独立スパース範囲の測定に基づいて、各セルの最も近い表面への符号付き距離と方向を予測する畳み込みニューラルネットワークを訓練する。 予測された符号距離は、予測された方向に沿って切り離された符号距離場(TSDF)に投影することができる。 マーチングキューブアルゴリズムを用いることで、TSDFからポリゴンメッシュをレンダリングすることができる。 本手法は,限られた視点から高密度な3次元再構成を可能にし,実世界の3つのデータセットで評価した。

In this work we present a novel method for reconstructing 3D surfaces using a multi-beam imaging sonar. We integrate the intensities measured by the sonar from different viewpoints for fixed cell positions in a 3D grid. For each cell we integrate a feature vector that holds the mean intensity for a discretized range of viewpoints. Based on the feature vectors and independent sparse range measurements that act as ground truth information, we train convolutional neural networks that allow us to predict the signed distance and direction to the nearest surface for each cell. The predicted signed distances can be projected into a truncated signed distance field (TSDF) along the predicted directions. Utilizing the marching cubes algorithm, a polygon mesh can be rendered from the TSDF. Our method allows a dense 3D reconstruction from a limited set of viewpoints and was evaluated on three real-world datasets.
翻訳日:2022-06-08 15:29:07 公開日:2022-06-06
# 光衛星画像における雲除去のためのSARデータの可能性を探る

Exploring the Potential of SAR Data for Cloud Removal in Optical Satellite Imagery ( http://arxiv.org/abs/2206.02850v1 )

ライセンス: Link先を確認
Fang Xu and Yilei Shi and Patrick Ebel and Lei Yu and Gui-Song Xia and Wen Yang and Xiao Xiang Zhu(参考訳) クラウド除去タスクの課題は,クラウドカバーを透過可能なSAR(Synthetic Aperture Radar)イメージの活用によって緩和することができる。 しかし、光学画像とSAR画像の間の大きな領域ギャップと、SAR画像の厳しいスペックルノイズは、SARベースの雲の除去に大きな干渉を与え、性能劣化をもたらす可能性がある。 本稿では,SAR画像に埋め込まれた補完情報を活用するために,新しいグローバルローカル核融合型クラウド除去アルゴリズム(GLF-CR)を提案する。 クラウド除去を促進するためにSAR情報のパワーを行使するには2つの側面が必要である。 最初のグローバル融合は、残りの雲のない領域と一致する回復領域の構造を維持するために、すべての局所光学窓間の関係を導くものである。 第2の局所融合は、雲の領域に対応するSAR画像に埋め込まれた補完情報を伝達し、欠落した領域の信頼性の高いテクスチャの詳細を生成し、動的フィルタリングを用いてスペックルノイズによる性能劣化を緩和する。 広範な評価により,提案アルゴリズムは高品質なクラウドフリーイメージを生成でき,最先端のクラウド除去アルゴリズムに対して好適な性能を発揮することが示された。

The challenge of the cloud removal task can be alleviated with the aid of Synthetic Aperture Radar (SAR) images that can penetrate cloud cover. However, the large domain gap between optical and SAR images as well as the severe speckle noise of SAR images may cause significant interference in SAR-based cloud removal, resulting in performance degeneration. In this paper, we propose a novel global-local fusion based cloud removal (GLF-CR) algorithm to leverage the complementary information embedded in SAR images. Exploiting the power of SAR information to promote cloud removal entails two aspects. The first, global fusion, guides the relationship among all local optical windows to maintain the structure of the recovered region consistent with the remaining cloud-free regions. The second, local fusion, transfers complementary information embedded in the SAR image that corresponds to cloudy areas to generate reliable texture details of the missing regions, and uses dynamic filtering to alleviate the performance degradation caused by speckle noise. Extensive evaluation demonstrates that the proposed algorithm can yield high quality cloud-free images and performs favorably against state-of-the-art cloud removal algorithms.
翻訳日:2022-06-08 15:28:54 公開日:2022-06-06
# SpikiLi: 自律走行のためのLiDARを用いたリアルタイム物体検出のスパイクシミュレーション

SpikiLi: A Spiking Simulation of LiDAR based Real-time Object Detection for Autonomous Driving ( http://arxiv.org/abs/2206.02876v1 )

ライセンス: Link先を確認
Sambit Mohapatra, Thomas Mesquida, Mona Hodaei, Senthil Yogamani, Heinrich Gotzig, Patrick Mader(参考訳) Spiking Neural Networksは、電力効率、計算効率、処理遅延を大幅に改善する、最新の新しいニューラルネットワーク設計アプローチである。 非同期スパイクベースのデータフロー、イベントベースの信号生成、処理、ニューロンモデルの変更により、生物学的ニューロンによく似ている。 いくつかの初期の研究は、一般的なディープラーニングタスクに適用性を示す顕著な初期証拠を示してきたが、それらの複雑な実世界のタスクへの応用は比較的低い。 本稿では,まず,ニューラルネットワークをスパイクする複雑な深層学習タスクであるlidarに基づく3次元物体検出に応用する可能性について述べる。 次に,事前学習した畳み込みニューラルネットワークを用いて,スパイク行動のシミュレーションを行う。 シミュレーションにおいて,スパイクニューラルネットワークの本質的側面を密にモデル化し,gpu上で等価な実行時間と精度を達成する。 モデルがニューロモルフィックハードウェア上で実現されると、電力効率が大幅に向上すると予想される。

Spiking Neural Networks are a recent and new neural network design approach that promises tremendous improvements in power efficiency, computation efficiency, and processing latency. They do so by using asynchronous spike-based data flow, event-based signal generation, processing, and modifying the neuron model to resemble biological neurons closely. While some initial works have shown significant initial evidence of applicability to common deep learning tasks, their applications in complex real-world tasks has been relatively low. In this work, we first illustrate the applicability of spiking neural networks to a complex deep learning task namely Lidar based 3D object detection for automated driving. Secondly, we make a step-by-step demonstration of simulating spiking behavior using a pre-trained convolutional neural network. We closely model essential aspects of spiking neural networks in simulation and achieve equivalent run-time and accuracy on a GPU. When the model is realized on a neuromorphic hardware, we expect to have significantly improved power efficiency.
翻訳日:2022-06-08 15:28:36 公開日:2022-06-06
# Occlusion Reasoning を用いたメッシュベースダイナミクスによる衣服マニピュレーション

Mesh-based Dynamics with Occlusion Reasoning for Cloth Manipulation ( http://arxiv.org/abs/2206.02881v1 )

ライセンス: Link先を確認
Zixuan Huang, Xingyu Lin, David Held(参考訳) 布の完全な状態を推定することが困難になるため、布の操作には自己隠蔽が困難である。 理想的には、折り畳んだ布を広げようとするロボットは、その布の隠された領域を判断できるはずだ。 本研究では,近年の布のポーズ推定の進歩を活かし,明示的なオクルージョン推論を用いた布の展開システムを構築する。 具体的には,まず,布のメッシュを再構築するモデルを学習する。 しかし, 布の形状が複雑であること, 咬合による曖昧さから, モデルに誤りが生じる可能性が示唆された。 我々の主な洞察は、自己監督的損失を伴うテストタイム微調整を行うことで、予測された再建をさらに洗練できるということである。 得られた再構成メッシュは、オクルージョンを推論しながら、メッシュベースのダイナミックスモデルを計画に使用することができる。 本システムでは,布の平ら化と布の正準化を両立させ,布を正準のポーズで操作することを目的としている。 実験の結果,オクルージョンやテスト時間最適化を明示的に考慮しない先行手法を著しく上回っていることがわかった。

Self-occlusion is challenging for cloth manipulation, as it makes it difficult to estimate the full state of the cloth. Ideally, a robot trying to unfold a crumpled or folded cloth should be able to reason about the cloth's occluded regions. We leverage recent advances in pose estimation for cloth to build a system that uses explicit occlusion reasoning to unfold a crumpled cloth. Specifically, we first learn a model to reconstruct the mesh of the cloth. However, the model will likely have errors due to the complexities of the cloth configurations and due to ambiguities from occlusions. Our main insight is that we can further refine the predicted reconstruction by performing test-time finetuning with self-supervised losses. The obtained reconstructed mesh allows us to use a mesh-based dynamics model for planning while reasoning about occlusions. We evaluate our system both on cloth flattening as well as on cloth canonicalization, in which the objective is to manipulate the cloth into a canonical pose. Our experiments show that our method significantly outperforms prior methods that do not explicitly account for occlusions or perform test-time optimization.
翻訳日:2022-06-08 15:28:21 公開日:2022-06-06
# コンテンツベース画像検索のための学習処理計画表現

Learning Treatment Plan Representations for Content Based Image Retrieval ( http://arxiv.org/abs/2206.02912v1 )

ライセンス: Link先を確認
Charles Huang, Varun Vasudevan, Oscar Pastor-Serrano, Md Tauhidul Islam, Yusuke Nomura, Yong Yang, and Lei Xing(参考訳) 目的:知識ベース計画(KBP)は通常、線量分布を予測するためにエンドツーエンドのディープラーニングモデルをトレーニングする。 しかしながら、エンドツーエンドのKBP手法のトレーニングは、しばしば使用される医療データセットのサイズが制限されているため、実践的な制限に結びつく可能性がある。 これらの限界に対処するために,前回計画された患者の線量分布を解剖学的類似性に基づいて検索するコンテンツベース画像検索(cbir)法を提案する。 アプローチ:提案手法は患者の解剖学的情報の潜時空間埋め込みを生成する表現モデルを訓練する。 新しい患者の潜伏空間の埋め込みは、線量分布の画像検索のためのデータベースにおいて、以前の患者と比較される。 概略指標(線量体積ヒストグラム、適合度指数、均一度指数など)を計算し、その後の自動計画に利用することができる。 このプロジェクトのすべてのソースコードは、githubで入手できる。 主な結果: 各種CBIR法の検索性能を, 当施設の公開計画と臨床計画からなるデータセットを用いて評価した。 本研究は,単純なオートエンコーダからsimsiam のような最近の siamese ネットワークまで,様々な符号化手法を比較し,マルチタスク siamese ネットワークで最高の性能が得られた。 意義:CBIRを適用してその後の治療計画を伝えることは、エンドツーエンドのKBPに関連する多くの制限に対処する可能性がある。 本研究は,従来開発されたsiameseネットワークにわずかな変更を加えることで,優れた画像検索性能が得られることを示す。 CBIRを将来の作業における自動計画ワークフローに統合したいと思っています。

Objective: Knowledge based planning (KBP) typically involves training an end-to-end deep learning model to predict dose distributions. However, training end-to-end KBP methods may be associated with practical limitations due to the limited size of medical datasets that are often used. To address these limitations, we propose a content based image retrieval (CBIR) method for retrieving dose distributions of previously planned patients based on anatomical similarity. Approach: Our proposed CBIR method trains a representation model that produces latent space embeddings of a patient's anatomical information. The latent space embeddings of new patients are then compared against those of previous patients in a database for image retrieval of dose distributions. Summary metrics (e.g. dose-volume histogram, conformity index, homogeneity index, etc.) are computed and can then be utilized in subsequent automated planning. All source code for this project is available on github. Main Results: The retrieval performance of various CBIR methods is evaluated on a dataset consisting of both publicly available plans and clinical plans from our institution. This study compares various encoding methods, ranging from simple autoencoders to more recent Siamese networks like SimSiam, and the best performance was observed for the multitask Siamese network. Significance: Applying CBIR to inform subsequent treatment planning potentially addresses many limitations associated with end-to-end KBP. Our current results demonstrate that excellent image retrieval performance can be obtained through slight changes to previously developed Siamese networks. We hope to integrate CBIR into automated planning workflow in future works, potentially through methods like the MetaPlanner framework.
翻訳日:2022-06-08 15:28:02 公開日:2022-06-06
# 多様体正規化遷移行列推定によるインスタンス依存ラベルノイズ学習

Instance-Dependent Label-Noise Learning with Manifold-Regularized Transition Matrix Estimation ( http://arxiv.org/abs/2206.02791v1 )

ライセンス: Link先を確認
De Cheng, Tongliang Liu, Yixiong Ning, Nannan Wang, Bo Han, Gang Niu, Xinbo Gao, Masashi Sugiyama(参考訳) ラベルノイズ学習では、統計的に一貫した分類器を構築する上で、行列が重要な役割を果たすため、遷移行列の推定がますます注目されている。 しかし、x がインスタンスを表す遷移行列 T(x) を推定するのは非常に困難である。 この問題に対処するために、人間は同一のクラスに類似した出現例を注釈する傾向が強く、類似した出現例の質の悪い例や曖昧な例は、関連性または同一のノイズクラスと誤記することがより容易であることを示す心理学的・生理学的証拠があることに気づいた。 したがって、T(x) の幾何について、「より近い2つのインスタンスはよりよく似た遷移行列である」という仮定を提案する。 具体的には、上記の仮定を多様体埋め込みに定式化し、T(x) の自由度を効果的に減らし、実際に安定に推定できるようにする。 提案手法は,T(x)の推定問題に対する近似誤差を損なうことなく,直接推定誤差を削減する。 4つの合成データセットと2つの実世界のデータセットに関する実験的評価は、挑戦的なidnの下でラベルノイズ学習のための最先端のアプローチよりも優れていることを示している。

In label-noise learning, estimating the transition matrix has attracted more and more attention as the matrix plays an important role in building statistically consistent classifiers. However, it is very challenging to estimate the transition matrix T(x), where x denotes the instance, because it is unidentifiable under the instance-dependent noise(IDN). To address this problem, we have noticed that, there are psychological and physiological evidences showing that we humans are more likely to annotate instances of similar appearances to the same classes, and thus poor-quality or ambiguous instances of similar appearances are easier to be mislabeled to the correlated or same noisy classes. Therefore, we propose assumption on the geometry of T(x) that "the closer two instances are, the more similar their corresponding transition matrices should be". More specifically, we formulate above assumption into the manifold embedding, to effectively reduce the degree of freedom of T(x) and make it stably estimable in practice. The proposed manifold-regularized technique works by directly reducing the estimation error without hurting the approximation error about the estimation problem of T(x). Experimental evaluations on four synthetic and two real-world datasets demonstrate that our method is superior to state-of-the-art approaches for label-noise learning under the challenging IDN.
翻訳日:2022-06-08 14:53:21 公開日:2022-06-06
# 半教師付きグラフ学習のための補間に基づく相関削減ネットワーク

Interpolation-based Correlation Reduction Network for Semi-Supervised Graph Learning ( http://arxiv.org/abs/2206.02796v1 )

ライセンス: Link先を確認
Xihong Yang, Yue Liu, Sihang Zhou, Xinwang Liu, En Zhu(参考訳) グラフニューラルネットワーク(GNN)は,近年,半教師付きノード分類において有望な性能を達成している。 しかし、表現の崩壊とともに、不十分な監督の問題は、この分野におけるGNNの性能を著しく制限している。 半教師付きシナリオにおけるノード表現の崩壊を軽減するために,補間に基づく相関還元ネットワーク (ICRN) と呼ばれる新しいグラフコントラスト学習手法を提案する。 提案手法では,決定境界のマージンを拡大し,潜在表現のクロスビュー一貫性を向上させることにより,潜在特徴の識別能力を向上させる。 具体的には、まず、補間に基づく戦略を採用し、潜時空間でデータ拡張を行い、次にサンプル間の線形変化を予測モデルに強制する。 第2に, 学習ネットワークは, 相関行列を同一視行列に近似させることにより, 2つの補間摂動ビューをまたいでサンプルを分離することができる。 この2つの設定を組み合わせることで、豊富なラベル付きノードと稀に価値あるラベル付きノードから豊富な監視情報を抽出し、識別的表現学習を行う。 6つのデータセットに対する大規模な実験結果は、既存の最先端手法と比較してICRNの有効性と汎用性を示している。

Graph Neural Networks (GNNs) have achieved promising performance in semi-supervised node classification in recent years. However, the problem of insufficient supervision, together with representation collapse, largely limits the performance of the GNNs in this field. To alleviate the collapse of node representations in semi-supervised scenario, we propose a novel graph contrastive learning method, termed Interpolation-based Correlation Reduction Network (ICRN). In our method, we improve the discriminative capability of the latent feature by enlarging the margin of decision boundaries and improving the cross-view consistency of the latent representation. Specifically, we first adopt an interpolation-based strategy to conduct data augmentation in the latent space and then force the prediction model to change linearly between samples. Second, we enable the learned network to tell apart samples across two interpolation-perturbed views through forcing the correlation matrix across views to approximate an identity matrix. By combining the two settings, we extract rich supervision information from both the abundant unlabeled nodes and the rare yet valuable labeled nodes for discriminative representation learning. Extensive experimental results on six datasets demonstrate the effectiveness and the generality of ICRN compared to the existing state-of-the-art methods.
翻訳日:2022-06-08 14:52:57 公開日:2022-06-06
# サブゴールモデルによる目標空間計画

Goal-Space Planning with Subgoal Models ( http://arxiv.org/abs/2206.02902v1 )

ライセンス: Link先を確認
Chunlok Lo, Gabor Mihucz, Adam White, Farzane Aminmansour, Martha White(参考訳) 本稿では,動的プログラミング更新とモデルフリー更新を混合(近似)する,背景計画を用いたモデルベース強化学習の新しいアプローチについて検討する。 学習モデルを用いたバックグラウンドプランニングは、メモリや計算量が非常に多いにもかかわらず、double dqnのようなモデルフリーの代替案よりも悪い場合が多い。 根本的な問題は、学習したモデルが不正確であり、特に多くのステップを繰り返すと、しばしば無効な状態を生成することである。 本稿では,背景プランニングを一連のサブゴールに制約し,ローカルなサブゴール条件付きモデルのみを学習することで,この制限を回避する。 このゴールスペース計画(GSP)アプローチは計算効率が良く、時間的抽象化を組み込んで長期計画の高速化を実現し、遷移ダイナミクスを完全に学習するのを避ける。 gspアルゴリズムは,様々な状況において,ダブルdqnベースラインよりもはるかに高速に学習できることを示す。

This paper investigates a new approach to model-based reinforcement learning using background planning: mixing (approximate) dynamic programming updates and model-free updates, similar to the Dyna architecture. Background planning with learned models is often worse than model-free alternatives, such as Double DQN, even though the former uses significantly more memory and computation. The fundamental problem is that learned models can be inaccurate and often generate invalid states, especially when iterated many steps. In this paper, we avoid this limitation by constraining background planning to a set of (abstract) subgoals and learning only local, subgoal-conditioned models. This goal-space planning (GSP) approach is more computationally efficient, naturally incorporates temporal abstraction for faster long-horizon planning and avoids learning the transition dynamics entirely. We show that our GSP algorithm can learn significantly faster than a Double DQN baseline in a variety of situations.
翻訳日:2022-06-08 14:52:38 公開日:2022-06-06
# 量子ニューラルネットワーク分類器:チュートリアル

Quantum Neural Network Classifiers: A Tutorial ( http://arxiv.org/abs/2206.02806v1 )

ライセンス: Link先を確認
Weikang Li and Zhide Lu and Dong-Ling Deng(参考訳) 機械学習は、顔認識から自然言語処理に至るまで、過去10年間で劇的な成功を収めてきた。 一方、強力な量子アルゴリズムと高度な量子デバイスの開発を含む量子計算の分野では急速に進歩している。 機械学習と量子物理学の相互作用は、現代の社会に実用的な応用をもたらす興味深い可能性を秘めている。 ここでは、パラメータ化量子回路の形で量子ニューラルネットワークに焦点を当てる。 主に、教師付き学習タスクのための量子ニューラルネットワークの構造と符号化戦略について論じ、Julia言語で記述された量子シミュレーションパッケージであるYao.jlを用いて、その性能をベンチマークする。 コードは効率的であり、強力な変分量子学習モデルの開発や、対応する実験的なデモンストレーションの支援など、科学研究の初心者に便宜を提供することを目的としている。

Machine learning has achieved dramatic success over the past decade, with applications ranging from face recognition to natural language processing. Meanwhile, rapid progress has been made in the field of quantum computation including developing both powerful quantum algorithms and advanced quantum devices. The interplay between machine learning and quantum physics holds the intriguing potential for bringing practical applications to the modern society. Here, we focus on quantum neural networks in the form of parameterized quantum circuits. We will mainly discuss different structures and encoding strategies of quantum neural networks for supervised learning tasks, and benchmark their performance utilizing Yao.jl, a quantum simulation package written in Julia Language. The codes are efficient, aiming to provide convenience for beginners in scientific works such as developing powerful variational quantum learning models and assisting the corresponding experimental demonstrations.
翻訳日:2022-06-08 14:31:55 公開日:2022-06-06
# neuro-nav : 神経可視性強化学習のためのライブラリ

Neuro-Nav: A Library for Neurally-Plausible Reinforcement Learning ( http://arxiv.org/abs/2206.03312v1 )

ライセンス: Link先を確認
Arthur Juliani, Samuel Barnett, Brandon Davis, Margaret Sereno, Ida Momennejad(参考訳) 本研究では,ニューラルネットワークを用いた強化学習のためのオープンソースライブラリNeuro-Navを提案する。 RLは、生物の意思決定、学習、ナビゲーションを研究するための最も一般的なモデリングフレームワークの一つである。 rlを利用することで、認知科学者は特定の研究のニーズを満たすために手作りの環境やエージェントをしばしば利用する。 一方、人工知能研究者は神経的かつ生物学的に妥当な表現と行動(例えば意思決定やナビゲーション)のベンチマークを見つけるのに苦労することが多い。 透明性と再現性を両分野にまたがってこのプロセスを合理化するために、neuro-navは動物と人間の標準的な行動と神経研究から得られた標準化された環境とrlアルゴリズムを提供する。 このツールキットは認知科学とrlの文献をまたがる多くの研究から得られた関連する知見を再現している。 さらに,新たなアルゴリズム(深層RLを含む)と環境を用いてライブラリを拡張し,今後の研究ニーズに対処する方法についても述べる。

In this work we propose Neuro-Nav, an open-source library for neurally plausible reinforcement learning (RL). RL is among the most common modeling frameworks for studying decision making, learning, and navigation in biological organisms. In utilizing RL, cognitive scientists often handcraft environments and agents to meet the needs of their particular studies. On the other hand, artificial intelligence researchers often struggle to find benchmarks for neurally and biologically plausible representation and behavior (e.g., in decision making or navigation). In order to streamline this process across both fields with transparency and reproducibility, Neuro-Nav offers a set of standardized environments and RL algorithms drawn from canonical behavioral and neural studies in rodents and humans. We demonstrate that the toolkit replicates relevant findings from a number of studies across both cognitive science and RL literatures. We furthermore describe ways in which the library can be extended with novel algorithms (including deep RL) and environments to address future research needs of the field.
翻訳日:2022-06-08 14:30:51 公開日:2022-06-06
# 高社会福祉を伴うナッシュ均衡の仕様指導型学習

Specification-Guided Learning of Nash Equilibria with High Social Welfare ( http://arxiv.org/abs/2206.03348v1 )

ライセンス: Link先を確認
Kishor Jothimurugan, Suguman Bansal, Osbert Bastani and Rajeev Alur(参考訳) 強化学習は、制御問題に挑戦する政策を自動訓練するための効果的な戦略であることが示されている。 本研究では,非協調型マルチエージェントシステムに着目し,ナッシュ均衡を形成する共同政策を訓練するための新しい強化学習フレームワークを提案する。 提案手法では,低レベルの報酬関数を提供するのではなく,各エージェントの目的を符号化する高レベルの仕様を提供する。 そこで,提案アルゴリズムは,仕様の構造に導かれて,高確率で$\epsilon$-Nash平衡(英語版)を立証可能なものを特定するためのポリシーを探索する。 重要なことは、すべてのエージェントの社会福祉を最大化する方法でポリシーを優先することである。 実験結果から,本アルゴリズムは社会福祉と均衡政策を両立させるが,最先端のベースラインはnash平衡の計算に失敗するか,相対的に低い社会福祉を計算できないことが示された。

Reinforcement learning has been shown to be an effective strategy for automatically training policies for challenging control problems. Focusing on non-cooperative multi-agent systems, we propose a novel reinforcement learning framework for training joint policies that form a Nash equilibrium. In our approach, rather than providing low-level reward functions, the user provides high-level specifications that encode the objective of each agent. Then, guided by the structure of the specifications, our algorithm searches over policies to identify one that provably forms an $\epsilon$-Nash equilibrium (with high probability). Importantly, it prioritizes policies in a way that maximizes social welfare across all agents. Our empirical evaluation demonstrates that our algorithm computes equilibrium policies with high social welfare, whereas state-of-the-art baselines either fail to compute Nash equilibria or compute ones with comparatively lower social welfare.
翻訳日:2022-06-08 14:30:33 公開日:2022-06-06
# 持続homology-based lossの最適化の収束について

On the Convergence of Optimizing Persistent-Homology-Based Losses ( http://arxiv.org/abs/2206.02946v1 )

ライセンス: Link先を確認
Yikai Zhang, Jiachen Yao, Yusu Wang, Chao Chen(参考訳) 永続ホモロジーに基づく位相的損失は様々な応用において有望である。 位相損失は、ある所望の位相特性を達成するためにモデルを強制する。 経験的な成功にもかかわらず、損失の最適化行動についてはあまり知られていない。 実際、トポロジカルな損失は最適化中に振動する組合せ構成を含む。 本稿では,一般化されたトポロジ認識損失を提案する。 新たな正規化項を提案するとともに,既存のトポロジ的損失も修正する。 これらの寄与は、モデルに所望の位相的振る舞いを強制するだけでなく、収束挙動を満足させる新しい損失関数をもたらす。 我々の理論結果は、損失を軽微な仮定の下で効率的に最適化できることを保証する。

Topological loss based on persistent homology has shown promise in various applications. A topological loss enforces the model to achieve certain desired topological property. Despite its empirical success, less is known about the optimization behavior of the loss. In fact, the topological loss involves combinatorial configurations that may oscillate during optimization. In this paper, we introduce a general purpose regularized topology-aware loss. We propose a novel regularization term and also modify existing topological loss. These contributions lead to a new loss function that not only enforces the model to have desired topological behavior, but also achieves satisfying convergence behavior. Our main theoretical result guarantees that the loss can be optimized efficiently, under mild assumptions.
翻訳日:2022-06-08 14:28:23 公開日:2022-06-06
# MRI再構成強化のための可逆型シャープニングネットワーク

Invertible Sharpening Network for MRI Reconstruction Enhancement ( http://arxiv.org/abs/2206.02838v1 )

ライセンス: Link先を確認
Siyuan Dong, Eric Z. Chen, Lin Zhao, Xiao Chen, Yikang Liu, Terrence Chen, Shanhui Sun(参考訳) 高品質MRI再建は臨床応用において重要な役割を担っている。 深層学習に基づく手法はMRI再建において有望な結果を得た。 しかし、ほとんどの最先端の手法は、PSNRやSSIMのような自然画像によく使用される評価指標を最適化するために設計されている。 完全サンプリング画像と比較すると、再構成画像はしばしばぼやけており、高頻度の特徴は確実な臨床診断に十分でない可能性がある。 そこで本研究では,MRI再建の視覚的品質を改善するために,可逆的シャープニングネットワーク(InvSharpNet)を提案する。 トレーニング中、入力データを地上の真実にマッピングする伝統的な方法とは異なり、InvSharpNetは後方のトレーニング戦略を適用し、背景の真実(完全にサンプリングされた画像)から入力データ(青の再構成)へのぼやけた変換を学習する。 推論中、学習されたぼやけ変換は、ネットワークの可逆性を利用したシャープニング変換に反転することができる。 さまざまなMRIデータセットの実験により、InvSharpNetは、少数のアーティファクトで再構築のシャープネスを改善することができることが示された。 以上の結果から,提案手法の視覚的品質と診断精度の向上が示唆された。

High-quality MRI reconstruction plays a critical role in clinical applications. Deep learning-based methods have achieved promising results on MRI reconstruction. However, most state-of-the-art methods were designed to optimize the evaluation metrics commonly used for natural images, such as PSNR and SSIM, whereas the visual quality is not primarily pursued. Compared to the fully-sampled images, the reconstructed images are often blurry, where high-frequency features might not be sharp enough for confident clinical diagnosis. To this end, we propose an invertible sharpening network (InvSharpNet) to improve the visual quality of MRI reconstructions. During training, unlike the traditional methods that learn to map the input data to the ground truth, InvSharpNet adapts a backward training strategy that learns a blurring transform from the ground truth (fully-sampled image) to the input data (blurry reconstruction). During inference, the learned blurring transform can be inverted to a sharpening transform leveraging the network's invertibility. The experiments on various MRI datasets demonstrate that InvSharpNet can improve reconstruction sharpness with few artifacts. The results were also evaluated by radiologists, indicating better visual quality and diagnostic confidence of our proposed method.
翻訳日:2022-06-08 14:27:04 公開日:2022-06-06
# 識別モデルによる知覚分析における生成モデルの性能向上

Discriminative Models Can Still Outperform Generative Models in Aspect Based Sentiment Analysis ( http://arxiv.org/abs/2206.02892v1 )

ライセンス: Link先を確認
Dhruv Mullick, Alona Fyshe, Bilal Ghanem(参考訳) アスペクトベースの知覚分析(ABSA)は、製品やサービスに対する顧客の意見を説明するのに役立つ。 過去にはABSAモデルは差別的だったが、近年ではテキストから直接アスペクトや極性を生成するために生成モデルが使われている。 対照的に、識別モデルはまずテキストからアスペクトを選択し、次にアスペクトの極性を分類する。 以前の結果から、生成モデルはいくつかの英語のABSAデータセットにおいて差別モデルよりも優れていた。 本稿では,言語間,言語間,言語間および言語間およびドメインという,英語のモノリンガル内ドメイン以外の設定における一般化可能性を理解するために,2つの最先端の判別モデルと生成モデルを評価し,対比する。 我々のより徹底的な評価は、以前の研究とは対照的に、差別的モデルは、ほとんど全ての設定で生成モデルよりも優れていることを示している。

Aspect-based Sentiment Analysis (ABSA) helps to explain customers' opinions towards products and services. In the past, ABSA models were discriminative, but more recently generative models have been used to generate aspects and polarities directly from text. In contrast, discriminative models commonly first select aspects from the text, and then classify the aspect's polarity. Previous results showed that generative models outperform discriminative models on several English ABSA datasets. Here, we evaluate and contrast two state-of-the-art discriminative and generative models in several settings: cross-lingual, cross-domain, and cross-lingual and domain, to understand generalizability in settings other than English mono-lingual in-domain. Our more thorough evaluation shows that, contrary to previous studies, discriminative models can still outperform generative models in almost all settings.
翻訳日:2022-06-08 14:21:43 公開日:2022-06-06
# polymorphic-gan: 学習型モーフィックマップを用いた複数のドメインにまたがるアライメントサンプルの生成

Polymorphic-GAN: Generating Aligned Samples across Multiple Domains with Learned Morph Maps ( http://arxiv.org/abs/2206.02903v1 )

ライセンス: Link先を確認
Seung Wook Kim, Karsten Kreis, Daiqing Li, Antonio Torralba, Sanja Fidler(参考訳) 現代の画像生成モデルは、単一のドメインやオブジェクトのクラスでトレーニングした場合に顕著なサンプル品質を示す。 本研究では,複数の関連ドメインから協調した画像サンプルを同時に生成できる生成逆ネットワークを提案する。 様々なオブジェクトクラスが共通の属性を共有しており、幾何的な違いがあるという事実を活用する。 本稿では,各ドメイン間の共有機能を学習し,各ドメイン毎の共有機能を実現するポリモーフィックganを提案する。 従来の研究とは対照的に,本フレームワークでは,人間の顔や絵画,芸術的顔などの高度に変化する地形と,複数の異なる動物の顔の同時モデリングを可能にしている。 本モデルでは,すべての領域に整列したサンプルを生成し,セグメンテーション転送やクロスドメイン画像編集などのアプリケーションや,低データ体制でのトレーニングにどのように使用できるかを示す。 さらに,画像から画像への変換タスクに多型GANを適用し,領域間の幾何学的差異が大きい場合,従来のアプローチを大きく超えることを示す。

Modern image generative models show remarkable sample quality when trained on a single domain or class of objects. In this work, we introduce a generative adversarial network that can simultaneously generate aligned image samples from multiple related domains. We leverage the fact that a variety of object classes share common attributes, with certain geometric differences. We propose Polymorphic-GAN which learns shared features across all domains and a per-domain morph layer to morph shared features according to each domain. In contrast to previous works, our framework allows simultaneous modelling of images with highly varying geometries, such as images of human faces, painted and artistic faces, as well as multiple different animal faces. We demonstrate that our model produces aligned samples for all domains and show how it can be used for applications such as segmentation transfer and cross-domain image editing, as well as training in low-data regimes. Additionally, we apply our Polymorphic-GAN on image-to-image translation tasks and show that we can greatly surpass previous approaches in cases where the geometric differences between domains are large.
翻訳日:2022-06-08 14:20:01 公開日:2022-06-06
# カーネル・レジームにおける深層ネットワークのためのトレーニングセット外のスペクトルバイアス

Spectral Bias Outside the Training Set for Deep Networks in the Kernel Regime ( http://arxiv.org/abs/2206.02927v1 )

ライセンス: Link先を確認
Benjamin Bowman, Guido Montufar(参考訳) 無限幅と無限データの理想化されたカーネルダイナミクスから有限個のサンプルで訓練された有限幅ネットワークの軌道間の関数空間の$l^2$差を測定する定量的境界を提供する。 境界の含意は、ネットワークが、トレーニングセット上だけでなく、入力空間全体にわたって、神経接核の最上位固有関数を学ぶように偏っていることである。 このバイアスはモデルアーキテクチャと入力分布のみに依存しており、したがって、カーネルのrkhsにある必要のない対象関数に依存しない。 この結果は、完全連結、畳み込み、および残留層を持つ深いアーキテクチャにおいて有効である。 さらに、その幅は、停止時間までの高い確率境界を得るために、サンプル数と多項式的に成長する必要はない。 この証明は、初期化時のフィッシャー情報行列の低効率な特性を利用しており、これはモデルの低有効次元(パラメータの数よりもはるかに小さい)を意味する。 水産情報マトリックスの低効率な位置からの局所的な容量制御は理論的には未解明である。

We provide quantitative bounds measuring the $L^2$ difference in function space between the trajectory of a finite-width network trained on finitely many samples from the idealized kernel dynamics of infinite width and infinite data. An implication of the bounds is that the network is biased to learn the top eigenfunctions of the Neural Tangent Kernel not just on the training set but over the entire input space. This bias depends on the model architecture and input distribution alone and thus does not depend on the target function which does not need to be in the RKHS of the kernel. The result is valid for deep architectures with fully connected, convolutional, and residual layers. Furthermore the width does not need to grow polynomially with the number of samples in order to obtain high probability bounds up to a stopping time. The proof exploits the low-effective-rank property of the Fisher Information Matrix at initialization, which implies a low effective dimension of the model (far smaller than the number of parameters). We conclude that local capacity control from the low effective rank of the Fisher Information Matrix is still underexplored theoretically.
翻訳日:2022-06-08 13:45:35 公開日:2022-06-06
# モデル信頼の反事実的説明によるモデル理解と信頼の改善

Improving Model Understanding and Trust with Counterfactual Explanations of Model Confidence ( http://arxiv.org/abs/2206.02790v1 )

ライセンス: Link先を確認
Thao Le, Tim Miller, Ronal Singh and Liz Sonenberg(参考訳) 本稿では,AIモデルの人間-対象研究における予測をよりよく理解し,より信頼する上で,信頼度スコアの反実的説明が有効であることを示す。 人間とエージェントのインタラクションシステムにおける信頼度を示すことは、人間とAIシステムの信頼を構築するのに役立つ。 しかし、既存の研究のほとんどは、信頼度スコアをコミュニケーションの形式としてのみ使用しており、なぜアルゴリズムが自信を持っているのかを説明する方法がない。 また, 反現実的説明を用いたモデル信頼度理解手法として, 1) 対実的例に基づく手法, (2) 対実的空間の可視化に基づく手法を提案する。

In this paper, we show that counterfactual explanations of confidence scores help users better understand and better trust an AI model's prediction in human-subject studies. Showing confidence scores in human-agent interaction systems can help build trust between humans and AI systems. However, most existing research only used the confidence score as a form of communication, and we still lack ways to explain why the algorithm is confident. This paper also presents two methods for understanding model confidence using counterfactual explanation: (1) based on counterfactual examples; and (2) based on visualisation of the counterfactual space.
翻訳日:2022-06-08 13:39:54 公開日:2022-06-06
# (参考訳) Commonsense Promptingを用いたニューロシンボリック因果言語計画

Neuro-Symbolic Causal Language Planning with Commonsense Prompting ( http://arxiv.org/abs/2206.02928v1 )

ライセンス: CC BY 4.0
Yujie Lu, Weixi Feng, Wanrong Zhu, Wenda Xu, Xin Eric Wang, Miguel Eckstein, William Yang Wang(参考訳) 言語プランニングは、より単純な低レベルステップに分解することで、複雑な高レベル目標を実装することを目的としている。 このような手続き的推論能力は、家庭用ロボットや仮想アシスタントなどの応用には不可欠である。 言語計画は、人間の日常生活における基本的なスキルセットであるが、現実世界の深い常識知識に欠ける大規模言語モデル(LLM)には依然として課題である。 従来の手法では、LSMからそのような能力を得るために手動の例や注釈付きプログラムが必要である。 対照的に本論文では,LLMの手続き的知識をコモンセンス・インフュージョン・プロンプトによって引き起こすニューロシンボリック因果言語プランナー(CLAP)を提案する。 LLMの事前訓練された知識は、本質的には観測されていない共同創設者であり、タスクとアクションプランの間に急激な相関関係をもたらす。 構造因果モデル (Structure Causal Model, SCM) のレンズを通して, SCMに対する因果的介入としてプロンプトを構築するための効果的な戦略を提案する。 グラフサンプリング手法と記号型プログラム実行器を用いて,コモンセンス知識ベースからの構造化因果プロンプトを定式化する。 CLAPはWikiHowとRobotHowで最先端のパフォーマンスを取得し、対実的な設定の下で人間評価の5.28%を相対的に改善した。 これは、因果言語計画におけるCLAPのセマンティックおよびシーケンシャルな優位性を示している。

Language planning aims to implement complex high-level goals by decomposition into sequential simpler low-level steps. Such procedural reasoning ability is essential for applications such as household robots and virtual assistants. Although language planning is a basic skill set for humans in daily life, it remains a challenge for large language models (LLMs) that lack deep-level commonsense knowledge in the real world. Previous methods require either manual exemplars or annotated programs to acquire such ability from LLMs. In contrast, this paper proposes Neuro-Symbolic Causal Language Planner (CLAP) that elicits procedural knowledge from the LLMs with commonsense-infused prompting. Pre-trained knowledge in LLMs is essentially an unobserved confounder that causes spurious correlations between tasks and action plans. Through the lens of a Structural Causal Model (SCM), we propose an effective strategy in CLAP to construct prompts as a causal intervention toward our SCM. Using graph sampling techniques and symbolic program executors, our strategy formalizes the structured causal prompts from commonsense knowledge bases. CLAP obtains state-of-the-art performance on WikiHow and RobotHow, achieving a relative improvement of 5.28% in human evaluations under the counterfactual setting. This indicates the superiority of CLAP in causal language planning semantically and sequentially.
翻訳日:2022-06-08 13:38:57 公開日:2022-06-06
# スキーマ誘導イベントグラフ補完

Schema-Guided Event Graph Completion ( http://arxiv.org/abs/2206.02921v1 )

ライセンス: Link先を確認
Hongwei Wang, Zixuan Zhang, Sha Li, Jiawei Han, Yizhou Sun, Hanghang Tong, Joseph P. Olive, Heng Ji(参考訳) イベントグラフの欠落したイベントノードを予測することを目的とした,新たなタスクであるイベントグラフ補完に取り組んだ。 既存のリンク予測やグラフ補完手法は、複数の小さな動的イベントグラフではなく、ソーシャルネットワークや知識グラフのような単一の大きなグラフのために設計されているため、イベントグラフを扱うのが難しい。 さらに、欠落したノードではなく、欠落したエッジを予測できる。 本稿では,イベントグラフの定型構造を記述するテンプレートであるイベントスキーマを用いて,上記の問題に対処することを提案する。 スキーマガイドによるイベントグラフ補完アプローチは,まずインスタンスイベントグラフをヒューリスティックなサブグラフマッチングアルゴリズムによってスキーマグラフのサブグラフにマッピングする。 そして、候補ノードとサブグラフの近傍と、候補ノードとサブグラフを接続する経路の2種類の局所位相を特徴付けることにより、スキーマグラフ内の候補イベントノードがインスタンス化されたスキーマサブグラフに追加されるべきかどうかを予測する。 この2つのモジュールは後に最終予測のために結合される。 また,学習サンプル構築のための自己教師あり戦略と,イベントグラフを完備するための推論アルゴリズムを提案する。 4つのデータセットの総合的な実験結果から,提案手法は4つのデータセットの最良のベースライン法よりも4.3%から19.4%の絶対的なF1ゲインを得ることができた。

We tackle a new task, event graph completion, which aims to predict missing event nodes for event graphs. Existing link prediction or graph completion methods have difficulty dealing with event graphs because they are usually designed for a single large graph such as a social network or a knowledge graph, rather than multiple small dynamic event graphs. Moreover, they can only predict missing edges rather than missing nodes. In this work, we propose to utilize event schema, a template that describes the stereotypical structure of event graphs, to address the above issues. Our schema-guided event graph completion approach first maps an instance event graph to a subgraph of the schema graph by a heuristic subgraph matching algorithm. Then it predicts whether a candidate event node in the schema graph should be added to the instantiated schema subgraph by characterizing two types of local topology of the schema graph: neighbors of the candidate node and the subgraph, and paths that connect the candidate node and the subgraph. These two modules are later combined together for the final prediction. We also propose a self-supervised strategy to construct training samples, as well as an inference algorithm that is specifically designed to complete event graphs. Extensive experimental results on four datasets demonstrate that our proposed method achieves state-of-the-art performance, with 4.3% to 19.4% absolute F1 gains over the best baseline method on the four datasets.
翻訳日:2022-06-08 13:12:50 公開日:2022-06-06
# RORL:保守的スムーシングによるロバストオフライン強化学習

RORL: Robust Offline Reinforcement Learning via Conservative Smoothing ( http://arxiv.org/abs/2206.02829v1 )

ライセンス: Link先を確認
Rui Yang, Chenjia Bai, Xiaoteng Ma, Zhaoran Wang, Chongjie Zhang, Lei Han(参考訳) オフライン強化学習(RL)は、複雑な意思決定タスクのために大量のオフラインデータを活用するための有望な方向を提供する。 分散シフトの問題により、現在のオフラインRLアルゴリズムは一般に、値推定とアクション選択のために保守的であるように設計されている。 しかし、そのような保守主義は学習された政策の頑健さを損なうため、観測に対する小さな摂動においても大きな変化をもたらす。 堅牢性と保守性をトレードオフするために,新しい保存的平滑化手法を用いたロバストオフライン強化学習(rorl)を提案する。 RORLでは、データセット近傍の状態に対するポリシーと値関数の正規化と、これらのOOD状態に対するさらなる保守的値推定を導入する。 理論的には、RORL は線形 MDP の最近の理論的結果よりも厳密な準最適性を持つことを示す。 我々はRORLが一般オフラインRLベンチマークで最先端の性能を達成できることを示し、対向的な観測摂動に対してかなり堅牢であることを示した。

Offline reinforcement learning (RL) provides a promising direction to exploit the massive amount of offline data for complex decision-making tasks. Due to the distribution shift issue, current offline RL algorithms are generally designed to be conservative for value estimation and action selection. However, such conservatism impairs the robustness of learned policies, leading to a significant change even for a small perturbation on observations. To trade off robustness and conservatism, we propose Robust Offline Reinforcement Learning (RORL) with a novel conservative smoothing technique. In RORL, we explicitly introduce regularization on the policy and the value function for states near the dataset and additional conservative value estimation on these OOD states. Theoretically, we show RORL enjoys a tighter suboptimality bound than recent theoretical results in linear MDPs. We demonstrate that RORL can achieve the state-of-the-art performance on the general offline RL benchmark and is considerably robust to adversarial observation perturbation.
翻訳日:2022-06-08 13:11:57 公開日:2022-06-06
# 弱スーパービジョンのためのトレーニングサブセット選択

Training Subset Selection for Weak Supervision ( http://arxiv.org/abs/2206.02914v1 )

ライセンス: Link先を確認
Hunter Lang, Aravindan Vijayaraghavan, David Sontag(参考訳) 既存の弱い監督アプローチでは、弱い信号がカバーするすべてのデータを使用して分類器をトレーニングする。 理論上も経験的にも、これは必ずしも最適とは限らない。 直感的には、弱いラベルデータの量と弱いラベルの精度との間にはトレードオフがある。 我々は、事前訓練されたデータ表現とカット統計(Muhlenbach et al., 2004)を組み合わせることで、弱いラベル付きトレーニングデータの高品質なサブセットを選択することにより、このトレードオフを探求する。 サブセットの選択はどんなラベルモデルや分類器にも当てはまり、既存の弱い監視パイプラインに差し込むのは非常に簡単で、ほんの数行のコードしか必要としない。 提案手法は,幅広いラベルモデル,分類器,データセットの弱い監視性能を向上させるものである。 弱ラベルの少ないデータを使用することで、ベンチマークタスクにおいて、弱い監視パイプラインの精度が最大19%向上する。

Existing weak supervision approaches use all the data covered by weak signals to train a classifier. We show both theoretically and empirically that this is not always optimal. Intuitively, there is a tradeoff between the amount of weakly-labeled data and the precision of the weak labels. We explore this tradeoff by combining pretrained data representations with the cut statistic (Muhlenbach et al., 2004) to select (hopefully) high-quality subsets of the weakly-labeled training data. Subset selection applies to any label model and classifier and is very simple to plug in to existing weak supervision pipelines, requiring just a few lines of code. We show our subset selection method improves the performance of weak supervision for a wide range of label models, classifiers, and datasets. Using less weakly-labeled data improves the accuracy of weak supervision pipelines by up to 19% (absolute) on benchmark tasks.
翻訳日:2022-06-08 13:11:38 公開日:2022-06-06
# 過去を振り返る:ニューラルネットワークの対処可能な記憶にデータセットを蒸留する

Remember the Past: Distilling Datasets into Addressable Memories for Neural Networks ( http://arxiv.org/abs/2206.02916v1 )

ライセンス: Link先を確認
Zhiwei Deng and Olga Russakovsky(参考訳) 本稿では,大規模データセットの臨界情報をコンパクトなアドレスメモリに圧縮するアルゴリズムを提案する。 これらのメモリをリコールして、ニューラルネットワークをすばやく再トレーニングし、パフォーマンスを回復する(オリジナルのデータセットを保存し、再トレーニングする代わりに)。 データセット蒸留フレームワークに基づいて,共有共通表現がより効率的かつ効果的な蒸留を可能にすることを重要視する。 具体的には、クラス間で共有され、学習可能なフレキシブルアドレッシング関数を通じて結合され、多様なトレーニング例を生成するベースセット("memories"と呼ばれる)を学習する。 これはいくつかの利点をもたらします 1) 圧縮データのサイズは必ずしもクラス数とともに線形に成長しない。 2 より効率的な蒸留を施した総合的な高い圧縮率を達成する。 3) より一般化されたクエリは、元のクラスをリコールする以上のことができる。 CIFAR10とCIFAR100をそれぞれ蒸留した場合の精度向上を最大16.5%、9.7%の5つのベンチマークで示す。 次に、我々のフレームワークを活用して連続学習を行い、4つのベンチマークで最先端の結果を達成し、MANYでは23.2%の精度で改善した。

We propose an algorithm that compresses the critical information of a large dataset into compact addressable memories. These memories can then be recalled to quickly re-train a neural network and recover the performance (instead of storing and re-training on the full original dataset). Building upon the dataset distillation framework, we make a key observation that a shared common representation allows for more efficient and effective distillation. Concretely, we learn a set of bases (aka "memories") which are shared between classes and combined through learned flexible addressing functions to generate a diverse set of training examples. This leads to several benefits: 1) the size of compressed data does not necessarily grow linearly with the number of classes; 2) an overall higher compression rate with more effective distillation is achieved; and 3) more generalized queries are allowed beyond recalling the original classes. We demonstrate state-of-the-art results on the dataset distillation task across five benchmarks, including up to 16.5% and 9.7% in retained accuracy improvement when distilling CIFAR10 and CIFAR100 respectively. We then leverage our framework to perform continual learning, achieving state-of-the-art results on four benchmarks, with 23.2% accuracy improvement on MANY.
翻訳日:2022-06-08 13:11:22 公開日:2022-06-06
# (参考訳) 多言語フェデレーション学習のための事前学習モデル

Pretrained Models for Multilingual Federated Learning ( http://arxiv.org/abs/2206.02291v1 )

ライセンス: CC BY 4.0
Orion Weller, Marc Marone, Vladimir Braverman, Dawn Lawrie, Benjamin Van Durme(参考訳) 連合学習(fl)の出現以来、これらの手法は自然言語処理(nlp)タスクに応用されてきた。 FL for NLPの論文は数多いが、複数言語テキストがFLアルゴリズムにどのように影響するかは、これまでの研究では研究されていない。 さらに、多言語テキストは自然発生データにおけるFLに対する非IIDテキスト(例えば、異なる言語)の影響を調べる興味深い道筋を提供する。 我々は,異なるフェデレーションと非フェデレーションの学習アルゴリズムを用いた3つの多言語言語タスク,言語モデリング,機械翻訳,テキスト分類について検討する。 以上の結果から,事前学習モデルを用いることでflの悪影響を低減し,非iid分割を用いた場合であっても,集中型(プライバシなし)学習よりも精度が向上することが示された。

Since the advent of Federated Learning (FL), research has applied these methods to natural language processing (NLP) tasks. Despite a plethora of papers in FL for NLP, no previous works have studied how multilingual text impacts FL algorithms. Furthermore, multilingual text provides an interesting avenue to examine the impact of non-IID text (e.g. different languages) on FL in naturally occurring data. We explore three multilingual language tasks, language modeling, machine translation, and text classification using differing federated and non-federated learning algorithms. Our results show that using pretrained models reduces the negative effects of FL, helping them to perform near or better than centralized (no privacy) learning, even when using non-IID partitioning.
翻訳日:2022-06-08 06:35:41 公開日:2022-06-06
# (参考訳) anatomical-aware contrastive distillation による半教師付き医用画像分割

Bootstrapping Semi-supervised Medical Image Segmentation with Anatomical-aware Contrastive Distillation ( http://arxiv.org/abs/2206.02307v1 )

ライセンス: CC BY 4.0
Chenyu You, Weicheng Dai, Lawrence Staib, James S. Duncan(参考訳) 医用画像セグメンテーションの文脈におけるアノテーション不足問題に対して,コントラスト学習は大きな可能性を秘めている。 既存のアプローチは通常、ラベル付きおよびラベルなしの医療画像のバランスの取れたクラス分布を仮定する。 しかし、現実の医用画像データは一般に不均衡(すなわち多種ラベル不均衡)であり、自然にぼやけた輪郭を生じさせ、通常不正確に珍しい物体をラベル付けする。 さらに、全ての負のサンプルが等しく負であるかどうかも不明である。 本稿では,解剖学的に認識されたConTrastive dIstillationフレームワークであるACTIONについて紹介する。 具体的には, 正対と負対の二元的監督ではなく, 緩やかに負のラベルを付けて, 反復的コントラスト蒸留アルゴリズムを開発した。 また、サンプルデータの多様性を強制するために、ランダムに選択された負の集合からより意味論的に類似した特徴を抽出する。 第2に,より重要な疑問を提起する – パフォーマンス向上のために,本当に不均衡なサンプルを扱うことができるのか? したがって、ACTIONの重要なイノベーションは、データセット全体にわたるグローバルなセマンティックな関係と、最小限の追加メモリフットプリントを持つ近隣ピクセル間の局所的な解剖学的特徴を学ぶことである。 トレーニング中,我々は,よりスムーズなセグメンテーション境界とより正確な予測を生成できる,粗い負画素の集合を積極的にサンプリングすることで解剖学的コントラストを導入する。 2つのベンチマークデータセットと異なるラベル付き設定による広範囲な実験は、アクションが現在の最先端の教師付きおよび半教師付きメソッドと同等かそれ以上であることを示している。 私たちのコードとモデルは公開されます。

Contrastive learning has shown great promise over annotation scarcity problems in the context of medical image segmentation. Existing approaches typically assume a balanced class distribution for both labeled and unlabeled medical images. However, medical image data in reality is commonly imbalanced (i.e., multi-class label imbalance), which naturally yields blurry contours and usually incorrectly labels rare objects. Moreover, it remains unclear whether all negative samples are equally negative. In this work, we present ACTION, an Anatomical-aware ConTrastive dIstillatiON framework, for semi-supervised medical image segmentation. Specifically, we first develop an iterative contrastive distillation algorithm by softly labeling the negatives rather than binary supervision between positive and negative pairs. We also capture more semantically similar features from the randomly chosen negative set compared to the positives to enforce the diversity of the sampled data. Second, we raise a more important question: Can we really handle imbalanced samples to yield better performance? Hence, the key innovation in ACTION is to learn global semantic relationship across the entire dataset and local anatomical features among the neighbouring pixels with minimal additional memory footprint. During the training, we introduce anatomical contrast by actively sampling a sparse set of hard negative pixels, which can generate smoother segmentation boundaries and more accurate predictions. Extensive experiments across two benchmark datasets and different unlabeled settings show that ACTION performs comparable or better than the current state-of-the-art supervised and semi-supervised methods. Our code and models will be publicly available.
翻訳日:2022-06-08 06:23:28 公開日:2022-06-06
# (参考訳) ハイパークラス表現によるハッシュ学習

Hashing Learning with Hyper-Class Representation ( http://arxiv.org/abs/2206.02334v1 )

ライセンス: CC BY 4.0
Shichao Zhang and Jiaye Li(参考訳) 既存の教師なしハッシュ学習は属性中心の計算の一種である。 データ間の類似性を正確に保存することはできない。 これにより、ハッシュ関数学習のパフォーマンスが低下する。 本稿では,ハイパークラス表現を用いたハッシュアルゴリズムを提案する。 2段階のアプローチである。 最初のステップは潜在的な決定機能を見つけ、ハイパークラスを確立することである。 第2のステップは、第1のステップにおいて、ハイパークラス情報に基づいてハッシュ学習を構築し、ハイパークラス内のデータのハッシュコードが可能な限り類似し、ハイパークラス間のデータのハッシュコードが可能な限り異なるように構成する。 効率を評価するために、4つの公開データセットで一連の実験を行う。 実験の結果,提案したハッシュアルゴリズムは平均平均精度(MAP),平均精度(AP),ハミング半径(HAM2)で比較したアルゴリズムよりも効率的であることがわかった。

Existing unsupervised hash learning is a kind of attribute-centered calculation. It may not accurately preserve the similarity between data. This leads to low down the performance of hash function learning. In this paper, a hash algorithm is proposed with a hyper-class representation. It is a two-steps approach. The first step finds potential decision features and establish hyper-class. The second step constructs hash learning based on the hyper-class information in the first step, so that the hash codes of the data within the hyper-class are as similar as possible, as well as the hash codes of the data between the hyper-classes are as different as possible. To evaluate the efficiency, a series of experiments are conducted on four public datasets. The experimental results show that the proposed hash algorithm is more efficient than the compared algorithms, in terms of mean average precision (MAP), average precision (AP) and Hamming radius 2 (HAM2)
翻訳日:2022-06-08 06:10:45 公開日:2022-06-06
# (参考訳) 微分物理学による複雑なロコモーションスキル学習

Complex Locomotion Skill Learning via Differentiable Physics ( http://arxiv.org/abs/2206.02341v1 )

ライセンス: CC BY 4.0
Yu Fang and Jiancheng Liu and Mingrui Zhang and Jiasheng Zhang and Yidong Ma and Minchen Li and Yuanming Hu and Chenfanfu Jiang and Tiantian Liu(参考訳) 微分可能物理はニューラルネットワーク(nn)コントローラの効率的な勾配に基づく最適化を可能にする。 しかし、既存の作業は通常、機能と一般化性に制限のあるNNコントローラのみを提供する。 本稿では,複雑度と多様性を著しく向上したタスクが可能な統一NNコントローラを出力する実践的学習フレームワークを提案する。 トレーニングの堅牢性と効率を体系的に改善するために,周期的アクティベーション関数や調整された損失関数を含むベースラインアプローチに対する一連の改善について検討した。 さらに,複雑なロコモーションタスクのトレーニングに効果的なバッチ処理とadamオプティマイザの採用も確認しました。 我々は, 移動課題と複数ロボット設計に挑戦しながら, 微分可能なマススプリング・マテリアルポイント法(mpm)シミュレーションの枠組みを評価する。 実験によると、我々の学習フレームワークは、微分可能な物理に基づいて、強化学習よりも優れた結果をもたらし、より速く収束する。 本システムで訓練された統一nnコントローラを用いて,ロボットの移動を対話的に制御し,速度,高さ,方向指示で複数の目標に切り替えることができることを示す。

Differentiable physics enables efficient gradient-based optimizations of neural network (NN) controllers. However, existing work typically only delivers NN controllers with limited capability and generalizability. We present a practical learning framework that outputs unified NN controllers capable of tasks with significantly improved complexity and diversity. To systematically improve training robustness and efficiency, we investigated a suite of improvements over the baseline approach, including periodic activation functions, and tailored loss functions. In addition, we find our adoption of batching and an Adam optimizer effective in training complex locomotion tasks. We evaluate our framework on differentiable mass-spring and material point method (MPM) simulations, with challenging locomotion tasks and multiple robot designs. Experiments show that our learning framework, based on differentiable physics, delivers better results than reinforcement learning and converges much faster. We demonstrate that users can interactively control soft robot locomotion and switch among multiple goals with specified velocity, height, and direction instructions using a unified NN controller trained in our system.
翻訳日:2022-06-08 05:28:24 公開日:2022-06-06
# (参考訳) WHU-Stereo:高解像度衛星画像のステレオマッチングのためのベンチマーク

WHU-Stereo: A Challenging Benchmark for Stereo Matching of High-Resolution Satellite Images ( http://arxiv.org/abs/2206.02342v1 )

ライセンス: CC BY 4.0
Shenhong Li, Sheng He, San Jiang, Wanshou Jiang, Lin Zhang(参考訳) 高解像度衛星画像(HRSI)のステレオマッチングは、光度計やリモートセンシングの分野では依然として基本的な課題であるが難しい課題である。 近年、ディープラーニング(DL)手法、特に畳み込みニューラルネットワーク(CNN)は、公開ベンチマークデータセット上でステレオマッチングに多大な可能性を示している。 しかし,衛星画像のステレオマッチングのためのデータセットは乏しい。 さらなる研究を容易にするために,本論文では,DLネットワークトレーニングとテストのステレオマッチングを目的とした,WHU-Stereoと呼ばれる挑戦的なデータセットを作成し,公開する。 このデータセットは、中国のGaoFen-7衛星(GF-7)から得られた空中LiDAR点雲と高解像度ステレオ画像を用いて作成されている。 WHU-Stereoデータセットは、中国の6つの地域をカバーし、様々な風景を含む1700以上のエピポーラ補正画像ペアを含んでいる。 地対不等地図の精度を評価し,既存のステレオマッチングデータセットと同等の精度が得られることを実証した。 その実現可能性を検証するために、手作りのSGMステレオマッチングアルゴリズムと最近のディープラーニングネットワークがWHU-Stereoデータセットでテストされている。 実験の結果、深層学習ネットワークは手作りのsgmアルゴリズムよりも高度に訓練でき、高い性能を達成でき、このデータセットはリモートセンシングアプリケーションにおいて大きな可能性を秘めている。 WHU-Stereoデータセットは、高解像度衛星画像のステレオマッチングとディープラーニングモデルの性能評価のための挑戦的なベンチマークとして機能する。 私たちのデータセットはhttps://github.com/Sheng029/WHU-Stereoで公開されています。

Stereo matching of high-resolution satellite images (HRSI) is still a fundamental but challenging task in the field of photogrammetry and remote sensing. Recently, deep learning (DL) methods, especially convolutional neural networks (CNNs), have demonstrated tremendous potential for stereo matching on public benchmark datasets. However, datasets for stereo matching of satellite images are scarce. To facilitate further research, this paper creates and publishes a challenging dataset, termed WHU-Stereo, for stereo matching DL network training and testing. This dataset is created by using airborne LiDAR point clouds and high-resolution stereo imageries taken from the Chinese GaoFen-7 satellite (GF-7). The WHU-Stereo dataset contains more than 1700 epipolar rectified image pairs, which cover six areas in China and includes various kinds of landscapes. We have assessed the accuracy of ground-truth disparity maps, and it is proved that our dataset achieves comparable precision compared with existing state-of-the-art stereo matching datasets. To verify its feasibility, in experiments, the hand-crafted SGM stereo matching algorithm and recent deep learning networks have been tested on the WHU-Stereo dataset. Experimental results show that deep learning networks can be well trained and achieves higher performance than hand-crafted SGM algorithm, and the dataset has great potential in remote sensing application. The WHU-Stereo dataset can serve as a challenging benchmark for stereo matching of high-resolution satellite images, and performance evaluation of deep learning models. Our dataset is available at https://github.com/Sheng029/WHU-Stereo
翻訳日:2022-06-08 05:06:08 公開日:2022-06-06
# (参考訳) ループを破る学習:ニューラルテキスト生成における繰り返しの分析と緩和

Learning to Break the Loop: Analyzing and Mitigating Repetitions for Neural Text Generation ( http://arxiv.org/abs/2206.02369v1 )

ライセンス: CC BY 4.0
Jin Xu, Xiaojiang Liu, Jianhao Yan, Deng Cai, Huayang Li, Jian Li(参考訳) gpt2やbartといった大規模ニューラルネットワークモデルは、様々なテキスト生成タスクで印象的な結果を得ているが、最大化ベースのデコードアルゴリズム(例えば、greedy search)で、望ましくない文レベルのループに陥りがちである。 この現象は、人間のコーパスに連続した文レベルの反復がほとんどない(例えば、Wikitext-103では0.02\%)ため、直感に反する現象である。 連続した文レベルの繰り返しを生成するための基礎的理由を考察するため, 繰り返しトークンの確率と, 文脈における過去の繰り返しとの関係について検討した。 定量的な実験によって 1) 言語モデルは,前文を繰り返すことを優先する。 2) 文レベルの反復は,\textit{self-reinforcement effect} を有する: 文が文脈で繰り返される回数が多ければ多いほど,その文を生成し続ける確率が高くなる。 3) 初期確率の高い文は、通常、より強固な自己強化効果を有する。 そこで本研究では,文レベルの反復の確率を疑似反復データからペナルティ化することをモデルが学習する,単純かつ効果的な学習法である \textbf{ditto} (pseu\underline{d}o-repet\underline{it}ion penaliza\underline{t}i\underline{o}n)を提案する。 提案手法は繰り返しの緩和によって動機づけられるが, 実験により, DITTOは難易度を犠牲にすることなく反復問題を緩和するだけでなく, 生成品質の向上も図っている。 オープンエンドテキスト生成(Wikitext-103)とテキスト要約(CNN/DailyMail)に関する大規模な実験により,本手法の汎用性と有効性を示した。

While large-scale neural language models, such as GPT2 and BART, have achieved impressive results on various text generation tasks, they tend to get stuck in undesirable sentence-level loops with maximization-based decoding algorithms (\textit{e.g.}, greedy search). This phenomenon is counter-intuitive since there are few consecutive sentence-level repetitions in human corpora (e.g., 0.02\% in Wikitext-103). To investigate the underlying reasons for generating consecutive sentence-level repetitions, we study the relationship between the probabilities of the repetitive tokens and their previous repetitions in the context. Through our quantitative experiments, we find that 1) Language models have a preference to repeat the previous sentence; 2) The sentence-level repetitions have a \textit{self-reinforcement effect}: the more times a sentence is repeated in the context, the higher the probability of continuing to generate that sentence; 3) The sentences with higher initial probabilities usually have a stronger self-reinforcement effect. Motivated by our findings, we propose a simple and effective training method \textbf{DITTO} (Pseu\underline{D}o-Repet\underline{IT}ion Penaliza\underline{T}i\underline{O}n), where the model learns to penalize probabilities of sentence-level repetitions from pseudo repetitive data. Although our method is motivated by mitigating repetitions, experiments show that DITTO not only mitigates the repetition issue without sacrificing perplexity, but also achieves better generation quality. Extensive experiments on open-ended text generation (Wikitext-103) and text summarization (CNN/DailyMail) demonstrate the generality and effectiveness of our method.
翻訳日:2022-06-08 04:43:19 公開日:2022-06-06
# (参考訳) 学習可能なスペクトルクラスタリングによる高次ホモフィリーグラフの再構成

Restructuring Graph for Higher Homophily via Learnable Spectral Clustering ( http://arxiv.org/abs/2206.02386v1 )

ライセンス: CC BY 4.0
Shouheng Li, Dongwoo Kim, Qing Wang(参考訳) 文学界は、ホモフィルグラフとヘテロフィルグラフの両方で動作する新しいグラフニューラルネットワーク(GNN)を研究してきたが、古典的なGNNを非ホモフィルグラフに適応する研究はほとんど行われていない。 好ましくないグラフを扱う能力に欠けるが、古典的なGNNは効率性、単純さ、説明可能性などいくつかの点で際立っている。 本稿では,gnnの利点を最大化するためのグラフ再構成法を提案する。 私たちの貢献は3倍です a)既知のノードラベルによく適合する適応的スペクトルクラスタリングのための擬似固有ベクトルの重みの学習 b) 同一のラベルを持つ2つのノードがどのように接続されるかを測定する新しいホモフィアメトリックの提案 c) 適応スペクトルクラスタリングの結果に基づいて隣接行列を再構成し、同好性スコアを最大化する。 実験の結果, グラフ再構成手法により, 6つの古典的GNNの性能を平均25%向上させることができることがわかった。 パフォーマンスの向上は最先端のメソッドに匹敵する。

While a growing body of literature has been studying new Graph Neural Networks (GNNs) that work on both homophilic and heterophilic graphs, little work has been done on adapting classical GNNs to less-homophilic graphs. Although lacking the ability to work with less-homophilic graphs, classical GNNs still stand out in some properties such as efficiency, simplicity and explainability. We propose a novel graph restructuring method to maximize the benefit of prevalent GNNs with the homophilic assumption. Our contribution is threefold: a) learning the weight of pseudo-eigenvectors for an adaptive spectral clustering that aligns well with known node labels, b) proposing a new homophilic metric that measures how two nodes with the same label are likely to be connected, and c) reconstructing the adjacency matrix based on the result of adaptive spectral clustering to maximize the homophilic scores. The experimental results show that our graph restructuring method can significantly boost the performance of six classical GNNs by an average of 25% on less-homophilic graphs. The boosted performance is comparable to state-of-the-art methods.
翻訳日:2022-06-08 04:18:50 公開日:2022-06-06
# (参考訳) クロッピング操作によるロバスト画像保護

Robust Image Protection Countering Cropping Manipulation ( http://arxiv.org/abs/2206.02405v1 )

ライセンス: CC BY 4.0
Qichao Ying, Hang Zhou, Zhenxing Qian, Sheng Li and Xinpeng Zhang(参考訳) 画像トリミングは、悪意のある画像内容を変更するための安価で効果的な操作である。 既存のクロッピング検出機構はクロマティック収差やヴィネッティングといった画像クロッピングの基本的な痕跡を分析してクロッピング攻撃を明らかにするが、そのような手がかりを取り除くことで法医学者を欺く一般的な後処理攻撃には脆弱である。 また、刈り取られた内容の回収は、行動する刈り取り攻撃の目的を明らかにすることができるという事実も無視する。 本稿では,画像クロッピング定位・回収(clr-net)のための新しいロバストな透かし方式を提案する。 まず, 知覚不能な摂動を導入することで, 原画像を保護する。 そして、典型的な後処理攻撃をシミュレートし、保護された画像が乱れてしまう。 受取人の側では、トリッピングマスクを予測し、元の画像を復元する。 本研究では,CLR-Netの現実的なロバスト性,すなわちFG-JPEG(Fen-Grained Generative JPEG simulator)とSiamese画像前処理ネットワークの2つのプラグアンドプレイネットワークを提案する。 我々の知る限りでは、私たちは、画像トリミングのローカライゼーションと、フラグメントから全体のイメージリカバリという課題に最初に取り組みます。 CLR-Netは、様々な種類の画像処理攻撃があるにも関わらず、クロップアウト領域を精度良くローカライズし、高品質かつ忠実に再現できることを示した。

Image cropping is an inexpensive and effective operation of maliciously altering image contents. Existing cropping detection mechanisms analyze the fundamental traces of image cropping, for example, chromatic aberration and vignetting to uncover cropping attack, yet fragile to common post-processing attacks which deceive forensics by removing such cues. Besides, they ignore the fact that recovering the cropped-out contents can unveil the purpose of the behaved cropping attack. This paper presents a novel robust watermarking scheme for image Cropping Localization and Recovery (CLR-Net). We first protect the original image by introducing imperceptible perturbations. Then, typical image post-processing attacks are simulated to erode the protected image. On the recipient's side, we predict the cropping mask and recover the original image. We propose two plug-and-play networks to improve the real-world robustness of CLR-Net, namely, the Fine-Grained generative JPEG simulator (FG-JPEG) and the Siamese image pre-processing network. To the best of our knowledge, we are the first to address the combined challenge of image cropping localization and entire image recovery from a fragment. Experiments demonstrate that CLR-Net can accurately localize the cropping as well as recover the details of the cropped-out regions with both high quality and fidelity, despite of the presence of image processing attacks of varied types.
翻訳日:2022-06-08 04:01:35 公開日:2022-06-06
# (参考訳) 必要なデータはすべて必要か? 因果的探究

Is More Data All You Need? A Causal Exploration ( http://arxiv.org/abs/2206.02409v1 )

ライセンス: CC BY 4.0
Athanasios Vlontzos, Hadrien Reynaud, Bernhard Kainz(参考訳) 機械学習アプリケーションのための大規模な医療画像データセットの算出には時間と費用がかかる。 モデル開発、データ収集、アノテーション間のワークロードのバランスをとることは、機械学習の実践者、特に時間の制約下では難しい。 因果分析は医療や経済学において、行動や政策の影響についての洞察を得るためにしばしば用いられる。 本稿では,画像分類モデルの出力に対するデータセット介入の効果について検討する。 因果的アプローチを通じて、特定のサブタスクのパフォーマンスを向上させるためにデータセットに組み込む必要があるデータの量とタイプの影響を調査します。 本研究の目的は,医療画像MLアプリケーション開発のための資源最適化ツールとしての因果解析の可能性を明らかにすることである。 この概念を合成データセットと糖尿病網膜症画像解析の例題を用いて検討する。

Curating a large scale medical imaging dataset for machine learning applications is both time consuming and expensive. Balancing the workload between model development, data collection and annotations is difficult for machine learning practitioners, especially under time constraints. Causal analysis is often used in medicine and economics to gain insights about the effects of actions and policies. In this paper we explore the effect of dataset interventions on the output of image classification models. Through a causal approach we investigate the effects of the quantity and type of data we need to incorporate in a dataset to achieve better performance for specific subtasks. The main goal of this paper is to highlight the potential of causal analysis as a tool for resource optimization for developing medical imaging ML applications. We explore this concept with a synthetic dataset and an exemplary use-case for Diabetic Retinopathy image analysis.
翻訳日:2022-06-08 03:36:42 公開日:2022-06-06
# (参考訳) 金融取引の責任あるaiに向けて

Towards Responsible AI for Financial Transactions ( http://arxiv.org/abs/2206.02419v1 )

ライセンス: CC BY 4.0
Charl Maree and Jan Erik Modal and Christian W. Omlin(参考訳) 金融におけるAIの適用は、責任あるAIの原則にますます依存している。 これらの原則 - 説明可能性、公平性、プライバシー、説明責任、透明性、健全性は、将来のaiシステムにおける信頼の基礎を形成する。 本研究では,金融取引分類のための数値的,カテゴリ的,テキスト的入力を混合して学習する深層ニューラルネットワークについて,その説明を提供することで,第1原理を解決した。 この説明は(1)Shapley additive explanations(SHAP)を用いた特徴重要度分析と(2)テキストクラスタリングと決定木分類のハイブリッドアプローチにより達成される。 次に、対象の回避攻撃に晒すことでモデルの堅牢性を検証し、抽出された説明を通して得られたモデルに関する知識を活用する。

The application of AI in finance is increasingly dependent on the principles of responsible AI. These principles - explainability, fairness, privacy, accountability, transparency and soundness form the basis for trust in future AI systems. In this study, we address the first principle by providing an explanation for a deep neural network that is trained on a mixture of numerical, categorical and textual inputs for financial transaction classification. The explanation is achieved through (1) a feature importance analysis using Shapley additive explanations (SHAP) and (2) a hybrid approach of text clustering and decision tree classifiers. We then test the robustness of the model by exposing it to a targeted evasion attack, leveraging the knowledge we gained about the model through the extracted explanation.
翻訳日:2022-06-08 03:27:29 公開日:2022-06-06
# (参考訳) MorisienMT: Mauritian Creole Machine Translationのデータセット

MorisienMT: A Dataset for Mauritian Creole Machine Translation ( http://arxiv.org/abs/2206.02421v1 )

ライセンス: CC BY 4.0
Raj Dabre, Aneerav Sukhoo(参考訳) 本稿では,モーリタンクレオールの機械翻訳品質のベンチマークデータセットである MorisienMT について述べる。 モーリシャス・クレオール(モーリシャス・クレオール、英語: mauritian creole)は、フランス・モーリシャス共和国のクレオール語族。 MorisienMT は英語と Morisien,フランス語と Morisien の並行コーパスと Morisien の単言語コーパスで構成されている。 まずは、まず、モリシエンの概要を説明し、それからコーパスを作成するためのステップを説明し、そこから、トレーニングと評価を分割する。 その後、作成した並列コーパスと、移動学習のためのフランス語-英語コーパスを用いて、様々なベースラインモデルを構築した。 研究目的でデータセットを公開し、モリシアン機械翻訳の研究を促進することを期待しています。

In this paper, we describe MorisienMT, a dataset for benchmarking machine translation quality of Mauritian Creole. Mauritian Creole (Morisien) is the lingua franca of the Republic of Mauritius and is a French-based creole language. MorisienMT consists of a parallel corpus between English and Morisien, French and Morisien and a monolingual corpus for Morisien. We first give an overview of Morisien and then describe the steps taken to create the corpora and, from it, the training and evaluation splits. Thereafter, we establish a variety of baseline models using the created parallel corpora as well as large French--English corpora for transfer learning. We release our datasets publicly for research purposes and hope that this spurs research for Morisien machine translation.
翻訳日:2022-06-08 03:18:07 公開日:2022-06-06
# (参考訳) 正のラベルなし分類器の予測性能評価 : 簡単な批判的レビューと改善のための実践的推奨

Evaluating the Predictive Performance of Positive-Unlabelled Classifiers: a brief critical review and practical recommendations for improvement ( http://arxiv.org/abs/2206.02423v1 )

ライセンス: CC BY 4.0
Jack D. Saunders and Alex, A. Freitas(参考訳) positive-unlabelled (pu) learningは、ラベル付きポジティブインスタンスとラベルなしインスタンスからなるデータから分類器を学ぶことを目的とした、機械学習の分野である。 多くの研究がPU学習の手法を提案してきたが、これらの手法の評価についてはほとんど書かれていない。 多くの一般的な標準分類メトリクスは、完全なラベル付きデータがないために正確に計算できないため、別のアプローチを取る必要がある。 本論文は,pu学習の主な評価手法と予測精度尺度の選択について,pu分類器を提案する51の論文で批判的に評価し,この分野の改善のための実践的勧告を提供する。

Positive-Unlabelled (PU) learning is a growing area of machine learning that aims to learn classifiers from data consisting of labelled positive and unlabelled instances. Whilst much work has been done proposing methods for PU learning, little has been written on the subject of evaluating these methods. Many popular standard classification metrics cannot be precisely calculated due to the absence of fully labelled data, so alternative approaches must be taken. This short commentary paper critically reviews the main PU learning evaluation approaches and the choice of predictive accuracy measures in 51 articles proposing PU classifiers and provides practical recommendations for improvements in this area.
翻訳日:2022-06-08 03:07:22 公開日:2022-06-06
# (参考訳) 連続・分布のない確率的風力予測:条件付き正規化フローアプローチ

Continuous and Distribution-free Probabilistic Wind Power Forecasting: A Conditional Normalizing Flow Approach ( http://arxiv.org/abs/2206.02433v1 )

ライセンス: CC BY 4.0
Honglin Wen, Pierre Pinson, Jinghuan Ma, Jie Gu, and Zhijian Jin(参考訳) 条件正規化フロー(CNF)に基づく確率的風力予測のためのデータ駆動型手法を提案する。 既存の手法とは対照的に、このアプローチは分布自由であり(非パラメトリックおよび量子的アプローチのような)、連続確率密度を直接生成し、したがって量子交差を避けることができる。 これは基底分布と単射写像の集合に依存する。 ベース分布の形状パラメータとビジェクティブマッピングの両方をニューラルネットワークで近似する。 スプラインベース条件正規化流は非アフィン特性により考慮される。 トレーニングフェーズでは、モデルが入力サンプルを条件付きコンテキストからベース分布のサンプルに順次マッピングし、パラメータを最大確率で推定する。 確率的予測を行うために、最終的にベース分布のサンプルを所望の分布のサンプルにマッピングする。 オープンデータセットに基づくケーススタディは,提案モデルの有効性を検証し,その利点と問題点を技術の現状に関して議論することができる。

We present a data-driven approach for probabilistic wind power forecasting based on conditional normalizing flow (CNF). In contrast with the existing, this approach is distribution-free (as for non-parametric and quantile-based approaches) and can directly yield continuous probability densities, hence avoiding quantile crossing. It relies on a base distribution and a set of bijective mappings. Both the shape parameters of the base distribution and the bijective mappings are approximated with neural networks. Spline-based conditional normalizing flow is considered owing to its non-affine characteristics. Over the training phase, the model sequentially maps input examples onto samples of base distribution, given the conditional contexts, where parameters are estimated through maximum likelihood. To issue probabilistic forecasts, one eventually maps samples of the base distribution into samples of a desired distribution. Case studies based on open datasets validate the effectiveness of the proposed model, and allows us to discuss its advantages and caveats with respect to the state of the art.
翻訳日:2022-06-08 02:56:23 公開日:2022-06-06
# (参考訳) 高スループットベイズ最適化のための情報理論的誘導点配置

Information-theoretic Inducing Point Placement for High-throughput Bayesian Optimisation ( http://arxiv.org/abs/2206.02437v1 )

ライセンス: CC BY 4.0
Henry B. Moss, Sebastian W. Ober, Victor Picheny(参考訳) Sparse Gaussian Processsはハイスループットベイズ最適化(BO)ループの重要なコンポーネントである。 利用可能なデータの代表的な部分集合を用いて近似後部を構築することで、スパースモデルは、完全なデータセットの代わりに擬似観測の小さなセット、いわゆる誘導点に依存することで、代理モデリングの計算コストを劇的に削減する。 しかし、ポイントを誘導する現在のアプローチは、目的関数のグローバル不確実性を減らすためにboループ内では適切ではない。 したがって、正確な最適化に必要な有望領域とデータ密度領域の高忠実なモデリングは犠牲にされ、代わりに計算資源は、既に準最適であることが知られている空間のモデリング領域に費やされる。 エントロピーに基づくbo法に着想を得て,原理的情報理論的基準を用いて誘導点を選択する新しい誘導点設計を提案する。 目的関数の最大値における大域的不確かさと不確実性の両方を最大に減らすための誘導点を選択することで、高精度な高スループットboをサポートすることができるサロゲートモデルを構築する。

Sparse Gaussian Processes are a key component of high-throughput Bayesian optimisation (BO) loops -- an increasingly common setting where evaluation budgets are large and highly parallelised. By using representative subsets of the available data to build approximate posteriors, sparse models dramatically reduce the computational costs of surrogate modelling by relying on a small set of pseudo-observations, the so-called inducing points, in lieu of the full data set. However, current approaches to design inducing points are not appropriate within BO loops as they seek to reduce global uncertainty in the objective function. Thus, the high-fidelity modelling of promising and data-dense regions required for precise optimisation is sacrificed and computational resources are instead wasted on modelling areas of the space already known to be sub-optimal. Inspired by entropy-based BO methods, we propose a novel inducing point design that uses a principled information-theoretic criterion to select inducing points. By choosing inducing points to maximally reduce both global uncertainty and uncertainty in the maximum value of the objective function, we build surrogate models able to support high-precision high-throughput BO.
翻訳日:2022-06-08 02:33:46 公開日:2022-06-06
# (参考訳) BERTを用いたスパム検出

Spam Detection Using BERT ( http://arxiv.org/abs/2206.02443v1 )

ライセンス: CC BY 4.0
Thaer Sahmoud, Dr. Mohammad Mikki(参考訳) メールやsmsは、今日のコミュニケーションで最も人気のあるツールであり、メールやsmsの利用者の増加に伴い、スパムの数も増加している。 Spamは、大量のスパムメールやSMSで送られてくる、望ましくない、孤立していないデジタルコミュニケーションの一種であり、ネットワークリンクを不必要に浸水させることで、大きなリソース浪費を引き起こしている。 殆どのスパムメールは、商品を売り込もうとする広告主が発するものだが、フィッシングメールのように、被害者を騙してウェブサイトのログインやクレジットカード情報などの機密情報を漏らそうとする行為は、フィッシング(phishing)と呼ばれる。 スパム対策として、スパムやハムとしてメッセージやメールをフィルタリングできるスパム検知器を構築するために、多くの研究や取り組みが行われている。 本研究では,BERT事前学習モデルを用いて電子メールとメッセージの分類を行い,SMS収集コーパス,エンロンコーパス,スパムアサシンコーパス,Ling-Spamコーパス,SMSスパム収集コーパスなどの複数コーパスを用いてスパム検出モデルを訓練し,スパム検出性能は98.62%,97.83%,99.13%,99.28%であった。 キーワード: Spam Detector、BERT、機械学習、NLP、Transformer、Enron Corpus、SpamAssassin Corpus、SMS Spam Detection Corpus、Ling-Spam Corpus。

Emails and SMSs are the most popular tools in today communications, and as the increase of emails and SMSs users are increase, the number of spams is also increases. Spam is any kind of unwanted, unsolicited digital communication that gets sent out in bulk, spam emails and SMSs are causing major resource wastage by unnecessarily flooding the network links. Although most spam mail originate with advertisers looking to push their products, some are much more malicious in their intent like phishing emails that aims to trick victims into giving up sensitive information like website logins or credit card information this type of cybercrime is known as phishing. To countermeasure spams, many researches and efforts are done to build spam detectors that are able to filter out messages and emails as spam or ham. In this research we build a spam detector using BERT pre-trained model that classifies emails and messages by understanding to their context, and we trained our spam detector model using multiple corpuses like SMS collection corpus, Enron corpus, SpamAssassin corpus, Ling-Spam corpus and SMS spam collection corpus, our spam detector performance was 98.62%, 97.83%, 99.13% and 99.28% respectively. Keywords: Spam Detector, BERT, Machine learning, NLP, Transformer, Enron Corpus, SpamAssassin Corpus, SMS Spam Detection Corpus, Ling-Spam Corpus.
翻訳日:2022-06-08 02:26:06 公開日:2022-06-06
# (参考訳) なぜCNNはラベルとアーキテクチャに依存しない最初のレイヤで一貫性のある表現を学ぶのか?

Why do CNNs Learn Consistent Representations in their First Layer Independent of Labels and Architecture? ( http://arxiv.org/abs/2206.02454v1 )

ライセンス: CC BY 4.0
Rhea Chowers, Yair Weiss(参考訳) CNNの第1層で学習されたフィルタは、異なるネットワークやタスクに対して質的に類似している。 この発見を拡張し、異なるネットワークで学習したフィルタ間で高い定量的類似性を示す。 我々は, cnnフィルタをフィルタバンクとして考慮し, フィルタバンクの感度を異なる周波数に測定する。 異なるネットワークの感度プロファイルはほぼ同一であるが、初期化には程遠いことを示す。 注目すべきは、ネットワークがランダムなラベルでトレーニングされている場合でも、同じ状態のままであることである。 この効果を理解するために,線形CNNの第1層におけるフィルタの感度に関する解析式を導出した。 2つのクラスの画像の平均パッチが同一である場合、第1層のフィルタの感度プロファイルは、真のラベルやランダムラベルを使用する場合の期待値と同一であり、画像パッチの2次統計値のみに依存することが証明される。 我々は、実際のデータセットに対して平均パッチ仮定が成り立つことを実証的に示す。 最後に、非線形cnnにおけるフィルタのエネルギープロファイルは線形cnnのエネルギープロファイルと高い相関関係にあり、線形ネットワークの解析により、ベンチマーク分類タスクで訓練された最先端ネットワークで学習された表現がラベルに依存する時期を予測することができることを示した。

It has previously been observed that the filters learned in the first layer of a CNN are qualitatively similar for different networks and tasks. We extend this finding and show a high quantitative similarity between filters learned by different networks. We consider the CNN filters as a filter bank and measure the sensitivity of the filter bank to different frequencies. We show that the sensitivity profile of different networks is almost identical, yet far from initialization. Remarkably, we show that it remains the same even when the network is trained with random labels. To understand this effect, we derive an analytic formula for the sensitivity of the filters in the first layer of a linear CNN. We prove that when the average patch in images of the two classes is identical, the sensitivity profile of the filters in the first layer will be identical in expectation when using the true labels or random labels and will only depend on the second-order statistics of image patches. We empirically demonstrate that the average patch assumption holds for realistic datasets. Finally we show that the energy profile of filters in nonlinear CNNs is highly correlated with the energy profile of linear CNNs and that our analysis of linear networks allows us to predict when representations learned by state-of-the-art networks trained on benchmark classification tasks will depend on the labels.
翻訳日:2022-06-08 02:15:52 公開日:2022-06-06
# (参考訳) 高次元二元マルコフガウス混合モデルの平均推定

Mean Estimation in High-Dimensional Binary Markov Gaussian Mixture Models ( http://arxiv.org/abs/2206.02455v1 )

ライセンス: CC BY 4.0
Yihan Zhang, Nir Weinberger(参考訳) データ中のメモリ間の相互作用, サンプルサイズ, 寸法, および統計的推測における信号強度を照らす2値隠れマルコフモデルに対する高次元平均推定問題を考える。 このモデルでは、推定子は$d$次元パラメータベクトル$\theta_{*}\in\mathbb{R}^{d}$の$n$サンプルを観察し、ランダムサイン$S_i$$1\le i\le n$で乗算し、等方的な標準ガウスノイズによって劣化する。 符号の列 $\{S_{i}\}_{i\in[n]}\in\{-1,1\}^{n}$ は、フリップ確率 $\delta\in[0,1/2]$ の定常同質マルコフ鎖から引き出される。 このモデルは、$\delta=0$と$\delta=1/2$のガウス混合モデルという2つのよく研究されたモデルを円滑に補足する。 推定者が$\delta$を知っていれば、$\|\theta_{*}\|,\delta,d,n$ の関数として、最小限の最適(対数係数まで)推定誤差率を確立する。 次に、$\delta$を推定する場合には、$\theta_{*}$の(おそらく不正確な)知識を仮定する上限を与える。 この境界は、$\theta_{*}$が正確に知られている定数であるときに厳密であることが証明される。 これらの結果は$\theta_{*}$と$\delta$ unknown a prioriと推定されるアルゴリズムに結合され、そのエラーに関する理論的保証が記述される。

We consider a high-dimensional mean estimation problem over a binary hidden Markov model, which illuminates the interplay between memory in data, sample size, dimension, and signal strength in statistical inference. In this model, an estimator observes $n$ samples of a $d$-dimensional parameter vector $\theta_{*}\in\mathbb{R}^{d}$, multiplied by a random sign $ S_i $ ($1\le i\le n$), and corrupted by isotropic standard Gaussian noise. The sequence of signs $\{S_{i}\}_{i\in[n]}\in\{-1,1\}^{n}$ is drawn from a stationary homogeneous Markov chain with flip probability $\delta\in[0,1/2]$. As $\delta$ varies, this model smoothly interpolates two well-studied models: the Gaussian Location Model for which $\delta=0$ and the Gaussian Mixture Model for which $\delta=1/2$. Assuming that the estimator knows $\delta$, we establish a nearly minimax optimal (up to logarithmic factors) estimation error rate, as a function of $\|\theta_{*}\|,\delta,d,n$. We then provide an upper bound to the case of estimating $\delta$, assuming a (possibly inaccurate) knowledge of $\theta_{*}$. The bound is proved to be tight when $\theta_{*}$ is an accurately known constant. These results are then combined to an algorithm which estimates $\theta_{*}$ with $\delta$ unknown a priori, and theoretical guarantees on its error are stated.
翻訳日:2022-06-08 01:56:41 公開日:2022-06-06
# (参考訳) ドメイン固有制約パターンによる容易で適応的で高品質なモデリング

Easy, adaptable and high-quality Modelling with domain-specific Constraint Patterns ( http://arxiv.org/abs/2206.02479v1 )

ライセンス: CC BY 4.0
Sophia Saller, Jana Koehler(参考訳) ドメイン固有の制約パターンが導入され、制約プログラミング設定のためのソフトウェアエンジニアリングのパターンの設計と相反する。 これらのパターンは、繰り返し発生する問題に対する専門家の知識とベストプラクティスのソリューションを記述し、実装例を含む。 一般的な問題に対して、モデリングプロセスは、単にパターンのライブラリから適用可能なパターンを選択し、それらをモデルに組み合わせることによって構成される。 これはモデリングプロセスを大幅に単純化し、モデルを適応しやすくします。 パターンをドメイン固有のものにすることで、問題で知られている特定のグローバル制約や検索戦略を含む、問題固有のモデリングアイデアをパターン記述に含めることができる。 これにより、パターンから得られるモデルが正しいだけでなく、高品質であることが保証されます。 ジョブショップとフローショップの例にドメイン固有の制約パターンを導入し、それらの利点を説明し、イベントログでパターンの発生を自動チェックする方法を示す。

Domain-specific constraint patterns are introduced, which form the counterpart to design patterns in software engineering for the constraint programming setting. These patterns describe the expert knowledge and best-practice solution to recurring problems and include example implementations. We aim to reach a stage where, for common problems, the modelling process consists of simply picking the applicable patterns from a library of patterns and combining them in a model. This vastly simplifies the modelling process and makes the models simple to adapt. By making the patterns domain-specific we can further include problem-specific modelling ideas, including specific global constraints and search strategies that are known for the problem, into the pattern description. This ensures that the model we obtain from patterns is not only correct but also of high quality. We introduce domain-specific constraint patterns on the example of job shop and flow shop, discuss their advantages and show how the occurrence of patterns can automatically be checked in an event log.
翻訳日:2022-06-08 01:54:56 公開日:2022-06-06
# (参考訳) FrODOと競合する質問からのオントロジーの自動作成

Automatically Drafting Ontologies from Competency Questions with FrODO ( http://arxiv.org/abs/2206.02485v1 )

ライセンス: CC BY 4.0
Aldo Gangemi, Anna Sofia Lippolis, Giorgia Lodi, Andrea Giovanni Nuzzolese(参考訳) FrODO (Frame-based Ontology Design Outlet) は,有能な質問からオントロジーを自動起案するための新しい手法とツールである。 競合性に関する質問は自然言語として表現され、eXtreme Design(XD)やSAMODなど、多くのアジャイルオントロジーエンジニアリング方法論の要件を表現する一般的なソリューションである。 FrODOはFRED上に構築される。 実際、それはfredが生成するrdf周辺のドメイン関連境界を能力的な問題から描画するためにフレームセマンティクスを活用し、ドメインオントロジーを作成する。 オントロジー設計タスクを支援するために,FrODOをユーザベースで評価した。 この研究は、FrODOが有効であり、その結果のオントロジードラフトは質的であることを示している。

We present the Frame-based ontology Design Outlet (FrODO), a novel method and tool for drafting ontologies from competency questions automatically. Competency questions are expressed as natural language and are a common solution for representing requirements in a number of agile ontology engineering methodologies, such as the eXtreme Design (XD) or SAMOD. FrODO builds on top of FRED. In fact, it leverages the frame semantics for drawing domain-relevant boundaries around the RDF produced by FRED from a competency question, thus drafting domain ontologies. We carried out a user-based study for assessing FrODO in supporting engineers for ontology design tasks. The study shows that FrODO is effective in this and the resulting ontology drafts are qualitative.
翻訳日:2022-06-08 01:42:07 公開日:2022-06-06
# (参考訳) 時間変化環境下での制御の学習

Learning to Control under Time-Varying Environment ( http://arxiv.org/abs/2206.02507v1 )

ライセンス: CC BY 4.0
Yuzhen Han, Ruben Solozabal, Jing Dong, Xingyu Zhou, Martin Takac, Bin Gu(参考訳) 本稿では,線形時変力学系における後悔最小化の問題について検討する。 不確実性と非定常性が同時に存在するため、未知のLTVシステムのオンライン制御アルゴリズムを設計することは難しい課題である。 npハードなオフラインプランニングのコストで、以前の作業ではオンライン凸最適化アルゴリズムが導入されているが、それらは非パラメトリックな後悔の率に苦しんでいる。 本稿では,ステートリニアフィードバックポリシーよりもオフライン計画が避けられることを保証した,最初の計算可能なオンラインアルゴリズムを提案する。 本アルゴリズムは,高信頼領域において最適モデルを楽観的に選択する不確実性(ofu)原理に直面する楽観性に基づいている。 我々のアルゴリズムは、以前のアプローチと比較してより探索的です。 非定常性を克服するために,再起動戦略 (R-OFU) とスライディングウィンドウ戦略 (SW-OFU) を提案する。 適切な構成で、我々のアルゴリズムはサブ線形後悔$O(T^{2/3})$を得る。 これらのアルゴリズムは、システムダイナミクスの変動を追跡するために、現在のフェーズからのデータを利用する。 理論的知見と数値実験を相関させて,本手法の有効性を明らかにする。 最善の知識を得るために,本研究では,ltv力学系において,後悔を保証したモデルベースオンラインアルゴリズムを初めて確立する。

This paper investigates the problem of regret minimization in linear time-varying (LTV) dynamical systems. Due to the simultaneous presence of uncertainty and non-stationarity, designing online control algorithms for unknown LTV systems remains a challenging task. At a cost of NP-hard offline planning, prior works have introduced online convex optimization algorithms, although they suffer from nonparametric rate of regret. In this paper, we propose the first computationally tractable online algorithm with regret guarantees that avoids offline planning over the state linear feedback policies. Our algorithm is based on the optimism in the face of uncertainty (OFU) principle in which we optimistically select the best model in a high confidence region. Our algorithm is then more explorative when compared to previous approaches. To overcome non-stationarity, we propose either a restarting strategy (R-OFU) or a sliding window (SW-OFU) strategy. With proper configuration, our algorithm is attains sublinear regret $O(T^{2/3})$. These algorithms utilize data from the current phase for tracking variations on the system dynamics. We corroborate our theoretical findings with numerical experiments, which highlight the effectiveness of our methods. To the best of our knowledge, our study establishes the first model-based online algorithm with regret guarantees under LTV dynamical systems.
翻訳日:2022-06-08 01:29:48 公開日:2022-06-06
# (参考訳) UTTS:条件付き乱数変分自動エンコーダを用いた教師なしTS

UTTS: Unsupervised TTS with Conditional Disentangled Sequential Variational Auto-encoder ( http://arxiv.org/abs/2206.02512v1 )

ライセンス: CC BY 4.0
Jiachen Lian and Chunlei Zhang and Gopala Krishna Anumanchipalli and Dong Yu(参考訳) 本稿では,TTS音響モデリング(AM)のためのテキストオーディオペアを必要としない,教師なし音声合成(UTTS)フレームワークを提案する。 UTTSは、アンタングル表現学習の観点から開発された多話者音声合成器である。 このフレームワークは話者の持続時間モデル、音色特徴(identity)、tts推論のためのコンテンツの柔軟な選択を提供する。 近年の自己教師型音声表現学習の進歩と,システム開発のための音声合成フロントエンド技術を活用している。 具体的には,入力テキストを音素列にマッピングするレキシコンを用いて,フレームレベル強制アライメント(fa)に話者依存の持続時間モデルで拡張する。 次に,faを教師なしアライメント(ua)に変換するアライメントマッピングモジュールを開発する。 最後に、自己教師型TTS AMとして機能する条件分散逐次変分自動符号化器(C-DSVAE)は、予測されたUAとターゲットスピーカを埋め込み、メルスペクトルを生成し、最終的にニューラルボコーダで波形に変換する。 ペアttsコーパスを用いずに音声合成を実現する方法を示す。 実験により、UTTSは人間と客観的評価によって測定された高い自然性と知性の音声を合成できることが示されている。

In this paper, we propose a novel unsupervised text-to-speech (UTTS) framework which does not require text-audio pairs for the TTS acoustic modeling (AM). UTTS is a multi-speaker speech synthesizer developed from the perspective of disentangled speech representation learning. The framework offers a flexible choice of a speaker's duration model, timbre feature (identity) and content for TTS inference. We leverage recent advancements in self-supervised speech representation learning as well as speech synthesis front-end techniques for the system development. Specifically, we utilize a lexicon to map input text to the phoneme sequence, which is expanded to the frame-level forced alignment (FA) with a speaker-dependent duration model. Then, we develop an alignment mapping module that converts the FA to the unsupervised alignment (UA). Finally, a Conditional Disentangled Sequential Variational Auto-encoder (C-DSVAE), serving as the self-supervised TTS AM, takes the predicted UA and a target speaker embedding to generate the mel spectrogram, which is ultimately converted to waveform with a neural vocoder. We show how our method enables speech synthesis without using a paired TTS corpus. Experiments demonstrate that UTTS can synthesize speech of high naturalness and intelligibility measured by human and objective evaluations.
翻訳日:2022-06-08 00:17:25 公開日:2022-06-06
# (参考訳) 複素値論理近似に対するスパースベイズ学習

Sparse Bayesian Learning for Complex-Valued Rational Approximations ( http://arxiv.org/abs/2206.02523v1 )

ライセンス: CC BY 4.0
Felix Schneider and Iason Papaioannou and Gerhard M\"uller(参考訳) 代理モデルは、不確実性の効率的な伝播のような物理的システムの計算要求モデルを繰り返し評価する必要があるエンジニアリングタスクにおける計算負担を軽減するために使用される。 入力パラメータに強い非線形依存を示すモデルの場合、多項式カオス展開のような標準的なサロゲート手法は、元のモデル応答を正確に表現するには不十分である。 代わりに有理近似を適用することで、非線型性が有理関数によって正確に記述されたモデルに対して近似誤差を効率的に低減することができる。 具体的には,複素値モデルの近似化が目的である。 サロゲートにおける係数を得る一般的な方法は、最小二乗意味でモデルとサロゲートの間のサンプルベース誤差を最小化することである。 元のモデルの正確な表現とオーバーフィッティングを避けるために、サンプル集合は拡張における多項式項の2倍から3倍の数の多項式項を持つ。 高い多項式次数を必要とするモデルや入力パラメーターの観点から高次元モデルの場合、この数はしばしば手頃な計算コストを超える。 この問題を克服するために、合理的近似にスパースベイズ学習アプローチを適用する。 特定の事前分布構造を通して、スパーシティはサーロゲートモデルの係数によって誘導される。 分母多項式係数と問題のハイパーパラメータは、タイプII-最大確率アプローチによって決定される。 最適な分母係数を求め,$\mathbb{cr}$-calculus の適用により所要の勾配を求めるために,準ニュートン勾配-descentアルゴリズムを適用した。

Surrogate models are used to alleviate the computational burden in engineering tasks, which require the repeated evaluation of computationally demanding models of physical systems, such as the efficient propagation of uncertainties. For models that show a strongly non-linear dependence on their input parameters, standard surrogate techniques, such as polynomial chaos expansion, are not sufficient to obtain an accurate representation of the original model response. Through applying a rational approximation instead, the approximation error can be efficiently reduced for models whose non-linearity is accurately described through a rational function. Specifically, our aim is to approximate complex-valued models. A common approach to obtain the coefficients in the surrogate is to minimize the sample-based error between model and surrogate in the least-square sense. In order to obtain an accurate representation of the original model and to avoid overfitting, the sample set has be two to three times the number of polynomial terms in the expansion. For models that require a high polynomial degree or are high-dimensional in terms of their input parameters, this number often exceeds the affordable computational cost. To overcome this issue, we apply a sparse Bayesian learning approach to the rational approximation. Through a specific prior distribution structure, sparsity is induced in the coefficients of the surrogate model. The denominator polynomial coefficients as well as the hyperparameters of the problem are determined through a type-II-maximum likelihood approach. We apply a quasi-Newton gradient-descent algorithm in order to find the optimal denominator coefficients and derive the required gradients through application of $\mathbb{CR}$-calculus.
翻訳日:2022-06-07 23:58:00 公開日:2022-06-06
# (参考訳) 連合学習における認定ロバスト性

Certified Robustness in Federated Learning ( http://arxiv.org/abs/2206.02535v1 )

ライセンス: CC BY 4.0
Motasem Alfarra, Juan C. P\'erez, Egor Shulgin, Peter Richt\'arik, Bernard Ghanem(参考訳) フェデレーション学習は、分散データ上でプライベートに機械学習モデルをトレーニングする効果があるため、最近大きな注目を集め、人気を集めている。 しかし、単一ノードの教師付き学習設定のように、連合学習で訓練されたモデルは、攻撃的攻撃として知られる不可避な入力変換への脆弱性に苦しめられ、セキュリティ関連のアプリケーションへのデプロイに疑問を投げかける。 本研究では,フェデレーショントレーニング,パーソナライゼーション,認定ロバストネスの相互作用について検討する。 特に,広義でスケーラブルな認証手法であるランダム化スムーシングを導入し,入力摂動や変換に対して,フェデレートされた設定でトレーニングされたディープネットワークを認証する。 単純なフェデレーション平均化手法は,局所データのみを対象とするトレーニングよりも,精度の高いモデルを構築する上で有効であることがわかった。 さらに,局所データに対するモデルのバイアスを強固性に高めるフェデレーショントレーニングにおける一般的な手法であるパーソナライゼーションについても分析した。 より高速なトレーニングでより堅牢なモデルを構築する上で、パーソナライズ(つまり、ローカルデータとフェデレーショントレーニングのみのトレーニング)のメリットがいくつか示されている。 最後に,グローバルモデルとローカルモデルの混合モデルのロバスト性を調査し,局所モデルのロバスト性がグローバルモデルから逸脱するにつれて劣化することを示す。

Federated learning has recently gained significant attention and popularity due to its effectiveness in training machine learning models on distributed data privately. However, as in the single-node supervised learning setup, models trained in federated learning suffer from vulnerability to imperceptible input transformations known as adversarial attacks, questioning their deployment in security-related applications. In this work, we study the interplay between federated training, personalization, and certified robustness. In particular, we deploy randomized smoothing, a widely-used and scalable certification method, to certify deep networks trained on a federated setup against input perturbations and transformations. We find that the simple federated averaging technique is effective in building not only more accurate, but also more certifiably-robust models, compared to training solely on local data. We further analyze personalization, a popular technique in federated training that increases the model's bias towards local data, on robustness. We show several advantages of personalization over both~(that is, only training on local data and federated training) in building more robust models with faster training. Finally, we explore the robustness of mixtures of global and local~(\ie personalized) models, and find that the robustness of local models degrades as they diverge from the global model
翻訳日:2022-06-07 23:15:42 公開日:2022-06-06
# (参考訳) 【再現性報告】深部1級分類

[Reproducibility Report] Explainable Deep One-Class Classification ( http://arxiv.org/abs/2206.02598v1 )

ライセンス: CC BY-SA 4.0
Joao P. C. Bertoldo and Etienne Decenci\`ere(参考訳) HSC(Hypersphere Classifier)の説明可能なバージョンであるFCDD(Fully Convolutional Data Description)は、画像異常検出(AD)とピクセル単位ADに直接対処する。 著者らはFCDDがFashion-MNIST と CIFAR-10 のサンプル値 AD の最先端値に匹敵する結果を達成し、MVTec-AD の画素値タスクの最先端値を超えていると主張している。 我々は著者のコードを使って論文の主な結果を小さな変更で再現し、CPUメモリ、GPUメモリ、トレーニング時間)を達成するためのランタイム要件を提供した。 臨界差図を用いた別の解析手法を提案し、トレーニングフェーズにおけるモデルの試験性能について検討する。

Fully Convolutional Data Description (FCDD), an explainable version of the Hypersphere Classifier (HSC), directly addresses image anomaly detection (AD) and pixel-wise AD without any post-hoc explainer methods. The authors claim that FCDD achieves results comparable with the state-of-the-art in sample-wise AD on Fashion-MNIST and CIFAR-10 and exceeds the state-of-the-art on the pixel-wise task on MVTec-AD. We reproduced the main results of the paper using the author's code with minor changes and provide runtime requirements to achieve if (CPU memory, GPU memory, and training time). We propose another analysis methodology using a critical difference diagram, and further investigate the test performance of the model during the training phase.
翻訳日:2022-06-07 22:53:47 公開日:2022-06-06
# (参考訳) 分散学習における一般化誤差のレートゆらぎ理論境界

Rate-Distortion Theoretic Bounds on Generalization Error for Distributed Learning ( http://arxiv.org/abs/2206.02604v1 )

ライセンス: CC BY 4.0
Milad Sefidgaran, Romain Chor, Abdellatif Zaidi(参考訳) 本稿では,統計的分散学習アルゴリズムの一般化誤差の新しい上限を確立するために,レート歪み理論のツールを用いる。 具体的には、個別に選択したモデルを中央サーバに集約した$k$クライアントがあります。 境界は、他のクライアントのアルゴリズムを圧縮せずに、各クライアントのアルゴリズムの圧縮可能性に依存し、各ローカルモデルの小さな変更が集約されたモデルをわずか1/k$で変更するという事実を活用する。 sefidgaranらによって最近提案されたアプローチを採用し、分散設定に適宜拡張することで、より厳密な一般化境界に翻訳されるより小さなレートゆがみ項を可能にする。 境界は、分散サポートベクターマシン(svm)に適用され、分散設定の一般化誤差は、$\mathcal{o}(\log(k)/\sqrt{k})$の係数を持つ集中型ベクターマシンよりも早く減衰することを示唆している。 この発見も実験的に検証されている。 同様の結論は、各クライアントが確率的勾配ランジュバンダイナミクス(sgld)を使用する、複数ラウンドのフェデレーション学習セットアップに対して得られる。

In this paper, we use tools from rate-distortion theory to establish new upper bounds on the generalization error of statistical distributed learning algorithms. Specifically, there are $K$ clients whose individually chosen models are aggregated by a central server. The bounds depend on the compressibility of each client's algorithm while keeping other clients' algorithms un-compressed, and leverage the fact that small changes in each local model change the aggregated model by a factor of only $1/K$. Adopting a recently proposed approach by Sefidgaran et al., and extending it suitably to the distributed setting, this enables smaller rate-distortion terms which are shown to translate into tighter generalization bounds. The bounds are then applied to the distributed support vector machines (SVM), suggesting that the generalization error of the distributed setting decays faster than that of the centralized one with a factor of $\mathcal{O}(\log(K)/\sqrt{K})$. This finding is validated also experimentally. A similar conclusion is obtained for a multiple-round federated learning setup where each client uses stochastic gradient Langevin dynamics (SGLD).
翻訳日:2022-06-07 22:40:18 公開日:2022-06-06
# (参考訳) CROM: 命令型ニューラル表現を用いたPDEの連続低次モデリング

CROM: Continuous Reduced-Order Modeling of PDEs Using Implicit Neural Representations ( http://arxiv.org/abs/2206.02607v1 )

ライセンス: CC BY 4.0
Peter Yichen Chen, Jinxu Xiang, Dong Heon Cho, G A Pershing, Henrique Teles Maia, Maurizio Chiaramonte, Kevin Carlberg, Eitan Grinspun(参考訳) 高忠実度偏微分方程式(PDE)の過度な実行は、時間クリティカルな応用には適さない。 本稿では,低次モデリング(ROM)を用いてPDEソルバの高速化を提案する。 以前のromアプローチは離散化されたベクトル場の次元を減少させるが、我々の連続還元次モデリング(crom)アプローチは連続ベクトル場自体の滑らかで低次元の多様体を構築し、離散化ではない。 我々は, pdes を効率的に解くために, その連続的かつ微分可能な性質に依拠して, この縮小多様体を神経場を用いて表現する。 cromは、たとえ様々な方法や離散化を使って得られるとしても、連続システムの任意の利用可能な全ての数値解を訓練することができる。 低次元多様体が構築されると、PDEの解法は計算資源を著しく少なくする。 CROM は離散化に依存しないため、CROM ベースの PDE ソルバは離散化の解法を時間とともに最適に適応して計算をエコノマイズすることができる。 我々は、ボクセルグリッド、メッシュ、ポイントクラウドからのトレーニングデータを用いて、幅広いPDEに対するアプローチを検証する。 大規模実験により,従来のrom方式に比べて速度,メモリ,精度が向上し,cpuのフルオーダーモデルよりも109$\times$ wall-clock speedup,gpu上で89$\times$ speedupが得られた。

The excessive runtime of high-fidelity partial differential equation (PDE) solvers makes them unsuitable for time-critical applications. We propose to accelerate PDE solvers using reduced-order modeling (ROM). Whereas prior ROM approaches reduce the dimensionality of discretized vector fields, our continuous reduced-order modeling (CROM) approach builds a smooth, low-dimensional manifold of the continuous vector fields themselves, not their discretization. We represent this reduced manifold using neural fields, relying on their continuous and differentiable nature to efficiently solve the PDEs. CROM may train on any and all available numerical solutions of the continuous system, even when they are obtained using diverse methods or discretizations. After the low-dimensional manifolds are built, solving PDEs requires significantly less computational resources. Since CROM is discretization-agnostic, CROM-based PDE solvers may optimally adapt discretization resolution over time to economize computation. We validate our approach on an extensive range of PDEs with training data from voxel grids, meshes, and point clouds. Large-scale experiments demonstrate that our approach obtains speed, memory, and accuracy advantages over prior ROM approaches while gaining 109$\times$ wall-clock speedup over full-order models on CPUs and 89$\times$ speedup on GPUs.
翻訳日:2022-06-07 22:03:08 公開日:2022-06-06
# (参考訳) トークンはキャラクタについて何を知っているのか、どうやってそれを知っているのか?

What do tokens know about their characters and how do they know it? ( http://arxiv.org/abs/2206.02608v1 )

ライセンス: CC BY 4.0
Ayush Kaushal, Kyle Mahowald(参考訳) サブワードトークン化スキームを使用する事前訓練された言語モデル(PLM)は、トークンの文字構成に明示的にアクセスできないにもかかわらず、文字レベルの情報を必要とする様々な言語タスクで成功する。 ここで、様々なモデル(gpt-j、bert、roberta、gloveなど)を調査し、トークン内の特定のアルファベット文字の有無を予測するために分類器を訓練することにより、文字レベルの情報についてエンコードされた単語の断片を探索する(例えば、"cat" へのモデルエンベッドが文字 "a" を含むかどうかを判断する)。 これらのモデルは文字レベルの情報を強固にエンコードしており、一般に、より大きなモデルはタスクにおいてより優れた性能を発揮する。 これらの結果は、非ラテン文字(アラビア語、デヴァナガリ語、キリル文字)の文字に一般化することを示している。 次に,訓練中にplmが英語の文字情報を取得するための一連の実験と分析を行い,その知識は,特定の文字と音声の特定の部分との系統的関係,関連する文字列のトークン化における自然変動など,複数の現象によって獲得されると主張する。

Pre-trained language models (PLMs) that use subword tokenization schemes can succeed at a variety of language tasks that require character-level information, despite lacking explicit access to the character composition of tokens. Here, studying a range of models (e.g., GPT- J, BERT, RoBERTa, GloVe), we probe what word pieces encode about character-level information by training classifiers to predict the presence or absence of a particular alphabetical character in a token, based on its embedding (e.g., probing whether the model embedding for "cat" encodes that it contains the character "a"). We find that these models robustly encode character-level information and, in general, larger models perform better at the task. We show that these results generalize to characters from non-Latin alphabets (Arabic, Devanagari, and Cyrillic). Then, through a series of experiments and analyses, we investigate the mechanisms through which PLMs acquire English-language character information during training and argue that this knowledge is acquired through multiple phenomena, including a systematic relationship between particular characters and particular parts of speech, as well as natural variability in the tokenization of related strings.
翻訳日:2022-06-07 22:02:01 公開日:2022-06-06
# (参考訳) VPIT:Voxel Pseudo画像を用いたリアルタイム埋め込み単体3D追跡

VPIT: Real-time Embedded Single Object 3D Tracking Using Voxel Pseudo Images ( http://arxiv.org/abs/2206.02619v1 )

ライセンス: CC BY 4.0
Illia Oleksiienko, Paraskevi Nousi, Nikolaos Passalis, Anastasios Tefas and Alexandros Iosifidis(参考訳) 本稿では,Voxel Pseudo Image Tracking (VPIT) と呼ばれる,Voxel-based 3D Single Object Tracking (3D SOT) 手法を提案する。 VPITは3D SOTにボクセル擬似画像を使用する最初の方法である。 入力点雲は、柱ベースのボキセル化により構成され、結果として得られる擬似画像は、2DライクなSiamese SOT法の入力として使用される。 擬似画像はBird's-eye View (BEV)座標で生成されるため、その中のオブジェクトのサイズは一定である。 したがって、オブジェクトの回転のみが、オブジェクトスケールではなく、新しい座標系で変更できる。 そこで我々は,対象物の位置と回転の両方を予測するために,異なる回転する探索領域を単一のターゲット表現と比較するマルチローテーション探索に置き換える。 KITTI追跡データセットの実験は、VPITが最速の3D SOT法であり、競合的な成功と精度の値を維持することを示している。 実世界のシナリオにおけるSOT手法の適用は、組み込み機器の計算能力の低下や、推論速度が十分高くなければ特定のデータフレームをスキップせざるを得ない遅延非推奨環境といった制限に満たされる。 我々は、リアルタイム評価プロトコルを実装し、他のメソッドが組み込みデバイスでの性能の大部分を失うことを示す一方、VPITはオブジェクトの追跡能力を維持している。

In this paper, we propose a novel voxel-based 3D single object tracking (3D SOT) method called Voxel Pseudo Image Tracking (VPIT). VPIT is the first method that uses voxel pseudo images for 3D SOT. The input point cloud is structured by pillar-based voxelization, and the resulting pseudo image is used as an input to a 2D-like Siamese SOT method. The pseudo image is created in the Bird's-eye View (BEV) coordinates, and therefore the objects in it have constant size. Thus, only the object rotation can change in the new coordinate system and not the object scale. For this reason, we replace multi-scale search with a multi-rotation search, where differently rotated search regions are compared against a single target representation to predict both position and rotation of the object. Experiments on KITTI Tracking dataset show that VPIT is the fastest 3D SOT method and maintains competitive Success and Precision values. Application of a SOT method in a real-world scenario meets with limitations such as lower computational capabilities of embedded devices and a latency-unforgiving environment, where the method is forced to skip certain data frames if the inference speed is not high enough. We implement a real-time evaluation protocol and show that other methods lose most of their performance on embedded devices, while VPIT maintains its ability to track the object.
翻訳日:2022-06-07 21:32:07 公開日:2022-06-06
# (参考訳) 光リアル性シミュレーションによる深層移動学習によるハードウェアアクセラレーション火星試料の局在

Hardware-accelerated Mars Sample Localization via deep transfer learning from photorealistic simulations ( http://arxiv.org/abs/2206.02622v1 )

ライセンス: CC BY 4.0
Ra\'ul Castilla-Arquillo, Carlos Jes\'us P\'erez-del-Pulgar, Gonzalo Jes\'us Paz-Delgado and Levin Gerdes(参考訳) マーズサンプルリターンキャンペーンの目標は、火星の表面から土壌サンプルを採取し、さらなる研究のために地球に戻すことである。 サンプルは、Perseveranceローバーによって金属管に回収され、火星表面に堆積される。 このキャンペーンの一環として、サンプル・フェッチ・ローバーは最大35個のサンプル・チューブを150個の火星のソールに配置し収集する責任を負うことが期待されている。 自律的な能力は、全体的なキャンペーンの成功、特にサンプルフェッチローバーの成功に不可欠である。 本研究は,サンプル管の自律的検出とポーズ推定のための新しいアプローチを提案する。 検出段階では,ディープニューラルネットワークと合成データセットからの転送学習が提案されている。 データセットは、火星のシナリオのフォトリアリスティックな3Dシミュレーションから作成される。 さらに、検出されたサンプルチューブのポーズを推定するためにコンピュータビジョン技術が使用される。 最後に,火星型テストベッドのExoMarsテストローバーを用いて,サンプルローカライゼーション手順の試験を行う。 これらのテストは、異なるハードウェアアーキテクチャで提案されたアプローチを検証し、サンプル検出とポーズ推定に関する有望な結果を提供する。

The goal of the Mars Sample Return campaign is to collect soil samples from the surface of Mars and return them to Earth for further study. The samples will be acquired and stored in metal tubes by the Perseverance rover and deposited on the Martian surface. As part of this campaign, it is expected the Sample Fetch Rover will be in charge of localizing and gathering up to 35 sample tubes over 150 Martian sols. Autonomous capabilities are critical for the success of the overall campaign and for the Sample Fetch Rover in particular. This work proposes a novel approach for the autonomous detection and pose estimation of the sample tubes. For the detection stage, a Deep Neural Network and transfer learning from a synthetic dataset are proposed. The dataset is created from photorealistic 3D simulations of Martian scenarios. Additionally, Computer Vision techniques are used to estimate the detected sample tubes poses. Finally, laboratory tests of the Sample Localization procedure are performed using the ExoMars Testing Rover on a Mars-like testbed. These tests validate the proposed approach in different hardware architectures, providing promising results related to the sample detection and pose estimation.
翻訳日:2022-06-07 21:10:27 公開日:2022-06-06
# (参考訳) 最後の脱氷河の証拠としての地殻のマクロフラクチャリング

Crust Macrofracturing as the Evidence of the Last Deglaciation ( http://arxiv.org/abs/2206.02652v1 )

ライセンス: CC BY 4.0
Igor Aleshin, Kirill Kholodkov, Elena Kozlovskaya and Ivan Malygin(参考訳) フィンランドにおけるいくつかの受動的地震実験の結果を再考するために機械学習手法を適用した。 受信者関数技法の異なる段階からデータセットを作成し、基本的な機械学習アルゴリズムの1つで処理した。 すべての結果は、$k$-nearest neighborsアルゴリズムで一様に得られた。 最初の結果は、地域のモホ深度マップである。 もう一つの結果は、表面近傍の低S$波速度層のデライン化である。 北部、南部、中部に3つの地域がある。 北部と南部における最低$s$波の速度は地質構造と結びつけることができる。 しかし,中央低s$-wave速度領域は,上部1-5kmの多くの水飽和亀裂と同定した。 この領域の構造を解析した結果, マクロフラクチャーは最終氷解によって引き起こされたという結論に至った。

Machine learning methods were applied to reconsider the results of several passive seismic experiments in Finland. We created datasets from different stages of the receiver function technique and processed them with one of basic machine learning algorithms. All the results were obtained uniformly with the $k$-nearest neighbors algorithm. The first result is the Moho depth map of the region. Another result is the delineation of the near-surface low $S$-wave velocity layer. There are three such areas in the Northern, Southern, and central parts of the region. The low $S$-wave velocity in the Northern and Southern areas can be linked to the geological structure. However, we attribute the central low $S$-wave velocity area to a large number of water-saturated cracks in the upper 1-5 km. Analysis of the structure of this area leads us to the conclusion that macrofracturing was caused by the last deglaciation.
翻訳日:2022-06-07 20:58:12 公開日:2022-06-06
# (参考訳) 階層的確率モデルのための抽象再定義

Abstraction-Refinement for Hierarchical Probabilistic Models ( http://arxiv.org/abs/2206.02653v1 )

ライセンス: CC BY 4.0
Sebastian Junges, Matthijs T. J. Spaan(参考訳) マルコフ決定過程 (Markov decision process) は、非決定的および確率的振る舞いを持つシステムをモデル化するためのユビキタス形式である。 これらのモデルの検証は、有名な状態の宇宙爆発問題の対象となっている。 繰り返し部品を持つ階層構造を利用してこの問題を軽減する。 この構造は、ロボット工学だけでなく、ネットワークプロトコルなどを記述する確率的プログラムでも自然に発生する。 このようなプログラムは、しばしば類似した振る舞いを持つサブルーチンを呼び出す。 本稿では,サブルーチンがシステム全体の状態に与える影響を限定したローカルケースに注目した。 このようなプログラムの分析を加速する鍵となる考え方は、(1)サブルーチンの挙動を不確かさとして扱い、必要であれば詳細な分析によってこの不確実性を取り除くこと、(2)類似サブルーチンをパラメトリックテンプレートに抽象化し、次にこのテンプレートを分析することである。 これらの2つのアイデアは、階層的MDPを解析する抽象リファインメントループに埋め込まれる。 プロトタイプの実装は、アプローチの有効性を示している。

Markov decision processes are a ubiquitous formalism for modelling systems with non-deterministic and probabilistic behavior. Verification of these models is subject to the famous state space explosion problem. We alleviate this problem by exploiting a hierarchical structure with repetitive parts. This structure not only occurs naturally in robotics, but also in probabilistic programs describing, e.g., network protocols. Such programs often repeatedly call a subroutine with similar behavior. In this paper, we focus on a local case, in which the subroutines have a limited effect on the overall system state. The key ideas to accelerate analysis of such programs are (1) to treat the behavior of the subroutine as uncertain and only remove this uncertainty by a detailed analysis if needed, and (2) to abstract similar subroutines into a parametric template, and then analyse this template. These two ideas are embedded into an abstraction-refinement loop that analyses hierarchical MDPs. A prototypical implementation shows the efficacy of the approach.
翻訳日:2022-06-07 20:42:08 公開日:2022-06-06
# (参考訳) オンライン学習におけるRegret-Variance Trade-Off

A Regret-Variance Trade-Off in Online Learning ( http://arxiv.org/abs/2206.02656v1 )

ライセンス: CC BY 4.0
Dirk van der Hoeven, Nikita Zhivotovskiy, Nicol\`o Cesa-Bianchi(参考訳) 我々は,強い凸と有界損失に対する専門家の助言による予測を考察し,後悔と「ばらつき」のトレードオフ(学習者の予測と最高の専門家の予測の2乗差)を考察する。 K$の専門家は、EWA(Exponentially Weighted Average)アルゴリズムが$O(\log K)$ regretを達成することが知られている。 我々は、EWAの変種が負の後悔(すなわちアルゴリズムが最高の専門家より優れている)を達成するか、あるいは分散と後悔の両方に縛られる$O(\log K)$を保証することを証明している。 この結果をもとに,学習において予測のばらつきをどのように活用できるか,いくつかの例を示す。 オンラインからバッチ分析では、大規模な経験的分散により、オンラインからバッチへの変換が早期に停止し、クラスで最高の予測器のリスクを上回ることが示される。 また、早期停止を考慮しない場合、モデル選択集約の最適率を回復する。 損失の減少を伴うオンライン予測では, 後悔に対する腐敗の影響は大きなばらつきによって補償できることを示す。 オンライン選択的サンプリングでは,分散が大きくなるとサンプルを少なくし,期待に縛られる最適後悔を保証できるアルゴリズムを設計した。 禁忌を伴うオンライン学習では、この設定で最初の高い確率を持つ$O(\log K)$後悔を導き出すために、差分のような用語を用いる。 最後に、結果をオンライン線形回帰の設定に拡張する。

We consider prediction with expert advice for strongly convex and bounded losses, and investigate trade-offs between regret and "variance" (i.e., squared difference of learner's predictions and best expert predictions). With $K$ experts, the Exponentially Weighted Average (EWA) algorithm is known to achieve $O(\log K)$ regret. We prove that a variant of EWA either achieves a negative regret (i.e., the algorithm outperforms the best expert), or guarantees a $O(\log K)$ bound on both variance and regret. Building on this result, we show several examples of how variance of predictions can be exploited in learning. In the online to batch analysis, we show that a large empirical variance allows to stop the online to batch conversion early and outperform the risk of the best predictor in the class. We also recover the optimal rate of model selection aggregation when we do not consider early stopping. In online prediction with corrupted losses, we show that the effect of corruption on the regret can be compensated by a large variance. In online selective sampling, we design an algorithm that samples less when the variance is large, while guaranteeing the optimal regret bound in expectation. In online learning with abstention, we use a similar term as the variance to derive the first high-probability $O(\log K)$ regret bound in this setting. Finally, we extend our results to the setting of online linear regression.
翻訳日:2022-06-07 20:19:52 公開日:2022-06-06
# (参考訳) Hessian-based generalization Guaranteesを用いたディープニューラルネットワークのロバスト微調整

Robust Fine-Tuning of Deep Neural Networks with Hessian-based Generalization Guarantees ( http://arxiv.org/abs/2206.02659v1 )

ライセンス: CC BY 4.0
Haotian Ju, Dongyue Li, Hongyang R. Zhang(参考訳) 対象タスク上で事前学習したディープニューラルネットワークを微調整する転送学習手法を検討する。 オーバーフィッティングの問題を理解するために,ファインチューニングの一般化特性について検討する。 従来の研究では、微調整の初期化からの距離の制限が一般化を改善することが示されている。 pac-ベイズ解析を用いて,初期化からの距離の他に,ニューラルネットの雑音安定性と雑音注入の一般化に影響を及ぼすことを観測した。 観測に動機づけられ,広い範囲の微調整法に対して,ヘッセン距離に基づく一般化境界を開発した。 次に,ノイズラベルを用いた微調整の堅牢性について検討する。 我々は、微調整のための一貫した損失と距離に基づく正規化を含むアルゴリズムを設計する。 さらに,学習データセットラベルにおけるクラス条件独立雑音下でのアルゴリズムの一般化誤差境界を証明した。 我々は,様々な雑音環境とアーキテクチャにおいて,アルゴリズムの詳細な実証実験を行う。 例えば、トレーニングラベルをプログラムラベリングで生成する6つの画像分類タスクでは、従来の方法よりも3.26%精度が向上している。 一方、我々のアルゴリズムを用いた細調整ネットワークのヘッセン距離測定は、既存の手法の6倍も減少する。

We consider transfer learning approaches that fine-tune a pretrained deep neural network on a target task. We investigate generalization properties of fine-tuning to understand the problem of overfitting, which often happens in practice. Previous works have shown that constraining the distance from the initialization of fine-tuning improves generalization. Using a PAC-Bayesian analysis, we observe that besides distance from initialization, Hessians affect generalization through the noise stability of deep neural networks against noise injections. Motivated by the observation, we develop Hessian distance-based generalization bounds for a wide range of fine-tuning methods. Next, we investigate the robustness of fine-tuning with noisy labels. We design an algorithm that incorporates consistent losses and distance-based regularization for fine-tuning. Additionally, we prove a generalization error bound of our algorithm under class conditional independent noise in the training dataset labels. We perform a detailed empirical study of our algorithm on various noisy environments and architectures. For example, on six image classification tasks whose training labels are generated with programmatic labeling, we show a 3.26% accuracy improvement over prior methods. Meanwhile, the Hessian distance measure of the fine-tuned network using our algorithm decreases by six times more than existing approaches.
翻訳日:2022-06-07 20:18:47 公開日:2022-06-06
# (参考訳) UAV誘導計画のための説明可能な深層強化学習に基づくロバスト攻撃検出

Robust Adversarial Attacks Detection based on Explainable Deep Reinforcement Learning For UAV Guidance and Planning ( http://arxiv.org/abs/2206.02670v1 )

ライセンス: CC BY 4.0
Thomas Hickling, Nabil Aouf and Phillippa Spencer(参考訳) 公の場で活動する無人航空機(uav)エージェントに対する敵対的な攻撃の危険性が高まっている。 AIベースのテクニックを採用し、さらに具体的には、これらのUAVを制御し、ガイドするためのディープラーニング(DL)アプローチを採用することは、パフォーマンスの観点からは有益であるが、これらのテクニックの安全性と、エージェントが混乱するにつれて衝突が起こる可能性のある敵攻撃に対する脆弱性に対する懸念をさらに高めることができる。 本稿では,これらのdlスキームを保護する効率的な検出器を構築するための,dlメソッドの説明可能性に基づく革新的なアプローチを提案する。 エージェントは、ガイダンスと計画のためのDeep Reinforcement Learning(DRL)スキームを採用している。 人工電位場(APF)を利用する優先経験再生(PER)DRLスキームを用いて、DDPG(Deep Deterministic Policy Gradient)を用いて、トレーニング時間と障害物回避性能を改善する。 敵の攻撃はFGSM(Fast Gradient Sign Method)とBIM(Basic Iterative Method)アルゴリズムによって発生し、障害物コース完了率を80\%から35\%に下げる。 UAVの説明可能なDRLベース計画と障害や敵攻撃を含むガイダンスのための現実的合成環境を構築した。 2つの攻撃検知器が提案されている。 1つは、畳み込みニューラルネットワーク(CNN)アーキテクチャを採用し、80%の精度で検出する。 第2検出器はLong Short Term Memory (LSTM) ネットワークに基づいて開発され、CNNベースの検出器と比較して計算時間をはるかに速くして91\%の精度を達成する。

The danger of adversarial attacks to unprotected Uncrewed Aerial Vehicle (UAV) agents operating in public is growing. Adopting AI-based techniques and more specifically Deep Learning (DL) approaches to control and guide these UAVs can be beneficial in terms of performance but add more concerns regarding the safety of those techniques and their vulnerability against adversarial attacks causing the chances of collisions going up as the agent becomes confused. This paper proposes an innovative approach based on the explainability of DL methods to build an efficient detector that will protect these DL schemes and thus the UAVs adopting them from potential attacks. The agent is adopting a Deep Reinforcement Learning (DRL) scheme for guidance and planning. It is formed and trained with a Deep Deterministic Policy Gradient (DDPG) with Prioritised Experience Replay (PER) DRL scheme that utilises Artificial Potential Field (APF) to improve training times and obstacle avoidance performance. The adversarial attacks are generated by Fast Gradient Sign Method (FGSM) and Basic Iterative Method (BIM) algorithms and reduced obstacle course completion rates from 80\% to 35\%. A Realistic Synthetic environment for UAV explainable DRL based planning and guidance including obstacles and adversarial attacks is built. Two adversarial attack detectors are proposed. The first one adopts a Convolutional Neural Network (CNN) architecture and achieves an accuracy in detection of 80\%. The second detector is developed based on a Long Short Term Memory (LSTM) network and achieves an accuracy of 91\% with much faster computing times when compared to the CNN based detector.
翻訳日:2022-06-07 20:17:13 公開日:2022-06-06
# (参考訳) 標準皮質グラフニューラルネットと将来の聴覚補聴器における音声強調への応用

Canonical Cortical Graph Neural Networks and its Application for Speech Enhancement in Future Audio-Visual Hearing Aids ( http://arxiv.org/abs/2206.02671v1 )

ライセンス: CC BY 4.0
Leandro A. Passos, Jo\~ao Paulo Papa, Ahsan Adeel(参考訳) 最近の機械学習アルゴリズムの成功にもかかわらず、これらのモデルの多くは、マルチモーダル入力データや論理時間シーケンスなど、異なるソース間の相互作用を必要とするより複雑なタスクを考える際に、いくつかの欠点に直面している。 一方、この意味では、生物学的脳は高度に研ぎ澄まされ、何百万年もの進化を経て、このような情報の流れを自動で管理し統合することができる。 本稿では,脳内皮質回路の最近の発見からインスピレーションを得て,階層内変調を用いたマルチモーダル情報と正準相関解析(CCA)を組み合わせ,時間的データ追跡のためのメモリ機構であるCanonical Cortical Graph Neural Networkを提案する。 提案手法は, よりクリーンな聴覚再建とエネルギー効率の向上を両立させ, ニューロンの発声速度分布を低減し, 将来の聴覚補聴器における音声強調に適したアプローチとして提案した。

Despite the recent success of machine learning algorithms, most of these models still face several drawbacks when considering more complex tasks requiring interaction between different sources, such as multimodal input data and logical time sequence. On the other hand, the biological brain is highly sharpened in this sense, empowered to automatically manage and integrate such a stream of information through millions of years of evolution. In this context, this paper finds inspiration from recent discoveries on cortical circuits in the brain to propose a more biologically plausible self-supervised machine learning approach that combines multimodal information using intra-layer modulations together with canonical correlation analysis (CCA), as well as a memory mechanism to keep track of temporal data, the so-called Canonical Cortical Graph Neural networks. The approach outperformed recent state-of-the-art results considering both better clean audio reconstruction and energy efficiency, described by a reduced and smother neuron firing rate distribution, suggesting the model as a suitable approach for speech enhancement in future audio-visual hearing aid devices.
翻訳日:2022-06-07 19:57:57 公開日:2022-06-06
# (参考訳) リスク感性強化学習 : CVaRの反復と最悪の道

Risk-Sensitive Reinforcement Learning: Iterated CVaR and the Worst Path ( http://arxiv.org/abs/2206.02678v1 )

ライセンス: CC BY 4.0
Yihan Du, Siwei Wang, Longbo Huang(参考訳) そこで本研究では,cvar rlと呼ばれる,各ステップにおける報酬のテールを最大化することを目的とした,新たなエピソジックリスク感応強化学習(rl)問題について検討する。 既存のリスク対応RLの定式化とは異なり、Iterated CVaR RLは、各段階で破滅的な状況に陥るリスクをエージェントが厳格に制御し、自律運転、臨床治療計画、ロボット工学などの意思決定プロセスを通して強力な安全保証を要求する重要なリスク感受性タスクに適用できる。 本稿では,レギュレット最小化とベストポリシー同定という2つの性能指標を用いた反復CVaR RLについて検討する。 両指標のそれぞれに対して,効率的なアルゴリズムであるCVaR-RMとCVaR-BPIを設計し,各エピソード数に対して,上限値と下限値が一致するようにした。 また,最小限の累積報酬を最大化することを目的とした反復CVaR RL(Worst Path RL)の興味深い制限事例についても検討し,上界と下界が一定である効率的なアルゴリズムを提案する。 最後に、CVaRの値関数シフトによる変化と歪んだ訪問分布による後悔の分解を境界とする手法が新しく、他のリスクに敏感なオンライン学習問題に応用できる。

In this paper, we study a novel episodic risk-sensitive Reinforcement Learning (RL) problem, named Iterated CVaR RL, where the objective is to maximize the tail of the reward-to-go at each step. Different from existing risk-aware RL formulations, Iterated CVaR RL focuses on safety-at-all-time, by enabling the agent to tightly control the risk of getting into catastrophic situations at each stage, and is applicable to important risk-sensitive tasks that demand strong safety guarantees throughout the decision process, such as autonomous driving, clinical treatment planning and robotics. We investigate Iterated CVaR RL with two performance metrics, i.e., Regret Minimization and Best Policy Identification. For both metrics, we design efficient algorithms ICVaR-RM and ICVaR-BPI, respectively, and provide matching upper and lower bounds with respect to the number of episodes $K$. We also investigate an interesting limiting case of Iterated CVaR RL, called Worst Path RL, where the objective becomes to maximize the minimum possible cumulative reward, and propose an efficient algorithm with constant upper and lower bounds. Finally, the techniques we develop for bounding the change of CVaR due to the value function shift and decomposing the regret via a distorted visitation distribution are novel and can find applications in other risk-sensitive online learning problems.
翻訳日:2022-06-07 19:47:43 公開日:2022-06-06
# (参考訳) 医師のように聞くことを学ぶ

Learning to Ask Like a Physician ( http://arxiv.org/abs/2206.02696v1 )

ライセンス: CC BY 4.0
Eric Lehman, Vladislav Lialin, Katelyn Y. Legaspi, Anne Janelle R. Sy, Patricia Therese S. Pile, Nicole Rose I. Alberto, Richard Raymund R. Ragasa, Corinna Victoria M. Puyat, Isabelle Rose I. Alberto, Pia Gabrielle I. Alfonso, Marianne Tali\~no, Dana Moukheiber, Byron C. Wallace, Anna Rumshisky, Jenifer J. Liang, Preethi Raghavan, Leo Anthony Celi, Peter Szolovits(参考訳) 電子健康記録(EHR)から得られた既存の質問応答(QA)データセットは人工的に生成され、結果として現実的な医師情報のニーズを捉えることができない。 そこで本研究では,2000以上の質問とテキストスニペット(トリガー)を組み合わせ,各質問を駆り立てる新たな質問データセットであるdistribute summary clinical questions (discq)を提案する。 質問は、100以上のMIMIC-III放電サマリーの医療専門家によって生成される。 医療専門家が求める情報の種類を特徴付けるために,このデータセットを分析した。 トリガー検出と質問生成(QG)のためのベースラインモデルもトレーニングし、EHR上で教師なし回答検索と組み合わせる。 我々のベースラインモデルは、人間の選択したトリガーによって引き起こされた場合の62%以上のケースで高品質な質問を生成することができる。 このデータセット(およびベースラインモデルの結果を再現するすべてのコード)を公開し、現実的な臨床QAとQGに関するさらなる研究を促進する。

Existing question answering (QA) datasets derived from electronic health records (EHR) are artificially generated and consequently fail to capture realistic physician information needs. We present Discharge Summary Clinical Questions (DiSCQ), a newly curated question dataset composed of 2,000+ questions paired with the snippets of text (triggers) that prompted each question. The questions are generated by medical experts from 100+ MIMIC-III discharge summaries. We analyze this dataset to characterize the types of information sought by medical experts. We also train baseline models for trigger detection and question generation (QG), paired with unsupervised answer retrieval over EHRs. Our baseline model is able to generate high quality questions in over 62% of cases when prompted with human selected triggers. We release this dataset (and all code to reproduce baseline model results) to facilitate further research into realistic clinical QA and QG: https://github.com/elehman16/discq.
翻訳日:2022-06-07 19:46:17 公開日:2022-06-06
# (参考訳) 確率分散還元ニュートン:大きなバッチで有限サム最小化を加速する

Stochastic Variance-Reduced Newton: Accelerating Finite-Sum Minimization with Large Batches ( http://arxiv.org/abs/2206.02702v1 )

ライセンス: CC BY 4.0
Micha{\l} Derezi\'nski(参考訳) 確率分散還元は、経験的リスク最小化のような凸有限サム最適化タスクを解くための一階アルゴリズムの高速化に有効であることが証明されている。 追加の第2次情報の導入は、これらの第1次メソッドのパフォーマンスをさらに向上させる上で有用であることが証明されている。 しかし、Subsampled Newtonのような確率的二階法を高速化するために分散還元を利用する利点についてはあまり知られていない。 そこで本研究では,単純な単位ステップサイズ,並列化が容易な大バッチ演算,高速局所収束といった2次手法の利点を享受する有限サム最小化アルゴリズムであるStochastic Variance-Reduced Newton (SVRN)を提案する。 その結果,svrn は逐次最小二乗解法 (反復ヘッシアンスケッチなど) と同様に,多くの確率的二階法 (ニュートンの副サンプリングなど) を高速化できることを示し,分散還元を伴う一般的な一階法と比較した。

Stochastic variance reduction has proven effective at accelerating first-order algorithms for solving convex finite-sum optimization tasks such as empirical risk minimization. Incorporating additional second-order information has proven helpful in further improving the performance of these first-order methods. However, comparatively little is known about the benefits of using variance reduction to accelerate popular stochastic second-order methods such as Subsampled Newton. To address this, we propose Stochastic Variance-Reduced Newton (SVRN), a finite-sum minimization algorithm which enjoys all the benefits of second-order methods: simple unit step size, easily parallelizable large-batch operations, and fast local convergence, while at the same time taking advantage of variance reduction to achieve improved convergence rates (per data pass) for smooth and strongly convex problems. We show that SVRN can accelerate many stochastic second-order methods (such as Subsampled Newton) as well as iterative least squares solvers (such as Iterative Hessian Sketch), and it compares favorably to popular first-order methods with variance reduction.
翻訳日:2022-06-07 19:24:53 公開日:2022-06-06
# (参考訳) CEEMD-ESレーダ選択に基づく人間の行動認識手法

Human Behavior Recognition Method Based on CEEMD-ES Radar Selection ( http://arxiv.org/abs/2206.02705v1 )

ライセンス: CC BY 4.0
Zhaolin Zhang, Mingqi Song, Wugang Meng, Yuhan Liu, Fengcong Li, Xiang Feng, Yinan Zhao(参考訳) 近年、人間の行動を特定するミリ波レーダーは、医療、セキュリティ、その他の分野で広く使われている。 複数のレーダーが検出タスクを行う場合、各レーダーに含まれる特徴の妥当性を保証することは困難である。 さらに、複数のレーダーデータを処理するには、多くの時間と計算コストが必要です。 これらの問題を解決するために, 補足型経験モード分解エネルギースライス法 (CEEMD-ES) を提案する。 まず、人体の四肢と体幹との反射エコー周波数の差に応じて、レーダ信号を分解して再構成する。 そして、手足とトランクのエコーエネルギー比と理論的値との差に応じてレーダーを選択する。 選択したレーダーの時間領域、周波数領域、および様々なエントロピー特徴を抽出する。 最後に、ReLuコアのエクストリーム学習マシン(ELM)認識モデルを確立する。 実験により、この方法はレーダーを効果的に選択できることが示され、3種類の人間の行動の認識率は98.53%である。

In recent years, the millimeter-wave radar to identify human behavior has been widely used in medical,security, and other fields. When multiple radars are performing detection tasks, the validity of the features contained in each radar is difficult to guarantee. In addition, processing multiple radar data also requires a lot of time and computational cost. The Complementary Ensemble Empirical Mode Decomposition-Energy Slice (CEEMD-ES) multistatic radar selection method is proposed to solve these problems. First, this method decomposes and reconstructs the radar signal according to the difference in the reflected echo frequency between the limbs and the trunk of the human body. Then, the radar is selected according to the difference between the ratio of echo energy of limbs and trunk and the theoretical value. The time domain, frequency domain and various entropy features of the selected radar are extracted. Finally, the Extreme Learning Machine (ELM) recognition model of the ReLu core is established. Experiments show that this method can effectively select the radar, and the recognition rate of three kinds of human actions is 98.53%.
翻訳日:2022-06-07 18:53:02 公開日:2022-06-06
# (参考訳) グローバルコンテクストコンディショニングによるシーン認識人物画像生成

Scene Aware Person Image Generation through Global Contextual Conditioning ( http://arxiv.org/abs/2206.02717v1 )

ライセンス: CC BY 4.0
Prasun Roy, Subhankar Ghosh, Saumik Bhattacharya, Umapada Pal, Michael Blumenstein(参考訳) 人物画像生成は興味深いが難しい問題である。 しかし、制約のある状況下では、この作業はさらに困難になる。 本研究では,既存のシーンに文脈に関連のある人物画像を生成・挿入し,グローバルセマンティクスを維持した新しいパイプラインを提案する。 より具体的には、挿入されている人物の位置、ポーズ、規模がシーン内の既存の人物と混ざり合うように挿入することを目的としている。 本手法では3つの個別ネットワークを逐次パイプラインで使用する。 まず,wassersteingenerative adversarial network (wgan) をシーンに存在する既存のヒト骨格上で条件づけることで,新たな人物の潜在的位置と骨格構造を予測する。 次に、予測された骨格を浅い線形ネットワークを介して洗練し、生成された画像の構造精度を高める。 そして、対象者の所定の画像上に条件付けられた別の生成ネットワークを用いて、洗練された骨格から目標画像を生成する。 実験では,シーンの一般的なコンテキストを保ちながら高分解能なフォトリアリスティック生成結果を得る。 結果の質的および定量的なベンチマークを複数実施して,本論文を締めくくった。

Person image generation is an intriguing yet challenging problem. However, this task becomes even more difficult under constrained situations. In this work, we propose a novel pipeline to generate and insert contextually relevant person images into an existing scene while preserving the global semantics. More specifically, we aim to insert a person such that the location, pose, and scale of the person being inserted blends in with the existing persons in the scene. Our method uses three individual networks in a sequential pipeline. At first, we predict the potential location and the skeletal structure of the new person by conditioning a Wasserstein Generative Adversarial Network (WGAN) on the existing human skeletons present in the scene. Next, the predicted skeleton is refined through a shallow linear network to achieve higher structural accuracy in the generated image. Finally, the target image is generated from the refined skeleton using another generative network conditioned on a given image of the target person. In our experiments, we achieve high-resolution photo-realistic generation results while preserving the general context of the scene. We conclude our paper with multiple qualitative and quantitative benchmarks on the results.
翻訳日:2022-06-07 18:46:02 公開日:2022-06-06
# マルチセル無線ネットワークにおける過空フェデレーション学習のための干渉管理

Interference Management for Over-the-Air Federated Learning in Multi-Cell Wireless Networks ( http://arxiv.org/abs/2206.02398v1 )

ライセンス: Link先を確認
Zhibin Wang, Yong Zhou, Yuanming Shi, Weihua Zhuang(参考訳) 資源制約付き無線ネットワークによるフェデレーション学習(fl)が最近注目を集めている。 しかし,既存の研究の多くは単一セル無線ネットワークにおけるFLタスクを考慮し,ダウンリンク/アップリンク相互干渉が学習性能に与える影響を無視している。 本稿では,各セルが異なるFLタスクを実行するマルチセル無線ネットワーク上でFLを調査し,高速なアップリンク勾配集約を実現するためにエアコン(AirComp)を採用した。 本研究では,エアコン支援FLシステムの収束解析を行い,ダウンリンクモデル/アップリンクモデル/グラディエント伝送のセル間干渉を考慮し,歪んだモデル/グラディエント交換器がFLの収束を妨げるギャップを生じさせることを示した。 誤差誘起ギャップ領域のパレート境界を特徴付け、異なるflタスク間の学習性能トレードオフを定量化し、各セルにおける誤差誘起ギャップの和を最小化する最適化問題を定式化する。 ダウンリンク・アップリンク・トランスミッション間の結合と複数セル間の結合に取り組むため,ダウンリンク・アップリンク・トランスミッション設計の効率的な干渉管理を実現するための協調型マルチセルfl最適化フレームワークを提案する。 その結果,提案アルゴリズムは,非協調的ベースライン方式よりも,複数のセル上での平均学習性能が向上することを示した。

Federated learning (FL) over resource-constrained wireless networks has recently attracted much attention. However, most existing studies consider one FL task in single-cell wireless networks and ignore the impact of downlink/uplink inter-cell interference on the learning performance. In this paper, we investigate FL over a multi-cell wireless network, where each cell performs a different FL task and over-the-air computation (AirComp) is adopted to enable fast uplink gradient aggregation. We conduct convergence analysis of AirComp-assisted FL systems, taking into account the inter-cell interference in both the downlink and uplink model/gradient transmissions, which reveals that the distorted model/gradient exchanges induce a gap to hinder the convergence of FL. We characterize the Pareto boundary of the error-induced gap region to quantify the learning performance trade-off among different FL tasks, based on which we formulate an optimization problem to minimize the sum of error-induced gaps in all cells. To tackle the coupling between the downlink and uplink transmissions as well as the coupling among multiple cells, we propose a cooperative multi-cell FL optimization framework to achieve efficient interference management for downlink and uplink transmission design. Results demonstrate that our proposed algorithm achieves much better average learning performance over multiple cells than non-cooperative baseline schemes.
翻訳日:2022-06-07 18:29:21 公開日:2022-06-06
# 分散学習における部分ストラグラー緩和のための最適化に基づくブロック座標勾配符号化

Optimization-based Block Coordinate Gradient Coding for Mitigating Partial Stragglers in Distributed Learning ( http://arxiv.org/abs/2206.02450v1 )

ライセンス: Link先を確認
Qi Wang, Ying Cui, Chenglin Li, Junni Zou, Hongkai Xiong(参考訳) すべてのモデルパラメータに対応する符号化された局所偏微分に同一の冗長性を導入することにより、分散学習におけるフルストラグラーを効果的に緩和する。 しかし、部分トラグラーによる不完全な計算結果を利用できないため、部分トラグラーにはもはや有効ではない。 本稿では,分散学習における部分ストラグラーの軽減を目的とした新しい勾配符号化手法を提案する。 具体的には,1人のマスタとn人のワーカーからなる分散システムを,一般的な部分的ストラグラーモデルで特徴付けし,勾配符号化を用いたlモデルパラメータを用いた一般大規模機械学習問題を解くことに焦点を当てた。 まず、L座標の多様性を示すL符号パラメータを用いた座標勾配符号化方式を提案し、ほとんどの勾配符号化方式を生成する。 そこで, 離散最適化問題である座標のL符号パラメータに関して, 期待される全実行時間の最小化と完了確率の最大化を考察する。 計算の複雑さを減らすために、まず l 座標の分割を表す n\lll 変数を n 個のブロックにそれぞれ同一の冗長性を持つ、等価だがはるかに単純な離散問題に変換する。 これは、ブロックに対してn個の符号パラメータを持つ等価だが実装が容易なブロック座標勾配符号化スキームを示している。 次に,計算の複雑さをさらに減らすために,連続緩和を採用する。 その結果,計算複雑性 O(N^2) の反復アルゴリズムを開発し,計算複雑性 O(N) の2つの閉形式近似解を導出する。 完了確率の最大化のために、我々は...の反復アルゴリズムを開発する。

Gradient coding schemes effectively mitigate full stragglers in distributed learning by introducing identical redundancy in coded local partial derivatives corresponding to all model parameters. However, they are no longer effective for partial stragglers as they cannot utilize incomplete computation results from partial stragglers. This paper aims to design a new gradient coding scheme for mitigating partial stragglers in distributed learning. Specifically, we consider a distributed system consisting of one master and N workers, characterized by a general partial straggler model and focuses on solving a general large-scale machine learning problem with L model parameters using gradient coding. First, we propose a coordinate gradient coding scheme with L coding parameters representing L possibly different diversities for the L coordinates, which generates most gradient coding schemes. Then, we consider the minimization of the expected overall runtime and the maximization of the completion probability with respect to the L coding parameters for coordinates, which are challenging discrete optimization problems. To reduce computational complexity, we first transform each to an equivalent but much simpler discrete problem with N\llL variables representing the partition of the L coordinates into N blocks, each with identical redundancy. This indicates an equivalent but more easily implemented block coordinate gradient coding scheme with N coding parameters for blocks. Then, we adopt continuous relaxation to further reduce computational complexity. For the resulting minimization of expected overall runtime, we develop an iterative algorithm of computational complexity O(N^2) to obtain an optimal solution and derive two closed-form approximate solutions both with computational complexity O(N). For the resultant maximization of the completion probability, we develop an iterative algorithm of...
翻訳日:2022-06-07 18:29:00 公開日:2022-06-06
# markov gamesのポリシー最適化:統一フレームワークとより高速なコンバージェンス

Policy Optimization for Markov Games: Unified Framework and Faster Convergence ( http://arxiv.org/abs/2206.02640v1 )

ライセンス: Link先を確認
Runyu Zhang, Qinghua Liu, Huan Wang, Caiming Xiong, Na Li, Yu Bai(参考訳) 本稿では,マルチエージェント強化学習のためのポリシー最適化アルゴリズムについて検討する。 各イテレーションは、あるマトリックスゲームアルゴリズムを用いて各状態のポリシー更新ステップと、ある学習率の値更新ステップとからなる全情報設定において、2人のプレイヤーのゼロサムマルコフゲームのためのアルゴリズムフレームワークを提案することから始める。 このフレームワークは多くの既存および新しいポリシー最適化アルゴリズムを統合する。 このアルゴリズムの状態平均ポリシは,行列ゲームアルゴリズムが各状態において,値更新の速度によって決定される重みに関して,低重み付き後悔を達成する限り,ゲームのナッシュ均衡(NE)に収束することを示す。 次に、このフレームワークが各状態(およびスムーズな値更新)における最適化Follow-The-Regularized-Leader (OFTRL)アルゴリズムでインスタンス化され、$\mathcal{\widetilde{O}}(T^{-5/6})$ almost NE in $T$ iterations, which improves on the current best $\mathcal{\widetilde{O}}(T^{-1/2})$ rate of symmetric policy optimization type algorithm。 また、このアルゴリズムをマルチプレイヤー汎用マルコフゲームに拡張し、CCE(Coarse Correlated Equilibria)への$\mathcal{\widetilde{O}}(T^{-3/4})$収束率を示す。 最後に、本理論を検証し、滑らかな値更新の重要性を検討する数値例を示し、代わりに「イーガー」値更新(独立自然ポリシー勾配アルゴリズムに相当)を使用することで、h=2$の単純なゲームであっても収束が著しく遅くなる可能性があることを見出した。

This paper studies policy optimization algorithms for multi-agent reinforcement learning. We begin by proposing an algorithm framework for two-player zero-sum Markov Games in the full-information setting, where each iteration consists of a policy update step at each state using a certain matrix game algorithm, and a value update step with a certain learning rate. This framework unifies many existing and new policy optimization algorithms. We show that the state-wise average policy of this algorithm converges to an approximate Nash equilibrium (NE) of the game, as long as the matrix game algorithms achieve low weighted regret at each state, with respect to weights determined by the speed of the value updates. Next, we show that this framework instantiated with the Optimistic Follow-The-Regularized-Leader (OFTRL) algorithm at each state (and smooth value updates) can find an $\mathcal{\widetilde{O}}(T^{-5/6})$ approximate NE in $T$ iterations, which improves over the current best $\mathcal{\widetilde{O}}(T^{-1/2})$ rate of symmetric policy optimization type algorithms. We also extend this algorithm to multi-player general-sum Markov Games and show an $\mathcal{\widetilde{O}}(T^{-3/4})$ convergence rate to Coarse Correlated Equilibria (CCE). Finally, we provide a numerical example to verify our theory and investigate the importance of smooth value updates, and find that using "eager" value updates instead (equivalent to the independent natural policy gradient algorithm) may significantly slow down the convergence, even on a simple game with $H=2$ layers.
翻訳日:2022-06-07 18:28:33 公開日:2022-06-06
# 状態依存型ポートを持つポート・ハミルトンニューラルネットワーク

Port-Hamiltonian Neural Networks with State Dependent Ports ( http://arxiv.org/abs/2206.02660v1 )

ライセンス: Link先を確認
S{\o}lve Eidnes, Alexander J. Stasik, Camilla Sterud, Eivind B{\o}hn and Signe Riemer-S{\o}rensen(参考訳) ハミルトニアンの定式化に基づくハイブリッド機械学習は、最近、単純な機械システムでうまく実証されている。 本研究では,単純な質量バネシステムと,複数の連成タンクを有するシステムを含む複数の内外力を持つより複雑で現実的なシステムの両方において,この手法をストレステストする。 様々な条件下での性能を定量化し、異なる仮定を課すことが、訓練中の性能に大きな影響を与えることを示す。 ポート-ハミルトンニューラルネットワークは、状態依存型ポートでより大きな次元に拡張可能であることを示す。 我々は、未知の外部力を持つシステムの学習について検討し、システム内の偏差を検知し、偏差を取り除く際に有効なモデルを提供する方法を示す。 最後に,スパースデータおよびノイズデータに対するトレーニングを改善するための対称高次積分器を提案する。

Hybrid machine learning based on Hamiltonian formulations has recently been successfully demonstrated for simple mechanical systems. In this work, we stress-test the method on both simple mass-spring systems and more complex and realistic systems with several internal and external forces, including a system with multiple connected tanks. We quantify performance under various conditions and show that imposing different assumptions greatly affect the performance during training presenting advantages and limitations of the method. We demonstrate that port-Hamiltonian neural networks can be extended to larger dimensions with state-dependent ports. We consider learning on systems with known and unknown external forces and show how it can be used to detect deviations in a system and still provide a valid model when the deviations are removed. Finally, we propose a symmetric high-order integrator for improved training on sparse and noisy data.
翻訳日:2022-06-07 18:26:14 公開日:2022-06-06
# (参考訳) リアルなテストタイムトレーニングを再考する:アンコレッドクラスタリングによる逐次推論と適応

Revisiting Realistic Test-Time Training: Sequential Inference and Adaptation by Anchored Clustering ( http://arxiv.org/abs/2206.02721v1 )

ライセンス: CC BY 4.0
Yongyi Su, Xun Xu, Kui Jia(参考訳) 分散シフトの対象となる対象ドメインデータにモデルをデプロイするには適応が必要である。 テスト時間トレーニング(ttt)は、完全なソースドメインデータにアクセスできず、ターゲットドメインでの即時推論が必要な現実的なシナリオの下で、この適応に対する解決策として現れる。 tttに対する多くの努力にもかかわらず、実験的な設定には混乱があり、不公平な比較に繋がる。 本研究では,TTTの仮定を再検討し,TTTプロトコルを2つの重要な要素に分類する。 複数のプロトコルのうち,実用的な逐次テスト時トレーニング(sttt)プロトコルを採用し,さらにテスト時アンカークラスタリング(ttac)アプローチを開発し,より強力なテスト時特徴学習を可能にした。 TTACはソースドメインとターゲットドメインの両方のクラスタを検出し、ターゲットクラスタとソースクラスタを一致させて、一般化を改善する。 アンカークラスタリングの有効性と効率を向上させるため,擬似ラベルフィルタリングと反復更新を開発した。 すべてのTTプロトコルにおいて,TTACは5つのTTデータセットの最先端手法よりも一貫して優れていることを示す。 この研究がTTTメソッドの公正なベンチマークを提供し、将来の研究をそれぞれのプロトコルで比較することを期待しています。 デモコードはhttps://github.com/Gorilla-Lab-SCUT/TTACで公開されている。

Deploying models on target domain data subject to distribution shift requires adaptation. Test-time training (TTT) emerges as a solution to this adaptation under a realistic scenario where access to full source domain data is not available and instant inference on target domain is required. Despite many efforts into TTT, there is a confusion over the experimental settings, thus leading to unfair comparisons. In this work, we first revisit TTT assumptions and categorize TTT protocols by two key factors. Among the multiple protocols, we adopt a realistic sequential test-time training (sTTT) protocol, under which we further develop a test-time anchored clustering (TTAC) approach to enable stronger test-time feature learning. TTAC discovers clusters in both source and target domain and match the target clusters to the source ones to improve generalization. Pseudo label filtering and iterative updating are developed to improve the effectiveness and efficiency of anchored clustering. We demonstrate that under all TTT protocols TTAC consistently outperforms the state-of-the-art methods on five TTT datasets. We hope this work will provide a fair benchmarking of TTT methods and future research should be compared within respective protocols. A demo code is available at https://github.com/Gorilla-Lab-SCUT/TTAC.
翻訳日:2022-06-07 18:23:45 公開日:2022-06-06
# 高解像度単一画素イメージング

Single pixel imaging at high pixel resolutions ( http://arxiv.org/abs/2206.02510v1 )

ライセンス: Link先を確認
Rafa{\l} Stojek, Anna Pastuszczak, Piotr Wr\'obel, Rafa{\l} Koty\'nski(参考訳) 通常報告されているシングルピクセルイメージング(spi)のピクセル解像度は32 \times 32$から256 \times 256$のピクセルで、従来の方法では画像標準よりはるかに低い。 低分解能化は, 許容圧縮比, 限られたDMD変調周波数, 合理的復元時間とのトレードオフによるものであり, SPI研究の10年間では著しく改善されていない。 本稿では,dmdの解像度が1秒に満たない全解像度で画像計測が可能であり,視野が限定されているが先行しない状況でも画像の疎在化が可能であることを示す。 我々は、0.3~$sの時間内に1024 \times 768$の解像度でスパース画像を再構成できるサンプリングおよび再構成戦略を提案する。 非スパース画像は少ない詳細で再構成される。 圧縮比は$0.4 \%$の順であり、これは7〜$hzの獲得周波数に対応する。 サンプリングは差分であり、バイナリであり、非適応であり、画像の複数の分割に関する情報を含んでいる。 再構成は微分フーリエ領域正規化反転(D-FDRI)に基づいている。 提案するSPIフレームワークは,リアルタイムに実装が難しい適応型SPIと,高解像度で非常に遅い古典的圧縮センシング画像回復手法の両方に代わるものである。

The usually reported pixel resolution of single pixel imaging (SPI) varies between $32 \times 32$ and $256 \times 256$ pixels falling far below imaging standards with classical methods. Low resolution results from the trade-off between the acceptable compression ratio, the limited DMD modulation frequency, and reasonable reconstruction time, and has not improved significantly during the decade of intensive research on SPI. In this paper we show that image measurement at the full resolution of the DMD, which lasts only a fraction of a second, is possible for sparse images or in a situation when the field of view is limited but is a priori unknown. We propose the sampling and reconstruction strategies that enable us to reconstruct sparse images at the resolution of $1024 \times 768$ within the time of $0.3~$s. Non-sparse images are reconstructed with less details. The compression ratio is on the order of $0.4 \%$ which corresponds to an acquisition frequency of $7~$Hz. Sampling is differential, binary, and non-adaptive, and includes information on multiple partitioning of the image which later allows us to determine the actual field of view. Reconstruction is based on the differential Fourier domain regularized inversion (D-FDRI). The proposed SPI framework is an alternative to both adaptive SPI, which is challenging to implement in real time, and to classical compressive sensing image recovery methods, which are very slow at high resolutions.
翻訳日:2022-06-07 18:00:57 公開日:2022-06-06
# (参考訳) グラフニューラルネットワークを用いたロバスト・高速データ駆動電力系統状態推定器

Robust and Fast Data-Driven Power System State Estimator Using Graph Neural Networks ( http://arxiv.org/abs/2206.02731v1 )

ライセンス: CC BY 4.0
Ognjen Kundacina, Mirsad Cosovic, Dejan Vukobratovic(参考訳) 電力系統状態推定(SE)アルゴリズムは、利用可能な測定セットに基づいて複雑なバス電圧を推定する。 ファサー測定ユニット(PMU)は送信電力システムに広く採用されているため、PMUの高サンプリングレートを利用することができる高速SEソルバが必要である。 そこで本研究では,PMU電圧と電流測定値から推定値を求めるために,グラフニューラルネットワーク(GNN)に基づくモデルをトレーニングする方法を提案する。 本稿では,電力系統バスと分枝における各種種別および計測数の組込みを簡略化するために,電力系統の係数グラフ上のgnnのオリジナルの実装を提案する。 さらに、GNN予測の堅牢性を改善するために、因子グラフを拡大する。 トレーニングとテストの例は、電力系統計測のランダムサンプリングによって生成され、pmusと線形seの厳密な解に注釈が付された。 数値的な結果は,GNNモデルがSE解の正確な近似を提供することを示している。 さらに、PMUの故障やSE問題を観測不能にする通信障害によるエラーは局所的な影響があり、電力系統の他の部分で結果を悪化させることはない。

The power system state estimation (SE) algorithm estimates the complex bus voltages based on the available set of measurements. Because phasor measurement units (PMUs) are becoming more widely employed in transmission power systems, a fast SE solver capable of exploiting PMUs' high sample rates is required. To accomplish this, we present a method for training a model based on graph neural networks (GNNs) to learn estimates from PMU voltage and current measurements, which, once it is trained, has a linear computational complexity with respect to the number of nodes in the power system. We propose an original GNN implementation over the power system's factor graph to simplify the incorporation of various types and numbers of measurements both on power system buses and branches. Furthermore, we augment the factor graph to improve the robustness of GNN predictions. Training and test examples were generated by randomly sampling sets of power system measurements and annotated with the exact solutions of linear SE with PMUs. The numerical results demonstrate that the GNN model provides an accurate approximation of the SE solutions. Additionally, errors caused by PMU malfunctions or the communication failures that make the SE problem unobservable have a local effect and do not deteriorate the results in the rest of the power system.
翻訳日:2022-06-07 17:57:18 公開日:2022-06-06
# 新たなニューラルエンコーディングを支援するリソース効率の高いスパイクニューラルネットワークアクセラレータ

A Resource-efficient Spiking Neural Network Accelerator Supporting Emerging Neural Encoding ( http://arxiv.org/abs/2206.02495v1 )

ライセンス: Link先を確認
Daniel Gerlinghoff, Zhehui Wang, Xiaozhe Gu, Rick Siow Mong Goh, Tao Luo(参考訳) スパイキングニューラルネットワーク(SNN)は、その低消費電力乗算自由コンピューティングと、人間の神経系における生物学的プロセスの類似性により、最近勢いを増した。 しかし、snsは大規模モデルのニューラルネットワーク(ann)と同等の精度に達するために非常に長いスパイク列車(最大1000本)を必要とし、効率を相殺し、実世界のユースケースで低電力システムへの応用を阻害している。 この問題を軽減するために、スパイクトレインを高精度に保ちながら短縮する新しいニューラルエンコーディング方式を提案する。 しかし、現在のSNNのアクセラレーターは、新しいエンコーディングスキームを十分にサポートできない。 本研究では,SNNをニューラルネットワークで効率的にサポートできる新しいハードウェアアーキテクチャを提案する。 並列性の向上とメモリアクセスの低減を特徴とする省エネ・エリア効率の良い処理ユニットを実装した。 FPGA上でのアクセルの検証を行い,従来の消費電力および遅延処理よりも25%,90%改善した。 同時に、高面積効率により、大規模ニューラルネットワークモデルのスケーリングが可能になる。 我々の知る限りでは、これは物理FPGAベースのニューロモルフィックハードウェアに大規模なニューラルネットワークモデルVGGをデプロイする最初の試みである。

Spiking neural networks (SNNs) recently gained momentum due to their low-power multiplication-free computing and the closer resemblance of biological processes in the nervous system of humans. However, SNNs require very long spike trains (up to 1000) to reach an accuracy similar to their artificial neural network (ANN) counterparts for large models, which offsets efficiency and inhibits its application to low-power systems for real-world use cases. To alleviate this problem, emerging neural encoding schemes are proposed to shorten the spike train while maintaining the high accuracy. However, current accelerators for SNN cannot well support the emerging encoding schemes. In this work, we present a novel hardware architecture that can efficiently support SNN with emerging neural encoding. Our implementation features energy and area efficient processing units with increased parallelism and reduced memory accesses. We verified the accelerator on FPGA and achieve 25% and 90% improvement over previous work in power consumption and latency, respectively. At the same time, high area efficiency allows us to scale for large neural network models. To the best of our knowledge, this is the first work to deploy the large neural network model VGG on physical FPGA-based neuromorphic hardware.
翻訳日:2022-06-07 17:39:57 公開日:2022-06-06
# 期待される後エントロピー収量最適統計量の最小化

Minimizing the Expected Posterior Entropy Yields Optimal Summary Statistics ( http://arxiv.org/abs/2206.02340v1 )

ライセンス: Link先を確認
Till Hoffmann and Jukka-Pekka Onnela(参考訳) 大規模なデータセットから低次元の要約統計を抽出することは、効率的な推論に欠かせない。 本稿では,予測された後部エントロピー(EPE)の予測分布を最小化して要約統計値を得る手法を提案する。 EPEの最小化は、後部および他の情報理論的アプローチに対する条件密度推定器の学習と等価であることを示す。 さらなる要約抽出法(l^2$ベイズリスクの最小化、フィッシャー情報の最大化、モデル選択アプローチを含む)は、epe最小化の特別または限定的なケースである。 本手法は,合成ベンチマークと集団遺伝問題の両方に適用することにより,忠実度の高い要約統計が得られることを示す。 我々は,実践者に対して具体的な勧告を提供するだけでなく,情報的要約統計を得るための統一的な視点も提供する。

Extracting low-dimensional summary statistics from large datasets is essential for efficient (likelihood-free) inference. We propose obtaining summary statistics by minimizing the expected posterior entropy (EPE) under the prior predictive distribution of the model. We show that minimizing the EPE is equivalent to learning a conditional density estimator for the posterior as well as other information-theoretic approaches. Further summary extraction methods (including minimizing the $L^2$ Bayes risk, maximizing the Fisher information, and model selection approaches) are special or limiting cases of EPE minimization. We demonstrate that the approach yields high fidelity summary statistics by applying it to both a synthetic benchmark as well as a population genetics problem. We not only offer concrete recommendations for practitioners but also provide a unifying perspective for obtaining informative summary statistics.
翻訳日:2022-06-07 17:39:22 公開日:2022-06-06
# (参考訳) オンライン研究室における自己指導型学習の理解

Understanding Self-Directed Learning in an Online Laboratory ( http://arxiv.org/abs/2206.02742v1 )

ライセンス: CC BY 4.0
Sungeun An, Spencer Rugaber, Jennifer Hammock, Ashok K. Goel(参考訳) 生態学システムの概念モデルの構築とシミュレーションにより,オンライン実験室による自己指導学習について検討した。 本研究では,モデリング行動と結果のみを観察し,学習目標と結果は不明であった。 機械学習を用いて315人の学習者と822人の概念モデルのモデリング行動を解析した。 結果から3つの主な結論を導き出す。 まず、学習者は、観察(シミュレーション焦点)、構築(構築焦点)、完全な探索(モデル構築、評価、修正)の3つのタイプのモデリング行動を示す。 第二に、観察はすべての学習者の間で最も一般的な行動であったが、学習者が少ない場合には評価のない構築の方が一般的であった。 第3に,モデル構築,評価,修正の全サイクルを探求した学習者が,高品質のモデルを生み出した。 これらのモデリング行動は、自己指向学習全体に対する洞察を与える。

We described a study on the use of an online laboratory for self-directed learning by constructing and simulating conceptual models of ecological systems. In this study, we could observe only the modeling behaviors and outcomes; the learning goals and outcomes were unknown. We used machine learning techniques to analyze the modeling behaviors of 315 learners and 822 conceptual models they generated. We derive three main conclusions from the results. First, learners manifest three types of modeling behaviors: observation (simulation focused), construction (construction focused), and full exploration (model construction, evaluation and revision). Second, while observation was the most common behavior among all learners, construction without evaluation was more common for less engaged learners and full exploration occurred mostly for more engaged learners. Third, learners who explored the full cycle of model construction, evaluation and revision generated models of higher quality. These modeling behaviors provide insights into self-directed learning at large.
翻訳日:2022-06-07 17:32:58 公開日:2022-06-06
# mmFormer:脳腫瘍の非完全マルチモーダル学習のためのマルチモーダル医療トランス

mmFormer: Multimodal Medical Transformer for Incomplete Multimodal Learning of Brain Tumor Segmentation ( http://arxiv.org/abs/2206.02425v1 )

ライセンス: Link先を確認
Yao Zhang, Nanjun He, Jiawei Yang, Yuexiang Li, Dong Wei, Yawen Huang, Yang Zhang, Zhiqiang He, and Yefeng Zheng(参考訳) 磁気共鳴イメージング(MRI)による脳腫瘍の正確なセグメンテーションは,マルチモーダル画像の同時学習に望ましい。 しかし, 臨床実践ではMRIの完全セットを取得することは必ずしも不可能であり, 既存のマルチモーダルセグメンテーション法では, モダリティの欠如が著しく低下する。 本研究は, 利用可能なモダリティの組合せサブセットに対して頑健なマルチモーダル脳腫瘍セグメンテーションにおいて, Transformer を利用した最初の試みを示す。 Concretely, we propose a novel multimodal Medical Transformer (mmFormer) for incomplete multimodal learning with three main components: the hybrid modality-specific encoders that bridge a convolutional encoder and an intra-modal Transformer for both local and global context modeling within each modality; an inter-modal Transformer to build and align the long-range correlations across modalities for modality-invariant features with global semantics corresponding to tumor region; a decoder that performs a progressive up-sampling and fusion with the modality-invariant features to generate robust segmentation. さらに、補助正則化器はエンコーダとデコーダの両方で導入され、不完全なモダリティに対するモデルの堅牢性をさらに強化する。 われわれはBraTS 2018ドルの脳腫瘍セグメント化データセットについて広範な実験を行った。 提案した mmFormer は, ほぼすべての不完全なモダリティ, 特にDice の19.07% の改善により, 不完全なマルチモーダル脳腫瘍のセグメンテーションの最先端の手法より優れていることを示した。 コードはhttps://github.com/YaoZhang93/mmFormerで入手できる。

Accurate brain tumor segmentation from Magnetic Resonance Imaging (MRI) is desirable to joint learning of multimodal images. However, in clinical practice, it is not always possible to acquire a complete set of MRIs, and the problem of missing modalities causes severe performance degradation in existing multimodal segmentation methods. In this work, we present the first attempt to exploit the Transformer for multimodal brain tumor segmentation that is robust to any combinatorial subset of available modalities. Concretely, we propose a novel multimodal Medical Transformer (mmFormer) for incomplete multimodal learning with three main components: the hybrid modality-specific encoders that bridge a convolutional encoder and an intra-modal Transformer for both local and global context modeling within each modality; an inter-modal Transformer to build and align the long-range correlations across modalities for modality-invariant features with global semantics corresponding to tumor region; a decoder that performs a progressive up-sampling and fusion with the modality-invariant features to generate robust segmentation. Besides, auxiliary regularizers are introduced in both encoder and decoder to further enhance the model's robustness to incomplete modalities. We conduct extensive experiments on the public BraTS $2018$ dataset for brain tumor segmentation. The results demonstrate that the proposed mmFormer outperforms the state-of-the-art methods for incomplete multimodal brain tumor segmentation on almost all subsets of incomplete modalities, especially by an average 19.07% improvement of Dice on tumor segmentation with only one available modality. The code is available at https://github.com/YaoZhang93/mmFormer.
翻訳日:2022-06-07 17:22:11 公開日:2022-06-06
# グローバル照明コンテキストを用いたユニバーサル測光ステレオネットワーク

Universal Photometric Stereo Network using Global Lighting Contexts ( http://arxiv.org/abs/2206.02452v1 )

ライセンス: Link先を確認
Satoshi Ikehata(参考訳) 本論文は、ユニバーサル測光ステレオと呼ばれる新しい測光ステレオタスクに取り組む。 特定の物理照明モデルを想定した既存のタスクとは異なり、このタスクの解法アルゴリズムは、特定のモデルを仮定せずに、任意の照明変動の下で様々な形状や材料を持つオブジェクトに対して動作する。 この極めて困難な課題を解決するために,物理的な照明パラメータの回復を,グローバル照明コンテキストと呼ばれる一般的な照明表現の抽出に置き換えることで,事前の照明仮定を解消する純粋データ駆動方式を提案する。 我々は、偏光ステレオネットワークの照明パラメータのように、表面の正規ベクトルを画素的に復元する。 ネットワークを様々な形状、材料、照明に適応させるために、野生の物体の出現をシミュレートする新しい合成データセットをトレーニングします。 本手法は,本手法の意義を実証するために,テストデータ上の非校正光度ステレオ法と比較した。

This paper tackles a new photometric stereo task, named universal photometric stereo. Unlike existing tasks that assumed specific physical lighting models; hence, drastically limited their usability, a solution algorithm of this task is supposed to work for objects with diverse shapes and materials under arbitrary lighting variations without assuming any specific models. To solve this extremely challenging task, we present a purely data-driven method, which eliminates the prior assumption of lighting by replacing the recovery of physical lighting parameters with the extraction of the generic lighting representation, named global lighting contexts. We use them like lighting parameters in a calibrated photometric stereo network to recover surface normal vectors pixelwisely. To adapt our network to a wide variety of shapes, materials and lightings, it is trained on a new synthetic dataset which simulates the appearance of objects in the wild. Our method is compared with other state-of-the-art uncalibrated photometric stereo methods on our test data to demonstrate the significance of our method.
翻訳日:2022-06-07 17:21:41 公開日:2022-06-06
# 夜間神経isp訓練のための昼夜画像合成

Day-to-Night Image Synthesis for Training Nighttime Neural ISPs ( http://arxiv.org/abs/2206.02715v1 )

ライセンス: Link先を確認
Abhijith Punnappurath, Abdullah Abuolaim, Abdelrahman Abdelhamed, Alex Levinshtein and Michael S. Brown(参考訳) 多くのフラグシップスマートフォンカメラは、専用ニューラルイメージ信号プロセッサ(ISP)を使用して、ノイズの多い生のセンサー画像を最終的な処理出力にレンダリングする。 ナイトモードispネットワークのトレーニングは、画像ペアの大規模データセットに依存しており、(1)短い露光と高いiso利得でキャプチャされたノイズの多い生画像、(2)ispを介して描画された長時間露光と低isoでキャプチャされた地上真理低ノイズ生画像である。 このようなイメージペアのキャプチャは面倒で時間を要するため、イメージペア間のアライメントを確保するために、慎重にセットアップする必要がある。 さらに、地上の真実画像は、長時間の露光のため、しばしば動きがぼやけやすい。 そこで本研究では,昼間画像から夜間画像を合成する手法を提案する。 昼間の映像は簡単に撮影でき、(スマートフォンのカメラでも)低ノイズで動きのぼかしに悩まされることはめったにない。 本稿では,昼の生画像から,ノイズレベルが異なるリアルタイムの生画像の外観に変換する処理フレームワークについて概説する。 提案手法により,夜間のノイズやクリーンな画像ペアを容易に生成できる。 ナイトモードレンダリングのためのニューラルネットワークISPのトレーニングによる合成フレームワークの有効性を示す。 さらに,我々の合成夜間画像と少量の実データ(例えば5%から10%)を併用することにより,実夜間画像のみのトレーニングとほぼ同等の性能が得られることを示した。 データセットとコードはhttps://github.com/SamsungLabs/day-to-night.comから入手可能です。

Many flagship smartphone cameras now use a dedicated neural image signal processor (ISP) to render noisy raw sensor images to the final processed output. Training nightmode ISP networks relies on large-scale datasets of image pairs with: (1) a noisy raw image captured with a short exposure and a high ISO gain; and (2) a ground truth low-noise raw image captured with a long exposure and low ISO that has been rendered through the ISP. Capturing such image pairs is tedious and time-consuming, requiring careful setup to ensure alignment between the image pairs. In addition, ground truth images are often prone to motion blur due to the long exposure. To address this problem, we propose a method that synthesizes nighttime images from daytime images. Daytime images are easy to capture, exhibit low-noise (even on smartphone cameras) and rarely suffer from motion blur. We outline a processing framework to convert daytime raw images to have the appearance of realistic nighttime raw images with different levels of noise. Our procedure allows us to easily produce aligned noisy and clean nighttime image pairs. We show the effectiveness of our synthesis framework by training neural ISPs for nightmode rendering. Furthermore, we demonstrate that using our synthetic nighttime images together with small amounts of real data (e.g., 5% to 10%) yields performance almost on par with training exclusively on real nighttime images. Our dataset and code are available at https://github.com/SamsungLabs/day-to-night.
翻訳日:2022-06-07 17:21:24 公開日:2022-06-06
# パノラマビデオでロボットを誘導する人々

People Tracking in Panoramic Video for Guiding Robots ( http://arxiv.org/abs/2206.02735v1 )

ライセンス: Link先を確認
Alberto Bacchin, Filippo Berno, Emanuele Menegatti, and Alberto Pretto(参考訳) 案内ロボットは、おそらく未知の環境内の特定の場所から人々を効果的に呼び寄せることを目的としている。 この操作の間、ロボットは同行者を検知し追跡することができ、彼女/ヒムを見失おうとはしない。 360{\deg} Field of View (FoV)は、あらゆるフレームオブジェクトがセンサーから外されたり、遠く離れていなければ、FoVを離れることができないことを保証します。 しかし,取得したパノラマビデオでは,処理対象画像の大きさ,円筒投影による歪み効果,パノラマ画像の周期的性質など,人物検出や追跡などの知覚タスクにおける新たな課題が紹介されている。 本稿では,視線カメラ用に設計された標準的な人検出・追跡パイプラインであるパノラマビデオに効果的に適用可能な,対象とする一連の手法を提案する。 提案手法は,360{\deg}カメラを用いた深層学習に基づく人物検出・追跡フレームワーク内に実装・テストされている。 ロボットアプリケーションを導くために特別に取得されたデータセットや、実際のサービスロボットで実施された実験は、他の最先端システムに対する提案されたアプローチの有効性を示している。 本稿では,得られた注釈付きデータセットと,提案手法のオープンソース実装について述べる。

A guiding robot aims to effectively bring people to and from specific places within environments that are possibly unknown to them. During this operation the robot should be able to detect and track the accompanied person, trying never to lose sight of her/him. A solution to minimize this event is to use an omnidirectional camera: its 360{\deg} Field of View (FoV) guarantees that any framed object cannot leave the FoV if not occluded or very far from the sensor. However, the acquired panoramic videos introduce new challenges in perception tasks such as people detection and tracking, including the large size of the images to be processed, the distortion effects introduced by the cylindrical projection and the periodic nature of panoramic images. In this paper, we propose a set of targeted methods that allow to effectively adapt to panoramic videos a standard people detection and tracking pipeline originally designed for perspective cameras. Our methods have been implemented and tested inside a deep learning-based people detection and tracking framework with a commercial 360{\deg} camera. Experiments performed on datasets specifically acquired for guiding robot applications and on a real service robot show the effectiveness of the proposed approach over other state-of-the-art systems. We release with this paper the acquired and annotated datasets and the open-source implementation of our method.
翻訳日:2022-06-07 17:20:58 公開日:2022-06-06
# CORE:顔偽造検出のための一貫性表現学習

CORE: Consistent Representation Learning for Face Forgery Detection ( http://arxiv.org/abs/2206.02749v1 )

ライセンス: Link先を確認
Yunsheng Ni, Depu Meng, Changqian Yu, Chengbin Quan, Dongchun Ren, Youjian Zhao(参考訳) 顔操作技術は急速に発展し、公衆の関心を喚起する。 バニラ畳み込みニューラルネットワークは許容可能な性能を達成するが、それらは過度に適合する問題に悩まされる。 この問題を軽減するために、消去に基づく拡張を導入する傾向がある。 これらの手法は、異なる拡張画像に対して同じラベルを割り当てることで、異なる拡張に対するより一貫性のある表現を暗黙的に導き出そうとしている。 しかし、明示的な正規化がないため、異なる表現間の一貫性は満足できない。 したがって、異なる表現の一貫性を明示的に制約し、シンプルで効果的なフレームワークであるConsistent Representation Learning (CORE)を提案する。 具体的には、まず異なる拡張で異なる表現をキャプチャし、次に表現の余弦距離を正規化し、一貫性を高める。 大規模な実験(データセットとクロスデータセット)により、COREは最先端の顔偽造検出法に対して好適に機能することが示された。

Face manipulation techniques develop rapidly and arouse widespread public concerns. Despite that vanilla convolutional neural networks achieve acceptable performance, they suffer from the overfitting issue. To relieve this issue, there is a trend to introduce some erasing-based augmentations. We find that these methods indeed attempt to implicitly induce more consistent representations for different augmentations via assigning the same label for different augmented images. However, due to the lack of explicit regularization, the consistency between different representations is less satisfactory. Therefore, we constrain the consistency of different representations explicitly and propose a simple yet effective framework, COnsistent REpresentation Learning (CORE). Specifically, we first capture the different representations with different augmentations, then regularize the cosine distance of the representations to enhance the consistency. Extensive experiments (in-dataset and cross-dataset) demonstrate that CORE performs favorably against state-of-the-art face forgery detection methods.
翻訳日:2022-06-07 17:20:37 公開日:2022-06-06
# 高次自律走行車における運転者の客観的状況認識に及ぼす拡張現実インタフェースの影響

Effects of Augmented-Reality-Based Assisting Interfaces on Drivers' Object-wise Situational Awareness in Highly Autonomous Vehicles ( http://arxiv.org/abs/2206.02332v1 )

ライセンス: Link先を確認
Xiaofeng Gao, Xingwei Wu, Samson Ho, Teruhisa Misu, Kumar Akash(参考訳) 一部自動運転(ad)システムは生産車両ではすでに利用可能であるが、運転中は十分なレベルの状況認識(sa)を維持する必要がある。 これまでの研究では、ADの能力に関する情報をユーザインタフェースを使って提供することで、運転者のSAを改善することが示されている。 しかし、情報が多すぎるとドライバーの作業負荷が増加し、ドライバーを邪魔したり圧倒したりすることがある。 したがって、効率的なユーザインタフェース(UI)を設計するには、異なる状況下でその効果を理解する必要がある。 本稿では,拡張現実(AR)に基づくUIに焦点を当て,道路上の潜在的な危険を浮き彫りにする。 様々な交通密度の異なる車両の運転者saに対する強調表示の効果を理解するため,運転シミュレータ上で20名の被験者による個人内実験を行った。 本研究は, 交通密度, 物体位置, 物体の種類によって, 運転者のSAに対する強調効果が変化することを示した。 私たちの研究は、arベースのドライバー・アシスタンス・インタフェースで強調する対象を選択するためのガイダンスを提供し、一部自動運転車の運転と監視にsaを最適化できると考えています。

Although partially autonomous driving (AD) systems are already available in production vehicles, drivers are still required to maintain a sufficient level of situational awareness (SA) during driving. Previous studies have shown that providing information about the AD's capability using user interfaces can improve the driver's SA. However, displaying too much information increases the driver's workload and can distract or overwhelm the driver. Therefore, to design an efficient user interface (UI), it is necessary to understand its effect under different circumstances. In this paper, we focus on a UI based on augmented reality (AR), which can highlight potential hazards on the road. To understand the effect of highlighting on drivers' SA for objects with different types and locations under various traffic densities, we conducted an in-person experiment with 20 participants on a driving simulator. Our study results show that the effects of highlighting on drivers' SA varied by traffic densities, object locations and object types. We believe our study can provide guidance in selecting which object to highlight for the AR-based driver-assistance interface to optimize SA for drivers driving and monitoring partially autonomous vehicles.
翻訳日:2022-06-07 17:19:32 公開日:2022-06-06
# (参考訳) limoeを用いたマルチモーダルコントラスト学習:専門家の言語・画像混合

Multimodal Contrastive Learning with LIMoE: the Language-Image Mixture of Experts ( http://arxiv.org/abs/2206.02770v1 )

ライセンス: CC BY 4.0
Basil Mustafa, Carlos Riquelme, Joan Puigcerver, Rodolphe Jenatton and Neil Houlsby(参考訳) 大規模な疎活性化モデルでは、複数の領域で優れた性能が得られる。 しかし、そのようなモデルは一般に一度に一つのモダリティで訓練される。 マルチモーダル学習が可能なエキスパートモデルの疎結合であるLanguage-Image MoE, LIMoEを提案する。 LIMoEは画像とテキストを同時に受け入れ、対照的な損失で訓練される。 moesは、専門家層が適切なモーダル分割を学習できるため、マルチモーダルバックボーンに自然に適合する。 しかし、特に、エントロピーに基づく正規化スキームを提案する訓練安定性とバランスの取れた専門家利用という新たな課題が生じる。 複数のスケールで、等価計算コストの高密度モデルよりも顕著な性能向上を示す。 LIMoE-L/16はCLIP-L/14と同等に訓練され、78.6%のゼロショットイメージネット精度(vs.76.2%)を獲得し、さらにH/14にスケールすると84.1%に達する。 LIMoEの量的・質的挙動を解析し,モダリティの異なる処理や,モダリティ特異的な専門家の有機的出現といった現象を実証する。

Large sparsely-activated models have obtained excellent performance in multiple domains. However, such models are typically trained on a single modality at a time. We present the Language-Image MoE, LIMoE, a sparse mixture of experts model capable of multimodal learning. LIMoE accepts both images and text simultaneously, while being trained using a contrastive loss. MoEs are a natural fit for a multimodal backbone, since expert layers can learn an appropriate partitioning of modalities. However, new challenges arise; in particular, training stability and balanced expert utilization, for which we propose an entropy-based regularization scheme. Across multiple scales, we demonstrate remarkable performance improvement over dense models of equivalent computational cost. LIMoE-L/16 trained comparably to CLIP-L/14 achieves 78.6% zero-shot ImageNet accuracy (vs. 76.2%), and when further scaled to H/14 (with additional data) it achieves 84.1%, comparable to state-of-the-art methods which use larger custom per-modality backbones and pre-training schemes. We analyse the quantitative and qualitative behavior of LIMoE, and demonstrate phenomena such as differing treatment of the modalities and the organic emergence of modality-specific experts.
翻訳日:2022-06-07 17:18:43 公開日:2022-06-06
# 話者数無制限のオンラインニューラルダイアリゼーション

Online Neural Diarization of Unlimited Numbers of Speakers ( http://arxiv.org/abs/2206.02432v1 )

ライセンス: Link先を確認
Shota Horiguchi, Shinji Watanabe, Paola Garcia, Yuki Takashima, Yohei Kawaguchi(参考訳) 本稿では、無制限の話者に対してオフラインおよびオンライン話者ダイアリゼーションを行う方法について述べる。 エンドツーエンドのニューラルネットワークダイアリゼーション(eend)は、重複認識話者ダイアリゼーションをマルチラベル分類問題として定式化した。 また、スピーカーワイドアトラクションを導入することで、フレキシブルな数の話者にも拡張されている。 しかし、アトラクタベースのeendの話者の出力数は経験的に減少しており、話者カウントが完全に教師付きで訓練されているため、推論中に出現する話者数が訓練中の話者数よりも多い場合には対応できない。 提案手法であるEEND-GLAは、アトラクタベースのEENDに教師なしクラスタリングを導入することにより、この問題を解決する。 入力音声をまず短いブロックに分割し、次に各ブロックに対してアトラクタベースのダイアリゼーションを行い、最後に各ブロックの結果を局所的に計算されたアトラクタの類似性に基づいてクラスタ化する。 出力スピーカの数は各ブロック内で制限されるが、入力全体に対して推定される話者の総数は制限よりも大きい。 EEND-GLAをオンライン方式で使用するためには,従来のEENDのオンライン推論を可能にするために提案された話者追跡バッファも拡張する。 EEND-GLAと互換性のある話者追跡バッファを実現するため,ブロックワイズバッファを更新する。 最後に、オンラインダイアリゼーションを改善するため、バッファ更新法を改善し、EENDの可変チャンクサイズトレーニングを再検討する。 実験の結果,EEND-GLAはオフラインとオンラインの両方で,未知の話者数の話者ダイアリゼーションを行うことができた。

A method to perform offline and online speaker diarization for an unlimited number of speakers is described in this paper. End-to-end neural diarization (EEND) has achieved overlap-aware speaker diarization by formulating it as a multi-label classification problem. It has also been extended for a flexible number of speakers by introducing speaker-wise attractors. However, the output number of speakers of attractor-based EEND is empirically capped; it cannot deal with cases where the number of speakers appearing during inference is higher than that during training because its speaker counting is trained in a fully supervised manner. Our method, EEND-GLA, solves this problem by introducing unsupervised clustering into attractor-based EEND. In the method, the input audio is first divided into short blocks, then attractor-based diarization is performed for each block, and finally the results of each blocks are clustered on the basis of the similarity between locally-calculated attractors. While the number of output speakers is limited within each block, the total number of speakers estimated for the entire input can be higher than the limitation. To use EEND-GLA in an online manner, our method also extends the speaker-tracing buffer, which was originally proposed to enable online inference of conventional EEND. We introduces a block-wise buffer update to make the speaker-tracing buffer compatible with EEND-GLA. Finally, to improve online diarization, our method improves the buffer update method and revisits the variable chunk-size training of EEND. The experimental results demonstrate that EEND-GLA can perform speaker diarization of an unseen number of speakers in both offline and online inferences.
翻訳日:2022-06-07 17:16:01 公開日:2022-06-06
# (参考訳) 3次元シーンマニピュレーションのためのボリュームアンタングルメント

Volumetric Disentanglement for 3D Scene Manipulation ( http://arxiv.org/abs/2206.02776v1 )

ライセンス: CC BY 4.0
Sagie Benaim, Frederik Warburg, Peter Ebert Christensen, Serge Belongie(参考訳) 近年、ディファレンシャルボリュームレンダリングの進歩は、複雑な3dシーンのフォトリアリスティックで細分化された再構成において大きなブレークスルーをもたらした。 しかし、拡張現実の文脈では、シーン内のオブジェクトの意味的操作や拡張に影響を与えようとすることもある。 そこで,本稿ではボリュームフレームワークを提案する。 (一 所定の前景物の容積表現を背景から離す又は分離すること。) (ii)前景のオブジェクトと背景を意味的に操作すること。 本フレームワークは,学習対象を指定した2次元マスクと関連する2次元ビューとポーズを合わせて入力し,周囲の照明,反射,部分的な閉塞を尊重する前景のゆがみを生成し,トレーニングと新規のビューの両方に適用することができる。 本手法は,前景および背景オブジェクトの3次元類似度変換とともに,画素色と奥行きの分離制御を可能にする。 続いて,オブジェクトカモフラージュ,非負の3dオブジェクトインペインティング,3dオブジェクト変換,3dオブジェクトインペインティング,3dテキストベースのオブジェクト操作など,多数の下流操作タスクにおけるフレームワークの適用性を示す。 完全な結果はプロジェクトのWebページhttps://sagiebenaim.github.io/volumetric-disentanglement/にある。

Recently, advances in differential volumetric rendering enabled significant breakthroughs in the photo-realistic and fine-detailed reconstruction of complex 3D scenes, which is key for many virtual reality applications. However, in the context of augmented reality, one may also wish to effect semantic manipulations or augmentations of objects within a scene. To this end, we propose a volumetric framework for (i) disentangling or separating, the volumetric representation of a given foreground object from the background, and (ii) semantically manipulating the foreground object, as well as the background. Our framework takes as input a set of 2D masks specifying the desired foreground object for training views, together with the associated 2D views and poses, and produces a foreground-background disentanglement that respects the surrounding illumination, reflections, and partial occlusions, which can be applied to both training and novel views. Our method enables the separate control of pixel color and depth as well as 3D similarity transformations of both the foreground and background objects. We subsequently demonstrate the applicability of our framework on a number of downstream manipulation tasks including object camouflage, non-negative 3D object inpainting, 3D object translation, 3D object inpainting, and 3D text-based object manipulation. Full results are given in our project webpage at https://sagiebenaim.github.io/volumetric-disentanglement/
翻訳日:2022-06-07 17:08:54 公開日:2022-06-06
# Mask DINO:オブジェクト検出とセグメンテーションのための統一トランスフォーマーベースのフレームワーク

Mask DINO: Towards A Unified Transformer-based Framework for Object Detection and Segmentation ( http://arxiv.org/abs/2206.02777v1 )

ライセンス: Link先を確認
Feng Li, Hao Zhang, Huaizhe xu, Shilong Liu, Lei Zhang, Lionel M. Ni, and Heung-Yeung Shum(参考訳) 本稿では,オブジェクト検出とセグメンテーションの統一フレームワークであるMask DINOについて述べる。 Mask DINOはDINO(DeTR with Improved Denoising Anchor Boxes)を拡張し、すべてのイメージセグメンテーションタスク(インスタンス、パノプティクス、セマンティクス)をサポートするマスク予測ブランチを追加する。 DINOからドット製品へのクエリ埋め込みを利用して、バイナリマスクのセットを予測する高解像度のピクセル埋め込みマップを生成する。 DINOの主要なコンポーネントは、共有アーキテクチャとトレーニングプロセスを通じてセグメンテーションのために拡張されている。 mask dinoはシンプルで効率的でスケーラブルで、大規模な検出とセグメンテーションデータセットの統合によるメリットがある。 実験の結果,Mask DINOはResNet-50バックボーンとSwinLバックボーンを用いた事前学習モデルの両方において,既存のセグメンテーション手法を著しく上回っていることがわかった。 特に、Dino Maskは、インスタンスセグメンテーション(COCOでは54.5 AP)、汎光学セグメンテーション(COCOでは59.4 PQ)、セマンティックセグメンテーション(ADE20Kでは60.8 mIoU)で現在までの最良の結果を確立している。 コードは \url{https://github.com/IDEACVR/MaskDINO} で無効になる。

In this paper we present Mask DINO, a unified object detection and segmentation framework. Mask DINO extends DINO (DETR with Improved Denoising Anchor Boxes) by adding a mask prediction branch which supports all image segmentation tasks (instance, panoptic, and semantic). It makes use of the query embeddings from DINO to dot-product a high-resolution pixel embedding map to predict a set of binary masks. Some key components in DINO are extended for segmentation through a shared architecture and training process. Mask DINO is simple, efficient, scalable, and benefits from joint large-scale detection and segmentation datasets. Our experiments show that Mask DINO significantly outperforms all existing specialized segmentation methods, both on a ResNet-50 backbone and a pre-trained model with SwinL backbone. Notably, Mask DINO establishes the best results to date on instance segmentation (54.5 AP on COCO), panoptic segmentation (59.4 PQ on COCO), and semantic segmentation (60.8 mIoU on ADE20K). Code will be avaliable at \url{https://github.com/IDEACVR/MaskDINO}.
翻訳日:2022-06-07 17:06:23 公開日:2022-06-06
# シャノンエントロピーを用いた知識に基づく文書分類

Knowledge-based Document Classification with Shannon Entropy ( http://arxiv.org/abs/2206.02363v1 )

ライセンス: Link先を確認
AtMa P.O. Chan(参考訳) 文書分類は、テキスト文書における興味のある特定の内容を検出することである。 データ駆動型機械学習分類器とは対照的に、知識に基づく分類器はドメイン固有の知識に基づいて構築することができる。 一般的な知識に基づく分類器はキーワードの多量性に基づいて予測スコアを計算するが、一般的にはキーワードマッチングをゲージする際の指針原理が欠如しているためノイズ検出に悩まされる。 本稿では,情報の豊かさを計測し,一様で多様なキーワードマッチングを好む,シャノンエントロピーを備えた新しい知識ベースモデルを提案する。 正のサンプルを呼び出すことなく、このような手法は文書分類の単純かつ説明可能なソリューションを提供する。 シャノンエントロピーは偽陽性率の一定レベルでのリコールを著しく改善することを示した。 また,従来の機械学習に比べて,特に正のトレーニングサンプルが極めて限られている場合には,推論時のデータ分布の変化に対してより頑健であることを示す。

Document classification is the detection specific content of interest in text documents. In contrast to the data-driven machine learning classifiers, knowledge-based classifiers can be constructed based on domain specific knowledge, which usually takes the form of a collection of subject related keywords. While typical knowledge-based classifiers compute a prediction score based on the keyword abundance, it generally suffers from noisy detections due to the lack of guiding principle in gauging the keyword matches. In this paper, we propose a novel knowledge-based model equipped with Shannon Entropy, which measures the richness of information and favors uniform and diverse keyword matches. Without invoking any positive sample, such method provides a simple and explainable solution for document classification. We show that the Shannon Entropy significantly improves the recall at fixed level of false positive rate. Also, we show that the model is more robust against change of data distribution at inference while compared with traditional machine learning, particularly when the positive training samples are very limited.
翻訳日:2022-06-07 17:05:57 公開日:2022-06-06
# 対人訓練と全単語マスクBERTに基づく自動車レビューテキストの感情分析モデル

A sentiment analysis model for car review texts based on adversarial training and whole word mask BERT ( http://arxiv.org/abs/2206.02389v1 )

ライセンス: Link先を確認
Xingchen Liu and Yawen Li and Yingxia Shao and Ang Li and Jian Liang(参考訳) 自動車評価の分野では、ますます多くのネット市民がインターネットプラットフォーム上で意見を表明し、これらのコメントは購入者の意思決定と車の口コミの動向に影響を与えるだろう。 自然言語処理(NLP)の重要な分野として、感情分析は、大量の自動車レビューテキストの感情タイプを分析する効果的な研究手法を提供する。 しかし,自動車分野におけるレビューテキストの語彙的プロフェッショナル性や大きなテキストノイズのため,車レビューに一般的な感情分析モデルを適用すると,モデルの精度は低下する。 これらの課題を克服するために,カーレビューテキストの感情分析タスクを目標とする。 単語ベクトルの観点からは、自動車分野における独自の語彙のワードマスク全体を用いて事前学習を行い、敵の訓練セットの戦略を介してトレーニングデータを実行する。 そこで本研究では,敵対的トレーニングと全ワードマスクBERT(ATWWM-BERT)に基づく自動車レビューテキスト感情分析モデルを提案する。

In the field of car evaluation, more and more netizens choose to express their opinions on the Internet platform, and these comments will affect the decision-making of buyers and the trend of car word-of-mouth. As an important branch of natural language processing (NLP), sentiment analysis provides an effective research method for analyzing the sentiment types of massive car review texts. However, due to the lexical professionalism and large text noise of review texts in the automotive field, when a general sentiment analysis model is applied to car reviews, the accuracy of the model will be poor. To overcome these above challenges, we aim at the sentiment analysis task of car review texts. From the perspective of word vectors, pre-training is carried out by means of whole word mask of proprietary vocabulary in the automotive field, and then training data is carried out through the strategy of an adversarial training set. Based on this, we propose a car review text sentiment analysis model based on adversarial training and whole word mask BERT(ATWWM-BERT).
翻訳日:2022-06-07 17:05:41 公開日:2022-06-06
# case-augmented positives と return negatives を用いた文埋め込みのコントラスト学習の改善

Improving Contrastive Learning of Sentence Embeddings with Case-Augmented Positives and Retrieved Negatives ( http://arxiv.org/abs/2206.02457v1 )

ライセンス: Link先を確認
Wei Wang, Liangzhu Ge, Jingqiao Zhang, Cheng Yang(参考訳) SimCSEの後、コントラスト学習に基づく手法は、文埋め込みの学習において最先端(SOTA)のパフォーマンスを達成した。 しかし、教師なしのコントラスト学習法は、教師付き学習法よりもはるかに遅れている。 これは正および負のサンプルの品質に起因し、両方の改善を目指している。 具体的には、正のサンプルに対して、文中のランダムに選択された単語の最初の文字の場合を反転させるスイッチケース拡張を提案する。 これは、事前訓練されたトークン埋め込みの固有のバイアスを周波数、単語ケース、サブワードに対処する。 負のサンプルについては、事前学習された言語モデルに基づいてデータセット全体からハードネガティブをサンプリングする。 上記の2つの手法をSimCSEと組み合わせて提案したContrastive Learning with Augmented and Retrieved Data for Sentence Embedding (CARDS) 法は、教師なし環境でのSTSベンチマークにおいて、現在のSOTAを大幅に上回っている。

Following SimCSE, contrastive learning based methods have achieved the state-of-the-art (SOTA) performance in learning sentence embeddings. However, the unsupervised contrastive learning methods still lag far behind the supervised counterparts. We attribute this to the quality of positive and negative samples, and aim to improve both. Specifically, for positive samples, we propose switch-case augmentation to flip the case of the first letter of randomly selected words in a sentence. This is to counteract the intrinsic bias of pre-trained token embeddings to frequency, word cases and subwords. For negative samples, we sample hard negatives from the whole dataset based on a pre-trained language model. Combining the above two methods with SimCSE, our proposed Contrastive learning with Augmented and Retrieved Data for Sentence embedding (CARDS) method significantly surpasses the current SOTA on STS benchmarks in the unsupervised setting.
翻訳日:2022-06-07 17:05:22 公開日:2022-06-06
# 対話的意思決定のための漸近的インスタンス最適アルゴリズム

Asymptotic Instance-Optimal Algorithms for Interactive Decision Making ( http://arxiv.org/abs/2206.02326v1 )

ライセンス: Link先を確認
Kefan Dong, Tengyu Ma(参考訳) インタラクティブな意思決定問題(バンド、強化学習など)に関する過去の研究は、アルゴリズムの最も困難なインスタンスにおけるパフォーマンスを測定するミニマックス後悔に焦点を当てていた。 しかし、理想的なアルゴリズムは、特定の問題インスタンスの複雑さに適応し、最悪の場合よりも簡単なインスタンスに対する後悔を少なくするべきである。 本稿では,軽度条件下での有限数の判定問題に対する一般対話型意思決定のための,最初の漸近的インスタンス最適化アルゴリズムを設計する。 textit{every} インスタンス $f$ において、我々のアルゴリズムは \emph{all} 一貫性のあるアルゴリズムよりも優れており(すべてのインスタンスで非自明な後悔を達成している)、漸近的な後悔$\mathcal{c}(f) \ln n$ があり、ここで $\mathcal{c}(f)$ は$f$ の複雑さの正確な特徴である。 アルゴリズムの重要なステップは、アクティブなデータ収集を伴う仮説テストである。 これは、推定されたインスタンスが実際に正しいかどうかをテストするために、アルゴリズムが観測を収集する最も経済的決定を計算し、したがって複雑さ$\mathcal{C}(f)$は、他のインスタンスに対してインスタンスをテストするための最小コストである。 本研究は,具体的問題に対するインスタンス化を行い,マルチアーム付きバンディット [lai and robbins, 1985] と線形バンディット [lattimore and szepesvari, 2017] の古典的ギャップ依存境界を回復し,強化学習のための最善のインスタンス依存上界 [xu et al., 2021] を改善した。

Past research on interactive decision making problems (bandits, reinforcement learning, etc.) mostly focuses on the minimax regret that measures the algorithm's performance on the hardest instance. However, an ideal algorithm should adapt to the complexity of a particular problem instance and incur smaller regrets on easy instances than worst-case instances. In this paper, we design the first asymptotic instance-optimal algorithm for general interactive decision making problems with finite number of decisions under mild conditions. On \textit{every} instance $f$, our algorithm outperforms \emph{all} consistent algorithms (those achieving non-trivial regrets on all instances), and has asymptotic regret $\mathcal{C}(f) \ln n$, where $\mathcal{C}(f)$ is an exact characterization of the complexity of $f$. The key step of the algorithm involves hypothesis testing with active data collection. It computes the most economical decisions with which the algorithm collects observations to test whether an estimated instance is indeed correct; thus, the complexity $\mathcal{C}(f)$ is the minimum cost to test the instance $f$ against other instances. Our results, instantiated on concrete problems, recover the classical gap-dependent bounds for multi-armed bandits [Lai and Robbins, 1985] and prior works on linear bandits [Lattimore and Szepesvari, 2017], and improve upon the previous best instance-dependent upper bound [Xu et al., 2021] for reinforcement learning.
翻訳日:2022-06-07 17:02:33 公開日:2022-06-06
# 微分進化とベイズ推定に基づく多目的最適化による自動回路サイズ

Automated Circuit Sizing with Multi-objective Optimization based on Differential Evolution and Bayesian Inference ( http://arxiv.org/abs/2206.02391v1 )

ライセンス: Link先を確認
Catalin Visan, Octavian Pascu, Marius Stanescu, Elena-Diana Sandru, Cristian Diaconu, Andi Buzo, Georg Pelz, Horia Cucu(参考訳) 仕様の複雑化に伴い、最近はアナログ回路の手動サイズが非常に困難になった。 特に、数十の設計変数、運用条件、最適化すべき相反する目的を持つ大規模な回路設計において、設計技術者は、適切な構成を見つけるために、何週間もかけて時間を要するシミュレーションを実行した。 近年、機械学習と最適化技術がアナログ回路設計の分野に導入され、進化的アルゴリズムとベイジアンモデルは回路サイズに良い結果を示した。 本稿では,一般化微分進化3(GDE3)とガウス過程(GP)に基づく設計最適化手法を提案する。 提案手法は、多数の設計変数と多くの相反する目的を持つ複雑な回路のサイズを最適化することができる。 state-of-the-artメソッドは、多目的問題を単一目的最適化に還元し、事前バイアスを発生させる可能性があるが、paretoの優位性を用いて多目的空間を直接探索し、多様なソリューションが設計者に提供されることを保証する。 我々の知る限り、提案手法はソリューションの多様性に対処すると同時に、実現可能な構成に到達するために必要なシミュレーション数を最小化することに注力する。 提案手法は,GDE3 やベイズ最適化に基づくアルゴリズムよりもはるかに高速で,提案手法の革新的候補選択法と生存ポリシーにより実現可能な解が得られることを示す。

With the ever increasing complexity of specifications, manual sizing for analog circuits recently became very challenging. Especially for innovative, large-scale circuits designs, with tens of design variables, operating conditions and conflicting objectives to be optimized, design engineers spend many weeks, running time-consuming simulations, in their attempt at finding the right configuration. Recent years brought machine learning and optimization techniques to the field of analog circuits design, with evolutionary algorithms and Bayesian models showing good results for circuit sizing. In this context, we introduce a design optimization method based on Generalized Differential Evolution 3 (GDE3) and Gaussian Processes (GPs). The proposed method is able to perform sizing for complex circuits with a large number of design variables and many conflicting objectives to be optimized. While state-of-the-art methods reduce multi-objective problems to single-objective optimization and potentially induce a prior bias, we search directly over the multi-objective space using Pareto dominance and ensure that diverse solutions are provided to the designers to choose from. To the best of our knowledge, the proposed method is the first to specifically address the diversity of the solutions, while also focusing on minimizing the number of simulations required to reach feasible configurations. We evaluate the introduced method on two voltage regulators showing different levels of complexity and we highlight that the proposed innovative candidate selection method and survival policy leads to obtaining feasible solutions, with a high degree of diversity, much faster than with GDE3 or Bayesian Optimization-based algorithms.
翻訳日:2022-06-07 17:00:06 公開日:2022-06-06
# 適応的ステップサイズによる高速対向学習

Fast Adversarial Training with Adaptive Step Size ( http://arxiv.org/abs/2206.02417v1 )

ライセンス: Link先を確認
Zhichao Huang, Yanbo Fan, Chen Liu, Weizhong Zhang, Yong Zhang, Mathieu Salzmann, Sabine S\"usstrunk, Jue Wang(参考訳) 敵のトレーニングとその変種は、敵の攻撃に対して防御する最も効果的なアルゴリズムであることが示されているが、その非常に遅いトレーニングプロセスは、ImageNetのような大規模なデータセットへのスケーリングを困難にしている。 敵の訓練を加速する最近の研究の鍵となる考え方は、マルチステップ攻撃(PGDなど)を単一ステップ攻撃(FGSMなど)に置き換えることである。 しかし、これらの単一ステップの手法は破滅的なオーバーフィッティングに悩まされ、PGD攻撃に対する精度はトレーニング中に突然0%近く低下し、ネットワークの堅牢性を損なう。 本研究では,この現象を学習事例の観点から研究する。 破滅的オーバーフィッティングはインスタンス依存であり, より大きな勾配ノルムの適合例は破滅的オーバーフィッティングを引き起こす可能性が示唆された。 そこで本研究では,適応ステップサイズ(atas)を用いた,単純かつ効果的な学習法を提案する。 ATASは、その勾配ノルムに逆比例するインスタンス順応的なステップサイズを学習する。 理論解析により、ATASは一般に採用されている非適応型よりも早く収束することが示された。 実証的には、ATASは破滅的なオーバーフィッティングを一貫して軽減し、様々な敵の予算で評価すると、CIFAR10、CIFAR100、ImageNetに対してより堅牢な精度を達成する。

While adversarial training and its variants have shown to be the most effective algorithms to defend against adversarial attacks, their extremely slow training process makes it hard to scale to large datasets like ImageNet. The key idea of recent works to accelerate adversarial training is to substitute multi-step attacks (e.g., PGD) with single-step attacks (e.g., FGSM). However, these single-step methods suffer from catastrophic overfitting, where the accuracy against PGD attack suddenly drops to nearly 0% during training, destroying the robustness of the networks. In this work, we study the phenomenon from the perspective of training instances. We show that catastrophic overfitting is instance-dependent and fitting instances with larger gradient norm is more likely to cause catastrophic overfitting. Based on our findings, we propose a simple but effective method, Adversarial Training with Adaptive Step size (ATAS). ATAS learns an instancewise adaptive step size that is inversely proportional to its gradient norm. The theoretical analysis shows that ATAS converges faster than the commonly adopted non-adaptive counterparts. Empirically, ATAS consistently mitigates catastrophic overfitting and achieves higher robust accuracy on CIFAR10, CIFAR100 and ImageNet when evaluated on various adversarial budgets.
翻訳日:2022-06-07 16:59:39 公開日:2022-06-06
# シャープネス認識による一般化フェデレーション学習

Generalized Federated Learning via Sharpness Aware Minimization ( http://arxiv.org/abs/2206.02618v1 )

ライセンス: Link先を確認
Zhe Qu, Xingyu Li, Rui Duan, Yao Liu, Bo Tang, and Zhuo Lu(参考訳) federated learning(fl)は、一連のクライアントでプライバシ保存、分散学習を実行するための有望なフレームワークである。 しかし、クライアント間のデータ分散はしばしば非IID、すなわち分散シフトを示し、効率的な最適化が困難になる。 この問題に対処するため、多くのFLアルゴリズムは、グローバルモデルの性能を高めることにより、クライアント間のデータ不均一性の影響を軽減することに重点を置いている。 しかし、ほとんど全てのアルゴリズムは経験的リスク最小化(ERM)を局所最適化に利用しており、グローバルモデルを急激な谷に陥れ、ローカルクライアントの大規模な偏差を増大させることが容易である。 そこで本稿では,FLにおける分布シフト問題の解法について,局所学習の一般性に着目して再検討する。 そこで本研究では,シャープネス認識最小化(SAM)ローカルオプティマイザに基づく,汎用的で効果的なアルゴリズムである \texttt{FedSAM} を提案し,局所およびグローバルモデルである \texttt{MoFedSAM} をブリッジする運動量FLアルゴリズムを開発した。 理論的には、これら2つのアルゴリズムの収束解析を示し、 \texttt{fedsam} の一般化境界を示す。 実験により,提案アルゴリズムは既存のFL研究を著しく上回り,学習偏差を著しく低減した。

Federated Learning (FL) is a promising framework for performing privacy-preserving, distributed learning with a set of clients. However, the data distribution among clients often exhibits non-IID, i.e., distribution shift, which makes efficient optimization difficult. To tackle this problem, many FL algorithms focus on mitigating the effects of data heterogeneity across clients by increasing the performance of the global model. However, almost all algorithms leverage Empirical Risk Minimization (ERM) to be the local optimizer, which is easy to make the global model fall into a sharp valley and increase a large deviation of parts of local clients. Therefore, in this paper, we revisit the solutions to the distribution shift problem in FL with a focus on local learning generality. To this end, we propose a general, effective algorithm, \texttt{FedSAM}, based on Sharpness Aware Minimization (SAM) local optimizer, and develop a momentum FL algorithm to bridge local and global models, \texttt{MoFedSAM}. Theoretically, we show the convergence analysis of these two algorithms and demonstrate the generalization bound of \texttt{FedSAM}. Empirically, our proposed algorithms substantially outperform existing FL studies and significantly decrease the learning deviation.
翻訳日:2022-06-07 16:59:19 公開日:2022-06-06
# トランスボ:二相伝達学習によるハイパーパラメータ最適化

TransBO: Hyperparameter Optimization via Two-Phase Transfer Learning ( http://arxiv.org/abs/2206.02663v1 )

ライセンス: Link先を確認
Yang Li, Yu Shen, Huaijun Jiang, Wentao Zhang, Zhi Yang, Ce Zhang and Bin Cui(参考訳) 機械学習モデルの広範な応用により、自動ハイパーパラメータ最適化(HPO)がますます重要になっている。 従来のHPOタスクから補助的な知識を活用して,現在のHPOタスクを加速することが直感的である。 本稿では,HPOのための新しい2相変換学習フレームワークであるTransBOを提案する。 このフレームワークは、ソースとターゲットの知識を協調的かつ適応的に抽出し集約し、重みを原則的に学習する。 静的および動的トランスファー学習設定やニューラルアーキテクチャ検索を含む広範な実験は、最先端技術よりもTransBOの優位性を実証している。

With the extensive applications of machine learning models, automatic hyperparameter optimization (HPO) has become increasingly important. Motivated by the tuning behaviors of human experts, it is intuitive to leverage auxiliary knowledge from past HPO tasks to accelerate the current HPO task. In this paper, we propose TransBO, a novel two-phase transfer learning framework for HPO, which can deal with the complementary nature among source tasks and dynamics during knowledge aggregation issues simultaneously. This framework extracts and aggregates source and target knowledge jointly and adaptively, where the weights can be learned in a principled manner. The extensive experiments, including static and dynamic transfer learning settings and neural architecture search, demonstrate the superiority of TransBO over the state-of-the-arts.
翻訳日:2022-06-07 16:58:56 公開日:2022-06-06
# neuro cross exchange: 現実的な車両ルーティング問題を解決するためのクロス交換の学習

Neuro CROSS exchange: Learning to CROSS exchange to solve realistic vehicle routing problems ( http://arxiv.org/abs/2206.02771v1 )

ライセンス: Link先を確認
Minjun Kim, Junyoung Park and Jinkyoo Park(参考訳) 様々な車両ルーティング問題(VRP)を解決するメタヒューリスティックであるCROSS Exchange (CE)は、車両のサブツールを交換することで、VRPのソリューションを改善する。 CEに触発されて,学習メタヒューリスティックの基本演算子であるNeuro CE (NCE) を提案し,CEの限界を克服しつつ様々なVRPを解く(高価な$\mathcal{O}(n^4)$サーチコスト)。 nceはグラフニューラルネットワークを用いてコスト減少(すなわちce検索の結果)を予測し、予測されたコスト減少を検索のガイダンスとして利用し、検索コストを$\mathcal{o}(n^2)$に下げる。 nceの学習目的はコスト削減を予測することにあるため、トレーニングサンプルを無力に作成できる教師あり方式でトレーニングを単純に行うことができる。 NCEの単純さにもかかわらず、NCEはフレキシブルマルチデポVRP(FMDVRP)で訓練し、メタヒューリスティックベースラインを上回っている。 さらに重要なことは、FMDVRP(例えば、MDVRP、mTSP、CVRP)の特別なケースを追加の訓練なしで解く際に、神経のベースラインを著しく上回ることである。

CROSS exchange (CE), a meta-heuristic that solves various vehicle routing problems (VRPs), improves the solutions of VRPs by swapping the sub-tours of the vehicles. Inspired by CE, we propose Neuro CE (NCE), a fundamental operator of learned meta-heuristic, to solve various VRPs while overcoming the limitations of CE (i.e., the expensive $\mathcal{O}(n^4)$ search cost). NCE employs a graph neural network to predict the cost-decrements (i.e., results of CE searches) and utilizes the predicted cost-decrements as guidance for search to decrease the search cost to $\mathcal{O}(n^2)$. As the learning objective of NCE is to predict the cost-decrement, the training can be simply done in a supervised fashion, whose training samples can be prepared effortlessly. Despite the simplicity of NCE, numerical results show that the NCE trained with flexible multi-depot VRP (FMDVRP) outperforms the meta-heuristic baselines. More importantly, it significantly outperforms the neural baselines when solving distinctive special cases of FMDVRP (e.g., MDVRP, mTSP, CVRP) without additional training.
翻訳日:2022-06-07 16:58:43 公開日:2022-06-06
# PCPTとACPT:DNNモデルの著作権保護とトレーサビリティ・スキーム

PCPT and ACPT: Copyright Protection and Traceability Scheme for DNN Model ( http://arxiv.org/abs/2206.02541v1 )

ライセンス: Link先を確認
Xuefeng Fan, Hangyu Gui and Xiaoyi Zhou(参考訳) ディープニューラルネットワーク(DNN)は人工知能(AI)分野で大きな成功を収めている。 しかし、DNNモデルは犯罪者によって容易に違法にコピー、再配布、虐待され、モデル発明者の利益を著しく損なうことができる。 現在、ニューラルネットワーク透かしによるDNNモデルの著作権保護が研究されているが、漏洩したモデルの認証ユーザを決定するトレーサビリティメカニズムの確立は、AIサービスの需要が引き起こした新たな問題である。 既存のトレーサビリティメカニズムは透かしのないモデルに使われているため、少数の偽陽性が生成される。 既存のブラックボックスのアクティブ保護スキームは、権限制御が緩く、偽造攻撃に弱い。 そこで本研究では,ビデオフレーミングとイメージ知覚ハッシュアルゴリズムを用いたブラックボックスニューラルネットワークの透かしの考え方に基づき,追加のdnnモデルを用いたパッシブ著作権保護・トレーサビリティフレームワークpcptを提案し,少数の偽陽性をもたらす既存のトレーサビリティメカニズムを改善した。 認証制御戦略と画像知覚ハッシュアルゴリズムに基づいて,検出器と検証器を用いて構築した認証制御センターを用いて,dnnモデルアクティブ著作権保護およびトレーサビリティフレームワークapptを提案する。 より厳格な認証制御を実現し、ユーザとモデルオーナの強いつながりを確立し、フレームワークのセキュリティを改善します。 同時に生成されたキーサンプルは、元の画像の品質に影響を与えず、トレーサビリティ検証をサポートする。

Deep neural networks (DNNs) have achieved tremendous success in artificial intelligence (AI) fields. However, DNN models can be easily illegally copied, redistributed, or abused by criminals, seriously damaging the interests of model inventers. Currently, the copyright protection of DNN models by neural network watermarking has been studied, but the establishment of a traceability mechanism for determining the authorized users of a leaked model is a new problem driven by the demand for AI services. Because the existing traceability mechanisms are used for models without watermarks, a small number of false positives is generated. Existing black-box active protection schemes have loose authorization control and are vulnerable to forgery attacks. Therefore, based on the idea of black-box neural network watermarking with the video framing and image perceptual hash algorithm, this study proposes a passive copyright protection and traceability framework PCPT using an additional class of DNN models, improving the existing traceability mechanism that yields a small number of false positives. Based on the authorization control strategy and image perceptual hash algorithm, using the authorization control center constructed using the detector and verifier, a DNN model active copyright protection and traceability framework ACPT is proposed. It realizes stricter authorization control, which establishes a strong connection between users and model owners, and improves the framework security. The key sample that is simultaneously generated does not affect the quality of the original image and supports traceability verification.
翻訳日:2022-06-07 16:56:13 公開日:2022-06-06
# 協調型マルチエージェント強化学習のための合意学習

Consensus Learning for Cooperative Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2206.02583v1 )

ライセンス: Link先を確認
Zhiwei Xu, Bin Zhang, Dapeng Li, Zeren Zhang, Guangchong Zhou, Guoliang Fan(参考訳) コミュニケーションのないほとんど全てのマルチエージェント強化学習アルゴリズムは、分散実行を伴う集中トレーニングの原則に従っている。 集中トレーニング中、エージェントはグローバルステートのような同じ信号でガイドすることができる。 しかし、分散実行中は、エージェントは共有シグナルを欠いている。 本稿では,視点不変性とコントラスト学習にヒントを得て,協調型マルチエージェント強化学習のためのコンセンサス学習を提案する。 局所観測に基づくが、異なるエージェントは離散空間において同じコンセンサスを推測することができる。 分散実行中、推定されたコンセンサスをエージェントのネットワークへの明示的な入力として送り、協調の精神を育む。 提案手法は,様々なマルチエージェント強化学習アルゴリズムに拡張できる。 さらに,完全協力的な作業で実施し,説得力のある結果を得る。

Almost all multi-agent reinforcement learning algorithms without communication follow the principle of centralized training with decentralized execution. During centralized training, agents can be guided by the same signals, such as the global state. During decentralized execution, however, agents lack the shared signal. Inspired by viewpoint invariance and contrastive learning, we propose consensus learning for cooperative multi-agent reinforcement learning in this paper. Although based on local observations, different agents can infer the same consensus in discrete space. During decentralized execution, we feed the inferred consensus as an explicit input to the network of agents, thereby developing their spirit of cooperation. Our proposed method can be extended to various multi-agent reinforcement learning algorithms. Moreover, we carry out them on some fully cooperative tasks and get convincing results.
翻訳日:2022-06-07 16:55:30 公開日:2022-06-06
# Real2SimまたはSim2Real:Deep Reinforcement LearningとReal2Simポリシー適応を用いたロボットビジュアルインサーション

Real2Sim or Sim2Real: Robotics Visual Insertion using Deep Reinforcement Learning and Real2Sim Policy Adaptation ( http://arxiv.org/abs/2206.02679v1 )

ライセンス: Link先を確認
Yiwen Chen, Xue Li, Sheng Guo, Xian Yao Ng, Marcelo Ang(参考訳) 強化学習は挿入や把握といったロボット工学のタスクに広く使われている。 しかし、実用的なsim2現実戦略がなければ、シミュレーションで訓練されたポリシーは実際のタスクで失敗する可能性がある。 sim2real戦略にも幅広い研究があるが、これらの手法のほとんどは画像レンダリング、ドメインランダム化トレーニング、チューニングに依存している。 本研究では,最小限のインフラ要件を持つ純粋視覚強化学習ソリューションを用いて挿入課題を解決する。 我々はまた、ポリシー適応において、新しくて簡単なソリューションを提供する新しいsim2real戦略、Real2Simを提案する。 我々はReal2Simの利点をSim2Realと比較した。

Reinforcement learning has shown a wide usage in robotics tasks, such as insertion and grasping. However, without a practical sim2real strategy, the policy trained in simulation could fail on the real task. There are also wide researches in the sim2real strategies, but most of those methods rely on heavy image rendering, domain randomization training, or tuning. In this work, we solve the insertion task using a pure visual reinforcement learning solution with minimum infrastructure requirement. We also propose a novel sim2real strategy, Real2Sim, which provides a novel and easier solution in policy adaptation. We discuss the advantage of Real2Sim compared with Sim2Real.
翻訳日:2022-06-07 16:55:20 公開日:2022-06-06
# サイバーセキュリティの脅威検出と保護のための深層強化学習

Deep Reinforcement Learning for Cybersecurity Threat Detection and Protection: A Review ( http://arxiv.org/abs/2206.02733v1 )

ライセンス: Link先を確認
Mohit Sewak, Sanjay K. Sahay and Hemant Rathore(参考訳) 最近、サイバーセキュリティの脅威が複雑化している。 脅威アクターはネットワークとエンドポイントのセキュリティの弱点を非常に協調的に活用し、ネットワーク全体とネットワーク内の多くの重要なホストをダウンさせる高度な攻撃を継続する。 高度なディープラーニングと機械学習ベースのソリューションが、脅威の検出と保護に利用されている。 これらの技術の応用は科学文献でよく検討されている。 深層強化学習は、以前に高度な人間の認識が必要だった分野に対して、aiベースのソリューションを開発することに大きな期待を示している。 深層強化学習の下での様々な技術とアルゴリズムは、ゲームから産業プロセスまで幅広いアプリケーションにおいて大きな可能性を示しており、一般的なAI機能を備えたシステムを強化すると主張している。 これらのアルゴリズムは最近、サイバーセキュリティ、特に脅威検出やエンドポイント保護にも使われており、最新結果を示している。 教師付き機械やディープラーニングとは異なり、深層強化学習はより多様な方法で使われ、脅威防衛の分野で多くの革新的な応用に力を与えている。 しかしながら、これらのユニークなアプリケーションや成果に関する包括的なレビューは存在しない。 そこで本稿では,このギャップを埋め,サイバーセキュリティの脅威検出と保護における深層強化学習のさまざまな応用について包括的なレビューを行う。

The cybersecurity threat landscape has lately become overly complex. Threat actors leverage weaknesses in the network and endpoint security in a very coordinated manner to perpetuate sophisticated attacks that could bring down the entire network and many critical hosts in the network. Increasingly advanced deep and machine learning-based solutions have been used in threat detection and protection. The application of these techniques has been reviewed well in the scientific literature. Deep Reinforcement Learning has shown great promise in developing AI-based solutions for areas that had earlier required advanced human cognizance. Different techniques and algorithms under deep reinforcement learning have shown great promise in applications ranging from games to industrial processes, where it is claimed to augment systems with general AI capabilities. These algorithms have recently also been used in cybersecurity, especially in threat detection and endpoint protection, where these are showing state-of-the-art results. Unlike supervised machines and deep learning, deep reinforcement learning is used in more diverse ways and is empowering many innovative applications in the threat defense landscape. However, there does not exist any comprehensive review of these unique applications and accomplishments. Therefore, in this paper, we intend to fill this gap and provide a comprehensive review of the different applications of deep reinforcement learning in cybersecurity threat detection and protection.
翻訳日:2022-06-07 16:55:09 公開日:2022-06-06
# (参考訳) FRANK QAシステムにおける疑問修正のためのパラフレーズ生成の活用の検討

Investigating the use of Paraphrase Generation for Question Reformulation in the FRANK QA system ( http://arxiv.org/abs/2206.02737v1 )

ライセンス: CC BY-SA 4.0
Nick Ferguson, Liane Guillou, Kwabena Nuamah, Alan Bundy(参考訳) 本稿では,frank question answering system が回答できる自然言語質問の多様性を高めるためのパラフレーズ生成手法の能力について検討する。 LC-QuAD 2.0データセットのパラフレーズ生成手法を,自動計測と人的判断の両方を用いて評価し,その相関性について考察した。 データセットのエラー解析も自動と手動の両方のアプローチで行われ、パラフレーズの生成と評価がエラーを含むデータポイントによってどのように影響を受けるかについて議論する。 次に,我々の仮説を小さなチャレンジデータセットを用いて検証するために,最高の性能を持つパラフレーズ生成法(英仏逆翻訳法)の実装をフランクにシミュレートする。 LC-QuAD 2.0のクリーニングは評価に影響を及ぼす可能性があるため必要であり、FRANKのパーサの制限により、パラフレーズ生成はFRANKが答えられる様々な自然言語問題を改善する方法ではない、という結論が得られた。

We present a study into the ability of paraphrase generation methods to increase the variety of natural language questions that the FRANK Question Answering system can answer. We first evaluate paraphrase generation methods on the LC-QuAD 2.0 dataset using both automatic metrics and human judgement, and discuss their correlation. Error analysis on the dataset is also performed using both automatic and manual approaches, and we discuss how paraphrase generation and evaluation is affected by data points which contain error. We then simulate an implementation of the best performing paraphrase generation method (an English-French backtranslation) into FRANK in order to test our original hypothesis, using a small challenge dataset. Our two main conclusions are that cleaning of LC-QuAD 2.0 is required as the errors present can affect evaluation; and that, due to limitations of FRANK's parser, paraphrase generation is not a method which we can rely on to improve the variety of natural language questions that FRANK can answer.
翻訳日:2022-06-07 16:52:59 公開日:2022-06-06
# 有限サンプル最大位置推定法

Finite-Sample Maximum Likelihood Estimation of Location ( http://arxiv.org/abs/2206.02348v1 )

ライセンス: Link先を確認
Shivam Gupta, Jasper C.H. Lee, Eric Price, Paul Valiant(参考訳) 1次元の位置推定を考えると、パラメータ $\lambda$ を $n$ サンプル $\lambda + \eta_i$ から推定し、それぞれ $\eta_i$ を既知の分布 $f$ から引き出す。 固定値$f$ に対し、最大類似度推定 (mle) は、極限値が $n \to \infty$ として最適であることがよく知られている: $\mathcal{i}$ が $f$ のフィッシャー情報であるような、クレー=ラオ下限が $\frac{1}{n\mathcal{i}}$ に一致する分散が漸近的に正規である。 しかし、この境界は有限の$n$、または$f$が$n$で変化する場合は成立しない。 任意の$f$と$n$について、滑らかな$f$のフィッシャー情報に基づいて同様の理論を復元できることを示し、そこでは滑らかな半径が$n$で崩壊する。

We consider 1-dimensional location estimation, where we estimate a parameter $\lambda$ from $n$ samples $\lambda + \eta_i$, with each $\eta_i$ drawn i.i.d. from a known distribution $f$. For fixed $f$ the maximum-likelihood estimate (MLE) is well-known to be optimal in the limit as $n \to \infty$: it is asymptotically normal with variance matching the Cram\'er-Rao lower bound of $\frac{1}{n\mathcal{I}}$, where $\mathcal{I}$ is the Fisher information of $f$. However, this bound does not hold for finite $n$, or when $f$ varies with $n$. We show for arbitrary $f$ and $n$ that one can recover a similar theory based on the Fisher information of a smoothed version of $f$, where the smoothing radius decays with $n$.
翻訳日:2022-06-07 16:34:37 公開日:2022-06-06
# 通信制約仮説テスト:最適性、堅牢性、逆データ処理の不等式

Communication-constrained hypothesis testing: Optimality, robustness, and reverse data processing inequalities ( http://arxiv.org/abs/2206.02765v1 )

ライセンス: Link先を確認
Ankit Pensia, Varun Jog, Po-Ling Loh(参考訳) コミュニケーション制約下で仮説検証を行い,各サンプルは統計学者に明かされる前に定量化される。 通信制約がなければ、単純な二分仮説テストのサンプル複雑性は分布間のヘルリンガー距離によって特徴づけられることが知られている。 通信制約下での単純な二項仮説テストのサンプル複雑性は、少なくとも制約のない設定よりも大きい対数係数であり、この境界は厳密であることを示す。 上記のサンプル複雑性を実現する多項式時間アルゴリズムを開発した。 我々のフレームワークは、分布が全変動距離で破壊される頑健な仮説テストにまで拡張される。 我々の証明は、新しい逆データ処理の不等式と、独立した関心を持つかもしれない逆マルコフ不等式に依存している。 単純な$M$-ary仮説テストでは、通信制約がない場合のサンプルの複雑さは$M$に対数依存する。 適応アルゴリズムにおいても,通信制約が指数的に爆発的に$\Omega(M)$サンプル複雑性を引き起こす可能性があることを示す。

We study hypothesis testing under communication constraints, where each sample is quantized before being revealed to a statistician. Without communication constraints, it is well known that the sample complexity of simple binary hypothesis testing is characterized by the Hellinger distance between the distributions. We show that the sample complexity of simple binary hypothesis testing under communication constraints is at most a logarithmic factor larger than in the unconstrained setting and this bound is tight. We develop a polynomial-time algorithm that achieves the aforementioned sample complexity. Our framework extends to robust hypothesis testing, where the distributions are corrupted in the total variation distance. Our proofs rely on a new reverse data processing inequality and a reverse Markov inequality, which may be of independent interest. For simple $M$-ary hypothesis testing, the sample complexity in the absence of communication constraints has a logarithmic dependence on $M$. We show that communication constraints can cause an exponential blow-up leading to $\Omega(M)$ sample complexity even for adaptive algorithms.
翻訳日:2022-06-07 16:34:15 公開日:2022-06-06
# 臨床質問に対する対話理解のためのドメイン特化言語事前学習

Domain-specific Language Pre-training for Dialogue Comprehension on Clinical Inquiry-Answering Conversations ( http://arxiv.org/abs/2206.02428v1 )

ライセンス: Link先を確認
Zhengyuan Liu, Pavitra Krishnaswamy, Nancy F. Chen(参考訳) 臨床対話から関連情報を自動抽出することへの関心が高まっている。 しかし, 臨床対話タスクのための大量の注釈リソースの収集と構築は困難である。 自然言語処理の最近の進歩は、そのような機械理解や情報抽出作業に大規模な事前学習された言語バックボーンを活用できることを示唆している。 しかし、事前トレーニングと下流臨床ドメインのギャップのため、ドメイン固有のアプリケーションに一般的なバックボーンを利用するのは難しい。 そこで本研究では,対話理解などの下流タスクの性能向上を目的とした,ドメイン固有言語事前学習を提案する。 共通トークンレベルのマスキング事前学習法は,人間の会話の性質や多目的質問応答対話のインタラクティブな流れによらず,話者・発話操作によるサンプル生成手法を提案する。 会話事前学習は、言語バックボーンを導いて、残りの文脈に基づいて連続的に発話を再構築し、一般的なドメインと特定のドメインの間のギャップを橋渡しする。 看護師が患者と症状情報を調べ,議論する症状検査のための臨床会話データセットを用いて実験を行った。 提案手法を用いたニューラルモデルにより,対話理解タスクが改善され,低リソース学習シナリオにおいて良好な結果が得られることを示す。

There is growing interest in the automated extraction of relevant information from clinical dialogues. However, it is difficult to collect and construct large annotated resources for clinical dialogue tasks. Recent developments in natural language processing suggest that large-scale pre-trained language backbones could be leveraged for such machine comprehension and information extraction tasks. Yet, due to the gap between pre-training and downstream clinical domains, it remains challenging to exploit the generic backbones for domain-specific applications. Therefore, in this work, we propose a domain-specific language pre-training, to improve performance on downstream tasks like dialogue comprehension. Aside from the common token-level masking pre-training method, according to the nature of human conversations and interactive flow of multi-topic inquiry-answering dialogues, we further propose sample generation strategies with speaker and utterance manipulation. The conversational pre-training guides the language backbone to reconstruct the utterances coherently based on the remaining context, thus bridging the gap between general and specific domains. Experiments are conducted on a clinical conversation dataset for symptom checking, where nurses inquire and discuss symptom information with patients. We empirically show that the neural model with our proposed approach brings improvement in the dialogue comprehension task, and can achieve favorable results in the low resource training scenario.
翻訳日:2022-06-07 16:30:34 公開日:2022-06-06
# 差分分解能とトレーニング時間の界面におけるガリシアBERTモデルの統語能力の計算的心理言語学的評価

A computational psycholinguistic evaluation of the syntactic abilities of Galician BERT models at the interface of dependency resolution and training time ( http://arxiv.org/abs/2206.02440v1 )

ライセンス: Link先を確認
Iria de-Dios-Flores, Marcos Garcia(参考訳) 本稿では,ガリシア語における主語・動詞・名詞・形容詞の係り受けを取り込むトランスフォーマーモデルの能力について検討する。 我々は, ルアーとして作用するアトラクタ名詞の存在とともに, 係り受け長を操作する一連の単語予測実験を行う。 まず,ガリシア語の既存の単言語モデルと多言語モデルの全体的な性能を評価する。 次に,訓練過程の効果を観察するために,異なる訓練点における2つの単言語bertモデルの達成度を比較した。 また、チェックポイントをリリースし、代替評価基準を提案します。 本研究は, 合意予測タスクを用いて, 長距離依存を解決するためにトランスフォーマモデルが要求する訓練ステップ数に関する興味深い知見を提供する同様の研究により, これまでの知見を裏付けるものである。

This paper explores the ability of Transformer models to capture subject-verb and noun-adjective agreement dependencies in Galician. We conduct a series of word prediction experiments in which we manipulate dependency length together with the presence of an attractor noun that acts as a lure. First, we evaluate the overall performance of the existing monolingual and multilingual models for Galician. Secondly, to observe the effects of the training process, we compare the different degrees of achievement of two monolingual BERT models at different training points. We also release their checkpoints and propose an alternative evaluation metric. Our results confirm previous findings by similar works that use the agreement prediction task and provide interesting insights into the number of training steps required by a Transformer model to solve long-distance dependencies.
翻訳日:2022-06-07 16:30:13 公開日:2022-06-06
# データ・テキスト・ジェネレーションのためのカリキュラムベースの自己学習

Curriculum-Based Self-Training Makes Better Few-Shot Learners for Data-to-Text Generation ( http://arxiv.org/abs/2206.02712v1 )

ライセンス: Link先を確認
Pei Ke, Haozhe Ji, Zhenyu Yang, Yi Huang, Junlan Feng, Xiaoyan Zhu, Minlie Huang(参考訳) 様々な自然言語生成(NLG)タスクにおけるテキストからテキストまでの事前学習モデルの成功にもかかわらず、生成性能は下流タスク、特にデータからテキストへの生成タスクにおけるラベル付きデータ数によって大きく制限されている。 既存の作業は、豊富なラベル付き構造化データを利用してタスク適応のための教師なし事前訓練を行い、ソース構造化データとターゲットテキストの間の複雑な関係をモデル化できなかった。 そこで本研究では,事前学習モデルが生成する擬似ラベルデータを用いて,タスク適応型事前学習よりも優れた自己学習方式を提案する。 自己学習における低品質な擬似ラベル付きデータの副作用を軽減するために,テキスト生成の困難さによって決定される並べ替え順序でラベルなしデータを効果的に活用する,Curriculum-based Self-Training (CBST) と呼ばれる新しい手法を提案する。 実験の結果,本手法は微調整やタスク適応事前学習よりも優れており,データ・ツー・テキスト生成において最先端の性能が得られることがわかった。

Despite the success of text-to-text pre-trained models in various natural language generation (NLG) tasks, the generation performance is largely restricted by the number of labeled data in downstream tasks, particularly in data-to-text generation tasks. Existing works mostly utilize abundant unlabeled structured data to conduct unsupervised pre-training for task adaption, which fail to model the complex relationship between source structured data and target texts. Thus, we introduce self-training as a better few-shot learner than task-adaptive pre-training, which explicitly captures this relationship via pseudo-labeled data generated by the pre-trained model. To alleviate the side-effect of low-quality pseudo-labeled data during self-training, we propose a novel method called Curriculum-Based Self-Training (CBST) to effectively leverage unlabeled data in a rearranged order determined by the difficulty of text generation. Experimental results show that our method can outperform fine-tuning and task-adaptive pre-training methods, and achieve state-of-the-art performance in the few-shot setting of data-to-text generation.
翻訳日:2022-06-07 16:28:19 公開日:2022-06-06
# 深層顔認識のための評価指向知識蒸留

Evaluation-oriented Knowledge Distillation for Deep Face Recognition ( http://arxiv.org/abs/2206.02325v1 )

ライセンス: Link先を確認
Yuge Huang, Jiaxiang Wu, Xingkun Xu, Shouhong Ding(参考訳) 知識蒸留(KD)は、大規模ネットワークを利用してコンパクトモデルの性能を向上させる技術である。 従来のkdアプローチは、通常、生徒に表象空間における教師の行動を完全に模倣するよう指導することを目的としている。 しかし、このような1対1の制約は、教師から生徒、特にモデル能力の低い生徒への柔軟な知識伝達につながる可能性がある。 KD手法の究極的な目標に触発されて,教師と学生の訓練におけるパフォーマンスギャップを直接軽減する,深層顔認識のための評価指向型KD法(EKD)を提案する。 具体的には、顔認識において一般的に用いられる評価指標、すなわち偽陽性率(FPR)と真陽性率(TPR)をパフォーマンス指標として採用する。 評価プロトコルによれば、教師モデルと学生モデルとのTPRとFPRの違いを引き起こす臨界ペア関係が選択される。 そして、生徒の批判的関係は、新しいランクに基づく損失関数によって教師の対応する関係を近似することを制約し、低能力の生徒により高い柔軟性を与える。 人気ベンチマークの大規模な実験結果は、最先端の競合相手よりもEKDの方が優れていることを示している。

Knowledge distillation (KD) is a widely-used technique that utilizes large networks to improve the performance of compact models. Previous KD approaches usually aim to guide the student to mimic the teacher's behavior completely in the representation space. However, such one-to-one corresponding constraints may lead to inflexible knowledge transfer from the teacher to the student, especially those with low model capacities. Inspired by the ultimate goal of KD methods, we propose a novel Evaluation oriented KD method (EKD) for deep face recognition to directly reduce the performance gap between the teacher and student models during training. Specifically, we adopt the commonly used evaluation metrics in face recognition, i.e., False Positive Rate (FPR) and True Positive Rate (TPR) as the performance indicator. According to the evaluation protocol, the critical pair relations that cause the TPR and FPR difference between the teacher and student models are selected. Then, the critical relations in the student are constrained to approximate the corresponding ones in the teacher by a novel rank-based loss function, giving more flexibility to the student with low capacity. Extensive experimental results on popular benchmarks demonstrate the superiority of our EKD over state-of-the-art competitors.
翻訳日:2022-06-07 16:16:50 公開日:2022-06-06
# OrdinalCLIP: 言語ガイドによる正規回帰のためのランクプロンプト

OrdinalCLIP: Learning Rank Prompts for Language-Guided Ordinal Regression ( http://arxiv.org/abs/2206.02338v1 )

ライセンス: Link先を確認
Wanhua Li, Xiaoke Huang, Zheng Zhu, Yansong Tang, Xiu Li, Jiwen Lu, Jie Zhou(参考訳) 本稿では,順序回帰のための言語駆動パラダイムを提案する。 既存の方法は通常、各階級をカテゴリーとして扱い、これらの概念を学ぶために一連の重みを用いる。 これらの手法は、過度に適合しやすく、学習された概念は主にトレーニングセットから導かれるため、通常満足のいくパフォーマンスを得る。 最近のCLIPのような訓練済みの視覚言語モデルでは、様々な視覚的タスクにおいて印象的なパフォーマンスを示している。 本稿では,リッチなセマンティックCLIP潜在空間からランク概念を学習することを提案する。 具体的には、ラベルをテキストとみなし、各ランクのテキストエンコーダから言語プロトタイプを取得する、対比目的のイメージ言語マッチング問題として、このタスクを再構成する。 CLIP のプロンプトエンジニアリングは非常に時間がかかるが,CLIP を順序回帰に適用するための微分可能なプロンプト手法である OrdinalCLIP を提案する。 OrdinalCLIPは学習可能なコンテキストトークンと学習可能なランク埋め込みで構成されている。 一度学習すると、言語プロトタイプを保存し、巨大な言語モデルを破棄するだけで、線形ヘッドと比較して計算オーバーヘッドがゼロになる。 実験結果から,本パラダイムは一般順序回帰タスクにおける競合性能を達成し,年齢推定のための数ショットおよび分布シフト設定の改善を図っている。

This paper presents a language-powered paradigm for ordinal regression. Existing methods usually treat each rank as a category and employ a set of weights to learn these concepts. These methods are easy to overfit and usually attain unsatisfactory performance as the learned concepts are mainly derived from the training set. Recent large pre-trained vision-language models like CLIP have shown impressive performance on various visual tasks. In this paper, we propose to learn the rank concepts from the rich semantic CLIP latent space. Specifically, we reformulate this task as an image-language matching problem with a contrastive objective, which regards labels as text and obtains a language prototype from a text encoder for each rank. While prompt engineering for CLIP is extremely time-consuming, we propose OrdinalCLIP, a differentiable prompting method for adapting CLIP for ordinal regression. OrdinalCLIP consists of learnable context tokens and learnable rank embeddings; The learnable rank embeddings are constructed by explicitly modeling numerical continuity, resulting in well-ordered, compact language prototypes in the CLIP space. Once learned, we can only save the language prototypes and discard the huge language model, resulting in zero additional computational overhead compared with the linear head counterpart. Experimental results show that our paradigm achieves competitive performance in general ordinal regression tasks, and gains improvements in few-shot and distribution shift settings for age estimation.
翻訳日:2022-06-07 16:16:29 公開日:2022-06-06
# ビデオにおけるテキスト分類のための対比グラフマルチモーダルモデル

Contrastive Graph Multimodal Model for Text Classification in Videos ( http://arxiv.org/abs/2206.02343v1 )

ライセンス: Link先を確認
Ye Liu and Changchong Lu and Chen Lin and Di Yin and Bo Ren(参考訳) ビデオ中のテキスト情報の抽出は、ビデオの意味的理解への重要なステップとなる。 通常、(1)テキスト認識と(2)テキスト分類の2つのステップに関係している。 動画中のテキストのローカライズには,OCR技術に基づく大量のテキスト認識手法を用いることができる。 しかし、我々の知る限り、ビデオテキスト分類の第2段階に焦点を当てた既存の作業は存在せず、ビデオインデックスやブラウジングといった下流タスクへのガイダンスを制限することになる。 本稿では,様々な色や未知のフォント,複雑なレイアウトで異なる種類のビデオテキストが混同される可能性があるという困難なシナリオに対処するために,マルチモーダル情報を用いてビデオテキスト分類の新たな課題に取り組む。 さらに,レイアウト情報を明示的に抽出することにより,特徴表現の強化を図るために,correlationnetと呼ばれる特定のモジュールを調整した。 さらに, コントラスト学習を用いて, 豊富な未ラベルビデオを用いて, サンプル間の関係を探索する。 最後に,ビデオテキスト認識と分類アプリケーションの構築と評価を目的とした,ニュースドメインのti-newsから,明確に定義された新たな産業用データセットを構築する。 TI-Newsの大規模な実験により,本手法の有効性が示された。

The extraction of text information in videos serves as a critical step towards semantic understanding of videos. It usually involved in two steps: (1) text recognition and (2) text classification. To localize texts in videos, we can resort to large numbers of text recognition methods based on OCR technology. However, to our knowledge, there is no existing work focused on the second step of video text classification, which will limit the guidance to downstream tasks such as video indexing and browsing. In this paper, we are the first to address this new task of video text classification by fusing multimodal information to deal with the challenging scenario where different types of video texts may be confused with various colors, unknown fonts and complex layouts. In addition, we tailor a specific module called CorrelationNet to reinforce feature representation by explicitly extracting layout information. Furthermore, contrastive learning is utilized to explore inherent connections between samples using plentiful unlabeled videos. Finally, we construct a new well-defined industrial dataset from the news domain, called TI-News, which is dedicated to building and evaluating video text recognition and classification applications. Extensive experiments on TI-News demonstrate the effectiveness of our method.
翻訳日:2022-06-07 16:16:03 公開日:2022-06-06
# ビデオ質問応答のための不変グラウンド

Invariant Grounding for Video Question Answering ( http://arxiv.org/abs/2206.02349v1 )

ライセンス: Link先を確認
Yicong Li, Xiang Wang, Junbin Xiao, Wei Ji, Tat-Seng Chua(参考訳) Video Question Answering (ビデオQA)は、ビデオに関する質問に答えるタスクである。 その核心は、ビデオの視覚的なシーンと問題の言語的意味論のアライメントを理解することで、答えを得る。 先行するビデオQAモデルでは、典型的な学習目標である経験的リスク最小化(ERM)が、ビデオクエクションペアと回答をアライメントとして表層的相関に頼っている。 しかし、ERMは、問題クリティカルなシーンの因果関係を検査する代わりに、質問無関係のシーンと回答の間の急激な相関関係を過度に明らかにする傾向があるため、問題となることがある。 その結果、VideoQAモデルは信頼性の低い推論に悩まされる。 本稿ではまず,ビデオQAの因果関係を考察し,この相関関係を除外する鍵は不変グラウンド(invariant grounding)である,と論じる。 そこで本研究では,ビデオQA(Invariant Grounding for VideoQA, IGV)という新たな学習フレームワークを提案する。 IGVでは、ビデオQAモデルは、応答過程を突発的相関による負の影響から守らざるを得ず、推論能力は著しく向上する。 3つのベンチマークデータセットの実験は、IGVの精度、視覚的説明可能性、および主要なベースラインよりも一般化能力において優位性を検証する。

Video Question Answering (VideoQA) is the task of answering questions about a video. At its core is understanding the alignments between visual scenes in video and linguistic semantics in question to yield the answer. In leading VideoQA models, the typical learning objective, empirical risk minimization (ERM), latches on superficial correlations between video-question pairs and answers as the alignments. However, ERM can be problematic, because it tends to over-exploit the spurious correlations between question-irrelevant scenes and answers, instead of inspecting the causal effect of question-critical scenes. As a result, the VideoQA models suffer from unreliable reasoning. In this work, we first take a causal look at VideoQA and argue that invariant grounding is the key to ruling out the spurious correlations. Towards this end, we propose a new learning framework, Invariant Grounding for VideoQA (IGV), to ground the question-critical scene, whose causal relations with answers are invariant across different interventions on the complement. With IGV, the VideoQA models are forced to shield the answering process from the negative influence of spurious correlations, which significantly improves the reasoning ability. Experiments on three benchmark datasets validate the superiority of IGV in terms of accuracy, visual explainability, and generalization ability over the leading baselines.
翻訳日:2022-06-07 16:15:45 公開日:2022-06-06
# 関連事項:フォアグラウンドアウェアグラフに基づく関係推論によるドメイン適応オブジェクト検出

Relation Matters: Foreground-aware Graph-based Relational Reasoning for Domain Adaptive Object Detection ( http://arxiv.org/abs/2206.02355v1 )

ライセンス: Link先を確認
Chaoqi Chen, Jiongcheng Li, Hong-Yu Zhou, Xiaoguang Han, Yue Huang, Xinghao Ding, Yizhou Yu(参考訳) ドメイン適応オブジェクト検出(DAOD)は、知識伝達によるオブジェクト検出の一般化能力の向上に焦点を当てている。 DAODの最近の進歩は、微粒な特徴アライメント法により、適応プロセスの重点をグローバルからローカルへと変えようとしている。 しかし、グローバルおよび局所アライメントアプローチは、ドメイン間の明示的な依存関係と相互作用が無視されるため、異なるフォアグラウンドオブジェクト間のトポロジ的関係を捉えることができない。 この場合、一対一のアライメントのみを求めることは必ずしも正確な知識伝達を保証するとは限らない。 さらに、従来のアライメントに基づくアプローチは、ターゲット領域に不正確な局在結果が蓄積されるため、移動不能な領域(例えば背景)に対する破滅的な過剰フィッティングに対して脆弱である可能性がある。 これらの問題を解決するために,まずDAODをオープンセットのドメイン適応問題として定式化し,前景と背景をそれぞれ「既知のクラス」と「未知クラス」とみなす。 そこで我々は,DAODの新たな汎用フレームワークであるフォアグラウンド対応グラフベースリレーショナル推論(FGRR)を提案し,グラフ構造を検出パイプラインに組み込んで,画素とセマンティック空間の両方におけるドメイン内およびドメイン間フォアグラウンドオブジェクト関係を明示的にモデル化することにより,DAODモデルにリレーショナル推論の能力を与える。 ドメイン間の視覚的および意味的相関は二部グラフ構造を介して階層的にモデル化され、ドメイン内関係はグラフ注意機構によって符号化される。 実験の結果,提案したFGRRは4つのDAODベンチマークの最先端性能を上回ることがわかった。

Domain Adaptive Object Detection (DAOD) focuses on improving the generalization ability of object detectors via knowledge transfer. Recent advances in DAOD strive to change the emphasis of the adaptation process from global to local in virtue of fine-grained feature alignment methods. However, both the global and local alignment approaches fail to capture the topological relations among different foreground objects as the explicit dependencies and interactions between and within domains are neglected. In this case, only seeking one-vs-one alignment does not necessarily ensure the precise knowledge transfer. Moreover, conventional alignment-based approaches may be vulnerable to catastrophic overfitting regarding those less transferable regions (e.g. backgrounds) due to the accumulation of inaccurate localization results in the target domain. To remedy these issues, we first formulate DAOD as an open-set domain adaptation problem, in which the foregrounds and backgrounds are seen as the ``known classes'' and ``unknown class'' respectively. Accordingly, we propose a new and general framework for DAOD, named Foreground-aware Graph-based Relational Reasoning (FGRR), which incorporates graph structures into the detection pipeline to explicitly model the intra- and inter-domain foreground object relations on both pixel and semantic spaces, thereby endowing the DAOD model with the capability of relational reasoning beyond the popular alignment-based paradigm. The inter-domain visual and semantic correlations are hierarchically modeled via bipartite graph structures, and the intra-domain relations are encoded via graph attention mechanisms. Empirical results demonstrate that the proposed FGRR exceeds the state-of-the-art performance on four DAOD benchmarks.
翻訳日:2022-06-07 16:15:21 公開日:2022-06-06
# Scan2Part: 現実世界の3Dスキャンの微細で階層的な部分レベルの理解

Scan2Part: Fine-grained and Hierarchical Part-level Understanding of Real-World 3D Scans ( http://arxiv.org/abs/2206.02366v1 )

ライセンス: Link先を確認
Alexandr Notchenko, Vladislav Ishimtsev, Alexey Artemov, Vadim Selyutin, Emil Bogomolov, Evgeny Burnaev(参考訳) 本研究では,実世界の室内rgb-dスキャンにおいて,物体の個々の部分を分割するscan2partを提案する。 この目的のために,屋内場面における物体の階層構造を変化させ,シーン理解モデルへの影響を探る。 具体的には、マルチスケールの特徴階層を利用して、基礎となる3Dスキャン幾何学の微細な詳細をキャプチャするスパースなU-Netアーキテクチャを用いる。 本手法をトレーニングするために,実世界のパートレベルで詳細なセマンティックラベルを提供する,最初の大規模コレクションであるScan2Partデータセットを導入した。 2,477のShapeNetオブジェクトと1,506のScanNetシーンの53,618のPartNet部分間の合計242,081の対応を2 cm$^3$と5 cm$^3$の空間解像度で提供する。 出力として、幾何が粗いか部分的に欠落している場合でも、オブジェクトごとの細かいラベルを予測できる。

We propose Scan2Part, a method to segment individual parts of objects in real-world, noisy indoor RGB-D scans. To this end, we vary the part hierarchies of objects in indoor scenes and explore their effect on scene understanding models. Specifically, we use a sparse U-Net-based architecture that captures the fine-scale detail of the underlying 3D scan geometry by leveraging a multi-scale feature hierarchy. In order to train our method, we introduce the Scan2Part dataset, which is the first large-scale collection providing detailed semantic labels at the part level in the real-world setting. In total, we provide 242,081 correspondences between 53,618 PartNet parts of 2,477 ShapeNet objects and 1,506 ScanNet scenes, at two spatial resolutions of 2 cm$^3$ and 5 cm$^3$. As output, we are able to predict fine-grained per-object part labels, even when the geometry is coarse or partially missing.
翻訳日:2022-06-07 16:14:08 公開日:2022-06-06
# Sports Re-ID: チームスポーツのブロードキャストビデオにおける選手の再認識を改善する

Sports Re-ID: Improving Re-Identification Of Players In Broadcast Videos Of Team Sports ( http://arxiv.org/abs/2206.02373v1 )

ライセンス: Link先を確認
Bharath Comandur(参考訳) この作品は、チームスポーツの放送ビデオにおけるプレイヤーの再識別に焦点を当てている。 具体的には、試合中の任意の瞬間に異なるカメラの視点から撮影された画像から、同じプレイヤーを特定することに集中する。 このタスクは、いくつかの重要な方法でperson re-idの従来のアプリケーションとは異なる。 まず、同じチームの選手が非常によく似た服を着ることから、区別が困難になる。 第二に、アイデンティティごとにサンプルが数個しかないため、re-idシステムのトレーニングが難しくなる。 第3に、画像の解像度は非常に低く、多くのバリエーションがある。 これと重度のオクルージョンとプレイヤーの速い動きが組み合わさって、再識別の課題を大きく増やした。 本稿では,ネットワークやハイパーパラメータを変更することなく,平均平均値(mAP)を7~11.5倍,ランク-1(R1)を8.8~14.9倍に向上させる,単純だが効果的な階層型データサンプリング手法とセントロイド損失関数を提案する。 我々のデータサンプリング手法は、トレーニングとテストの分布の類似性を改善し、埋め込み(または特徴ベクトル)のセントロイドのより良い見積もりを作成するのに役立つ。 驚くべきことに,本研究の応用例と同様に,非常に制限されたデータが存在する場合,ユークリッド距離に基づく単純な遠心損失関数は,人気のある三重項損失関数を大きく上回っている。 畳み込みネットワークと視覚変換器の両面で同等の改善を示す。 我々のアプローチは、86.0のmAPとR1の81.5のR1を持つ2022年のリーダーボード(テストスプリット)において、トップクラスの手法のひとつです。 分離された課題分割では、mAP 84.9 と R1 850.1 を達成する。 スポーツ関連アプリケーションに対するre-idの研究は非常に限定的であり,本研究は文献における最初の議論の1つである。

This work focuses on player re-identification in broadcast videos of team sports. Specifically, we focus on identifying the same player in images captured from different camera viewpoints during any given moment of a match. This task differs from traditional applications of person re-id in a few important ways. Firstly, players from the same team wear highly similar clothes, thereby making it harder to tell them apart. Secondly, there are only a few number of samples for each identity, which makes it harder to train a re-id system. Thirdly, the resolutions of the images are often quite low and vary a lot. This combined with heavy occlusions and fast movements of players greatly increase the challenges for re-id. In this paper, we propose a simple but effective hierarchical data sampling procedure and a centroid loss function that, when used together, increase the mean average precision (mAP) by 7 - 11.5 and the rank-1 (R1) by 8.8 - 14.9 without any change in the network or hyper-parameters used. Our data sampling procedure improves the similarity of the training and test distributions, and thereby aids in creating better estimates of the centroids of the embeddings (or feature vectors). Surprisingly, our study shows that in the presence of severely limited data, as is the case for our application, a simple centroid loss function based on euclidean distances significantly outperforms the popular triplet-centroid loss function. We show comparable improvements for both convolutional networks and vision transformers. Our approach is among the top ranked methods in the SoccerNet Re-Identification Challenge 2022 leaderboard (test-split) with a mAP of 86.0 and a R1 of 81.5. On the sequestered challenge split, we achieve an mAP of 84.9 and a R1 of 80.1. Research on re-id for sports-related applications is very limited and our work presents one of the first discussions in the literature on this.
翻訳日:2022-06-07 16:13:49 公開日:2022-06-06
# 明示的階層的絡み合いによるベイズ固有の集団登録

Bayesian intrinsic groupwise registration via explicit hierarchical disentanglement ( http://arxiv.org/abs/2206.02377v1 )

ライセンス: Link先を確認
Xin Wang, Xinzhe Luo, Xiahai Zhuang(参考訳) マルチモーダルなグループワイズ登録の以前の方法は、通常、制限された適用可能性を持つ特定の高度に特殊な類似度メトリクスを必要とする。 本研究では,階層ベイズ推定の手順としてグループワイズ登録を定式化する汎用フレームワークを提案する。 ここで、形状遷移や外観変化を含むマルチモーダル医用画像の撮像過程は、異方性可変オートエンコーダによって特徴づけられる。 そこで本研究では,共用構造表現と所望の空間対応の共用学習を容易にする,新しい変分後・ネットワークアーキテクチャを提案する。 提案モデルの性能を2つの公開マルチモーダルデータセット、すなわち心臓のBrainWebとMS-CMRで検証した。 その結果,マルチモーダルなグループ登録をエンドツーエンドで実現するためのフレームワークの有効性が示された。

Previous methods on multimodal groupwise registration typically require certain highly specialized similarity metrics with restrained applicability. In this work, we instead propose a general framework which formulates groupwise registration as a procedure of hierarchical Bayesian inference. Here, the imaging process of multimodal medical images, including shape transition and appearance variation, is characterized by a disentangled variational auto-encoder. To this end, we propose a novel variational posterior and network architecture that facilitate joint learning of the common structural representation and the desired spatial correspondences. The performance of the proposed model was validated on two publicly available multimodal datasets, i.e., BrainWeb and MS-CMR of the heart. Results have demonstrated the efficacy of our framework in realizing multimodal groupwise registration in an end-to-end fashion.
翻訳日:2022-06-07 16:13:19 公開日:2022-06-06
# 空間連続性を用いた電子顕微鏡像からのミトコンドリアの半教師ありセグメンテーション

Semi-Supervised Segmentation of Mitochondria from Electron Microscopy Images Using Spatial Continuity ( http://arxiv.org/abs/2206.02392v1 )

ライセンス: Link先を確認
Yunpeng Xiao, Youpeng Zhao and Ge Yang(参考訳) ミトコンドリアの形態は生理機能を媒介する重要な役割を担っている。 3次元電子顕微鏡(EM)画像からのミトコンドリアの正確なセグメンテーションは、その形態をナノメートルスケールで定量化するために不可欠である。 このタスクのために開発された完全な教師付きディープラーニングモデルは優れたパフォーマンスを実現するが、トレーニングには大量の注釈付きデータが必要である。 しかし,EM画像のマニュアルアノテーションは,その量,コントラストの制限,信号対雑音比(SNR)の低さから,手間と時間を要する。 この課題を克服するために,ラベル付き画像とラベルなし画像の両方における構造的,形態的,文脈的情報の空間的連続性を利用してミトコンドリアをセグメント化する半教師付きディープラーニングモデルを提案する。 我々は、ランダムな分節アフィン変換を用いて、総合的かつ現実的なミトコンドリア形態を合成し、トレーニングデータの強化を行う。 EPFLデータセットの実験では、我々のモデルは最先端の完全教師付きモデルと同様のパフォーマンスを達成するが、アノテーション付きトレーニングデータの約20%しか必要としない。 我々の半教師付きモデルは汎用的であり、他の空間連続構造をEM画像から正確に切り離すこともできる。 この研究のデータとコードはhttps://github.com/cbmi-group/MPP.comで公開されている。

Morphology of mitochondria plays critical roles in mediating their physiological functions. Accurate segmentation of mitochondria from 3D electron microscopy (EM) images is essential to quantitative characterization of their morphology at the nanometer scale. Fully supervised deep learning models developed for this task achieve excellent performance but require substantial amounts of annotated data for training. However, manual annotation of EM images is laborious and time-consuming because of their large volumes, limited contrast, and low signal-to-noise ratios (SNRs). To overcome this challenge, we propose a semi-supervised deep learning model that segments mitochondria by leveraging the spatial continuity of their structural, morphological, and contextual information in both labeled and unlabeled images. We use random piecewise affine transformation to synthesize comprehensive and realistic mitochondrial morphology for augmentation of training data. Experiments on the EPFL dataset show that our model achieves performance similar as that of state-of-the-art fully supervised models but requires only ~20% of their annotated training data. Our semi-supervised model is versatile and can also accurately segment other spatially continuous structures from EM images. Data and code of this study are openly accessible at https://github.com/cbmi-group/MPP.
翻訳日:2022-06-07 16:13:05 公開日:2022-06-06
# Slim-neck by GSConv: 自動運転車用検出器アーキテクチャのより良い設計パラダイム

Slim-neck by GSConv: A better design paradigm of detector architectures for autonomous vehicles ( http://arxiv.org/abs/2206.02424v1 )

ライセンス: Link先を確認
Hulin Li, Jun Li, Hanbing Wei, Zheng Liu, Zhenfei Zhan and Qiliang Ren(参考訳) 物体検出はコンピュータビジョンにおいて難しい下流課題である。 オンボードエッジコンピューティングプラットフォームでは、リアルタイム検出要求を達成するのが巨大なモデルである。 また,多数の奥行き分離可能な畳み込み層から構築した軽量モデルでは,十分な精度が得られない。 本稿では,モデルの軽量化と精度向上のための新しい手法GSConvを提案する。 GSConvはモデルの精度と速度のバランスが良くなる。 また,より高い計算コスト効率を達成するための設計パラダイムであるslim-neckを提供する。 実験では, 従来のネットワークと比較して, 現状の結果(例えば, SO-DA10Mの70.9% mAP0.5, テスラT4の約100FPS)を得た。 コードはオープンソースになる。

Object detection is a difficult downstream task in computer vision. For the on-board edge computing platforms, a giant model is difficult to achieve the real-time detection requirement. And, a lightweight model built from a large number of the depth-wise separable convolutional layers cannot achieve the sufficient accuracy. We introduce a new method, GSConv, to lighten the model but maintain the accuracy. The GSConv balances the model's accuracy and speed better. And, we provide a design paradigm, slim-neck, to achieve a higher computational cost-effectiveness of the detectors. In experiments, our method obtains state-of-the-art results (e.g. 70.9% mAP0.5 for the SO-DA10M at a speed of ~100FPS on a Tesla T4) compared with the original networks. Code will be open source.
翻訳日:2022-06-07 16:12:45 公開日:2022-06-06
# norppa : ペラージュパターンアグリゲーションによる新規リングシール再同定

NORPPA: NOvel Ringed seal re-identification by Pelage Pattern Aggregation ( http://arxiv.org/abs/2206.02498v1 )

ライセンス: Link先を確認
Ekaterina Nepovinnykh, Ilia Chelak, Tuomas Eerola, Heikki K\"alvi\"ainen(参考訳) 本研究は,シマヤの環状アザラシの再同定法を提案する。 カメラトラップとクラウドソーシングによる大容量画像へのアクセスは、動物の監視と保護のための新しい可能性を提供し、特に画像から個々の動物を再同定する際、分析のための自動手法を要求する。 提案手法は,サイマアリングシールの永久的かつ独特なペラージュパターンとコンテンツベースの画像検索技術を用いて,ペラージュパターンアグリゲーション(norppa)による新たなリングシール再同定法を提案する。 まず、クエリイメージを前処理し、各シールインスタンスをセグメント化する。 次に、U-netエンコーダ-デコーダ法を用いてシールのペレージパターンを抽出する。 その後、cnnベースのアフィン不変特徴をフィッシャーベクトルに埋め込み、集約する。 最後に、フィッシャーベクトル間のコサイン距離は、既知の個人のデータベースから最適なマッチングを見つけるために使用される。 我々は,新たな挑戦的サイマーリングアザラシ再同定データセットに対する様々な修正実験を行った。 提案手法は,代替手法との比較により,データセット上で最適な再同定精度が得られることを示す。

We propose a method for Saimaa ringed seal (Pusa hispida saimensis) re-identification. Access to large image volumes through camera trapping and crowdsourcing provides novel possibilities for animal monitoring and conservation and calls for automatic methods for analysis, in particular, when re-identifying individual animals from the images. The proposed method NOvel Ringed seal re-identification by Pelage Pattern Aggregation (NORPPA) utilizes the permanent and unique pelage pattern of Saimaa ringed seals and content-based image retrieval techniques. First, the query image is preprocessed, and each seal instance is segmented. Next, the seal's pelage pattern is extracted using a U-net encoder-decoder based method. Then, CNN-based affine invariant features are embedded and aggregated into Fisher Vectors. Finally, the cosine distance between the Fisher Vectors is used to find the best match from a database of known individuals. We perform extensive experiments of various modifications of the method on a new challenging Saimaa ringed seals re-identification dataset. The proposed method is shown to produce the best re-identification accuracy on our dataset in comparisons with alternative approaches.
翻訳日:2022-06-07 16:12:35 公開日:2022-06-06
# BehavePassDB: モバイル行動バイオメトリクスのベンチマーク

BehavePassDB: Benchmarking Mobile Behavioral Biometrics ( http://arxiv.org/abs/2206.02502v1 )

ライセンス: Link先を確認
Giuseppe Stragapede, Ruben Vera-Rodriguez, Ruben Tolosana and Aythami Morales(参考訳) モバイルのビヘイビアバイオメトリックスは,タッチスクリーンと背景センサのマルチモーダルな組み合わせを利用して,認証の面で有望な結果に到達し,研究の話題となっている。 しかし、文学における最先端の分類器がユーザとデバイスの概念を区別できるかどうかを知る方法はない。 本稿では,モバイル・ヒューマン・コンピュータ・インタラクション(hci)の最も一般的な側面を模倣するために,新たなデータベースである behaviorpassdb について述べる。 BehavePassDBは、被験者のデバイスにインストールされた専用モバイルアプリを通じて取得される。 本稿では,新しい手法と技術の現状を公正に比較するために,研究コミュニティのための標準実験プロトコルとベンチマークを提案する。 本稿では,三重項損失とモダリティ融合をスコアレベルで有するlong-short term memory (lstm) アーキテクチャに基づくシステムを提案する。

Mobile behavioral biometrics have become a popular topic of research, reaching promising results in terms of authentication, exploiting a multimodal combination of touchscreen and background sensor data. However, there is no way of knowing whether state-of-the-art classifiers in the literature can distinguish between the notion of user and device. In this article, we present a new database, BehavePassDB, structured into separate acquisition sessions and tasks to mimic the most common aspects of mobile Human-Computer Interaction (HCI). BehavePassDB is acquired through a dedicated mobile app installed on the subjects' devices, also including the case of different users on the same device for evaluation. We propose a standard experimental protocol and benchmark for the research community to perform a fair comparison of novel approaches with the state of the art. We propose and evaluate a system based on Long-Short Term Memory (LSTM) architecture with triplet loss and modality fusion at score level.
翻訳日:2022-06-07 16:12:16 公開日:2022-06-06
# 階層型自己監督学習による視覚変換器のギガピクセル画像へのスケーリング

Scaling Vision Transformers to Gigapixel Images via Hierarchical Self-Supervised Learning ( http://arxiv.org/abs/2206.02647v1 )

ライセンス: Link先を確認
Richard J. Chen, Chengkuan Chen, Yicong Li, Tiffany Y. Chen, Andrew D. Trister, Rahul G. Krishnan, Faisal Mahmood(参考訳) 視覚変換器(ViT)とそのマルチスケールおよび階層的なバリエーションは画像表現のキャプチャに成功しているが、低解像度画像(例えば-256x256, 384384)に対して一般的に研究されている。 計算病理学におけるギガピクセル全スライディングイメージング(WSI)では、WSIは20倍の倍率で150000x150000ピクセルで、様々な解像度で視覚トークンの階層構造を示すことができる:16x16画像は細胞間の空間パターンを捉え、4096x4096画像は組織マイクロ環境内の相互作用を特徴づける。 階層型画像ピラミッド変換(HIPT)と呼ばれる新しいViTアーキテクチャを導入し、WSIに固有の自然な階層構造を利用して2段階の自己教師あり学習を行い、高解像度の画像表現を学習する。 HIPTは10,678ギガピクセルのWSI、408,218の4096x4096画像、104Mの256x256画像を使用して33種類のがん種で事前訓練されている。 9つのスライドレベルタスクでHIPT表現をベンチマークし、それを実証する。 1)階層的事前訓練によるHIPTは,癌サブタイプと生存予測の最先端手法より優れていた。 2) 自己監督型 ViT は腫瘍微小環境における表現型の階層構造に関する重要な誘導バイアスをモデル化することができる。

Vision Transformers (ViTs) and their multi-scale and hierarchical variations have been successful at capturing image representations but their use has been generally studied for low-resolution images (e.g. - 256x256, 384384). For gigapixel whole-slide imaging (WSI) in computational pathology, WSIs can be as large as 150000x150000 pixels at 20X magnification and exhibit a hierarchical structure of visual tokens across varying resolutions: from 16x16 images capture spatial patterns among cells, to 4096x4096 images characterizing interactions within the tissue microenvironment. We introduce a new ViT architecture called the Hierarchical Image Pyramid Transformer (HIPT), which leverages the natural hierarchical structure inherent in WSIs using two levels of self-supervised learning to learn high-resolution image representations. HIPT is pretrained across 33 cancer types using 10,678 gigapixel WSIs, 408,218 4096x4096 images, and 104M 256x256 images. We benchmark HIPT representations on 9 slide-level tasks, and demonstrate that: 1) HIPT with hierarchical pretraining outperforms current state-of-the-art methods for cancer subtyping and survival prediction, 2) self-supervised ViTs are able to model important inductive biases about the hierarchical structure of phenotypes in the tumor microenvironment.
翻訳日:2022-06-07 16:12:02 公開日:2022-06-06
# (参考訳) 機械学習と説明可能aiによる巧妙な共同行動中の人間の行動決定の予測と理解

Predicting and Understanding Human Action Decisions during Skillful Joint-Action via Machine Learning and Explainable-AI ( http://arxiv.org/abs/2206.02739v1 )

ライセンス: CC BY 4.0
Fabrizia Auletta, Rachel W. Kallen, Mario di Bernardo, Micheal J. Richardson(参考訳) 本研究では、教師付き機械学習(SML)と説明可能な人工知能(AI)を用いて、熟練した共同行動中の人間の意思決定をモデル化し、予測し、理解する。 dyadic herdingタスクを完了させるエキスパートおよび初心者アクターのターゲット選択決定を予測するために、長期の短期記憶ネットワークを訓練した。 その結果、訓練されたモデルは専門的であり、専門家と初心者のヘルダーのターゲット選択決定を正確に予測するだけでなく、俳優の意識的な意図に先立って時間スケールで予測できることが判明した。 そこで我々は,モデル予測における情報特徴(変数)の重要性を明らかにするために,専門家と初心者のターゲット選択決定との違いを理解するために,説明可能なAI手法であるSHapley Additive exPlanationを用いた。 この分析により、専門家は初心者よりも共同ヘルダーの状態に関する情報に強い影響を受けていることが明らかとなった。 人的意思決定におけるSMLと説明可能なAI技術の有用性について論じる。

This study uses supervised machine learning (SML) and explainable artificial intelligence (AI) to model, predict and understand human decision-making during skillful joint-action. Long short-term memory networks were trained to predict the target selection decisions of expert and novice actors completing a dyadic herding task. Results revealed that the trained models were expertise specific and could not only accurately predict the target selection decisions of expert and novice herders but could do so at timescales that preceded an actor's conscious intent. To understand what differentiated the target selection decisions of expert and novice actors, we then employed the explainable-AI technique, SHapley Additive exPlanation, to identify the importance of informational features (variables) on model predictions. This analysis revealed that experts were more influenced by information about the state of their co-herders compared to novices. The utility of employing SML and explainable-AI techniques for investigating human decision-making is discussed.
翻訳日:2022-06-07 16:10:26 公開日:2022-06-06
# 仮想均一学習:フェデレートラーニングにおけるデータ不均一性に対する防御

Virtual Homogeneity Learning: Defending against Data Heterogeneity in Federated Learning ( http://arxiv.org/abs/2206.02465v1 )

ライセンス: Link先を確認
Zhenheng Tang, Yonggang Zhang, Shaohuai Shi, Xin He, Bo Han, Xiaowen Chu(参考訳) フェデレートラーニング(FL)では、モデルの性能はデータの不均一性によって引き起こされるクライアントのドリフトに悩まされる。 仮想同質性学習(virtual homogeneity learning, vhl)という別の手法を提案する。 特に、VHLは2つの条件を満たすために作られた仮想同質データセットでFLを実行している。 仮想データセットは、クライアント間で共有される純粋なノイズから生成することができる。 理論的には、VHLが自然分布上で証明可能な一般化性能を達成できることを示す。 実験の結果,vhlは収束速度と一般化性能を大幅に向上させた。 VHLは、仮想データセットを使用してデータの均一性に対処する最初の試みであり、FLに新しく効果的な手段を提供する。

In federated learning (FL), model performance typically suffers from client drift induced by data heterogeneity, and mainstream works focus on correcting client drift. We propose a different approach named virtual homogeneity learning (VHL) to directly "rectify" the data heterogeneity. In particular, VHL conducts FL with a virtual homogeneous dataset crafted to satisfy two conditions: containing no private information and being separable. The virtual dataset can be generated from pure noise shared across clients, aiming to calibrate the features from the heterogeneous clients. Theoretically, we prove that VHL can achieve provable generalization performance on the natural distribution. Empirically, we demonstrate that VHL endows FL with drastically improved convergence speed and generalization performance. VHL is the first attempt towards using a virtual dataset to address data heterogeneity, offering new and effective means to FL.
翻訳日:2022-06-07 15:28:33 公開日:2022-06-06
# ランク付け学習のための悲観的オフポリティ最適化

Pessimistic Off-Policy Optimization for Learning to Rank ( http://arxiv.org/abs/2206.02593v1 )

ライセンス: Link先を確認
Matej Cief, Branislav Kveton and Michal Kompan(参考訳) オフポリシー学習は、他のポリシによって収集されたデータを使用して、デプロイせずにポリシーを最適化するためのフレームワークである。 特にレコメンデーションシステムでは、ログデータの不均衡のため、いくつかの項目が推奨され、その結果、他の項目よりもずっと頻繁にログされる。 これは、アクション空間が組合せであるので、アイテムのリストを推奨するときにさらに持続する。 この課題に対処するために,我々はランク付けへの学習のための悲観的オフポリシー最適化について研究する。 鍵となる考え方は、クリックモデルのパラメータの低い信頼境界を計算し、その値を最も悲観的な見積もりでリストを返すことである。 このアプローチは計算効率が良く、分析します。 我々は,そのベイズ的かつ頻繁な変種を研究し,経験的ベイズを組み込むことで未知の限界を克服した。 本手法の実証的有効性を示すために,逆傾向スコアや不確実性を無視するオフ・ポリティカル・オプティマイザと比較する。 私たちのアプローチは、すべてのベースラインよりも優れ、堅牢で、一般的です。

Off-policy learning is a framework for optimizing policies without deploying them, using data collected by another policy. In recommender systems, this is especially challenging due to the imbalance in logged data: some items are recommended and thus logged much more frequently than others. This is further perpetuated when recommending a list of items, as the action space is combinatorial. To address this challenge, we study pessimistic off-policy optimization for learning to rank. The key idea is to compute lower confidence bounds on parameters of click models and then return the list with the highest pessimistic estimate of its value. This approach is computationally efficient and we analyze it. We study its Bayesian and frequentist variants, and overcome the limitation of unknown prior by incorporating empirical Bayes. To show the empirical effectiveness of our approach, we compare it to off-policy optimizers that use inverse propensity scores or neglect uncertainty. Our approach outperforms all baselines, is robust, and is also general.
翻訳日:2022-06-07 15:28:17 公開日:2022-06-06
# テンポラルグラフ変換器を用いたマルチビヘイビアシーケンスレコメンデーション

Multi-Behavior Sequential Recommendation with Temporal Graph Transformer ( http://arxiv.org/abs/2206.02687v1 )

ライセンス: Link先を確認
Lianghao Xia, Chao Huang, Yong Xu, Jian Pei(参考訳) シーケンシャルなアイテムインタラクションによるユーザの時間進化的嗜好のモデル化は、多くのオンラインアプリケーションで注目を集めている。 そこで,歴史的相互作用から動的ユーザ興味を学習し,提案項目を推薦するシーケンシャルレコメンデータシステムを開発した。 しかしながら、既存のほとんどのシーケンシャルレコメンデータシステムにおけるインタラクションパターンエンコーディング機能は、単一タイプのユーザ・テーマインタラクションに焦点を当てている。 多くの実生活のオンラインプラットフォームでは、ユーザーとコンテンツの対話的な振る舞いはしばしばマルチタイプ(クリック、追加から購入など)であり、複雑なクロスタイプ動作の相互依存がある。 多型インタラクションデータに基づくユーザやアイテムの情報表現から学ぶことは,ユーザの好みを正確に特徴付ける上で非常に重要である。 本研究では,マルチビヘイビア・インタラクティブなパターンを意識した動的ユーザ・イテム関係学習に取り組む。 そこで本研究では,様々な行動のタイプにまたがる相関関係を探究し,動的に短期的かつ長期的なユーザ・テーマ対話型パターンを捉えるための新しい時相グラフトランスフォーマー(tgt)推奨フレームワークを提案する。 新しいTGT手法は、型固有の振る舞い関係コンテキストと暗黙の振る舞い依存性に関する専門知識を抽出するシーケンシャルレコメンデーションアーキテクチャを提供する。 実世界のデータセットの実験から,我々の手法TGTは様々な最先端の推奨手法より一貫して優れていることが示された。 私たちのモデル実装コードはhttps://github.com/akaxlh/tgtで利用可能です。

Modeling time-evolving preferences of users with their sequential item interactions, has attracted increasing attention in many online applications. Hence, sequential recommender systems have been developed to learn the dynamic user interests from the historical interactions for suggesting items. However, the interaction pattern encoding functions in most existing sequential recommender systems have focused on single type of user-item interactions. In many real-life online platforms, user-item interactive behaviors are often multi-typed (e.g., click, add-to-favorite, purchase) with complex cross-type behavior inter-dependencies. Learning from informative representations of users and items based on their multi-typed interaction data, is of great importance to accurately characterize the time-evolving user preference. In this work, we tackle the dynamic user-item relation learning with the awareness of multi-behavior interactive patterns. Towards this end, we propose a new Temporal Graph Transformer (TGT) recommendation framework to jointly capture dynamic short-term and long-range user-item interactive patterns, by exploring the evolving correlations across different types of behaviors. The new TGT method endows the sequential recommendation architecture to distill dedicated knowledge for type-specific behavior relational context and the implicit behavior dependencies. Experiments on the real-world datasets indicate that our method TGT consistently outperforms various state-of-the-art recommendation methods. Our model implementation codes are available at https://github.com/akaxlh/TGT.
翻訳日:2022-06-07 15:28:01 公開日:2022-06-06
# 実験におけるマルコフ干渉

Markovian Interference in Experiments ( http://arxiv.org/abs/2206.02371v1 )

ライセンス: Link先を確認
Vivek F. Farias, Andrew A. Li, Tianyi Peng, Andrew T. Zheng(参考訳) 実験ユニットへの介入が制限的制約(在庫制限など)を通じて他のユニットに影響を及ぼす力学系の実験について考察する。 この「マルコフ的」干渉問題に対する最良の推定者は、実用的重要性は大きいが、自然界では概ねヒューリスティックであり、そのバイアスはよく理解されていない。 我々は,政策評価の1つとして,推論の問題を定式化する。 政治以外の推定者は、偏見のないが、明らかに最先端のヒューリスティックスと比較して大きなペナルティをもたらす。 本稿では,DQ(差分-In-Q)推定器を提案する。 概してDQ推定器は,非政治評価よりも指数関数的に分散が小さいことを示す。 同時に、そのバイアスは介入の影響の第2次となる。 これは、DQ推定器が最先端の代替品を効果的に支配するように、顕著なバイアス分散トレードオフをもたらす。 理論的観点からは、強化学習の理論(rl)に独立した関心を持つ3つの異なる新しい手法を導入する。 我々の経験的評価は、都市規模の配車シミュレータの実験を含む。

We consider experiments in dynamical systems where interventions on some experimental units impact other units through a limiting constraint (such as a limited inventory). Despite outsize practical importance, the best estimators for this `Markovian' interference problem are largely heuristic in nature, and their bias is not well understood. We formalize the problem of inference in such experiments as one of policy evaluation. Off-policy estimators, while unbiased, apparently incur a large penalty in variance relative to state-of-the-art heuristics. We introduce an on-policy estimator: the Differences-In-Q's (DQ) estimator. We show that the DQ estimator can in general have exponentially smaller variance than off-policy evaluation. At the same time, its bias is second order in the impact of the intervention. This yields a striking bias-variance tradeoff so that the DQ estimator effectively dominates state-of-the-art alternatives. From a theoretical perspective, we introduce three separate novel techniques that are of independent interest in the theory of Reinforcement Learning (RL). Our empirical evaluation includes a set of experiments on a city-scale ride-hailing simulator.
翻訳日:2022-06-07 15:23:49 公開日:2022-06-06
# リプシッツ連続多変量関数の高効率ミニマックス最適大域最適化

Efficient Minimax Optimal Global Optimization of Lipschitz Continuous Multivariate Functions ( http://arxiv.org/abs/2206.02383v1 )

ライセンス: Link先を確認
Kaan Gokcesu, Hakan Gokcesu(参考訳) 本研究では,多変量リプシッツ連続関数に対する最適最小大域最適化アルゴリズムを提案する。 提案手法の性能を評価するために,従来の単純な後悔ではなく平均的な後悔を用いることで,問題自体が本質的に困難であるため,多変量非凸最適化には適さないことを示した。 我々はアルゴリズムの平均的な後悔を研究するので、結果が単純な後悔にも結びつくことを直接示します。 提案手法は,下位境界プロキシ関数を構築する代わりに,所定のクエリ生成規則を用いて,ピヤフスキ・シュベルト変種よりも計算的に優れている。 提案アルゴリズムは, 時間的地平線上での$n$-次元$L$-Lipschitz連続目標の最適化に対して, 平均後悔境界の$O(L\sqrt{n}T^{-\frac{1}{n}})$を達成することを示す。

In this work, we propose an efficient minimax optimal global optimization algorithm for multivariate Lipschitz continuous functions. To evaluate the performance of our approach, we utilize the average regret instead of the traditional simple regret, which, as we show, is not suitable for use in the multivariate non-convex optimization because of the inherent hardness of the problem itself. Since we study the average regret of the algorithm, our results directly imply a bound for the simple regret as well. Instead of constructing lower bounding proxy functions, our method utilizes a predetermined query creation rule, which makes it computationally superior to the Piyavskii-Shubert variants. We show that our algorithm achieves an average regret bound of $O(L\sqrt{n}T^{-\frac{1}{n}})$ for the optimization of an $n$-dimensional $L$-Lipschitz continuous objective in a time horizon $T$, which we show to be minimax optimal.
翻訳日:2022-06-07 15:23:33 公開日:2022-06-06
# 共変量シフトに基づくクラス優先推定 -- 問題なし?

Class Prior Estimation under Covariate Shift -- no Problem? ( http://arxiv.org/abs/2206.02449v1 )

ライセンス: Link先を確認
Dirk Tasche(参考訳) 分類の文脈では、共変量で取得した情報内容が減少する場合、例えば、共変量の離散化、それらのいくつかを削除したり、たとえそれがドメイン不変であっても共変量の変換によって、共変量と関連するソースおよびターゲット分布の特性が崩壊する可能性があることを示す。 共変量シフト下でのクラス先行推定に対するこの観測結果について考察した。 共変量シフトに基づくクラス事前推定の代替手法としての探索アルゴリズムを提案する。

We show that in the context of classification the property of source and target distributions to be related by covariate shift may break down when the information content captured in the covariates is reduced, for instance by discretization of the covariates, dropping some of them, or by any transformation of the covariates even if it is domain-invariant. The consequences of this observation for class prior estimation under covariate shift are discussed. A probing algorithm as alternative approach to class prior estimation under covariate shift is proposed.
翻訳日:2022-06-07 15:23:13 公開日:2022-06-06
# 個人的確率勾配変化に対するインスタンスごとのプライバシ会計

Per-Instance Privacy Accounting for Differentially Private Stochastic Gradient Descent ( http://arxiv.org/abs/2206.02617v1 )

ライセンス: Link先を確認
Da Yu, Gautam Kamath, Janardhan Kulkarni, Jian Yin, Tie-Yan Liu, Huishuai Zhang(参考訳) differentially private stochasticgradient descent (dp-sgd) は、最近のプライベートディープラーニングにおけるワークホースアルゴリズムである。 データセット内のすべてのデータポイントに対して、単一のプライバシ保証を提供する。 DP-SGDの実行時の個々の事例に対するインスタンスごとのプライバシー保証を効率的に計算するアルゴリズムを提案する。 私たちはアルゴリズムを使って、複数のデータセットにわたるインスタンスごとのプライバシー損失を調査します。 ほとんどの例は、最悪の場合よりも強力なプライバシー保証を享受している。 さらに、例における損失とプライバシの損失がよく相関していることが分かりました。 これは、モデルユーティリティの観点で守られているグループは、プライバシーの損失の観点から同時に守られないことを意味する。 例えば、CIFAR-10では、最大損失(Cat)を持つクラスの平均$\epsilon$は、最低損失(Ship)を持つクラスのそれよりも32%高い。 メンバーシップ推論攻撃も実施しており、これは異なる経験的プライバシーリスクを反映している。

Differentially private stochastic gradient descent (DP-SGD) is the workhorse algorithm for recent advances in private deep learning. It provides a single privacy guarantee to all datapoints in the dataset. We propose an efficient algorithm to compute per-instance privacy guarantees for individual examples when running DP-SGD. We use our algorithm to investigate per-instance privacy losses across a number of datasets. We find that most examples enjoy stronger privacy guarantees than the worst-case bounds. We further discover that the loss and the privacy loss on an example are well-correlated. This implies groups that are underserved in terms of model utility are simultaneously underserved in terms of privacy loss. For example, on CIFAR-10, the average $\epsilon$ of the class with the highest loss (Cat) is 32% higher than that of the class with the lowest loss (Ship). We also run membership inference attacks to show this reflects disparate empirical privacy risks.
翻訳日:2022-06-07 15:21:37 公開日:2022-06-06
# 汚染バンディットフィードバックを用いたロバストパレート集合同定

Robust Pareto Set Identification with Contaminated Bandit Feedback ( http://arxiv.org/abs/2206.02666v1 )

ライセンス: Link先を確認
Kerem Bozgan, Cem Tekin(参考訳) 我々は,多目的多腕バンディット (mo-mab) におけるパレート集合同定 (psi) 問題を考える。 各アームプルでは、何らかの確率で真の報酬サンプルが、敵が選択した任意の汚染分布のサンプルに置き換えられる。 本稿では,ユーザの設定した精度要求を精度パラメータで緩和する,ロバストPSIのための中央値に基づくMO-MABアルゴリズムを提案する。 このアルゴリズムのサンプルの複雑さは、逆の精度パラメータに依存することを証明している。 提案手法をmo-mab文献のガウス報酬分布に関する平均ベース手法と比較した。 計算結果は,我々の理論的期待を検証し,対角的条件下での頑健なアルゴリズム設計の必要性を示す。

We consider the Pareto set identification (PSI) problem in multi-objective multi-armed bandits (MO-MAB) with contaminated reward observations. At each arm pull, with some probability, the true reward samples are replaced with the samples from an arbitrary contamination distribution chosen by the adversary. We propose a median-based MO-MAB algorithm for robust PSI that abides by the accuracy requirements set by the user via an accuracy parameter. We prove that the sample complexity of this algorithm depends on the accuracy parameter inverse squarely. We compare the proposed algorithm with a mean-based method from MO-MAB literature on Gaussian reward distributions. Our numerical results verify our theoretical expectations and show the necessity for robust algorithm design in the adversarial setting.
翻訳日:2022-06-07 15:21:20 公開日:2022-06-06
# 内因性参加動態下におけるマルチリーナーリスク低減

Multi-learner risk reduction under endogenous participation dynamics ( http://arxiv.org/abs/2206.02667v1 )

ライセンス: Link先を確認
Sarah Dean, Mihaela Curmei, Lillian J. Ratliff, Jamie Morgenstern, Maryam Fazel(参考訳) 予測システムは、外因的かつ内因的分布シフトに直面する -- 世界は常に変化し、システムが運用する環境を変える予測を行う。 例えば、音楽レコメンデータは、異なるコミュニティが高速インターネットへのアクセスを増やしているため、ユーザ分布の異質な変化を観察する。 18歳未満の利用者がレコメンデーションを享受すれば、18歳未満のユーザーの割合は内生的に増加する可能性がある。 内因性シフトの研究の多くは、ユーザーが使うか使わないかを選択する1人の学習者がいる単一の意思決定者設定に焦点を当てている。 本稿では,サブ人口と多人数学習者の参加動態について考察する。 本研究では,学習者およびサブ人口を持つシステムの行動について検討する。 リスク還元学習者は、その混合物上の学習者のリスクを減少させるように、サブポピュレーション $\mathcal{d}$ の混合分布を観察してその決定を更新する。 リスク低減サブ人口は、学習者間の配分を、全体の損失を減らす方法で更新する。 単一学習者のケースに関する以前の研究は、ミオピックリスクの最小化は、高い全体的な損失を生じることを示しており、その代表差は、--\citep{perdomo2020performative, miller2021outside} と zhang2019group である。 私たちの研究は、複数の近視的学習者と市場力の結果を分析し、しばしば世界的な損失と表現格差の低減につながる。

Prediction systems face exogenous and endogenous distribution shift -- the world constantly changes, and the predictions the system makes change the environment in which it operates. For example, a music recommender observes exogeneous changes in the user distribution as different communities have increased access to high speed internet. If users under the age of 18 enjoy their recommendations, the proportion of the user base comprised of those under 18 may endogeneously increase. Most of the study of endogenous shifts has focused on the single decision-maker setting, where there is one learner that users either choose to use or not. This paper studies participation dynamics between sub-populations and possibly many learners. We study the behavior of systems with \emph{risk-reducing} learners and sub-populations. A risk-reducing learner updates their decision upon observing a mixture distribution of the sub-populations $\mathcal{D}$ in such a way that it decreases the risk of the learner on that mixture. A risk reducing sub-population updates its apportionment amongst learners in a way which reduces its overall loss. Previous work on the single learner case shows that myopic risk minimization can result in high overall loss~\citep{perdomo2020performative, miller2021outside} and representation disparity~\citep{hashimoto2018fairness, zhang2019group}. Our work analyzes the outcomes of multiple myopic learners and market forces, often leading to better global loss and less representation disparity.
翻訳日:2022-06-07 15:21:11 公開日:2022-06-06
# エッジデバイスにおける医用画像分割のための修正U-Netの実装

Implementation of a Modified U-Net for Medical Image Segmentation on Edge Devices ( http://arxiv.org/abs/2206.02358v1 )

ライセンス: Link先を確認
Owais Ali, Hazrat Ali, Syed Ayaz Ali Shah, Aamir Shahzad(参考訳) 深層学習技術、特に畳み込みニューラルネットワークは、コンピュータビジョンと医療画像の応用に大きな可能性を示している。 しかし、ディープラーニングモデルは、膨大な計算能力と専門的な処理ハードウェアを必要とするため、計算的に要求されている。 これらのモデルをプロトタイピングにポータブルで互換性を持たせるためには、低消費電力デバイスへの実装が不可欠である。 本稿では,Intel Movidius Neural Compute Stick 2 (NCS-2) による医用画像のセグメンテーションのための改良U-Netの実装について述べる。 医用画像のセグメンテーションにおいて,データセットサイズが小さい場合でも,医用画像のセグメンテーションの性能向上を実現する重要なモデルとしてU-Netを選択した。 修正されたu-netモデルは、サイススコアの観点から性能評価される。 脳MRIのBraTsデータセット、心臓MRIデータセット、Ziehl-Neelsen sputum smear microscopy image (ZNSDB)データセットである。 提案モデルでは,パラメータ数をu-netモデルの3000万から,提案アーキテクチャの0.24億に削減した。 実験の結果、改良されたU-Netは、リソースを著しく削減し、NAS-2の推論を提供する。 BraTsデータセットは0.96、心臓MRIデータセットは0.94、ZNSDBデータセットは0.74である。

Deep learning techniques, particularly convolutional neural networks, have shown great potential in computer vision and medical imaging applications. However, deep learning models are computationally demanding as they require enormous computational power and specialized processing hardware for model training. To make these models portable and compatible for prototyping, their implementation on low-power devices is imperative. In this work, we present the implementation of Modified U-Net on Intel Movidius Neural Compute Stick 2 (NCS-2) for the segmentation of medical images. We selected U-Net because, in medical image segmentation, U-Net is a prominent model that provides improved performance for medical image segmentation even if the dataset size is small. The modified U-Net model is evaluated for performance in terms of dice score. Experiments are reported for segmentation task on three medical imaging datasets: BraTs dataset of brain MRI, heart MRI dataset, and Ziehl-Neelsen sputum smear microscopy image (ZNSDB) dataset. For the proposed model, we reduced the number of parameters from 30 million in the U-Net model to 0.49 million in the proposed architecture. Experimental results show that the modified U-Net provides comparable performance while requiring significantly lower resources and provides inference on the NCS-2. The maximum dice scores recorded are 0.96 for the BraTs dataset, 0.94 for the heart MRI dataset, and 0.74 for the ZNSDB dataset.
翻訳日:2022-06-07 15:20:46 公開日:2022-06-06
# 排他的デュアルラーニングによる実世界画像超解像

Real-World Image Super-Resolution by Exclusionary Dual-Learning ( http://arxiv.org/abs/2206.02609v1 )

ライセンス: Link先を確認
Hao Li, Jinghui Qin, Zhijing Yang, Pengxu Wei, Jinshan Pan, Liang Lin and Yukai Shi(参考訳) 実世界の画像の超解像は,高画質な画像を得るための実用的な画像復元問題であり,近年,その膨大な応用可能性に注目が集まっている。 深層学習に基づく手法では,実世界の超解像データセットの復元品質が期待できるが,l1と知覚最小化の関係を無視し,事前学習のための補助的な大規模データセットを大まかに採用している。 本稿では,劣化画像中の画像の種類と知覚的・ユークリッド的評価プロトコルの特性について論じる。 そこで本研究では,知覚とl1に基づく協調学習における特徴の多様性に対処するために,排他的二重学習(rwsr-edl)による実世界画像超解像法を提案する。 さらに、複数のデータセット最適化におけるトレーニング時間消費に対応するため、ノイズ誘導データ収集戦略を開発した。 補助データセットが組み込まれた場合、RWSR-EDLは有望な結果を達成し、ノイズ誘導データ収集戦略を採用することでトレーニング時間の増加を撃退する。 広汎な実験により,RWSR-EDLは4つの内部画像超解像データセットの最先端手法よりも高い競争性能を達成できた。

Real-world image super-resolution is a practical image restoration problem that aims to obtain high-quality images from in-the-wild input, has recently received considerable attention with regard to its tremendous application potentials. Although deep learning-based methods have achieved promising restoration quality on real-world image super-resolution datasets, they ignore the relationship between L1- and perceptual- minimization and roughly adopt auxiliary large-scale datasets for pre-training. In this paper, we discuss the image types within a corrupted image and the property of perceptual- and Euclidean- based evaluation protocols. Then we propose a method, Real-World image Super-Resolution by Exclusionary Dual-Learning (RWSR-EDL) to address the feature diversity in perceptual- and L1- based cooperative learning. Moreover, a noise-guidance data collection strategy is developed to address the training time consumption in multiple datasets optimization. When an auxiliary dataset is incorporated, RWSR-EDL achieves promising results and repulses any training time increment by adopting the noise-guidance data collection strategy. Extensive experiments show that RWSR-EDL achieves competitive performance over state-of-the-art methods on four in-the-wild image super-resolution datasets.
翻訳日:2022-06-07 15:17:20 公開日:2022-06-06
# Blended Latent Diffusion

Blended Latent Diffusion ( http://arxiv.org/abs/2206.02779v1 )

ライセンス: Link先を確認
Omri Avrahami, Ohad Fried, Dani Lischinski(参考訳) 一見全能な視覚言語モデルの出現と相まって、ニューラル画像生成の著しい進歩により、画像の作成と編集のためのテキストベースのインターフェイスがついに有効になった。 汎用画像の処理には多様な生成モデルが必要であるため、最新の研究は拡散モデルを利用しており、多様性の観点からはGANを上回ることが示されている。 しかし、拡散モデルの大きな欠点は、その相対的に遅い推論時間である。 本稿では,所望の編集をユーザ提供マスクに限定した汎用画像のローカルテキスト駆動編集の課題に対して,高速化した解法を提案する。 提案手法は,低次元の潜伏空間で操作することで拡散を高速化する,最近のテキストから画像への潜伏拡散モデル (LDM) を利用する。 まず,混合拡散を組み込むことにより,ldmをローカル画像エディタに変換する。 次に, 画像の正確な再構成を行うため, LDMの本質的不確かさに対する最適化に基づく解を提案する。 最後に,シンマスクを用いてローカル編集を行うシナリオについて述べる。 提案手法は, 質的かつ定量的に, 利用可能なベースラインに対して評価し, 高速であることに加えて, 精度も向上し, その成果物のいくつかを軽減できることを示した。 プロジェクトページはhttps://omriavrahami.com/blended-latent-diffusion-page/にある。

The tremendous progress in neural image generation, coupled with the emergence of seemingly omnipotent vision-language models has finally enabled text-based interfaces for creating and editing images. Handling generic images requires a diverse underlying generative model, hence the latest works utilize diffusion models, which were shown to surpass GANs in terms of diversity. One major drawback of diffusion models, however, is their relatively slow inference time. In this paper, we present an accelerated solution to the task of local text-driven editing of generic images, where the desired edits are confined to a user-provided mask. Our solution leverages a recent text-to-image Latent Diffusion Model (LDM), which speeds up diffusion by operating in a lower-dimensional latent space. We first convert the LDM into a local image editor by incorporating Blended Diffusion into it. Next we propose an optimization-based solution for the inherent inability of this LDM to accurately reconstruct images. Finally, we address the scenario of performing local edits using thin masks. We evaluate our method against the available baselines both qualitatively and quantitatively and demonstrate that in addition to being faster, our method achieves better precision than the baselines while mitigating some of their artifacts. Project page is available at https://omriavrahami.com/blended-latent-diffusion-page/
翻訳日:2022-06-07 15:16:43 公開日:2022-06-06
# GenSDF: 一般化可能な符号付き距離関数の2段階学習

GenSDF: Two-Stage Learning of Generalizable Signed Distance Functions ( http://arxiv.org/abs/2206.02780v1 )

ライセンス: Link先を確認
Gene Chou, Ilya Chugunov, Felix Heide(参考訳) 本研究では, 未知およびラベルなしの点雲に対する3次元物体表現学習のための, ニューラルサイン付き距離関数(SDF)の一般化能力について検討する。 既存のメソッドは一握りのオブジェクトクラスにsdfを適合させ、細部や高速な推論速度を誇示するが、見当たらない形状にうまく一般化しない。 ラベル付きデータからラベルなしデータに先行する形状を2段階の半教師付きメタラーニング手法を導入し,未認識のオブジェクトカテゴリを再構築する。 第1段階では、ラベルなしデータとメタ学習の初期形状に関するトレーニングをシミュレートするために、エピソードトレーニングスキームを使用する。 次に第2段階は、これらの先行を多様化して一般化を達成する半教師付きスキームにおいて、非可換なクラスを持つラベル付きデータを導入する。 本手法は合成データと実測点雲の両方について評価する。 実験結果と解析結果から,本手法は既存のSDF法より優れており,100以上の未確認クラスでゼロショット推論が堅牢であることが確認された。 コードはhttps://github.com/princeton-computational-imaging/gensdf.comにある。

We investigate the generalization capabilities of neural signed distance functions (SDFs) for learning 3D object representations for unseen and unlabeled point clouds. Existing methods can fit SDFs to a handful of object classes and boast fine detail or fast inference speeds, but do not generalize well to unseen shapes. We introduce a two-stage semi-supervised meta-learning approach that transfers shape priors from labeled to unlabeled data to reconstruct unseen object categories. The first stage uses an episodic training scheme to simulate training on unlabeled data and meta-learns initial shape priors. The second stage then introduces unlabeled data with disjoint classes in a semi-supervised scheme to diversify these priors and achieve generalization. We assess our method on both synthetic data and real collected point clouds. Experimental results and analysis validate that our approach outperforms existing neural SDF methods and is capable of robust zero-shot inference on 100+ unseen classes. Code can be found at https://github.com/princeton-computational-imaging/gensdf.
翻訳日:2022-06-07 15:16:23 公開日:2022-06-06
# 制約付きMDPに対する自然政策勾配原始双対法の収束とサンプル複雑性

Convergence and sample complexity of natural policy gradient primal-dual methods for constrained MDPs ( http://arxiv.org/abs/2206.02346v1 )

ライセンス: Link先を確認
Dongsheng Ding, Kaiqing Zhang, Jiali Duan, Tamer Ba\c{s}ar, Mihailo R. Jovanovi\'c(参考訳) 本研究では,期待総利益を最大化しつつ,期待総益の制約を満たしながら意思決定問題を検討する。 制約付きマルコフ決定過程(制約付きmdp)に対する無限ホリゾン最適制御問題の解法として,自然政策勾配法を用いる。 具体的には,本手法では,自然ポリシー勾配の上昇による主変数の更新と,投射された下位段階の降下による双対変数の更新を行う。 基本となる最大化は、非凸目的関数と非凸制約集合を含むが、softmaxポリシーパラメトリゼーションの下では、最適性ギャップと制約違反の両方に関して、サブリニアレートで大域収束を達成することが証明される。 そのような収束は状態-作用空間の大きさとは独立、すなわち-次元-自由である。 さらに,対数線形および一般平滑な政策パラメータ化に対しては,制限された政策パラメータ化による関数近似誤差までの部分線形収束率を定式化する。 また、2つのサンプルベースNPG-PDアルゴリズムに対して収束および有限サンプル複雑性を保証する。 最後に,計算実験を用いて,提案手法の有効性と有効性を示す。

We study sequential decision making problems aimed at maximizing the expected total reward while satisfying a constraint on the expected total utility. We employ the natural policy gradient method to solve the discounted infinite-horizon optimal control problem for Constrained Markov Decision Processes (constrained MDPs). Specifically, we propose a new Natural Policy Gradient Primal-Dual (NPG-PD) method that updates the primal variable via natural policy gradient ascent and the dual variable via projected sub-gradient descent. Although the underlying maximization involves a nonconcave objective function and a nonconvex constraint set, under the softmax policy parametrization we prove that our method achieves global convergence with sublinear rates regarding both the optimality gap and the constraint violation. Such convergence is independent of the size of the state-action space, i.e., it is~dimension-free. Furthermore, for log-linear and general smooth policy parametrizations, we establish sublinear convergence rates up to a function approximation error caused by restricted policy parametrization. We also provide convergence and finite-sample complexity guarantees for two sample-based NPG-PD algorithms. Finally, we use computational experiments to showcase the merits and the effectiveness of our approach.
翻訳日:2022-06-07 15:15:53 公開日:2022-06-06
# (参考訳) 医用画像における連続注意のための凸最適化層の二重分解

Dual Decomposition of Convex Optimization Layers for Consistent Attention in Medical Images ( http://arxiv.org/abs/2206.02761v1 )

ライセンス: CC BY 4.0
Tom Ron, Michal Weiler-Sagie, Tamir Hazan(参考訳) 医学における機械学習モデルの統合における重要な関心事は、推論を解釈する能力である。 一般的な説明可能性法は自然画像認識において良好な結果を示しているが、医用画像解析では、多くの手法が部分的かつ騒がしい説明を提供する。 近年,注意喚起機構は,その予測性能と解釈可能な品質の両方において有意な結果を示している。 注意の基本的な特徴は、モデルの予測に寄与する入力の突出部を活用することである。 そこで本研究では,注目重量分布の説明的価値に着目した。 凸最適化を用いた畳み込み層間の一貫した解釈を行う多層アテンション機構を提案する。 注意確率分布を再パラメータ化することにより,層間の一貫性制約を分解するために双対性を適用する。 さらに,目的を最適化して双対証人の学習を推奨するので,実装では標準バックプロパゲーションを用いるので,高い効率性が期待できる。 提案手法は,予測性能を保ちながら,弱い注釈付き医用画像データを活用し,モデルの予測に完全かつ忠実な説明を提供する。

A key concern in integrating machine learning models in medicine is the ability to interpret their reasoning. Popular explainability methods have demonstrated satisfactory results in natural image recognition, yet in medical image analysis, many of these approaches provide partial and noisy explanations. Recently, attention mechanisms have shown compelling results both in their predictive performance and in their interpretable qualities. A fundamental trait of attention is that it leverages salient parts of the input which contribute to the model's prediction. To this end, our work focuses on the explanatory value of attention weight distributions. We propose a multi-layer attention mechanism that enforces consistent interpretations between attended convolutional layers using convex optimization. We apply duality to decompose the consistency constraints between the layers by reparameterizing their attention probability distributions. We further suggest learning the dual witness by optimizing with respect to our objective; thus, our implementation uses standard back-propagation, hence it is highly efficient. While preserving predictive performance, our proposed method leverages weakly annotated medical imaging data and provides complete and faithful explanations to the model's prediction.
翻訳日:2022-06-07 15:13:45 公開日:2022-06-06
# ノードベースベイズニューラルネットワークによる共変量シフトの解法

Tackling covariate shift with node-based Bayesian neural networks ( http://arxiv.org/abs/2206.02435v1 )

ライセンス: Link先を確認
Trung Trinh, Markus Heinonen, Luigi Acerbi, Samuel Kaski(参考訳) ベイズニューラルネットワーク(BNN)は、共変量シフトの下での一般化を改善することを約束する。 しかし、重みベースのbnnは、しばしば大規模アーキテクチャやデータセットの計算の複雑さに苦しむ。 ノードベースのBNNは、最近、拡張性のある代替として導入され、各隠れノードに潜在確率変数を乗じ、重みのポイント推定を学習することで、疫学的な不確実性を引き起こす。 本稿では,これらの潜在雑音変数を,学習中の単純かつドメインに依存しないデータ摂動の暗黙的表現として解釈し,入力破壊による共変シフト下でよく機能するbnnを生成する。 暗黙の腐敗の多様性は潜伏変数のエントロピーに依存することを観察し、トレーニング中にこれらの変数のエントロピーを高めるための簡単なアプローチを提案する。 分布外画像分類ベンチマークの評価を行い、入力摂動による共変量シフト下でのノードベースBNNの不確実性評価の改善を示す。 副作用として、この方法はノイズのあるトレーニングラベルに対する堅牢性も提供する。

Bayesian neural networks (BNNs) promise improved generalization under covariate shift by providing principled probabilistic representations of epistemic uncertainty. However, weight-based BNNs often struggle with high computational complexity of large-scale architectures and datasets. Node-based BNNs have recently been introduced as scalable alternatives, which induce epistemic uncertainty by multiplying each hidden node with latent random variables, while learning a point-estimate of the weights. In this paper, we interpret these latent noise variables as implicit representations of simple and domain-agnostic data perturbations during training, producing BNNs that perform well under covariate shift due to input corruptions. We observe that the diversity of the implicit corruptions depends on the entropy of the latent variables, and propose a straightforward approach to increase the entropy of these variables during training. We evaluate the method on out-of-distribution image classification benchmarks, and show improved uncertainty estimation of node-based BNNs under covariate shift due to input perturbations. As a side effect, the method also provides robustness against noisy training labels.
翻訳日:2022-06-07 14:47:54 公開日:2022-06-06
# ニューラル共分散SDE:初期化時の無限深さ幅ネットワークの形状

The Neural Covariance SDE: Shaped Infinite Depth-and-Width Networks at Initialization ( http://arxiv.org/abs/2206.02768v1 )

ライセンス: Link先を確認
Mufan Bill Li, Mihai Nica, Daniel M. Roy(参考訳) 初期化時のフィードフォワードニューラルネットワークのロジット出力は、垂直層で定義されたランダムな共分散行列を条件付きガウス行列とする。 本研究では,このランダム行列の分布について検討する。 近年の研究では、この共分散行列が非退化するためには、ネットワーク深さが大きくなるにつれて活性化関数を形成する必要があることが示されている。 しかし、この形状法に対する現在の無限幅スタイルの理解は大深度では不十分であり、無限幅解析は層間における微視的変動を無視するが、これらのゆらぎは多くの層に蓄積する。 この欠点を克服するために、形状の無限深さと幅の極限におけるランダム共分散行列を考察する。 非自明な極限に達するのに必要な活性化関数の正確なスケーリングを特定し、確率微分方程式(SDE)によってランダムな共分散行列が支配されることを示す。 シミュレーションを用いて、sde は有限ネットワークのランダム共分散行列の分布と密接に一致することを示す。 さらに,活性化関数に基づき,大形ネットワークの爆発や消滅のノルムに対するif-and-only-if条件を回復する。

The logit outputs of a feedforward neural network at initialization are conditionally Gaussian, given a random covariance matrix defined by the penultimate layer. In this work, we study the distribution of this random matrix. Recent work has shown that shaping the activation function as network depth grows large is necessary for this covariance matrix to be non-degenerate. However, the current infinite-width-style understanding of this shaping method is unsatisfactory for large depth: infinite-width analyses ignore the microscopic fluctuations from layer to layer, but these fluctuations accumulate over many layers. To overcome this shortcoming, we study the random covariance matrix in the shaped infinite-depth-and-width limit. We identify the precise scaling of the activation function necessary to arrive at a non-trivial limit, and show that the random covariance matrix is governed by a stochastic differential equation (SDE) that we call the Neural Covariance SDE. Using simulations, we show that the SDE closely matches the distribution of the random covariance matrix of finite networks. Additionally, we recover an if-and-only-if condition for exploding and vanishing norms of large shaped networks based on the activation function.
翻訳日:2022-06-07 14:47:35 公開日:2022-06-06
# Beyond Just Vision: マルチモーダルデータとテンポラルデータによる自己監督型表現学習のレビュー

Beyond Just Vision: A Review on Self-Supervised Representation Learning on Multimodal and Temporal Data ( http://arxiv.org/abs/2206.02353v1 )

ライセンス: Link先を確認
Shohreh Deldari, Hao Xue, Aaqib Saeed, Jiayuan He, Daniel V. Smith, Flora D. Salim(参考訳) 近年,SSRL(Self-Supervised Representation Learning)がコンピュータビジョン,音声,自然言語処理(NLP)の分野に注目され,最近ではセンサからの時系列を含む他の種類のモダリティも注目されている。 自己教師付き学習の人気は、従来のモデルがトレーニングに大量の注釈付きデータを必要とするという事実に起因している。 注釈付きデータの取得は困難でコストのかかるプロセスである。 生データから自由に得られる監視信号を用いて,モデルの識別事前学習により,訓練データの効率を向上させるための自己指導手法が導入された。 CVやNLPの分野における1つのデータモードの手法を優先的に重視した既存のSSRLのレビューとは異なり、時間データのためのマルチモーダル自己教師型学習手法の総合的なレビューを初めて提供する。 この目的のためには 1)既存のSSRL法を包括的に分類する。 2) SSRLフレームワークのキーコンポーネントを定義することで、ジェネリックパイプラインを導入する。 3) 対象機能,ネットワークアーキテクチャ,潜在的なアプリケーションの観点から既存のモデルを比較し, 4)各カテゴリの既存マルチモーダル技法と様々なモダリティについて検討する。 最後に、既存の弱点と将来の機会を紹介します。 我々は、マルチモーダルデータおよび/または時間データを利用する領域におけるSSRLの要件を考察する。

Recently, Self-Supervised Representation Learning (SSRL) has attracted much attention in the field of computer vision, speech, natural language processing (NLP), and recently, with other types of modalities, including time series from sensors. The popularity of self-supervised learning is driven by the fact that traditional models typically require a huge amount of well-annotated data for training. Acquiring annotated data can be a difficult and costly process. Self-supervised methods have been introduced to improve the efficiency of training data through discriminative pre-training of models using supervisory signals that have been freely obtained from the raw data. Unlike existing reviews of SSRL that have pre-dominately focused upon methods in the fields of CV or NLP for a single data mode, we aim to provide the first comprehensive review of multimodal self-supervised learning methods for temporal data. To this end, we 1) provide a comprehensive categorization of existing SSRL methods, 2) introduce a generic pipeline by defining the key components of a SSRL framework, 3) compare existing models in terms of their objective function, network architecture and potential applications, and 4) review existing multimodal techniques in each category and various modalities. Finally, we present existing weaknesses and future opportunities. We believe our work develops a perspective on the requirements of SSRL in domains that utilise multimodal and/or temporal data
翻訳日:2022-06-07 14:42:50 公開日:2022-06-06
# カプセルで学ぶ:調査

Learning with Capsules: A Survey ( http://arxiv.org/abs/2206.02664v1 )

ライセンス: Link先を確認
Fabio De Sousa Ribeiro, Kevin Duarte, Miles Everett, Georgios Leontidis, Mubarak Shah(参考訳) カプセルネットワークは、オブジェクト中心の表現を学習するための畳み込みニューラルネットワーク(CNN)に代わるアプローチとして提案され、一般化とサンプル複雑性の改善に利用することができる。 cnnとは異なり、カプセルネットワークはニューロンのグループを使って視覚エンティティをエンコードし、それらのエンティティ間の関係を学習することによって、部分的な階層関係を明示的にモデル化するように設計されている。 カプセルネットワークによって達成された初期の成果を約束することで、ディープラーニングコミュニティは、いくつかのアプリケーション分野におけるパフォーマンスとスケーラビリティの向上を引き続き試みている。 しかし、カプセルネットワーク研究の大きなハードルは、基礎となるアイデアやモチベーションを理解するための信頼できる参照ポイントがないことである。 本調査の目的は,カプセルネットワーク研究の展望を包括的に概観することであり,今後,コミュニティにとって貴重な資源となるだろう。 そのために、コンピュータビジョンにおける等変推論のようなカプセルネットワークの背後にある基本的な概念とモチベーションの紹介から始める。 次にカプセルルーティング機構の技術的進歩とカプセルネットワークの様々な定式化、例えば生成的および幾何学的手法を取り上げる。 さらに,トランスフォーマーの注目メカニズムとカプセルネットワークがどのように関連しているかを詳細に説明し,表現学習の文脈において,それら間の非自明な概念的類似性を強調する。 その後,コンピュータビジョン,ビデオとモーション,グラフ表現学習,自然言語処理,医用イメージングなどにおけるカプセルネットワークの広範な応用について検討する。 結論として,カプセルネットワーク研究の主なハードルについて深く議論し,将来的な研究の方向性を明らかにする。

Capsule networks were proposed as an alternative approach to Convolutional Neural Networks (CNNs) for learning object-centric representations, which can be leveraged for improved generalization and sample complexity. Unlike CNNs, capsule networks are designed to explicitly model part-whole hierarchical relationships by using groups of neurons to encode visual entities, and learn the relationships between those entities. Promising early results achieved by capsule networks have motivated the deep learning community to continue trying to improve their performance and scalability across several application areas. However, a major hurdle for capsule network research has been the lack of a reliable point of reference for understanding their foundational ideas and motivations. The aim of this survey is to provide a comprehensive overview of the capsule network research landscape, which will serve as a valuable resource for the community going forward. To that end, we start with an introduction to the fundamental concepts and motivations behind capsule networks, such as equivariant inference in computer vision. We then cover the technical advances in the capsule routing mechanisms and the various formulations of capsule networks, e.g. generative and geometric. Additionally, we provide a detailed explanation of how capsule networks relate to the popular attention mechanism in Transformers, and highlight non-trivial conceptual similarities between them in the context of representation learning. Afterwards, we explore the extensive applications of capsule networks in computer vision, video and motion, graph representation learning, natural language processing, medical imaging and many others. To conclude, we provide an in-depth discussion regarding the main hurdles in capsule network research, and highlight promising research directions for future work.
翻訳日:2022-06-07 14:40:37 公開日:2022-06-06
# 構造化マッチング市場における分散・コミュニケーション・協調フリー学習

Decentralized, Communication- and Coordination-free Learning in Structured Matching Markets ( http://arxiv.org/abs/2206.02344v1 )

ライセンス: Link先を確認
Chinmay Maheshwari and Eric Mazumdar and Shankar Sastry(参考訳) 両面マッチング市場における競争環境におけるオンライン学習の問題について検討する。 特に、市場の片側、つまりエージェントは、試合を成功させるために他のエージェントと競争しながら繰り返し対話することで、相手の好みについて学ぶ必要がある。 本稿では,エージェントが構造的マッチング市場で安定したマッチングに到達できる,分散化,通信性,協調性のないアルゴリズムのクラスを提案する。 先行研究とは対照的に、提案されたアルゴリズムはエージェント自身のプレイ履歴のみに基づいて意思決定を行い、企業の好みを事前に知る必要はない。 当社のアルゴリズムは,企業と競争する問題から,騒音観測から人の嗜好を学習する統計的問題を分割して構成する。 エージェントや企業の基本的な嗜好に関する現実的な構造的仮定の下では、提案アルゴリズムは、時間軸に対数的に増大する後悔を引き起こす。 その結果,一致する市場の場合,競争は分散化,コミュニケーション,オンライン学習アルゴリズムのコーディネーションに多大な影響を与えないことが示された。

We study the problem of online learning in competitive settings in the context of two-sided matching markets. In particular, one side of the market, the agents, must learn about their preferences over the other side, the firms, through repeated interaction while competing with other agents for successful matches. We propose a class of decentralized, communication- and coordination-free algorithms that agents can use to reach to their stable match in structured matching markets. In contrast to prior works, the proposed algorithms make decisions based solely on an agent's own history of play and requires no foreknowledge of the firms' preferences. Our algorithms are constructed by splitting up the statistical problem of learning one's preferences, from noisy observations, from the problem of competing for firms. We show that under realistic structural assumptions on the underlying preferences of the agents and firms, the proposed algorithms incur a regret which grows at most logarithmically in the time horizon. Our results show that, in the case of matching markets, competition need not drastically affect the performance of decentralized, communication and coordination free online learning algorithms.
翻訳日:2022-06-07 14:37:10 公開日:2022-06-06
# ヒト-アバター対話におけるインターロカタ融合の検出 : 実験的検討

Detecting Interlocutor Confusion in Situated Human-Avatar Dialogue: A Pilot Study ( http://arxiv.org/abs/2206.02436v1 )

ライセンス: Link先を確認
Na Li, John D. Kelleher, Robert Ross(参考訳) 本研究の目的は,ユーザの混乱状態を監視し,このようなユーザの混乱状態に応じて対話ポリシーを適用することである。 そこで本研究では,混乱の顕在化と,その長期的緩和について研究するために,ユーザ・アバター対話のシナリオに焦点を当てた最初の研究について述べる。 本稿では,タスク指向対話のための知的対話システム開発の要件に特に適合した,混乱の定義を提案する。 また,Wizard-of-Ozベースのデータ収集シナリオの詳細を提示し,ユーザが会話アバターと対話し,ユーザ内の混乱状態を呼び出すために設計された刺激を提示した。 このデータのポストスタディ分析も提示されている。 ここでは、ベース感情、頭ポーズ、視線を推定するために、事前訓練された3つのディープラーニングモデルがデプロイされた。 少人数のパイロット研究グループでも,これらの指標と混乱状態との間に有意な相関が認められた。 これは対話の実用性の自動分析において有用なステップであると理解している。

In order to enhance levels of engagement with conversational systems, our long term research goal seeks to monitor the confusion state of a user and adapt dialogue policies in response to such user confusion states. To this end, in this paper, we present our initial research centred on a user-avatar dialogue scenario that we have developed to study the manifestation of confusion and in the long term its mitigation. We present a new definition of confusion that is particularly tailored to the requirements of intelligent conversational system development for task-oriented dialogue. We also present the details of our Wizard-of-Oz based data collection scenario wherein users interacted with a conversational avatar and were presented with stimuli that were in some cases designed to invoke a confused state in the user. Post study analysis of this data is also presented. Here, three pre-trained deep learning models were deployed to estimate base emotion, head pose and eye gaze. Despite a small pilot study group, our analysis demonstrates a significant relationship between these indicators and confusion states. We understand this as a useful step forward in the automated analysis of the pragmatics of dialogue.
翻訳日:2022-06-07 14:36:53 公開日:2022-06-06
# (参考訳) FuSS: セグメンテーション一貫性を改善するためにスーパーピクセルを融合

FuSS: Fusing Superpixels for Improved Segmentation Consistency ( http://arxiv.org/abs/2206.02714v1 )

ライセンス: CC BY 4.0
Ian Nunes, Matheus B. Pereira, Hugo Oliveira, Jefersson A. Dos Santos and Marcus Poggi(参考訳) 本研究では,オープンセット意味セグメンテーションの意味的一貫性を改善するための2つの異なるアプローチを提案する。 まず,ガウス混合モデルを用いてOpenPCSフレームワークを拡張し,各クラスの画素分布をマルチモーダルにモデル化するOpenGMMを提案する。 第2のアプローチは、スーパーピクセルを用いて、高度に均質な領域を等しく振る舞う後処理であり、これらの領域内の誤った分類画素を正すものである。 全ての試験はISPRS VaihingenとPotsdamのデータセットで行われ、どちらの手法も両方のデータセットの定量的および定性的な結果を改善することができた。 さらに、FuSSによるポストプロセスは、両方のデータセットに対して最先端の結果を得た。 公式実装は: \url{https://github.com/iannunes/FuSS} で利用可能である。

In this work, we propose two different approaches to improve the semantic consistency of Open Set Semantic Segmentation. First, we propose a method called OpenGMM that extends the OpenPCS framework using a Gaussian Mixture of Models to model the distribution of pixels for each class in a multimodal manner. The second approach is a post-processing which uses superpixels to enforce highly homogeneous regions to behave equally, rectifying erroneous classified pixels within these regions, we also proposed a novel superpixel method called FuSS. All tests were performed on ISPRS Vaihingen and Potsdam datasets, and both methods were capable to improve quantitative and qualitative results for both datasets. Besides that, the post-process with FuSS achieved state-of-the-art results for both datasets. The official implementation is available at: \url{https://github.com/iannunes/FuSS}.
翻訳日:2022-06-07 14:35:28 公開日:2022-06-06
# マルチドメイン温度スケーリングによるロバスト校正

Robust Calibration with Multi-domain Temperature Scaling ( http://arxiv.org/abs/2206.02757v1 )

ライセンス: Link先を確認
Yaodong Yu and Stephen Bates and Yi Ma and Michael I. Jordan(参考訳) 不確実性定量化は、高スループットアプリケーションドメインへの機械学習モデルの信頼性の高いデプロイに不可欠である。 不確かさの定量化は、トレーニング分布とテスト分布が異なる場合、分布シフトが穏やかである場合よりも難しい。 実世界のアプリケーションにおける分布シフトの普遍性にもかかわらず、既存の不確実性定量化手法は、主に列車分布と試験分布が同一である分布内設定を研究する。 本稿では,複数の領域からのデータを活用することで,分散シフトを処理するためのシステムキャリブレーションモデルを提案する。 提案手法は,分布シフト時のキャリブレーションロバスト性を改善するために,領域内の不均一性を利用する。 3つのベンチマークデータセットの実験により,提案手法は,分布内および分布外の両方で測定された既存手法よりも優れていた。

Uncertainty quantification is essential for the reliable deployment of machine learning models to high-stakes application domains. Uncertainty quantification is all the more challenging when training distribution and test distribution are different, even the distribution shifts are mild. Despite the ubiquity of distribution shifts in real-world applications, existing uncertainty quantification approaches mainly study the in-distribution setting where the train and test distributions are the same. In this paper, we develop a systematic calibration model to handle distribution shifts by leveraging data from multiple domains. Our proposed method -- multi-domain temperature scaling -- uses the heterogeneity in the domains to improve calibration robustness under distribution shift. Through experiments on three benchmark data sets, we find our proposed method outperforms existing methods as measured on both in-distribution and out-of-distribution test sets.
翻訳日:2022-06-07 14:18:46 公開日:2022-06-06
# ギャップを受け入れる - vaesは独立したメカニズム分析を行う

Embrace the Gap: VAEs Perform Independent Mechanism Analysis ( http://arxiv.org/abs/2206.02416v1 )

ライセンス: Link先を確認
Patrik Reizinger, Luigi Gresele, Jack Brady, Julius von K\"ugelgen, Dominik Zietlow, Bernhard Sch\"olkopf, Georg Martius, Wieland Brendel, Michel Besserve(参考訳) 変分オートエンコーダ(VAE)は、複雑なデータ分布をモデル化するための一般的なフレームワークであり、正確な(log-)マージ的可能性とのギャップを犠牲にして、ELBO(エビデンス)を最大化することで、変分推論によって効率的に訓練することができる。 VAEは一般的に表現学習に使用されるが、非正規化最大推定ではデータ生成過程を逆転できないため、ELBOの最大化が有用な表現をもたらす理由は不明である。 しかし、VAEはこのタスクでしばしば成功します。 我々は非線形のvaesを近似決定論的デコーダの極限で研究することでこの明らかなパラドックスを解明しようとする。 この状態において、最適エンコーダはデコーダ(一般的には使われるが証明されていない予想)をほぼ逆転させ、これを {\em self-consistency} と呼ぶ。 自己整合性を利用して、ELBOが正規化ログに収束することを示す。 これにより、vaesは、最近independent mechanism analysis(ima)と呼ばれるものを実行することができる: 真の潜在因子の回復に役立つ列-orthogonal jacobianを持つデコーダに対する帰納的バイアスを追加する。 ELBOとログライクリフのギャップは,非線形表現学習に期待できないメリットがあるため,歓迎される。 合成および画像データに関する実験では、データ生成プロセスがIMAの仮定を満たすとき、VAEが真の潜伏因子を明らかにする。

Variational autoencoders (VAEs) are a popular framework for modeling complex data distributions; they can be efficiently trained via variational inference by maximizing the evidence lower bound (ELBO), at the expense of a gap to the exact (log-)marginal likelihood. While VAEs are commonly used for representation learning, it is unclear why ELBO maximization would yield useful representations, since unregularized maximum likelihood estimation cannot invert the data-generating process. Yet, VAEs often succeed at this task. We seek to elucidate this apparent paradox by studying nonlinear VAEs in the limit of near-deterministic decoders. We first prove that, in this regime, the optimal encoder approximately inverts the decoder -- a commonly used but unproven conjecture -- which we refer to as {\em self-consistency}. Leveraging self-consistency, we show that the ELBO converges to a regularized log-likelihood. This allows VAEs to perform what has recently been termed independent mechanism analysis (IMA): it adds an inductive bias towards decoders with column-orthogonal Jacobians, which helps recovering the true latent factors. The gap between ELBO and log-likelihood is therefore welcome, since it bears unanticipated benefits for nonlinear representation learning. In experiments on synthetic and image data, we show that VAEs uncover the true latent factors when the data generating process satisfies the IMA assumption.
翻訳日:2022-06-07 14:18:31 公開日:2022-06-06
# 移動体視覚変換器の分離型自己注意

Separable Self-attention for Mobile Vision Transformers ( http://arxiv.org/abs/2206.02680v1 )

ライセンス: Link先を確認
Sachin Mehta and Mohammad Rastegari(参考訳) モバイルビジョントランスフォーマー(MobileViT)は、分類や検出を含むいくつかのモバイルビジョンタスクで最先端のパフォーマンスを達成することができる。 これらのモデルはパラメータが少ないが、畳み込みニューラルネットワークベースのモデルに比べてレイテンシが高い。 mobilevitの主な効率のボトルネックは、トランスフォーマーのマルチヘッドセルフアテンション(mha)であり、トークン数(またはパッチ数)$k$に対して、o(k^2)$の時間複雑性を必要とする。 さらに、mhaは、リソース制約されたデバイスでのレイテンシに影響を与える自己アテンションを計算するために、コストのかかる操作(バッチ単位の行列の乗算など)を必要とする。 本稿では,線形複雑性を持つ分離自着法,すなわち$o(k)$を提案する。 提案手法の単純かつ効果的な特徴は、自己注意の計算に要素演算を用いることであり、資源制約のあるデバイスに好適な選択である。 改良されたモデルであるMobileViTv2は、ImageNetオブジェクト分類やMS-COCOオブジェクト検出など、いくつかのモバイルビジョンタスクの最先端技術である。 約300万のパラメータを持つMobileViTv2は、ImageNetデータセットで75.6%のトップ1の精度を達成し、MobileViTを約1%上回り、モバイルデバイスで3.2\times$高速に動作している。 ソースコードは \url{https://github.com/apple/ml-cvnets} で利用可能です。

Mobile vision transformers (MobileViT) can achieve state-of-the-art performance across several mobile vision tasks, including classification and detection. Though these models have fewer parameters, they have high latency as compared to convolutional neural network-based models. The main efficiency bottleneck in MobileViT is the multi-headed self-attention (MHA) in transformers, which requires $O(k^2)$ time complexity with respect to the number of tokens (or patches) $k$. Moreover, MHA requires costly operations (e.g., batch-wise matrix multiplication) for computing self-attention, impacting latency on resource-constrained devices. This paper introduces a separable self-attention method with linear complexity, i.e. $O(k)$. A simple yet effective characteristic of the proposed method is that it uses element-wise operations for computing self-attention, making it a good choice for resource-constrained devices. The improved model, MobileViTv2, is state-of-the-art on several mobile vision tasks, including ImageNet object classification and MS-COCO object detection. With about three million parameters, MobileViTv2 achieves a top-1 accuracy of 75.6% on the ImageNet dataset, outperforming MobileViT by about 1% while running $3.2\times$ faster on a mobile device. Our source code is available at: \url{https://github.com/apple/ml-cvnets}
翻訳日:2022-06-07 14:16:52 公開日:2022-06-06
# JigsawHSI:ハイパースペクトル画像分類のためのネットワーク

JigsawHSI: a network for Hyperspectral Image classification ( http://arxiv.org/abs/2206.02327v1 )

ライセンス: Link先を確認
Jaime Moraga, H. Sebnem Duzgun(参考訳) 本稿ではインセプションに基づく畳み込みニューラルネットワーク(CNN)であるJigsawHSIの性能について述べる。 ネットワークはスペクトル空間の3D-CNNであるHybridSNと比較され、2D-CNNはデータセットの最先端結果を達成する。 この記事では、JigsawHSIが3つのケースすべてでHybridSNのパフォーマンスを達成または超えることを証明します。 さらに、コードとツールキットも利用可能である。

This article describes the performance of JigsawHSI,a convolutional neural network (CNN) based on Inception but tailored for geoscientific analyses, on classification with the Indian Pines, Pavia University and Salinas hyperspectral image data sets. The network is compared against HybridSN, a spectral-spatial 3D-CNN followed by 2D-CNN that achieves state-of-the-art results in the datasets. This short article proves that JigsawHSI is able to meet or exceed HybridSN performance in all three cases. Additionally, the code and toolkit are made available.
翻訳日:2022-06-07 14:14:32 公開日:2022-06-06
# 言語モデルの改良にむけて

On the Advance of Making Language Models Better Reasoners ( http://arxiv.org/abs/2206.02336v1 )

ライセンス: Link先を確認
Yifei Li, Zeqi Lin, Shizhuo Zhang, Qiang Fu, Bei Chen, Jian-Guang Lou, Weizhu Chen(参考訳) GPT-3 や PaLM のような大規模言語モデルは、数発の学習で顕著な性能を示した。 しかし、彼らは算術ベンチマークGSM8Kのような推論タスクに苦戦している。 近年の進歩は言語モデルを意図的に導き、最終回答を出す前に一連の推論ステップを生成し、GSM8Kベンチマークを17.9%から58.1%に向上させることに成功した。 本稿では,その推論能力をさらに高めるために,新しい手法である多様性(推論ステップにおける逆検証)を提案する。 DiVeRSeはまず、推論パスの多様性を高めるために異なるプロンプトを探索する。 第二に、DiVeRSeは、より良い回答と悪い回答を区別する検証器を導入し、より重み付けされた投票を行う。 最後に、多様さは、すべてのステップ全体よりも、各ステップの正しさを検証します。 最新の言語モデルであるcode-davinci-002 を用いて広範な実験を行い、DiVeRSe が8つの推論ベンチマーク(例えば GSM8K 74.4% から 83.2% )のうち6つの最先端のパフォーマンスを達成できることを示し、540B のパラメータで PaLM モデルを上回った。

Large language models such as GPT-3 and PaLM have shown remarkable performance in few-shot learning. However, they still struggle with reasoning tasks such as the arithmetic benchmark GSM8K. Recent advances deliberately guide the language model to generate a chain of reasoning steps before producing the final answer, successfully boosting the GSM8K benchmark from 17.9% to 58.1% in terms of problem solving rate. In this paper, we propose a new approach, DiVeRSe (Diverse Verifier on Reasoning Step), to further advance their reasoning capability. DiVeRSe first explores different prompts to enhance the diversity in reasoning paths. Second, DiVeRSe introduces a verifier to distinguish good answers from bad answers for a better weighted voting. Finally, DiVeRSe verifies the correctness of each single step rather than all the steps in a whole. We conduct extensive experiments using the latest language model code-davinci-002 and demonstrate that DiVeRSe can achieve new state-of-the-art performance on six out of eight reasoning benchmarks (e.g., GSM8K 74.4% to 83.2%), outperforming the PaLM model with 540B parameters.
翻訳日:2022-06-07 14:09:46 公開日:2022-06-06
# HIFI-Net - 水中画像の強化のための新しいネットワーク

HIFI-Net: A Novel Network for Enhancement to Underwater Images ( http://arxiv.org/abs/2206.02295v1 )

ライセンス: Link先を確認
Jiajia Zhou, Junbin Zhuang, Yan Zheng and Di Wu(参考訳) 本稿では,水中画像の強調のための新しいネットワークを提案する。 強化融合ユニット(rfu)に基づくハールウェーブレット画像(rfm-haar)用の強化融合モジュール(rfm-haar)を含み、元の画像とその中のいくつかの重要な情報を融合するのに使用される。 融合はより良い強化のために達成される。 このネットワークが "Haar Images into Fusion Images" を作るため、HIFI-Netと呼ばれる。 実験の結果,提案したHIFI-Netは3つの標準メトリクスと1つの新しいメトリックで3つのデータセットに対して,最先端の多くの手法の中で最高の性能を示した。

A novel network for enhancement to underwater images is proposed in this paper. It contains a Reinforcement Fusion Module for Haar wavelet images (RFM-Haar) based on Reinforcement Fusion Unit (RFU), which is used to fuse an original image and some important information within it. Fusion is achieved for better enhancement. As this network make "Haar Images into Fusion Images", it is called HIFI-Net. The experimental results show the proposed HIFI-Net performs best among many state-of-the-art methods on three datasets at three normal metrics and a new metric.
翻訳日:2022-06-07 14:06:10 公開日:2022-06-06
# MASNet:リモートセンシング変更検出タスクにおける相互注意型シームズネットワークの性能向上

MASNet:Improve Performance of Siamese Networks with Mutual-attention for Remote Sensing Change Detection Tasks ( http://arxiv.org/abs/2206.02331v1 )

ライセンス: Link先を確認
Hongbin Zhou, Yupeng Ren, Qiankun Li, Jun Yin, and Yonggang Lin(参考訳) シームズネットワークはリモートセンシング変更検出タスクに広く利用されている。 バニラシャムネットワークは、重みを共有する2つの同一の特徴抽出分岐を持ち、これら2つの枝は独立して動作し、特徴マップはデコーダヘッドに送信されるまで融合しない。 しかし, 変化検出タスクでは, 早期に2つの特徴抽出枝間で情報を交換することが重要であることがわかった。 本稿では,2つの特徴抽出枝間の情報を交換するために,相互接続プラグインを備えた一般シャムネットワークである相互接続シャムネットワーク(masnet)を提案する。 我々は,マルチチェンジ検出データセットにおけるシアムネットワークの性能を改良し,畳み込みニューラルネットワークとビジュアルトランスフォーマーの両方に有効であることを示す。

Siamese networks are widely used for remote sensing change detection tasks. A vanilla siamese network has two identical feature extraction branches which share weights, these two branches work independently and the feature maps are not fused until about to be sent to a decoder head. However we find that it is critical to exchange information between two feature extraction branches at early stage for change detection task. In this work we present Mutual-Attention Siamese Network (MASNet), a general siamese network with mutual-attention plug-in, so to exchange information between the two feature extraction branches. We show that our modification improve the performance of siamese networks on multi change detection datasets, and it works for both convolutional neural network and visual transformer.
翻訳日:2022-06-07 14:05:59 公開日:2022-06-06
# テスト時間増強による異常検出と一貫性評価

Anomaly Detection with Test Time Augmentation and Consistency Evaluation ( http://arxiv.org/abs/2206.02345v1 )

ライセンス: Link先を確認
Haowei He, Jiaye Teng, Yang Yuan(参考訳) ディープニューラルネットワークは、目に見えないデータに対して脆弱であることが知られている。 近年の研究では、表現学習法と特定のメトリクスを用いて問題解決が試みられている。 本稿では,新しい観測結果にインスパイアされた簡易かつ効果的なポストホック異常検出アルゴリズムであるテスト時間拡張異常検出(tta-ad)を提案する。 具体的には、分布内データと分布外データとを分離した分布外データよりも、トレーニングされたネットワーク上での本来のバージョンと拡張バージョンの一貫性のある予測が期待できる。 様々な高解像度画像ベンチマークデータセットの実験により、TTA-ADはデータセット-vsデータセット異常検出設定において、既存の分類器ベースのアルゴリズムの実行時間60%から90%の削減で同等またはより良い検出性能を達成することが示された。 我々はTTA-ADの鍵が拡張機能の間の残りのクラスにあることを実証的に検証する。 さらに、RUNSを代用として、理論的にアルゴリズムを解析する。

Deep neural networks are known to be vulnerable to unseen data: they may wrongly assign high confidence stcores to out-distribuion samples. Recent works try to solve the problem using representation learning methods and specific metrics. In this paper, we propose a simple, yet effective post-hoc anomaly detection algorithm named Test Time Augmentation Anomaly Detection (TTA-AD), inspired by a novel observation. Specifically, we observe that in-distribution data enjoy more consistent predictions for its original and augmented versions on a trained network than out-distribution data, which separates in-distribution and out-distribution samples. Experiments on various high-resolution image benchmark datasets demonstrate that TTA-AD achieves comparable or better detection performance under dataset-vs-dataset anomaly detection settings with a 60%~90\% running time reduction of existing classifier-based algorithms. We provide empirical verification that the key to TTA-AD lies in the remaining classes between augmented features, which has long been partially ignored by previous works. Additionally, we use RUNS as a surrogate to analyze our algorithm theoretically.
翻訳日:2022-06-07 14:05:46 公開日:2022-06-06
# CorticalFlow: 皮質表面再構成のための異形メッシュ変形モジュール

CorticalFlow: A Diffeomorphic Mesh Deformation Module for Cortical Surface Reconstruction ( http://arxiv.org/abs/2206.02374v1 )

ライセンス: Link先を確認
L\'eo Lebrat, Rodrigo Santa Cruz, Fr\'ed\'eric de Gournay, Darren Fu, Pierrick Bourgeat, Jurgen Fripp, Clinton Fookes, Olivier Salvado(参考訳) 本稿では,3次元画像から対象物への参照テンプレートの変形を学習する,新しい幾何学的深層学習モデルであるCorticalFlowを紹介する。 テンプレートメッシュのトポロジ特性を保存するために、微分同相変換の集合上でモデルを訓練する。 Flow Ordinary Differential Equation(ODE)フレームワークのこの新しい実装は、GPUメモリのフットプリントを小さくすることで、数十万の頂点を持つ曲面を生成することができる。 離散分解による位相誤差を低減するために,予測三角形メッシュの多様体性を改善する数値条件を導出する。 CorticalFlowの有用性を示すために,脳皮質表面再構成の課題に対して,その性能を示す。 現在の最先端とは対照的に、CorticalFlowは計算時間を9分半から1秒に短縮しながら優れた曲面を生成する。 より顕著に、CorticalFlowは解剖学的に可塑性表面の生成を強制し、そのような表面再構成法の臨床的関連性を制限する主要な障害となっている。

In this paper we introduce CorticalFlow, a new geometric deep-learning model that, given a 3-dimensional image, learns to deform a reference template towards a targeted object. To conserve the template mesh's topological properties, we train our model over a set of diffeomorphic transformations. This new implementation of a flow Ordinary Differential Equation (ODE) framework benefits from a small GPU memory footprint, allowing the generation of surfaces with several hundred thousand vertices. To reduce topological errors introduced by its discrete resolution, we derive numeric conditions which improve the manifoldness of the predicted triangle mesh. To exhibit the utility of CorticalFlow, we demonstrate its performance for the challenging task of brain cortical surface reconstruction. In contrast to current state-of-the-art, CorticalFlow produces superior surfaces while reducing the computation time from nine and a half minutes to one second. More significantly, CorticalFlow enforces the generation of anatomically plausible surfaces; the absence of which has been a major impediment restricting the clinical relevance of such surface reconstruction methods.
翻訳日:2022-06-07 14:04:35 公開日:2022-06-06
# Bi-SimCut: ニューラルネットワーク翻訳を促進するためのシンプルな戦略

Bi-SimCut: A Simple Strategy for Boosting Neural Machine Translation ( http://arxiv.org/abs/2206.02368v1 )

ライセンス: Link先を確認
Pengzhi Gao, Zhongjun He, Hua Wu, Haifeng Wang(参考訳) ニューラルマシン翻訳(nmt)性能を向上させるための,単純かつ効果的なトレーニング戦略であるbi-simcutを紹介する。 双方向の事前学習と一方向の微調整の2つの手順からなる。 どちらの手順も、オリジナルとカットオフ文ペアの出力分布の一貫性を強制する単純な正規化手法であるSimCutを利用する。 バックトランスレーションによる追加データセットの活用や大規模な事前学習モデルの統合なしに、bi-simcutは5つの翻訳ベンチマーク(データサイズは160kから20.2m)で強力な翻訳性能を実現している。bleuスコアはen -> deで31.16、de ->で38.37、iwslt14データセットで30.78、en ->で35.15、wmt14データセットでenで35.15、zh ->で27.17である。 SimCut は新しい手法ではなく、Cutoff (Shen et al., 2020) の簡易化と NMT への適応版であり、摂動に基づく方法と見なすことができる。 SimCut と Bi-SimCut の普遍性と単純さを考えると、彼らは将来の NMT 研究の強力な基盤となることができると信じている。

We introduce Bi-SimCut: a simple but effective training strategy to boost neural machine translation (NMT) performance. It consists of two procedures: bidirectional pretraining and unidirectional finetuning. Both procedures utilize SimCut, a simple regularization method that forces the consistency between the output distributions of the original and the cutoff sentence pairs. Without leveraging extra dataset via back-translation or integrating large-scale pretrained model, Bi-SimCut achieves strong translation performance across five translation benchmarks (data sizes range from 160K to 20.2M): BLEU scores of 31.16 for en -> de and 38.37 for de -> en on the IWSLT14 dataset, 30.78 for en -> de and 35.15 for de -> en on the WMT14 dataset, and 27.17 for zh -> en on the WMT17 dataset. SimCut is not a new method, but a version of Cutoff (Shen et al., 2020) simplified and adapted for NMT, and it could be considered as a perturbation-based method. Given the universality and simplicity of SimCut and Bi-SimCut, we believe they can serve as strong baselines for future NMT research.
翻訳日:2022-06-07 14:02:38 公開日:2022-06-06
# モデルフリー深部RLを用いたモデルベースRLの適応ロールアウト長

Adaptive Rollout Length for Model-Based RL using Model-Free Deep RL ( http://arxiv.org/abs/2206.02380v1 )

ライセンス: Link先を確認
Abhinav Bhatia, Philip S. Thomas, Shlomo Zilberstein(参考訳) モデルベース強化学習は、将来の相互作用を予測するために環境の中間モデルを学ぶことによって、モデルフリー強化学習と比較して、環境との相互作用が少ないことから最適なポリシーを学ぶことを約束する。 一連の相互作用を予測するとき、予測水平線を制限するロールアウト長は、予測の精度が実際の経験から遠く離れた領域で減少するため、臨界ハイパーパラメータである。 その結果、ロールアウト期間が長いため、長期的には全体的に悪い方針が学習される。 したがって、ハイパーパラメータは品質と効率のトレードオフを提供する。 本研究では,モデルの精度やインタラクションの残りの予算といった学習プロセスからのフィードバックに基づいて,ハイパーパラメータを動的に適応させることにより,環境相互作用の固定予算を与えられたモデルベース強化学習で学習した最終方針を最適化するメタレベル逐次決定問題として,ロールアウト長の調整を行う。 我々はメタレベル決定問題の解法としてモデルフリーの深層強化学習を用い、この手法がよく知られた2つの強化学習環境における共通のヒューリスティックベースラインより優れていることを示す。

Model-based reinforcement learning promises to learn an optimal policy from fewer interactions with the environment compared to model-free reinforcement learning by learning an intermediate model of the environment in order to predict future interactions. When predicting a sequence of interactions, the rollout length, which limits the prediction horizon, is a critical hyperparameter as accuracy of the predictions diminishes in the regions that are further away from real experience. As a result, with a longer rollout length, an overall worse policy is learned in the long run. Thus, the hyperparameter provides a trade-off between quality and efficiency. In this work, we frame the problem of tuning the rollout length as a meta-level sequential decision-making problem that optimizes the final policy learned by model-based reinforcement learning given a fixed budget of environment interactions by adapting the hyperparameter dynamically based on feedback from the learning process, such as accuracy of the model and the remaining budget of interactions. We use model-free deep reinforcement learning to solve the meta-level decision problem and demonstrate that our approach outperforms common heuristic baselines on two well-known reinforcement learning environments.
翻訳日:2022-06-07 14:00:09 公開日:2022-06-06
# グラフ分類の簡易かつ効果的な方法

A Simple yet Effective Method for Graph Classification ( http://arxiv.org/abs/2206.02404v1 )

ライセンス: Link先を確認
Junran Wu, Shangzhe Li, Jianhao Li, Yicheng Pan and Ke Xu(参考訳) ディープニューラルネットワークでは、従来開発された基本モデルの複雑さを増大させることで、よりよい結果が得られることが多い。 しかし、そのようなモデルの複雑さを減らして性能を高める方法があるかどうかは不明である。 直感的には、単純なデータ構造には単純なアルゴリズムが伴う。 本稿では,学習過程を簡素化しつつ,グラフ分類性能の向上の可能性を検討する。 グラフ上の構造的エントロピーに触発されて、データサンプルをグラフからコーディングツリーに変換します。 さらに,木構造に従えば,葉ノードから根ノードへ特徴を伝達する,階層的レポーティング(hierarchical reporting)と呼ばれる新しいメッセージパッシング手法を提案する。 次に木カーネルと畳み込みネットワークを示し、グラフ分類のためのスキームを実装した。 設計されたメッセージパッシングスキームにより、ツリーカーネルと畳み込みネットワークは、weisfeiler-lehmanサブツリーカーネルや他のグラフニューラルネットワークの少なくとも$o(hm)$よりも、実行時の複雑さが低くなる。 本手法をいくつかのグラフ分類ベンチマークを用いて実証的に検証し,性能と計算消費率を比較検討した。

In deep neural networks, better results can often be obtained by increasing the complexity of previously developed basic models. However, it is unclear whether there is a way to boost performance by decreasing the complexity of such models. Intuitively, given a problem, a simpler data structure comes with a simpler algorithm. Here, we investigate the feasibility of improving graph classification performance while simplifying the learning process. Inspired by structural entropy on graphs, we transform the data sample from graphs to coding trees, which is a simpler but essential structure for graph data. Furthermore, we propose a novel message passing scheme, termed hierarchical reporting, in which features are transferred from leaf nodes to root nodes by following the hierarchical structure of coding trees. We then present a tree kernel and a convolutional network to implement our scheme for graph classification. With the designed message passing scheme, the tree kernel and convolutional network have a lower runtime complexity of $O(n)$ than Weisfeiler-Lehman subtree kernel and other graph neural networks of at least $O(hm)$. We empirically validate our methods with several graph classification benchmarks and demonstrate that they achieve better performance and lower computational consumption than competing approaches.
翻訳日:2022-06-07 13:59:48 公開日:2022-06-06
# ハイパーパラメータチューニングのための転送学習に基づく探索空間設計

Transfer Learning based Search Space Design for Hyperparameter Tuning ( http://arxiv.org/abs/2206.02511v1 )

ライセンス: Link先を確認
Yang Li, Yu Shen, Huaijun Jiang, Tianyi Bai, Wentao Zhang, Ce Zhang and Bin Cui(参考訳) 機械学習(ML)モデルがデータマイニングアプリケーションに広く適用されているため、ハイパーパラメータのチューニングはますます重要になる。 ベイズ最適化(BO)は、ハイパーパラメータを自動チューニングする手法として成功している。 従来の手法では、各チューニングタスクを個別に最適化するが、従来のタスク間で知識を伝達することでBOを高速化することに興味がある。 本稿では,過去のタスクの履歴をチューニングし,bo探索空間を自動設計する手法を提案する。 このシンプルで効果的なアプローチは、多くの既存のBOメソッドに伝達学習機能を持たせるために使用できる。 さらに、普遍性、一般性、安全という3つの利点を享受している。 広範にわたる実験により,提案手法は空間全体ではなく,有望でコンパクトな検索空間を設計することによってBOを大幅に向上し,機械学習やディープラーニングチューニングタスク,ニューラルネットワーク検索など,幅広いベンチマークにおいて最先端の検索性能を向上することが示された。

The tuning of hyperparameters becomes increasingly important as machine learning (ML) models have been extensively applied in data mining applications. Among various approaches, Bayesian optimization (BO) is a successful methodology to tune hyper-parameters automatically. While traditional methods optimize each tuning task in isolation, there has been recent interest in speeding up BO by transferring knowledge across previous tasks. In this work, we introduce an automatic method to design the BO search space with the aid of tuning history from past tasks. This simple yet effective approach can be used to endow many existing BO methods with transfer learning capabilities. In addition, it enjoys the three advantages: universality, generality, and safeness. The extensive experiments show that our approach considerably boosts BO by designing a promising and compact search space instead of using the entire space, and outperforms the state-of-the-arts on a wide range of benchmarks, including machine learning and deep learning tuning tasks, and neural architecture search.
翻訳日:2022-06-07 13:57:53 公開日:2022-06-06
# 安全状態強化による安全探査の促進

Enhancing Safe Exploration Using Safety State Augmentation ( http://arxiv.org/abs/2206.02675v1 )

ライセンス: Link先を確認
Aivar Sootla, Alexander I. Cowen-Rivers, Jun Wang, Haitham Bou Ammar(参考訳) 安全探索はモデルフリー強化学習(RL)において困難かつ重要な問題である。 多くの場合、安全コストは希少で不明であり、それは必然的に制約違反につながる -- 安全クリティカルなアプリケーションでは避けられるのが理想的だ。 我々は、制約が満たされた場合に限り、非負である安全状態で状態空間を増強することでこの問題に取り組む。 この状態の値は制約違反への距離としても機能し、初期値は利用可能な安全予算を示している。 このアイデアは、トレーニング中に安全予算をスケジューリングするためのポリシーを導出することを可能にする。 我々は、これらのスケジュールの注意深い性質を反映するため、Simmer (Safe Policy IMproveMEnt for RL) と呼ぶ。 このアイデアは、平均的なコストに制約を課したRLと、確率1のコストに制約を課したRLの2つの安全なRL問題に適用する。 実験の結果,安全なアルゴリズムを浸漬することで,両設定のトレーニング時の安全性が向上することが示唆された。 さらに、Simmerはトレーニングを安定させ、平均的な制約で安全なRLの性能を向上させることができることを示す。

Safe exploration is a challenging and important problem in model-free reinforcement learning (RL). Often the safety cost is sparse and unknown, which unavoidably leads to constraint violations -- a phenomenon ideally to be avoided in safety-critical applications. We tackle this problem by augmenting the state-space with a safety state, which is nonnegative if and only if the constraint is satisfied. The value of this state also serves as a distance toward constraint violation, while its initial value indicates the available safety budget. This idea allows us to derive policies for scheduling the safety budget during training. We call our approach Simmer (Safe policy IMproveMEnt for RL) to reflect the careful nature of these schedules. We apply this idea to two safe RL problems: RL with constraints imposed on an average cost, and RL with constraints imposed on a cost with probability one. Our experiments suggest that simmering a safe algorithm can improve safety during training for both settings. We further show that Simmer can stabilize training and improve the performance of safe RL with average constraints.
翻訳日:2022-06-07 13:57:35 公開日:2022-06-06
# 摂動学習に基づく異常検出

Perturbation Learning Based Anomaly Detection ( http://arxiv.org/abs/2206.02704v1 )

ライセンス: Link先を確認
Jinyu Cai, Jicong Fan(参考訳) 本稿では,単純かつ効果的な異常検出法を提案する。 主なアイデアは、正規データを摂動するために小さな摂動を学習し、正規データと摂動データを2つの異なるクラスに分類する分類器を学ぶことである。 摂動器と分類器はディープニューラルネットワークを用いて共同で学習される。 重要なことは、摂動は可能な限り小さくする必要があるが、分類器は摂動データから摂動データを認識することができる。 したがって、摂動データを異常データとみなし、トレーニングデータに異常データが含まれないが、分類器は正常データと異常データとの判定境界を提供する。 異常検出の最先端技術と比較して、我々の手法は決定境界の形状(例えば超球面)に関する仮定を一切必要とせず、決定するハイパーパラメータが少ない。 ベンチマークデータセットに関する実証的研究により,本手法の有効性と優位性を検証した。

This paper presents a simple yet effective method for anomaly detection. The main idea is to learn small perturbations to perturb normal data and learn a classifier to classify the normal data and the perturbed data into two different classes. The perturbator and classifier are jointly learned using deep neural networks. Importantly, the perturbations should be as small as possible but the classifier is still able to recognize the perturbed data from unperturbed data. Therefore, the perturbed data are regarded as abnormal data and the classifier provides a decision boundary between the normal data and abnormal data, although the training data do not include any abnormal data. Compared with the state-of-the-art of anomaly detection, our method does not require any assumption about the shape (e.g. hypersphere) of the decision boundary and has fewer hyper-parameters to determine. Empirical studies on benchmark datasets verify the effectiveness and superiority of our method.
翻訳日:2022-06-07 13:57:17 公開日:2022-06-06
# モジュール化アーキテクチャは十分か?

Is a Modular Architecture Enough? ( http://arxiv.org/abs/2206.02713v1 )

ライセンス: Link先を確認
Sarthak Mittal, Yoshua Bengio and Guillaume Lajoie(参考訳) 人間の認識からヒントを得た機械学習システムは、徐々にスペーサーとよりモジュラーなアーキテクチャの利点を明らかにしている。 最近の研究は、いくつかのモジュラーアーキテクチャをうまく一般化するだけでなく、より優れた分散の一般化、スケーリング特性、学習速度、解釈可能性をもたらすことを示している。 このようなシステムの成功の背後にある重要な直感は、ほとんどの実世界の設定のためのデータ生成システムは、疎結合な部分で構成されており、同様の帰納的バイアスを持つモデルが有用であるということである。 しかし、これらの実世界のデータ分布は複雑で未知であるため、そのようなシステムの厳密な定量的評価に欠如している。 本研究は,モジュール型データ分散の単純かつ既知のレンズを通して,共通モジュール型アーキテクチャの徹底的な評価を行う。 モジュラリティとスパーシティのメリットを強調し,モジュール化システムを最適化する上で直面する課題に対する洞察を明らかにする。 そこで本研究では,モジュラリティのメリット,これらのメリットが極めて大きい体制,そして,その主張する潜在能力とは対照的に,現在のエンドツーエンドの学習モジュールシステムの準最適性を示す評価指標を提案する。

Inspired from human cognition, machine learning systems are gradually revealing advantages of sparser and more modular architectures. Recent work demonstrates that not only do some modular architectures generalize well, but they also lead to better out-of-distribution generalization, scaling properties, learning speed, and interpretability. A key intuition behind the success of such systems is that the data generating system for most real-world settings is considered to consist of sparsely interacting parts, and endowing models with similar inductive biases will be helpful. However, the field has been lacking in a rigorous quantitative assessment of such systems because these real-world data distributions are complex and unknown. In this work, we provide a thorough assessment of common modular architectures, through the lens of simple and known modular data distributions. We highlight the benefits of modularity and sparsity and reveal insights on the challenges faced while optimizing modular systems. In doing so, we propose evaluation metrics that highlight the benefits of modularity, the regimes in which these benefits are substantial, as well as the sub-optimality of current end-to-end learned modular systems as opposed to their claimed potential.
翻訳日:2022-06-07 13:57:03 公開日:2022-06-06
# Global Mixup: クラスタリングによる曖昧さの排除

Global Mixup: Eliminating Ambiguity with Clustering ( http://arxiv.org/abs/2206.02734v1 )

ライセンス: Link先を確認
Xiangjin Xie and Yangning Li and Wang Chen and Kai Ouyang and Li Jiang and Haitao Zheng(参考訳) 現在のディープニューラルネットワークを正規化するための有効な方法として,‘textbf{Mixup} によるデータ拡張が証明されている。 Mixupは線形補間により仮想サンプルと対応するラベルを同時に生成する。 しかし、この一段階生成パラダイムと線形補間の使用には、(1) 生成したサンプルのラベルは、合理的な判断をすることなく、元のサンプルペアのラベルと直接結合されるため、ラベルは曖昧である可能性が高い。 2) 線形結合はサンプル生成のためのサンプリング空間を大幅に制限する。 そこで本研究では,グローバルクラスタリングに基づく新しい拡張手法である \textbf{global mixup}を提案する。 具体的には,前回の1段階拡張処理を2段階に変換し,ラベリングから仮想サンプルを生成するプロセスを分離する。 また、生成されたサンプルのラベルについては、生成されたサンプルのグローバルな関係を計算してクラスタリングに基づいてラベル付けを行う。 さらに、線形関係に限らず、より大きなサンプリング空間においてより信頼性の高い仮想サンプルを生成する。 5つのタスクにおける \textbf{CNN} 、 \textbf{LSTM} 、 \textbf{BERT} の広範な実験は、Global Mixup が従来の最先端のベースラインを大幅に上回っていることを示している。 さらなる実験では、低リソースシナリオにおけるGlobal Mixupの利点も示している。

Data augmentation with \textbf{Mixup} has been proven an effective method to regularize the current deep neural networks. Mixup generates virtual samples and corresponding labels at once through linear interpolation. However, this one-stage generation paradigm and the use of linear interpolation have the following two defects: (1) The label of the generated sample is directly combined from the labels of the original sample pairs without reasonable judgment, which makes the labels likely to be ambiguous. (2) linear combination significantly limits the sampling space for generating samples. To tackle these problems, we propose a novel and effective augmentation method based on global clustering relationships named \textbf{Global Mixup}. Specifically, we transform the previous one-stage augmentation process into two-stage, decoupling the process of generating virtual samples from the labeling. And for the labels of the generated samples, relabeling is performed based on clustering by calculating the global relationships of the generated samples. In addition, we are no longer limited to linear relationships but generate more reliable virtual samples in a larger sampling space. Extensive experiments for \textbf{CNN}, \textbf{LSTM}, and \textbf{BERT} on five tasks show that Global Mixup significantly outperforms previous state-of-the-art baselines. Further experiments also demonstrate the advantage of Global Mixup in low-resource scenarios.
翻訳日:2022-06-07 13:56:42 公開日:2022-06-06
# (参考訳) 個人化フェデレーション学習のための最適輸送手法

An Optimal Transport Approach to Personalized Federated Learning ( http://arxiv.org/abs/2206.02468v1 )

ライセンス: CC BY-SA 4.0
Farzan Farnia, Amirhossein Reisizadeh, Ramtin Pedarsani, Ali Jadbabaie(参考訳) Federated Learningは分散機械学習のパラダイムであり、多くの分散クライアントのローカルデータを使用してモデルをトレーニングすることを目指している。 連合学習における重要な課題は、クライアントにまたがるデータサンプルが同一に分散されないことだ。 この課題に対処するために,学習モデルを各クライアントのデータ分散に合わせることを目的とした,個人化された連合学習が提案されている。 本稿では,データポイントを共通分布に転送する最適なトランスポートマップと,適用されたトランスポートマップに基づく予測モデルを学ぶための学習アルゴリズムとして,最適トランスポート(FedOT)に基づく新たな個人化学習手法を提案する。 FedOT問題を定式化するために、2つの確率分布間の標準の最適輸送タスクを、複数の分布から共通の確率領域へのサンプルの輸送を目標として、マルチマルジナルな最適輸送問題に拡張する。 次に,FedOT を min-max 最適化問題として定式化し,その一般化と最適化特性について解析する。 フェデレーション学習における不均一なデータ分布下でのFedOTの性能を評価するための数値実験の結果について考察する。

Federated learning is a distributed machine learning paradigm, which aims to train a model using the local data of many distributed clients. A key challenge in federated learning is that the data samples across the clients may not be identically distributed. To address this challenge, personalized federated learning with the goal of tailoring the learned model to the data distribution of every individual client has been proposed. In this paper, we focus on this problem and propose a novel personalized Federated Learning scheme based on Optimal Transport (FedOT) as a learning algorithm that learns the optimal transport maps for transferring data points to a common distribution as well as the prediction model under the applied transport map. To formulate the FedOT problem, we extend the standard optimal transport task between two probability distributions to multi-marginal optimal transport problems with the goal of transporting samples from multiple distributions to a common probability domain. We then leverage the results on multi-marginal optimal transport problems to formulate FedOT as a min-max optimization problem and analyze its generalization and optimization properties. We discuss the results of several numerical experiments to evaluate the performance of FedOT under heterogeneous data distributions in federated learning problems.
翻訳日:2022-06-07 13:54:37 公開日:2022-06-06
# (参考訳) 変圧器ベースアテンションモデルを用いた監視ビデオの異常検出

Anomaly detection in surveillance videos using transformer based attention model ( http://arxiv.org/abs/2206.01524v2 )

ライセンス: CC BY 4.0
Kapil Deshpande, Narinder Singh Punn, Sanjay Kumar Sonbhadra, Sonali Agarwal(参考訳) 監視映像は、さまざまな現実的な異常を捉えることができる。 本研究は,時間を要するトレーニングビデオにおける異常セグメントの注釈付けを避けるために,弱教師付き戦略を用いることを提案する。 このアプローチでは、フレームレベルの異常スコアを得るためにビデオレベルラベルのみを使用する。 弱教師付きビデオ異常検出(WSVAD)は、トレーニングプロセス中に異常および正常な症例の誤識別に悩まされる。 したがって、利用可能なビデオから高品質な特徴を抽出することが重要である。 このモチベーションは,ビデオスウィン機能と呼ばれる高品質なトランスフォーマーベース機能を用いて,拡張畳み込みと自己注意に基づく注意層を用いて,時間領域における長短の依存関係をキャプチャする。 これにより、利用可能なビデオの理解を深めることができます。 提案するフレームワークは,現在の最先端手法よりも競争力のある,実世界のデータセットであるShanghaiTech Campusデータセット上で検証されている。 モデルとコードはhttps://github.com/kapildeshpande/Anomaly-Detection-in-Surveillance-Videosで公開されている。

Surveillance footage can catch a wide range of realistic anomalies. This research suggests using a weakly supervised strategy to avoid annotating anomalous segments in training videos, which is time consuming. In this approach only video level labels are used to obtain frame level anomaly scores. Weakly supervised video anomaly detection (WSVAD) suffers from the wrong identification of abnormal and normal instances during the training process. Therefore it is important to extract better quality features from the available videos. WIth this motivation, the present paper uses better quality transformer-based features named Videoswin Features followed by the attention layer based on dilated convolution and self attention to capture long and short range dependencies in temporal domain. This gives us a better understanding of available videos. The proposed framework is validated on real-world dataset i.e. ShanghaiTech Campus dataset which results in competitive performance than current state-of-the-art methods. The model and the code are available at https://github.com/kapildeshpande/Anomaly-Detection-in-Surveillance-Videos
翻訳日:2022-06-07 11:20:06 公開日:2022-06-06
# ベイズ最適化における混合変数のハイブリッドモデル

Hybrid Models for Mixed Variables in Bayesian Optimization ( http://arxiv.org/abs/2206.01409v2 )

ライセンス: Link先を確認
Hengrui Luo, Younghyun Cho, James W. Demmel, Xiaoye S. Li, Yang Liu(参考訳) ベイズ最適化(bo)文脈における混合変数(例えば、連続変数、整数変数、カテゴリ変数)の同時サロゲートモデリングの問題を体系的に記述する。 我々はモンテカルロ木探索 (MCTS) とガウス過程 (GP) を併用した統合ハイブリッドモデルを提案する。 このアーキテクチャに基づき、非定常カーネルと関連するファミリーを含む共分散カーネルの新しい候補ファミリー間での新しい動的モデル選択基準を適用することを提案する。 モデルの優越性をサポートするために,様々なベンチマーク問題を検討・提示し,boにおける最先端の混合変数法と比較して,提案手法の有効性を強調する結果を得た。

We systematically describe the problem of simultaneous surrogate modeling of mixed variables (i.e., continuous, integer and categorical variables) in the Bayesian optimization (BO) context. We provide a unified hybrid model using both Monte-Carlo tree search (MCTS) and Gaussian processes (GP) that encompasses and generalizes multiple state-of-the-art mixed BO surrogates. Based on the architecture, we propose applying a new dynamic model selection criterion among novel candidate families of covariance kernels, including non-stationary kernels and associated families. Different benchmark problems are studied and presented to support the superiority of our model, along with results highlighting the effectiveness of our method compared to most state-of-the-art mixed-variable methods in BO.
翻訳日:2022-06-07 11:10:03 公開日:2022-06-06