このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220704となっている論文です。

PDF登録状況(公開日: 20220704)

TitleAuthorsAbstract論文公表日・翻訳日
# スピン系の記号対応の漸近的局在と$s^2$の逐次量子化

Asymptotic localization of symbol correspondences for spin systems and sequential quantizations of $S^2$ ( http://arxiv.org/abs/2004.03929v5 )

ライセンス: Link先を確認
P. A. S. Alcantara and P. de M. Rios(参考訳) SU(2)$以下で対称な量子力学系や古典力学系はスピン系と呼ばれる。 $(n+1)$-二乗行列から 2$-球面 S^2 上の函数への$SU(2)$-同変写像は、いくつかの基本的な性質を満たすもので、スピン-$j$記号対応(n = 2j \in \mathbb{N}$)と呼ばれる。 スピン-$j$記号対応が与えられると、行列代数は記号のねじれた$j$-代数を誘導する。 本稿の前半では、$S^2$ 上の滑らかな函数のポアソン代数が、ねじれた$j$-代数列から漸近的に (n \to \infty$) 現れるときのより直感的な基準を確立する。 このより幾何学的な基準は、多くの場合、(反)ポアソン型の記号対応列を記述するために[20]で得られる数値的基準と等価であり、現在では、ある族における全ての射影(量子純状態)の記号の古典的(漸近的)局所化によって与えられる。 いくつかの重要な記号対応列に対して、そのような古典的局所化条件はポアソン代数の漸近的出現と同値である。 しかし、一般に古典的なローカライゼーション条件はポアソンの出現よりも強い。 したがって、射影記号の漸近的局在の弱い概念も考慮する。 本論文の第2部では、(反)ポアソン型の記号対応の各列に対して、$s^2$ 上の滑らかな函数の逐次量子化とその基底ヒルベルト空間に作用する漸近作用素を定義する。 そして,これらの構成の具体例を提示した結果,記号対応列の漸近的局在と$s^2$ 上の滑らかな関数の逐次量子化の漸近性との関係を得た。

Quantum or classical mechanical systems symmetric under $SU(2)$ are called spin systems. A $SU(2)$-equivariant map from $(n+1)$-square matrices to functions on the $2$-sphere S^2, satisfying some basic properties, is called a spin-$j$ symbol correspondence ($n = 2j \in \mathbb{N}$). Given a spin-$j$ symbol correspondence, the matrix algebra induces a twisted $j$-algebra of symbols. In the first part of this paper, we establish a more intuitive criterion for when the Poisson algebra of smooth functions on $S^2$ emerges asymptotically ($n \to \infty$) from the sequence of twisted $j$-algebras. This more geometric criterion, which in many cases is equivalent to the numerical criterion obtained in [20] for describing symbol correspondence sequences of (anti-)Poisson type, is now given in terms of a classical (asymptotic) localization of symbols of all projectors (quantum pure states) in a certain family. For some important kinds of symbol correspondence sequences, such a classical localization condition is equivalent to asymptotic emergence of the Poisson algebra. But in general, the classical localization condition is stronger than Poisson emergence. We thus also consider some weaker notions of asymptotic localization of projector-symbols. In the second part of this paper, for each sequence of symbol correspondences of (anti-)Poisson type, we define the sequential quantization of a smooth function on $S^2$ and its asymptotic operator acting on a ground Hilbert space. Then, after presenting some concrete examples of these constructions, we obtain some relations between asymptotic localization of a symbol correspondence sequence and the asymptotics of its sequential quantization of smooth functions on $S^2$.
翻訳日:2023-05-25 11:42:04 公開日:2022-07-04
# SARS-CoV-2、プライバシーの脅威?

SARS-CoV-2, a Threat to Privacy? ( http://arxiv.org/abs/2004.10305v2 )

ライセンス: Link先を確認
Tim Daubenschuetz, Oksana Kulyk, Stephan Neumann, Isabella Hinterleitner, Paula Ramos Delgado, Carmen Hoffmann, Florian Scheible(参考訳) 世界的なSARS-CoV-2パンデミックは、世界の重要なインフラに大きな負担をかけている。 医療システムやインターネットサービスプロバイダがすでに信頼性の高いサービスを提供するのに苦労しているため、一部のオペレーターは、ウイルスと戦う際のシステムの効率を高めるためのプライバシー保護策を意図的に、あるいは意図せずに実施することができる。 また、この危機と闘う上での権威主義国家の効力を見極めたいと考える向きもあるが、本論文の著者である我々は、基本的人権を制限することなく、危機と闘うためのより効果的な手段の開発に対するコミュニティの意識を高めたいと願っている。 現状を分析するため、企業や政府が確立したプライバシー研究を駆使して、ウイルスを非難する措置について検討・評価する。

The global SARS-CoV-2 pandemic is currently putting a massive strain on the world's critical infrastructures. With healthcare systems and internet service providers already struggling to provide reliable service, some operators may, intentionally or unintentionally, lever out privacy-protecting measures to increase their system's efficiency in fighting the virus. Moreover, though it may seem all encouraging to see the effectiveness of authoritarian states in battling the crisis, we, the authors of this paper, would like to raise the community's awareness towards developing more effective means in battling the crisis without the need to limit fundamental human rights. To analyze the current situation, we are discussing and evaluating the steps corporations and governments are taking to condemn the virus by applying established privacy research.
翻訳日:2023-05-22 20:30:40 公開日:2022-07-04
# アジャイル(データ)科学:(ドラフト)マニフェスト

Agile (data) science: a (draft) manifesto ( http://arxiv.org/abs/2104.12545v3 )

ライセンス: Link先を確認
Juan Juli\'an Merelo-Guerv\'os, Mario Garc\'ia-Valdez(参考訳) 科学にはデータ管理の問題とプロジェクト管理の問題があります。 産業レベルのデータサイエンスチームは、アジャイルマインドセットを採用し、再現可能なワークフローを作るためのあらゆる種類のツールを採用または作成したが、学術ベースの科学は、(主に)単一の最終製品(紙)に焦点を絞ったマインドセットで、漸進的な改善、特定の問題や顧客、注意を払って、再現性に重点を置いている。 このレポートでは、学界におけるアジャイルマインドセットとアジャイルデータサイエンスツールの採用を議論し、より責任を負い、何よりも再現可能な科学を創出します。

Science has a data management problem, as well as a project management problem. While industrial-grade data science teams have embraced the agile mindset, and adopted or created all kind of tools to create reproducible workflows, academia-based science is still (mostly) mired in a mindset that is focused on a single final product (a paper), without focusing on incremental improvement, on any specific problem or customer, or, paying any attention reproducibility. In this report we argue towards the adoption of the agile mindset and agile data science tools in academia, to make a more responsible, and over all, reproducible science.
翻訳日:2023-04-04 07:25:49 公開日:2022-07-04
# 希ガス固体マトリックス中のルビジウム原子の分光:実験結果と理論的解析

Spectroscopy of Rubidium atoms in solid matrices of rare gases: experimental results and theoretical analysis ( http://arxiv.org/abs/2105.05276v3 )

ライセンス: Link先を確認
Caterina Braggio, Roberto Calabrese, Giovanni Carugno, Giuseppe Fiscelli, Marco Guarise, Alen Khanbekyan, Antonio Noto, Roberto Passante, Lucia Rizzuto, Giuseppe Ruoso, Luca Tomassetti(参考訳) 本研究では, 低温における不活性ガスの固体マトリックス中の希薄アルカリ原子の分光, 特に固体アルゴンまたはネオンマトリックス中のルビジウム原子の分光と, アルカリ原子と固体マトリックスの原子との相互作用エネルギーの関連性について実験的および理論的研究を行った。 この系は行列分離分光法に関係があり、近年提案された宇宙軸索検出器の基礎であり、MeV領域に仮定した磁束に調整された磁場中のアルカリ原子のゼーマン準位間の磁気タイプ遷移を利用する。 アクシオン(英: Axions)は、宇宙のダークマター (DM) を構成すると考えられている成分の1つである。 この種の分光法は、標準モデルを超えた新しい物理学の実験的探索、特に時間反転あるいはパリティ電荷共役(CP)対称性の破れの探索にも有効である。 アルカリドープ固体行列における軸誘起遷移を効率的に解くためには、電子遷移のスペクトル線幅を可能な限り削減する必要がある。 本研究は,アルカリ-マトリックス間相互作用(クーロン/交換および分散)による線幅への不均一寄与の大きさを推定し,アルゴンおよびネオン固体マトリックス中の希薄ルビジウム原子のスペクトルを実験的に測定した結果と比較することを目的とした。 提案手法で使用するアルカリ原子とマトリックス不活性元素の最も適切な組み合わせを選択するには, 期待または測定されたスペクトル線幅の比較が重要である。 冷水パラ水素固体マトリックス中に拡散した希薄なリチウム原子は、全体としては、提案された検出器を基盤とする良い系であることが示唆された。

We present an experimental and theoretical investigation of the spectroscopy of dilute alkali atoms in a solid matrix of inert gases at cryogenic temperatures, specifically Rubidium atoms in a solid Argon or Neon matrix, and related aspects of the interaction energies between the alkali atoms and the atoms of the solid matrix. The system considered is relevant for matrix isolation spectroscopy, and it is at the basis of a recently proposed detector of cosmological axions, exploiting magnetic-type transitions between Zeeman sublevels of alkali atoms in a magnetic field, tuned to the axion mass, assumed in the meV range. Axions are one of the supposed constituents of the dark matter (DM) of the Universe. This kind of spectroscopy could be also relevant for the experimental search of new physics beyond the Standard Model, in particular the search of violations of time-reversal or parity-charge-conjugation (CP) symmetry. In order to efficiently resolve the axion-induced transition in alkali-doped solid matrices, it is necessary to reduce as much as possible the spectral linewidth of the electronic transitions involved. The theoretical investigation presented in this paper aims to estimate the order of magnitude of the inhomogeneous contribution to the linewidth due to the alkali--matrix interactions (Coulomb/exchange and dispersion), and to compare the theoretical results with our experimental measurements of spectra of dilute Rubidium atoms in Argon and Neon solid matrix. The comparison of the expected or measured spectral linewidths will be important for selecting the most appropriate combination of alkali atoms and matrix inert elements to be used in the proposed axion detection scheme. It is finally suggested that dilute Lithium atoms diffused in a cold parahydrogen solid matrix could be, overall, a good system upon which the proposed detector could be based.
翻訳日:2023-03-31 20:48:04 公開日:2022-07-04
# 爆発性乱流構造に対する量子的アプローチ

A Quantum Inspired Approach to Exploit Turbulence Structures ( http://arxiv.org/abs/2106.05782v3 )

ライセンス: Link先を確認
Nikita Gourianov, Michael Lubasch, Sergey Dolgov, Quincy Y. van den Berg, Hessam Babaee, Peyman Givi, Martin Kiffner, Dieter Jaksch(参考訳) 乱流を理解することは、多くの自然および技術フロープロセスを理解するための鍵です。 この現象の核心には複雑な多スケールの性質があり、空間と時間における異なるサイズの渦の結合を記述する。 本稿では, 量子多体物理学に触発された手法を用いて, 異なる長さスケール間の相関を定量化し, 乱流構造を解析するための新しいパラダイムを提案する。 本論文は,2つのパラダイム的流れの例のスケール間相関に関する結果を示し,これらの知見とテンソルネットワーク理論を用いて乱流をシミュレートする構造解決アルゴリズムを設計する。 このアルゴリズムにより,非圧縮性ナビエ・ストークス方程式は直接数値シミュレーションに比べて1桁以上小さくなる計算空間内で正確に解けることがわかった。 量子インスパイアされたアプローチは、量子コンピュータ上で計算流体力学を実行するための経路を提供する。

Understanding turbulence is the key to our comprehension of many natural and technological flow processes. At the heart of this phenomenon lies its intricate multi-scale nature, describing the coupling between different-sized eddies in space and time. Here we introduce a new paradigm for analyzing the structure of turbulent flows by quantifying correlations between different length scales using methods inspired from quantum many-body physics. We present results for interscale correlations of two paradigmatic flow examples, and use these insights along with tensor network theory to design a structure-resolving algorithm for simulating turbulent flows. With this algorithm, we find that the incompressible Navier-Stokes equations can be accurately solved within a computational space reduced by over an order of magnitude compared to direct numerical simulation. Our quantum-inspired approach provides a pathway towards conducting computational fluid dynamics on quantum computers.
翻訳日:2023-03-27 02:01:19 公開日:2022-07-04
# 雑音中規模量子計算における分割・分割検証法

Divide-and-conquer verification method for noisy intermediate-scale quantum computation ( http://arxiv.org/abs/2109.14928v3 )

ライセンス: Link先を確認
Yuki Takeuchi, Yasuhiro Takahashi, Tomoyuki Morimae, Seiichiro Tani(参考訳) いくつかのノイズの多い中間スケール量子計算はスパース量子コンピューティングチップ上の対数深さ量子回路と見なすことができ、そこでは2量子ビットゲートはいくつかの量子ビットにのみ直接適用できる。 本稿では,このようなノイズの多い中間スケール量子計算を効率よく検証する手法を提案する。 この目的のために、ダイヤモンドノルムに関する小規模量子演算を最初に特徴付ける。 次に、これらの量子演算を用いて、雑音中規模量子計算から得られる実際の$n$-量子ビット出力状態$\hat{\rho}_{\rm out}$と理想出力状態(すなわち目標状態)$|\psi_t\rangle$との忠実度$\langle\psi_t|\hat{\rho}_{\rmout}|\psi_t\rangle$を推定する。 直接忠実度推定法は$O(2^n)$ copy of $\hat{\rho}_{\rm out}$平均では$O(D^32^{12D})$ copyしか必要としないが、最悪の場合であっても$D$は$|\psi_t\rangle$の密度である。 スパースチップ上の対数深さ量子回路の場合、$D$は最大$O(\log{n})$であり、従って$O(D^32^{12D})$は$n$の多項式である。 また,IBM Manila 5-qubitチップを用いて,本手法の実用性能を実証する実証実験を行った。

Several noisy intermediate-scale quantum computations can be regarded as logarithmic-depth quantum circuits on a sparse quantum computing chip, where two-qubit gates can be directly applied on only some pairs of qubits. In this paper, we propose a method to efficiently verify such noisy intermediate-scale quantum computation. To this end, we first characterize small-scale quantum operations with respect to the diamond norm. Then by using these characterized quantum operations, we estimate the fidelity $\langle\psi_t|\hat{\rho}_{\rm out}|\psi_t\rangle$ between an actual $n$-qubit output state $\hat{\rho}_{\rm out}$ obtained from the noisy intermediate-scale quantum computation and the ideal output state (i.e., the target state) $|\psi_t\rangle$. Although the direct fidelity estimation method requires $O(2^n)$ copies of $\hat{\rho}_{\rm out}$ on average, our method requires only $O(D^32^{12D})$ copies even in the worst case, where $D$ is the denseness of $|\psi_t\rangle$. For logarithmic-depth quantum circuits on a sparse chip, $D$ is at most $O(\log{n})$, and thus $O(D^32^{12D})$ is a polynomial in $n$. By using the IBM Manila 5-qubit chip, we also perform a proof-of-principle experiment to observe the practical performance of our method.
翻訳日:2023-03-12 23:19:45 公開日:2022-07-04
# ボース-アインシュタイン凝縮体間の量子非破壊測定誘起絡み合いにおけるデコヒーレンス効果

Decoherence effects in quantum nondemolition measurement induced entanglement between Bose-Einstein condensates ( http://arxiv.org/abs/2110.08990v2 )

ライセンス: Link先を確認
Shuai Gao, Ebubechukwu O. Ilo-Okeke, Yuping Mao, Manikandan Kondappan, Juan E. Aristizabal-Zuluaga, Valentin Ivannikov, and Tim Byrnes(参考訳) 本研究では, ボース・アインシュタイン凝縮体(BEC)間の量子非退化(QND)測定による絡み合いについて検討した。 我々は、2つのBECをマッハ・ツェンダー干渉計の経路に配置し、QND相互作用によってコヒーレント光と原子の絡み合いが生じる実験計画を考える。 このスキームによって生じる絡み合った状態における2つの支配的なデコヒーレンス、原子デファス、および光子損失を解析する。 本研究では,スピン演算子の分散と期待値,絡み合い,相関基準に対する重み付けの影響を計算する。 解析ではホルシュタイン-プリマコフ近似は使用せず、長い光と原子の相互作用時間をモデル化し、2モードの圧縮状態を超える非ガウス状態を生成することができる。 強調の存在下では、無次元相互作用時間は 1/\sqrt{n}$ 以下である限り、エンタングル状態はマクロ的極限において頑健であり、ここで $ n $ はbec内の原子数である。 光子損失の場合、長い相互作用時間によって生じる絡み合った状態は驚くべき強固さを示し、様々な量子情報応用に有望である。

We study the robustness of quantum nondemolition (QND) measurement-induced entanglement between Bose-Einstein Condensates (BECs). We consider an experimental scheme where two BECs are placed in the paths of a Mach-Zehnder interferometer, and a QND interaction creates entanglement between coherent light and the atoms. We analyze the two dominant channels of decoherence, atomic dephasing and photon loss on the entangled states produced by this scheme. We calculate the effect of dephasing on the variance and expectation values of the spin operators, entanglement, and correlation criteria. Our analysis does not use the Holstein-Primakoff approximation and is capable of modeling long light-atom interaction times, producing non-Gaussian states beyond the two-mode squeezed states. In the presence of dephasing, the entangled states are robust in the macroscopic limit as long as the dimensionless interaction time is less than $ 1/\sqrt{N}$, where $ N $ is the number of atoms in the BEC. For photon loss, the entangled states generated by long interaction times show remarkable robustness that makes the scheme promising for various quantum information applications.
翻訳日:2023-03-11 04:26:32 公開日:2022-07-04
# ハイブリッド量子古典波動関数の進化

Evolution of hybrid quantum-classical wavefunctions ( http://arxiv.org/abs/2112.12144v2 )

ライセンス: Link先を確認
Fran\c{c}ois Gay-Balmaz, Cesare Tronci(参考訳) ハイブリッド量子古典系の力学に対するゲージ不変波動方程式は、連続体理論におけるラグランジュ経路の変分設定と古典力学におけるクープマン波動関数を組み合わせることによって定式化される。 古典位相空間における観測不能な位相因子を持つゲージ変換を同定し、著者らが以前に提案したハイブリッド波動方程式に基づく変分原理におけるゲージ不変性を導入する。 元の構成は正定値の量子密度行列を保証しているが、現在のモデルは古典的リウヴィル密度と同じ性質を保証している。 適切な波動関数分解の後、ゲージ不変性は、クープマン波動関数のマドルング変換によって得られる古典ラグランジアンパスに頼って達成される。 ベリー接続の位相空間類似物が現れるため、新しいハイブリッド波動方程式は非常に非線形であり、量子古典力学のさらなる発展のためのプラットフォームとして提案されている。 実際、関連するモデルはハミルトニアンであり、量子密度と古典密度の正の超越した一連の整合性を保証する最初のものである。 例えば、このモデルは量子古典的なポアンカーの積分不変量を持ち、その特別な場合には化学物理学の平均場モデルとエレンフェストモデルの両方が含まれる。

A gauge-invariant wave equation for the dynamics of hybrid quantum-classical systems is formulated by combining the variational setting of Lagrangian paths in continuum theories with Koopman wavefunctions in classical mechanics. We identify gauge transformations with unobservable phase factors in the classical phase-space and we introduce gauge invariance in the variational principle underlying a hybrid wave equation previously proposed by the authors. While the original construction ensures a positive-definite quantum density matrix, the present model also guarantees the same property for the classical Liouville density. After a suitable wavefunction factorization, gauge invariance is achieved by resorting to the classical Lagrangian paths made available by the Madelung transform of Koopman wavefunctions. Due to the appearance of a phase-space analogue of the Berry connection, the new hybrid wave equation is highly nonlinear and it is proposed here as a platform for further developments in quantum-classical dynamics. Indeed, the associated model is Hamiltonian and appears to be the first to ensure a series of consistency properties beyond positivity of quantum and classical densities. For example, the model possesses a quantum-classical Poincar\'e integral invariant and its special cases include both the mean-field model and the Ehrenfest model from chemical physics.
翻訳日:2023-03-03 20:06:33 公開日:2022-07-04
# 非周期光時計の統計時間領域特性

Statistical time-domain characterization of non-periodic optical clocks ( http://arxiv.org/abs/2201.06548v2 )

ライセンス: Link先を確認
Dario Cilluffo(参考訳) 測定時間とは、周期現象の発生を数えることである。 過去数世紀にわたって、安定で正確な発振器をクロックレギュレータとして使用するために大きな努力がなされた。 ここでは,確率的クリック処理に基づいて異なるクロッククラスを考える。 このような装置の性能を研究するための厳密な統計枠組みを提供し、光検出下でコヒーレント駆動の2レベル原子を非周期時計の極端な例として適用する。 量子ジャンプモンテカルロシミュレーションと光子計数待ち時間分布は、主な結果について独立したチェックを提供する。

Measuring time means counting the occurrence of periodic phenomena. Over the past centuries a major effort was put to make stable and precise oscillators to be used as clock regulators. Here we consider a different class of clocks based on stochastic clicking processes. We provide a rigorous statistical framework to study the performances of such devices and apply our results to a single coherently driven two-level atom under photodetection as an extreme example of non-periodic clock. Quantum Jump MonteCarlo simulations and photon counting waiting time distribution will provide independent checks on the main results.
翻訳日:2023-02-28 22:36:32 公開日:2022-07-04
# 一次元におけるコールドボソンからの人工原子

Artificial atoms from cold bosons in one dimension ( http://arxiv.org/abs/2201.13293v2 )

ライセンス: Link先を確認
Fabian Brauneis, Timothy G Backert, Simeon I Mistakidis, Mikhail Lemeshko, Hans-Werner Hammer, Artem G Volosniev(参考訳) 弱反発1次元ボソンのゼロレンジ不純物ポテンシャルの存在下での基底状態特性について検討した。 まず、2つの漸近ケースに対する有限環上の問題に対する平均場解を導出する。 (i)すべてのボソンが不純物に縛られ、 (ii)全てのボソンが散乱状態にある。 さらに、パラメータ空間内でこれらのレジームを分離する臨界線を導出する。 熱力学的限界において、この臨界線は不純物ポテンシャルによって束縛されるボソンの最大数を決定し、人工原子を形成する。 第2に, 流動方程式法および原子混合物に対する多層多層時間依存Hartree法を用いて平均場結果を検証する。 平均場外効果はボースガスの長距離秩序を破壊するが、臨界ボソン数は影響を受けない。 本研究は,低密度ボースガス中の人工原子を静的・移動的不純物で理解する上で重要である。

We investigate the ground-state properties of weakly repulsive one-dimensional bosons in the presence of an attractive zero-range impurity potential. First, we derive mean-field solutions to the problem on a finite ring for the two asymptotic cases: (i) all bosons are bound to the impurity and (ii) all bosons are in a scattering state. Moreover, we derive the critical line that separates these regimes in the parameter space. In the thermodynamic limit, this critical line determines the maximum number of bosons that can be bound by the impurity potential, forming an artificial atom. Second, we validate the mean-field results using the flow equation approach and the multi-layer multi-configuration time-dependent Hartree method for atomic mixtures. While beyond-mean-field effects destroy long-range order in the Bose gas, the critical boson number is unaffected. Our findings are important for understanding such artificial atoms in low-density Bose gases with static and mobile impurities.
翻訳日:2023-02-27 05:23:46 公開日:2022-07-04
# dihedral coset問題を持つnisqデバイスのための量子計算能力検証プロトコル

Quantum computation capability verification protocol for NISQ devices with dihedral coset problem ( http://arxiv.org/abs/2202.06984v3 )

ライセンス: Link先を確認
Ruge Lin and Weiqiang Wen(参考訳) 本稿では,一方の当事者(検証者)が,他方の(証明者)デバイスの量子計算能力を一方の量子チャネルを介して検証するために,量子コンピュータを保持するための対話プロトコルを提案する。 このプロトコルは、dihedral coset problem (dcp) challengeと呼ばれる。 検証者は秘密を符号化する量子状態(DCPサンプル)を作成し、証明者に送信する必要がある。 証明者はそれらの秘密をある程度の精度で回収する。 数値シミュレーションは、この精度が量子ハードウェアの誤差に敏感であることを示した。 さらに、DCPチャレンジは、局所完全連結(LFC)量子アーキテクチャのベンチマークプロトコルとして機能し、現在および近未来の量子リソース上で実行することを目指している。 我々はIBM Qデバイスの1つで4量子ビット実験を行う。

In this article, we propose an interactive protocol for one party (the verifier) holding a quantum computer to verify the quantum computation power of another party's (the prover) device via a one-way quantum channel. This protocol is referred to as the dihedral coset problem (DCP) challenge. The verifier needs to prepare quantum states encoding secrets (DCP samples) and send them to the prover. The prover is then tasked with recovering those secrets with a certain accuracy. Numerical simulation demonstrates that this accuracy is sensitive to errors in quantum hardware. Additionally, the DCP challenge serves as benchmarking protocol for locally fully connected (LFC) quantum architecture and aims to be performed on current and near-future quantum resources. We conduct a 4-qubit experiment on one of IBM Q devices.
翻訳日:2023-02-25 20:49:27 公開日:2022-07-04
# オルソシリケート {\mathrm{^{167}er}$-doped yttrium orthosiliate} を用いたマイクロ波と光子間の変換の提案

Proposal for transduction between microwave and optical photons using $\mathrm{^{167}Er}$-doped yttrium orthosilicate ( http://arxiv.org/abs/2202.08770v2 )

ライセンス: Link先を確認
Faezeh Kimiaee Asadi, Jia-Wei Ji, Christoph Simon(参考訳) 光とマイクロ波の量子信号を相互に可逆的に変換する効率的なトランスダクション装置は、異なる技術を統合する上で不可欠である。 固体中の希土類イオン、特にエルビウムイオンは、光とマイクロ波の対応可能な遷移が、トランスデューサの設計に有望な候補である。 我々は,yttrium orthosilicate (yso) にドープした$\mathrm{^{167}er}$の暗黒状態プロトコルに基づくマイクロ波-光量子トランスデューサスキームを提案する。 ゼロフィールド動作は、磁場の余分な損失を引き起こす超伝導共振器にとって有益である。 トランスデューサの忠実度と効率を計算し、最も重要な不完全性を考えると、効率の良い変換は高い忠実度で可能であることを示す。 また、トランスデューサプロトコルに使用できる$\mathrm{^{167}Er}$:YSOのマイクロ波遷移についても検討する。

Efficient transduction devices that reversibly convert optical and microwave quantum signals into each other are essential for integrating different technologies. Rare-earth ions in solids, and in particular Erbium ions, with both optical and microwave addressable transitions are promising candidates for designing transducers. We propose a microwave-to-optical quantum transducer scheme based on the dark state protocol in $\mathrm{^{167}Er}$ doped into yttrium orthosilicate (YSO) at zero external magnetic fields. Zero-field operation is beneficial for superconducting resonators that can incur extra losses in magnetic fields. By calculating the fidelity and efficiency of the transducer, considering the most important imperfections, we show that an efficient conversion is possible with a high fidelity. We also investigate the microwave transitions of $\mathrm{^{167}Er}$:YSO that can be used for the transducer protocol.
翻訳日:2023-02-25 12:38:15 公開日:2022-07-04
# 双方向マルチモーダル最適化における滑らかなナビゲータブル近似集合の獲得

Obtaining Smoothly Navigable Approximation Sets in Bi-Objective Multi-Modal Optimization ( http://arxiv.org/abs/2203.09214v3 )

ライセンス: Link先を確認
Renzo J. Scholman, Anton Bouter, Leah R.M. Dickhoff, Tanja Alderliesten, Peter A.N. Bosman(参考訳) MMOEA (Multi-modal Multi-Objective Evolutionary Algorithm) が、マルチモーダル多目的最適化問題 (MMOP) の局所最適近似集合全体に適切に分散した解を見つけるよう設計されているとしても、ソリューションの集合が様々なニッチに属するため、滑らかにナビゲートできないリスクがあり、意思決定者に対する洞察が低下する。 この問題を解決するために、Multi-Modal B\'ezier Evolutionary Algorithm (MM-BezEA) が提案されている。 MM-BezEAは、最近導入されたBezEAとMO-HillVallEAの背景にある概念を組み合わせて、全ての局所最適近似集合を見つける。 MMOEAs MO_Ring_PSO_SCD と MO-HillVallEA を線形パレート集合を持つMMOP上でベンチマークすると,MM-BezEA は最高のハイパーボリュームで最高の性能を示すことがわかった。

Even if a Multi-modal Multi-Objective Evolutionary Algorithm (MMOEA) is designed to find solutions well spread over all locally optimal approximation sets of a Multi-modal Multi-objective Optimization Problem (MMOP), there is a risk that the found set of solutions is not smoothly navigable because the solutions belong to various niches, reducing the insight for decision makers. To tackle this issue, a new MMOEAs is proposed: the Multi-Modal B\'ezier Evolutionary Algorithm (MM-BezEA), which produces approximation sets that cover individual niches and exhibit inherent decision-space smoothness as they are parameterized by B\'ezier curves. MM-BezEA combines the concepts behind the recently introduced BezEA and MO-HillVallEA to find all locally optimal approximation sets. When benchmarked against the MMOEAs MO_Ring_PSO_SCD and MO-HillVallEA on MMOPs with linear Pareto sets, MM-BezEA was found to perform best in terms of best hypervolume.
翻訳日:2023-02-21 21:01:36 公開日:2022-07-04
# ドメイン非依存の認識:定義・分類・言語学の議論

Domain-Independent Deception: Definition, Taxonomy and the Linguistic Cues Debate ( http://arxiv.org/abs/2207.01738v1 )

ライセンス: Link先を確認
Rakesh M. Verma, Nachum Dershowitz, Victor Zeng, Xuting Liu(参考訳) インターネットベースの経済と社会は詐欺攻撃で溺死している。 これらの攻撃には、フェイクニュース、フィッシング、ジョブ詐欺など多くの形態があり、「詐欺のドメイン」と呼ばれている。 機械学習と自然言語処理の研究者は、ドメイン固有の検出器を設計することで、この厄介な状況を改善することを試みている。 ドメインに依存しないデセプションを考える最近の研究はごくわずかである。 これらの異なる研究のスレッドを収集し、4次元に沿ったドメイン非依存の詐欺を調査する。 まず, 偽りの新しい計算的定義を提供し, 確率論を用いて形式化する。 第二に、偽りを新しい分類に分解する。 第3に,体系的レビューのための偽りと供給ガイドラインに関する言語的手がかりに関する議論を分析する。 第4に、ドメイン非依存なデセプション検出のための証拠と提案をいくつか提示する。

Internet-based economies and societies are drowning in deceptive attacks. These attacks take many forms, such as fake news, phishing, and job scams, which we call "domains of deception." Machine-learning and natural-language-processing researchers have been attempting to ameliorate this precarious situation by designing domain-specific detectors. Only a few recent works have considered domain-independent deception. We collect these disparate threads of research and investigate domain-independent deception along four dimensions. First, we provide a new computational definition of deception and formalize it using probability theory. Second, we break down deception into a new taxonomy. Third, we analyze the debate on linguistic cues for deception and supply guidelines for systematic reviews. Fourth, we provide some evidence and some suggestions for domain-independent deception detection.
翻訳日:2023-02-19 09:42:57 公開日:2022-07-04
# 経路戦略が都市排出に及ぼす影響

How Routing Strategies Impact Urban Emissions ( http://arxiv.org/abs/2207.01456v1 )

ライセンス: Link先を確認
Giuliano Cornacchia, Matteo B\"ohm, Giovanni Mauro, Mirco Nanni, Dino Pedreschi, Luca Pappalardo(参考訳) ナビゲーションアプリはルーティングアルゴリズムを使用して、ユーザの所望の目的地に到達するための最善の経路を提案する。 ナビゲーションアプリが都市環境に与える影響(二酸化炭素の排出や汚染への人口の曝露など)は、まだほとんど分かっていない。 本研究では,都市環境における二酸化炭素排出量に対するルーティングアルゴリズムの効果を評価するためのシミュレーションフレームワークを設計する。 TomTomとOpenStreetMapのAPIを使用して、すべての車両またはそれらがナビゲーションアプリの提案に従わない設定が、CO2排出量の面で最悪の影響をもたらすことを発見した。 対照的に、車両の一部(約半分)がこれらの提案に従い、残りの車両の経路にある程度のランダム性を加えると、道路網上のCO2排出量の削減が観察される。 私たちの仕事は、個々のニーズを満足しながら、都市の幸福を増すような次世代のルーティング原則を設計するための第一歩です。

Navigation apps use routing algorithms to suggest the best path to reach a user's desired destination. Although undoubtedly useful, navigation apps' impact on the urban environment (e.g., carbon dioxide emissions and population exposure to pollution) is still largely unclear. In this work, we design a simulation framework to assess the impact of routing algorithms on carbon dioxide emissions within an urban environment. Using APIs from TomTom and OpenStreetMap, we find that settings in which either all vehicles or none of them follow a navigation app's suggestion lead to the worst impact in terms of CO2 emissions. In contrast, when just a portion (around half) of vehicles follow these suggestions, and some degree of randomness is added to the remaining vehicles' paths, we observe a reduction in the overall CO2 emissions over the road network. Our work is a first step towards designing next-generation routing principles that may increase urban well-being while satisfying individual needs.
翻訳日:2023-02-19 09:37:41 公開日:2022-07-04
# シンガポールにおける公共交通(in)アクセス性と土地利用パターンの分析

Analysis of public transport (in)accessibility and land-use pattern in different areas in Singapore ( http://arxiv.org/abs/2207.01445v1 )

ライセンス: Link先を確認
Hoai Nguyen Huynh(参考訳) 世界中の都市化が進むにつれて、アメニティやサービスに対する信頼性の高いアクセシビリティが持続可能な開発において重要な役割を果たしている。 この問題を解決する上での課題の1つは、都市全体の住民の輸送を含む公共サービスの一貫性と平等な提供である。 本研究では, 幾何学的解析と情報理論的測度を組み合わせた新しい計算手法を用いて, 公共交通機関へのアクセシビリティを, 交通ノード(ストップ)の空間的カバレッジとこれらのノードにおけるサービス品質の観点から分析する。 さらに,ネットワーククラスタリング手法を用いて,これらの地域の土地利用パターンを特徴付け,それを公共交通機関のアクセシビリティに関連付ける。 シンガポールを事例として,cbd地域の商業地は良好なアクセシビリティを期待でき,住宅地も優れたアクセシビリティを有することがわかった。 しかし、全ての住宅地が等しくアクセス可能であるわけではない。 これらの地域での停留所の空間的範囲は非常に良いが、サービス品質は異なる地域間でかなりの変化を示しており、中央地域と東部地域は、州西部と北部の他の地域と比べて対照的である。 この種の分析は、現在の都市システムにおける公共交通サービスのレベルをよく理解し、それらの格差は、将来の開発計画に価値があり実用的な洞察をもたらすだろうと信じています。

As more and more people continue to live in highly urbanised areas across the globe, reliable accessibility to amenities and services plays a vital role in sustainable development. One of the challenges in addressing this issue is the consistent and equal provision of public services, including transport for residents across the urban system. In this study, using a novel computational method combining geometrical analysis and information-theoretic measures, we analyse the accessibility to public transport in terms of the spatial coverage of the transport nodes (stops) and the quality of service at these nodes across different areas. Furthermore, using a network clustering procedure, we also characterise the land-use pattern of those areas and relate that to their public transport accessibility. Using Singapore as a case study, we find that the commercial areas in the CBD area expectedly have excellent accessibility and the residential areas also have good to very good accessibility. However, not every residential area is equally accessible. While the spatial coverage of stops in these areas is very good, the quality of service indicates substantial variation among different regions, with high contrast between the central and eastern areas compared to the others in the west and north of the city-state. We believe this kind of analysis could yield a good understanding of the current level of public transport services across the urban system, and their disparity will provide valuable and actionable insights into the future development plans.
翻訳日:2023-02-19 09:37:26 公開日:2022-07-04
# テロ攻撃は「Us」対「Them」の二進的認識を鋭くする

Terrorist attacks sharpen the binary perception of "Us" vs. "Them" ( http://arxiv.org/abs/2207.01352v1 )

ライセンス: Link先を確認
Milan Jovi\'c, Lovro \v{S}ubelj, Tea Golob, Matej Makarovi\v{c}, Taha Yasseri, Danijela Boberi\'c Krsti\'cev, Srdjan \v{S}krbi\'c, Zoran Levnaji\'c(参考訳) テロ攻撃は市民を害するだけでなく、人々の関心を移し、世論や政府の政策に長年影響している。 しかし、メディア報道以外の公共の関心の変化を計測することは、方法論的に難しい。 ここでは、ウィキペディアの580万記事のr'epertoireと15件のテロ攻撃のサンプルから始め、この問題にアプローチする。 これらの出来事によって常に注目を集めているトピックやテーマを特定するために,複雑な排除手順をデプロイする。 テロ攻撃は「Us」(標的社会)と「Them」(敵としてのテロリスト)の間に鋭い境界を確立することを促進する。 この中で、双方のアイデンティティを構築しようと試みる。 これは好奇心を喚起し、"them"と"us"のより明確な理解のためのソウルサーチについて学ぶ。 破壊的な出来事に対する公共反応の体系的な分析は、社会的結果の緩和に役立つ。

Terrorist attacks not only harm citizens but also shift their attention, which has long-lasting impacts on public opinion and government policies. Yet measuring the changes in public attention beyond media coverage has been methodologically challenging. Here we approach this problem by starting from Wikipedia's r\'epertoire of 5.8 million articles and a sample of 15 recent terrorist attacks. We deploy a complex exclusion procedure to identify topics and themes that consistently received a significant increase in attention due to these incidents. Examining their contents reveals a clear picture: terrorist attacks foster establishing a sharp boundary between "Us" (the target society) and "Them" (the terrorist as the enemy). In the midst of this, one seeks to construct identities of both sides. This triggers curiosity to learn more about "Them" and soul-search for a clearer understanding of "Us". This systematic analysis of public reactions to disruptive events could help mitigate their societal consequences.
翻訳日:2023-02-19 09:36:40 公開日:2022-07-04
# 自動深層学習サーロゲートとマルチモーダル近傍探索アルゴリズムを用いた熱源レイアウト最適化

Heat Source Layout Optimization Using Automatic Deep Learning Surrogate and Multimodal Neighborhood Search Algorithm ( http://arxiv.org/abs/2205.07812v2 )

ライセンス: Link先を確認
Jialiang Sun and Xiaohu Zheng and Wen Yao and Xiaoya Zhang and Weien Zhou and Xiaoqian Chen(参考訳) 衛星配置設計において、熱源配置最適化(HSLO)は、最大温度を下げ、システム全体の熱管理を改善する効果的な手法である。 近年,深層学習サロゲート支援HSLOが提案され,レイアウトから対応する温度場へのマッピングを学習し,最適化中のシミュレーションを代用して計算コストを大幅に削減する。 しかし、2つの大きな課題に直面している。 1) 特定のタスクを代理するニューラルネットワークは、しばしば手動で複雑に設計され、エンジニアリング分野のデザイナにとって困難なリッチなデバッグエクスペリエンスを必要とする。 2) 既存のHSLOアルゴリズムは, 単一最適化において最適に近い解しか得られず, 局所最適化において容易に捕捉できる。 最初の課題に対処するため、総パラメータ数を減らし、類似の精度を確保するとともに、機能ピラミッドネットワーク(FPN)フレームワークと組み合わせたニューラルアーキテクチャサーチ(NAS)手法を開発し、HSLO用の小さなディープラーニングサロゲートモデルを自動的に検索する目的を実現する。 2つ目の課題に対処するため,マルチモーダル近傍探索に基づくレイアウト最適化アルゴリズム (MNSLO) を提案する。 最後に, 代表的な2次元熱伝導最適化問題を用いて, 提案手法の有効性を示す。 同様の精度でnasは、80%のパラメータ、64%のフロップ、そして36%の推論時間がオリジナルのfpnより速いモデルを見つける。 さらに、自動探索によるディープラーニングサロゲートの支援により、MNSLOは設計者により多くの設計多様性を提供するために、複数のほぼ最適な設計スキームを同時に達成することができた。

In satellite layout design, heat source layout optimization (HSLO) is an effective technique to decrease the maximum temperature and improve the heat management of the whole system. Recently, deep learning surrogate assisted HSLO has been proposed, which learns the mapping from layout to its corresponding temperature field, so as to substitute the simulation during optimization to decrease the computational cost largely. However, it faces two main challenges: 1) the neural network surrogate for the certain task is often manually designed to be complex and requires rich debugging experience, which is challenging for the designers in the engineering field; 2) existing algorithms for HSLO could only obtain a near optimal solution in single optimization and are easily trapped in local optimum. To address the first challenge, considering reducing the total parameter numbers and ensuring the similar accuracy as well as, a neural architecture search (NAS) method combined with Feature Pyramid Network (FPN) framework is developed to realize the purpose of automatically searching for a small deep learning surrogate model for HSLO. To address the second challenge, a multimodal neighborhood search based layout optimization algorithm (MNSLO) is proposed, which could obtain more and better approximate optimal design schemes simultaneously in single optimization. Finally, two typical two-dimensional heat conduction optimization problems are utilized to demonstrate the effectiveness of the proposed method. With the similar accuracy, NAS finds models with 80% fewer parameters, 64% fewer FLOPs and 36% faster inference time than the original FPN. Besides, with the assistance of deep learning surrogate by automatic search, MNSLO could achieve multiple near optimal design schemes simultaneously to provide more design diversities for designers.
翻訳日:2023-02-12 23:42:18 公開日:2022-07-04
# ランドウ・ツェナーは一対の高次例外点を通して遷移する

Landau-Zener transitions through a pair of higher order exceptional points ( http://arxiv.org/abs/2205.09477v2 )

ライセンス: Link先を確認
Rishindra Melanathuru, Simon Malzard and Eva-Maria Graefe(参考訳) 時間依存を明示する非エルミート量子系は、ますます重要になる。 この文脈で分析的に研究されているモデルはわずかしかありません。 ここでは、2つの例外点が$n$th次であるpt対称非ヘルミティアン$n$レベルlandau-zener型問題を導入する。 この系は漸近的に大きく、例外点から遠く離れており、例外点の間に純粋に虚偽の固有値を持つ。 ランダウ-ツェナー遷移の完全な確率は導出され、特徴的な二項挙動を示す。 断熱限界では、最終的な人口は二項係数の比率によって与えられる。 非エルミート系としばしば関連づけられる断熱性の崩壊にもかかわらず、この挙動が断熱分析に基づいてどのように理解できるかを実証する。

Non-Hermitian quantum systems with explicit time dependence are of ever-increasing importance. There are only a handful of models that have been analytically studied in this context. Here, a PT-symmetric non-Hermitian $N$-level Landau-Zener type problem with two exceptional points of $N$th order is introduced. The system is Hermitian for asymptotically large times, far away from the exceptional points, and has purely imaginary eigenvalues between the exceptional points. The full Landau-Zener transition probabilities are derived, and found to show a characteristic binomial behaviour. In the adiabatic limit the final populations are given by the ratios of binomial coefficients. It is demonstrated how this behaviour can be understood on the basis of adiabatic analysis, despite the breakdown of adiabaticity that is often associated with non-Hermitian systems.
翻訳日:2023-02-12 15:52:44 公開日:2022-07-04
# 量子ノイズ効果回路群による量子エラー低減

Quantum Error Mitigation via Quantum-Noise-Effect Circuit Groups ( http://arxiv.org/abs/2205.13907v2 )

ライセンス: Link先を確認
Yusuke Hama and Hirofumi Nishi(参考訳) 我々の短期量子コンピュータは、中間スケールの量子デバイスとして作られており、量子ノイズ効果、すなわちNISQデバイスに対して脆弱である。 従来のqec(quantum-error-correcting)コードはそのようなデバイスには実装されておらず、これらのマシンで精度良く量子計算を行うためには、量子計算エラーを緩和するための代替手法を開発する必要がある。 本研究では,ゲート操作中の環境との結合,すなわちデコヒーレンスによって発生する量子計算誤差に対する量子誤差緩和(qem)スキームを提案する。 まず1つの量子ビット状態における量子ノイズ効果を推定し、量子ノイズ効果回路群(quantum-noise-effect circuit group)として表現する。 次に、量子回路で得られた量子ノイズ効果回路群から生成した期待値を量子アルゴリズムに差し引いてQEM計算を行う。 その結果、量子ノイズ効果を低減し、量子ノイズ効果回路群を介して理想的な期待値と、それを構成する基本量子回路の数と、量子アルゴリズムの深さとレジスタビットの数の積に対して多項式をスケールする。 QEM方式の有効性を数値的に示すため、4種類の量子アルゴリズムに対して振幅減衰(AD)効果の下で量子ビットのノイズ量子シミュレーションを行う。 我々のQEM方式は、量子計算操作(量子ゲートと測定)のみで構成されており、量子ゲートのレジスタビット数やエラー率に制限を加えることなく、あらゆる種類の量子デバイスで行うことができる。 さらに、他の多くの種類の量子ノイズ効果の誤差軽減や、長い深さの量子アルゴリズムのノイズの多い量子計算にも適用することができる。

Our near-term quantum computers have been built as intermediate-scale quantum devices and are fragile against quantum noise effects, namely, NISQ devices. Traditional quantum-error-correcting (QEC) codes are not implemented on such devices and to perform quantum computation in good accuracy with these machines we need to develop alternative approaches for mitigating quantum computational errors. In this work, we propose quantum error mitigation (QEM) scheme for quantum computational errors which occur due to couplings with environments during gate operations, i.e., decoherence. To establish our QEM scheme, first we estimate the quantum noise effects on single-qubit states and represent them as groups of quantum circuits, namely, quantum-noise-effect circuit groups. Then our QEM scheme is conducted by subtracting expectation values generated by the quantum-noise-effect circuit groups from that obtained by the quantum circuit for the quantum algorithm under consideration. As a result, the quantum noise effect is reduced, and we obtain approximately the ideal expectation values via the quantum-noise-effect circuit group and the number of elementary quantum circuits composing it scales polynomial with respect to the product of the depth of quantum algorithm and the number of register bits. To numerically demonstrate the validity of our QEM scheme, we run noisy quantum simulations of qubits under the amplitude damping (AD) effects for four types of quantum algorithms. Our QEM scheme is solely composed of quantum-computational operations (quantum gates and measurements), and thus, it can be conducted by any type of quantum device without having limitations on the number of register bits and error rates of quantum gates. In addition, it can be applied to error mitigation for many other types of quantum noise effects as well as noisy quantum computing of long-depth quantum algorithms.
翻訳日:2023-02-11 14:02:03 公開日:2022-07-04
# 量子カーネルに基づくIonQおよびIBM量子コンピュータ上の機械学習手法の誤り軽減

Error mitigation for quantum kernel based machine learning methods on IonQ and IBM quantum computers ( http://arxiv.org/abs/2206.01573v3 )

ライセンス: Link先を確認
Sasan Moradi, Christoph Brandner, Macauley Coggins, Robert Wille, Wolfgang Drexler, Laszlo Papp(参考訳) Kernelメソッドは、Gaussian Process(GP)やSupport Vector Machine(SVM)など、ほとんどの古典的な機械学習アルゴリズムの基礎である。 ノイズの多い中間スケール量子(NISQ)デバイスを用いた計算カーネルは、最近のNISQデバイスの設計の進歩により注目されている。 しかし、現在のNISQデバイスのノイズやエラーは予測されたカーネルに悪影響を及ぼす可能性がある。 本稿では、2つの量子カーネル機械学習(ML)アルゴリズムを用いて、2つの異なるNISQデバイス(量子カーネルガウスプロセス(qkGP)と量子カーネルサポートベクトルマシン(qkSVM))上で、乳がんデータセットのラベルを予測する。 我々は11キュービットのIonQと5キュービットのIBMQ Belem量子デバイス上の量子カーネルを推定する。 この結果から,エラー低減量子カーネル機械学習アルゴリズムの予測性能は,非エラー緩和アルゴリズムと比較して有意に向上した。 どちらのNISQデバイスでも、予測性能はノイズレス量子シミュレータとその古典的シミュレータと同等になった。

Kernel methods are the basis of most classical machine learning algorithms such as Gaussian Process (GP) and Support Vector Machine (SVM). Computing kernels using noisy intermediate scale quantum (NISQ) devices has attracted considerable attention due to recent progress in the design of NISQ devices. However noise and errors on current NISQ devices can negatively affect the predicted kernels. In this paper we utilize two quantum kernel machine learning (ML) algorithms to predict the labels of a Breast Cancer dataset on two different NISQ devices: quantum kernel Gaussian Process (qkGP) and quantum kernel Support Vector Machine (qkSVM). We estimate the quantum kernels on the 11 qubit IonQ and the 5 qubit IBMQ Belem quantum devices. Our results demonstrate that the predictive performances of the error mitigated quantum kernel machine learning algorithms improve significantly compared to their non-error mitigated counterparts. On both NISQ devices the predictive performances became comparable to those of noiseless quantum simulators and their classical counterparts
翻訳日:2023-02-10 20:16:51 公開日:2022-07-04
# Rydberg-atom センサを用いたメガヘルツrf電界の高感度測定

Highly sensitive measurement of a megahertz rf electric field with a Rydberg-atom sensor ( http://arxiv.org/abs/2206.06576v3 )

ライセンス: Link先を確認
Bang Liu, Li-Hua Zhang, Zong-Kai Liu, Zheng-Yuan Zhang, Zhi-Han Zhu, Wei Gao, Guang-Can Guo, Dong-Sheng Ding, Bao-Sen Shi(参考訳) ライドバーグ原子は電場測定において大きなポテンシャルを持ち、kHzからTHzスケールまでの大きな周波数帯域で有利である。 しかし、弱いmhz電界信号を測定する感度は、弱い電界はライドバーグ原子の人口の小さな摂動とエネルギー準位シフトのみを誘導するため、分光分解能によって制限される。 本稿では,熱原子系におけるリドバーグ原子を用いた電磁誘導透過を用いた弱いmhz電界の高感度測定について報告する。 30mhzの電界上のヘテロダイン法を用いて、最小の電界強度を、最大感度が-65$ dbm/hz、リニアダイナミックレンジ65 db の \textcolor{black}{37.3 $\mathrm{\mu v/cm}$} で測定した。 さらに、振幅変調信号を測定し、98 %以上の忠実度で信号の復調を行う。 この研究により、MHz電界を測定する原子センサーの感度が向上し、原子電界センシング技術が進歩する。

Rydberg atoms have great potential in electric field measurement and have an advantage with a large frequency bandwidth from the kHz to the THz scale. However, the sensitivity for measuring a weak MHz electric field signal is limited by the spectroscopic resolution, because the weak electric field induces only a small perturbation of the population and energy level shift of the Rydberg atoms. Here, we report highly sensitive measurement of a weak MHz electric field using electromagnetically induced transparency with Rydberg atoms in a thermal atomic system. Using the heterodyne method on a 30-MHz electric field, we successfully measure the minimum electric field strength to be \textcolor{black}{37.3 $\mathrm{\mu V/cm}$} with a sensitivity up to $-65$ dBm/Hz and a linear dynamic range over 65 dB. Additionally, we measure an amplitude-modulated signal and demodulate the signal with a fidelity over 98\%. This work extends the sensitivity of atomic sensors for measuring MHz electric fields, which advances atomic electric field-sensing technology.
翻訳日:2023-02-09 09:52:41 公開日:2022-07-04
# 最適線形環状量子熱エンジンは強いカップリングの恩恵を受けられない

Optimal linear cyclic quantum heat engines cannot benefit from strong coupling ( http://arxiv.org/abs/2206.11453v2 )

ライセンス: Link先を確認
Junjie Liu and Kenneth A. Jung(参考訳) 強力なシステムバス結合がエネルギー変換の有利な操作資源であるかどうかを明らかにすることは、効率的な量子熱エンジン(qhes)の開発を促進する。 しかし、この進行中の議論に関するコンセンサスは、強い結合を扱うことで生じる課題のためにまだ不足している。 ここでは, 温度差の少ない最適線形循環型QHEについて, 最適動作における強系-バス結合の有害な役割を明らかにすることで議論する。 我々は, 強結合線形環QHEの最大電力効率と最大効率が, その弱結合性によって上界にあり, 特に, 強い時間反転対称性の破れの下でカルノット限界に対する2次抑制が経験されることを解析的に実証した。

Uncovering whether strong system-bath coupling can be an advantageous operation resource for energy conversion can facilitate the development of efficient quantum heat engines (QHEs). Yet, a consensus on this ongoing debate is still lacking owing to challenges arising from treating strong couplings. Here we conclude the debate for optimal linear cyclic QHEs operated under a small temperature difference by revealing the detrimental role of strong system-bath coupling in their optimal operations. We analytically demonstrate that both the efficiency at maximum power and maximum efficiency of strong-coupling linear cyclic QHEs are upper bounded by their weak-coupling counterparts and, particularly, experience a quadratic suppression relative to the Carnot limit under strong time-reversal symmetry breaking.
翻訳日:2023-02-08 07:11:58 公開日:2022-07-04
# 量子正規化最小二乗

Quantum Regularized Least Squares ( http://arxiv.org/abs/2206.13143v2 )

ライセンス: Link先を確認
Shantanav Chakraborty, Aditya Morolia, Anurudh Peduri(参考訳) 線形回帰は線形モデルに適合する広く使われている手法であり、機械学習や統計学など様々な分野に広く応用されている。 しかし、現実世界のほとんどのシナリオでは、線形回帰問題はしばしば不備を課されるか、根底にあるモデルは過度な適合に悩まされ、誤った解や自明な解につながる。 これはしばしば正規化として知られる追加の制約を加えることで対処される。 本稿では,ブロック符号化と量子特異値変換(QSVT)の枠組みを用いて,一般の$\ell_2$-regularizationを用いて量子最小二乗に対する最初の量子アルゴリズムを設計する。 これらは、量子常用最小二乗の正規化バージョン、量子重み付き最小二乗、および量子一般化最小二乗を含む。 我々の量子アルゴリズムは、量子リッジ回帰(条件数の多項的改善と精度の指数関数的改善)の先行結果により大幅に改善する。 この目的のために、基底行列の近似ブロック符号化を入力とし、様々な線形代数演算にロバストQSVTアルゴリズムを用いる。 特に, qsvtを用いた行列反転のための可変時間量子アルゴリズムを開発し, ガッピング位相推定の代わりに量子固有値識別をサブルーチンとして用いる。 これにより、前の結果よりもはるかに少ないアンシラ量子ビットが要求される。 ブロックエンコーディングフレームワークの汎用性により、このアルゴリズムは様々な入力モデルに適用でき、標準(非正規化)量子最小二乗法における先行結果の改善および一般化版と見なすことができる。

Linear regression is a widely used technique to fit linear models and finds widespread applications across different areas such as machine learning and statistics. In most real-world scenarios, however, linear regression problems are often ill-posed or the underlying model suffers from overfitting, leading to erroneous or trivial solutions. This is often dealt with by adding extra constraints, known as regularization. In this paper, we use the frameworks of block-encoding and quantum singular value transformation (QSVT) to design the first quantum algorithms for quantum least squares with general $\ell_2$-regularization. These include regularized versions of quantum ordinary least squares, quantum weighted least squares, and quantum generalized least squares. Our quantum algorithms substantially improve upon prior results on quantum ridge regression (polynomial improvement in the condition number and an exponential improvement in accuracy), which is a particular case of our result. To this end, we assume approximate block-encodings of the underlying matrices as input and use robust QSVT algorithms for various linear algebra operations. In particular, we develop a variable-time quantum algorithm for matrix inversion using QSVT, where we use quantum eigenvalue discrimination as a subroutine instead of gapped phase estimation. This ensures that substantially fewer ancilla qubits are required for this procedure than prior results. Owing to the generality of the block-encoding framework, our algorithms are applicable to a variety of input models and can also be seen as improved and generalized versions of prior results on standard (non-regularized) quantum least squares algorithms.
翻訳日:2023-02-07 21:26:41 公開日:2022-07-04
# 原子多体量子状態再構成による数分解検出器のトモグラフィー

Tomography of a number-resolving detector by reconstruction of an atomic many-body quantum state ( http://arxiv.org/abs/2207.01270v1 )

ライセンス: Link先を確認
Mareike Hetzel, Luca Pezz\`e, Cebrail P\"ur, Martin Quensen, Andreas H\"uper, Jiao Geng, Jens Kruse, Luis Santos, Wolfgang Ertmer, Augusto Smerzi, Carsten Klempt(参考訳) 識別不能な原子の多体量子状態の高忠実性解析には、正確な原子の数え方が必要である。 ここでは原子番号分解検出器のトモグラフィー再構成について報告する。 トモグラフィは、2つの超微細クロックレベル間のラビカップリングを駆動することにより、コヒーレントスピン状態に調製された超低温ルビジウムアンサンブルを用いて行われる。 結合に続いて、職業番号を1つのレベルにカウントする。 我々は検出器の忠実さを特徴付け、負値のウィグナー関数がそれと関連していることを示す。 以上の結果から,エンタングル状態の高忠実性再構成に対するエキサイティングな展望が得られ,ハイゼンベルク制限原子干渉法の今後の実証に応用できる。

The high-fidelity analysis of many-body quantum states of indistinguishable atoms requires the accurate counting of atoms. Here we report the tomographic reconstruction of an atom-number-resolving detector. The tomography is performed with an ultracold rubidium ensemble that is prepared in a coherent spin state by driving a Rabi coupling between the two hyperfine clock levels. The coupling is followed by counting the occupation number in one level. We characterize the fidelity of our detector and show that a negative-valued Wigner function is associated with it. Our results offer an exciting perspective for the high-fidelity reconstruction of entangled states and can be applied for a future demonstration of Heisenberg-limited atom interferometry.
翻訳日:2023-02-06 19:18:44 公開日:2022-07-04
# unruh効果と反unruh効果を考慮した真の多成分絡み合い

Genuine multipartite entanglement subject to the Unruh and anti-Unruh effects ( http://arxiv.org/abs/2207.01259v1 )

ライセンス: Link先を確認
Shu-Min Wu, Hao-Sheng Zeng, Tonghua Liu(参考訳) 真空場に結合した1つまたは2つの加速検出器の真の三部構造エンタングルメントに対する加速効果について検討した。 驚くべきことに、絡み合いの増加と減少はウンルー効果と反ウンルー効果と明確な一致がない。 具体的には、ウンルー効果は減少するだけでなく、検出器間のトリパルタイト絡みを増大させるだけでなく、反ウンルー効果はトリパルタイト絡みを減少させる。 私たちはこの現象を説明します。 最後に,議論をtripartiteからnpartiteシステムへと拡張する。

We study the acceleration effect on the genuine tripartite entanglement for one or two accelerated detector(s) coupled to the vacuum field. Surprisingly, we findthatthe increase anddecrease in entanglement have no definite correspondence with the Unruh and anti-Unruh effects. Specifically, Unruh effect can not only decrease but also enhance the tripartite entanglement between detectors; also, anti-Unruh effect can not only enhance but also decrease the tripartite entanglement. We give an explanation of this phenomenon. Finally, we extend the discussion from tripartite to N-partite systems.
翻訳日:2023-02-06 19:18:32 公開日:2022-07-04
# 側方結合層における磁気輸送

Magnetic transport in laterally coupled layers ( http://arxiv.org/abs/2207.01252v1 )

ライセンス: Link先を確認
Pavel Exner(参考訳) 本研究では, 隣接する2層の硬壁層が, 層面に垂直な均一な磁場に曝露し, 共通境界の帯状窓から横に結合する磁気輸送について論じる。 スペクトルが絶対連続かつ平坦なバンドの組合せであることを示し、後者は2層の幅が共振している場合にのみ存在し、それらの特性を導出する。 また,二層を分離する障壁が半平面である一面幾何学についても解析した。

We discuss magnetic transport in the system of two adjacent hard-wall layers exposed to a homogeneous field perpendicular to the layer plane and coupled laterally through a strip-shaped window in the common boundary. We show that the spectrum is a combination of absolutely continuous and flat bands, the latter being present only if the widths of the two layers are commensurate, and derive their properties. We also analyze the one-sided geometry in which the barrier separating the two layers is a halfplane.
翻訳日:2023-02-06 19:18:22 公開日:2022-07-04
# qkdにおける熱緩和誤差:影響とバイパスの可能性

Thermal relaxation error on QKD: Effect and A Probable Bypass ( http://arxiv.org/abs/2207.01159v1 )

ライセンス: Link先を確認
Munsi Afif Aziz, Bishwajit Prasad Gond, Srijita Nandi, Soujanya Ray, Debasmita Bhoumik, Ritajit Majumdar(参考訳) 量子暗号は、古典的な暗号システムを破壊する量子コンピュータの能力に対抗して提案された。 量子鍵分布(QKD)と呼ばれる量子暗号の幅広いサブクラスは、鍵の安全な分配に量子力学的プロセスに依存する。 量子チャネルは本質的にノイズが多いため、これらのプロトコルもノイズの影響を受けやすい。 本稿では,2つのqkdプロトコルbb84とe91の性能を熱緩和誤差下で検討する。 E91プロトコルは絡み合いの喪失によりすぐにセキュリティを失うが、BB84プロトコルの性能は時間の増加とともにランダムな推測に低下する。 次に,熱緩和雑音下でのbb84プロトコルにおけるeveの動作について考察する。 この制限の下では、ノイズチャネルの特性を備えた場合、Eveは依然としてランダムな推測よりも優れていることを示す。 最後に、元のプロトコルのセキュリティを維持するBB84プロトコルの修正を提案するが、完全なチャネル情報であっても、Eveが結果を推測する利点を得られないことを保証する。

Quantum cryptography was proposed as a counter to the capacity of quantum computers to break classical cryptosystems. A broad subclass of quantum cryptography, called quantum key distribution (QKD), relies on quantum mechanical process for secure distribution of the keys. Quantum channels are inherently noisy, and therefore these protocols will be susceptible to noise as well. In this paper, we study the performance of two QKD protocols - BB84 and E91 under thermal relaxation error. We show that while E91 protocol loses its security immediately due to loss of entanglement, the performance of BB84 protocol reduces to random guessing with increasing time. Next, we consider the action of an Eve on the BB84 protocol under thermal relaxation noise, who is restricted to guessing the outcome of the protocol only. Under this restriction, we show that Eve can still do better than random guessing when equipped with the characteristics of the noisy channel. Finally, we propose a modification of the BB84 protocol which retains the security of the original protocol, but ensures that Eve cannot get any advantage in guessing the outcome, even with a complete channel information.
翻訳日:2023-02-06 19:17:48 公開日:2022-07-04
# 超伝導フラックス量子ビットの再現性と制御

Reproducibility and control of superconducting flux qubits ( http://arxiv.org/abs/2207.01427v1 )

ライセンス: Link先を確認
T. Chang, I. Holzman, T. Cohen, B.C. Johnson, D.N. Jamieson and M. Stern(参考訳) 超伝導フラックス量子ビットはスケーラブルな量子プロセッサの物理的実現に有望な候補である。 実際、これらの回路は小さなデコヒーレンス率と大きなアンハーモニック性を持つ。 これらの性質は、高い忠実度を持つ高速量子ゲートの適用を可能にし、周波数混雑によるスケーリング制限を低減する。 フラックスキュービットの設計の最大の難しさは、その遷移エネルギー(いわゆるクビットギャップ)を正確に制御し、長く再現可能な緩和時間を維持することである。 この問題の解決は困難であり、電子ビームリソグラフィー、接合の酸化パラメータ、試料表面の極めて優れた制御が必要である。 本稿では,大量のフラックス量子ビットの測定を行い,量子ビットギャップの再現性と制御,緩和時間,純粋なエコー強調時間を示す。 これらの結果は、量子ハイブリッド回路と量子計算の分野における潜在的な応用の道を開く。

Superconducting flux qubits are promising candidates for the physical realization of a scalable quantum processor. Indeed, these circuits may have both a small decoherence rate and a large anharmonicity. These properties enable the application of fast quantum gates with high fidelity and reduce scaling limitations due to frequency crowding. The major difficulty of flux qubits' design consists of controlling precisely their transition energy - the so-called qubit gap - while keeping long and reproducible relaxation times. Solving this problem is challenging and requires extremely good control of e-beam lithography, oxidation parameters of the junctions and sample surface. Here we present measurements of a large batch of flux qubits and demonstrate a high level of reproducibility and control of qubit gaps, relaxation times and pure echo dephasing times. These results open the way for potential applications in the fields of quantum hybrid circuits and quantum computation.
翻訳日:2023-02-06 19:12:55 公開日:2022-07-04
# 境界条件が一般化された超伝導線材のエッジ状態、マヨラナフェルミオンおよび位相次数

Edge states, Majorana fermions and topological order in superconducting wires with generalized boundary conditions ( http://arxiv.org/abs/2207.01423v1 )

ライセンス: Link先を確認
A. Maiellaro, F. Romeo, F. Illuminati(参考訳) 外部環境との結合を模した一般境界条件の影響を受け, 一次元トポロジカル超伝導体の特性について検討した。 境界効果の一般的な4パラメータ分類を同定し, 境界パラメータを適切に固定することにより, 粒子ホールと反射対称性を破壊・保存できることを示す。 粒子ホール対称性が破られると、外部自由度とのハイブリッド化(準粒子中毒)により、エッジモードの位相的保護が失われる。 位相特性の異なる定量化器を考慮し, 各種レシエーションにおけるエッジモードのロバスト性を評価する。 特に,マヨラナ励起の非局所相関を計測し,長距離のエッジ・ツー・エッジ量子相互情報のレジリエンスと絡み合いについて検討した。 これらの結果は、トポロジカルシステムのオープンダイナミクスとの関連性に加えて、現実的な条件下でのナノデバイスへの低次元トポロジカルシステムの適切な埋め込みのガイドとなるかもしれない。

We study the properties of one-dimensional topological superconductors under the influence of generic boundary conditions mimicking the coupling with external environments. We identify a general four-parameters classification of the boundary effects and show that particle-hole and reflection symmetries can be broken or preserved by appropriately fixing the boundary parameters. When the particle-hole symmetry is broken, the topological protection of the edge modes is lost due to the hybridization with the external degrees of freedom (quasiparticle poisoning). We assess the robustness of the edge modes in the various regimes by considering different quantifiers of topological properties. In particular, we investigate the resilience of the long-distance, edge-to-edge quantum mutual information and squashed entanglement, measuring the nonlocal correlations of the Majorana excitations. Besides their relevance for the open dynamics of topological systems, these results may provide a useful guide to the appropriate embedding of low-dimensional topological systems on nanodevices in realistic conditions.
翻訳日:2023-02-06 19:12:42 公開日:2022-07-04
# 代数的手法によるマルチモード量子システムダイナミクスの研究

Algebraic approach for investigation of a multi-mode quantum system dynamics ( http://arxiv.org/abs/2207.01383v1 )

ライセンス: Link先を確認
Andrei Gaidash, Anton Kozubov, Alexei Kiselev and George Miroshnichenko(参考訳) 量子(ボソニック)マルチモードシステムとそのダイナミクスの研究に有用な超演算子に対する代数的アプローチを提案する。 提案手法の可能性を実証するために,量子系の緩和ダイナミクスを記述するマルチモードリウビリアンスーパーオペレータ(熱分解とモード間カップリングを含む)について検討する。 超作用素の代数構造とその代数的性質を考えると、多モードのリウビリアンを対角化してスペクトルを求めることができる。 また、(初期次元が有限であるとして)フォック空間における考慮された次元の量を保持する時間進化超作用素に対する熱(環境)光子の近似の平均数で線形を導出することができる。 Conjugate Liouvillian もハイゼンベルク図面で解析を行うために考慮されており、多時間相関関数の導出のために実装することができる。

We introduce algebraic approach for superoperators that might be useful tool for investigation of quantum (bosonic) multi-mode systems and its dynamics. In order to demonstrate potential of proposed method we consider multi-mode Liouvillian superoperator that describes relaxation dynamics of a quantum system (including thermalization and intermode coupling). Considered algebraic structure of superoperators that form Liouvillian and their algebraic properties allows us to diagonilize multi-mode Liouvillian to find its spectrum. Also it allows to derive linear by mean number of thermal (environmental) photons approximation for time-evolution superoperator that keeps amount of considered dimensions in Fock space finite (assuming initial amount of dimensions finite) that might be helpful regarding entanglement dynamics problems. Conjugate Liouvillian is considered as well in order to perform analysis in Heisenberg picture, it can be implemented for multi-time correlation functions derivation.
翻訳日:2023-02-06 19:12:10 公開日:2022-07-04
# 量子コンピューティングにおける古典的強化のための仮想線形写像アルゴリズム

Virtual linear map algorithm for classical boost in near-term quantum computing ( http://arxiv.org/abs/2207.01360v1 )

ライセンス: Link先を確認
Guillermo Garc\'ia-P\'erez, Elsi-Mari Borrelli, Matea Leahy, Joonas Malmi, Sabrina Maniscalco, Matteo A. C. Rossi, Boris Sokolov, Daniel Cavalcanti(参考訳) 近年の量子コンピューティングの急速な進歩は、大規模量子システムを扱うスケーラブルな量子情報理論手法の開発に広く関心を惹き付けている。 例えば、トモグラフィ状態の再構成をバイパスするいくつかのアプローチが提案されているが、これまで測定された状態の複数の物理的特性を推定する能力はある程度維持されている。 本稿では,情報的完全測定結果の古典的後処理を用いて,複数の演算子平均を推定するだけでなく,任意の物理値のk$局所写像の低深度回路下で測定された参照状態の画像を推定する手法であるvirtual linear map algorithm(vilma)を提案する。 また、VILMAは、効率的な線形プログラムのシーケンスを通して仮想回路の変分最適化を可能にすることを示す。 最後に、入力状態が古典的に効率的な表現を持つ状態であるアルゴリズムの純粋に古典的なバージョンを探索し、本手法が多体ハミルトニアンの基底状態を作成することができることを示す。

The rapid progress in quantum computing witnessed in recent years has sparked widespread interest in developing scalable quantum information theoretic methods to work with large quantum systems. For instance, several approaches have been proposed to bypass tomographic state reconstruction, and yet retain to a certain extent the capability to estimate multiple physical properties of a given state previously measured. In this paper, we introduce the Virtual Linear Map Algorithm (VILMA), a new method that enables not only to estimate multiple operator averages using classical post-processing of informationally complete measurement outcomes, but also to do so for the image of the measured reference state under low-depth circuits of arbitrary, not necessarily physical, $k$-local maps. We also show that VILMA allows for the variational optimisation of the virtual circuit through sequences of efficient linear programs. Finally, we explore the purely classical version of the algorithm, in which the input state is a state with a classically efficient representation, and show that the method can prepare ground states of many-body Hamiltonians.
翻訳日:2023-02-06 19:11:48 公開日:2022-07-04
# 二次結合型量子ファンデルポル発振器における量子同期

Quantum Synchronization in quadratically coupled quantum van der Pol oscillators ( http://arxiv.org/abs/2207.01333v1 )

ライセンス: Link先を確認
Niss Thomas, M. Senthilvelan(参考訳) 結合したvan der pol発振器に非線形非調和相互作用を実装し、系の量子同期挙動を調べる。 2つの振動子モデル、結合量子ファンデルポル振動子と非調和自己オシレータの量子同期について検討した。 本研究では,古典的領域と量子的領域の結合による高次同期性を示す。 振動子間の非線形相互作用のアンハーモニック性により、システムは純粋な非古典的効果であり古典領域では観測されていない位相ロック機構においてフォノン遮断を示す。 また,結合した非調和振動子に対して,非線形相互作用による多重共振位相ロック挙動を示す。 同期遮断は、同じパラメトリックな状態においてフォノン反バンチにつながる発振器間の強い反相関によって生じることを指摘する。 非高調波発振器の場合、非高調波発振器間での正・負の同時相関の結果、束縛と反バンチング効果の同時発生を示す。 強結合状態において,通常のモード分割とモロー三重項を観測できるパワースペクトルを用いて,振動子の周波数減衰特性について検討した。 最後に, トラップイオンとオプティメカルセッティングにおいて, 考慮されたシステムに対する実験的実現の可能性を提案する。

We implement nonlinear anharmonic interaction in the coupled van der Pol oscillators to investigate the quantum synchronization behaviour of the systems. We study the quantum synchronization in two oscillator models, coupled quantum van der Pol oscillators and anharmonic self-oscillators. We demonstrate that the considered systems exhibit a high-order synchronization through coupling in both classical and quantum domains. We show that due to the anharmonicity of the nonlinear interaction between the oscillators the system exhibits phonon blockade in the phase locking regime which is a pure nonclassical effect and has not been observed in the classical domain. We also demonstrate that for coupled anharmonic oscillators the system shows a multiple resonance phase locking behaviour due to nonlinear interaction. We point out that the synchronization blockade arises due to strong anticorrelation between the oscillators which leads to phonon antibunching in the same parametric regime. In the anharmonic oscillator case we illustrate the simultaneous occurrence of bunching and antibunching effects as a consequence of simultaneous negative and positive correlation between the anharmonic oscillators. We examine the aforementioned characteristic features in the frequency entrainment of the oscillators using power spectrum where one can observe normal mode splitting and Mollow triplet in the strong coupling regime. Finally, we propose a possible experimental realization for the considered system in trapped ion and optomechanical setting.
翻訳日:2023-02-06 19:11:07 公開日:2022-07-04
# 半導体系電子飛行量子ビット:数値モデリングによる最近の進歩を振り返る

Semiconductor-based electron flying qubits: Review on recent progress accelerated by numerical modelling ( http://arxiv.org/abs/2207.01318v1 )

ライセンス: Link先を確認
Hermann Edlbauer, Junliang Wang, Thierry Crozes, Pierre Perrier, Seddik Ouacel, Cl\'ement Geffroy, Giorgos Georgiou, Eleni Chatzikyriakou, Antonio Lacerda-Santos, Xavier Waintal, D. Christian Glattli, Preden Roulleau, Jayshankar Nath, Masaya Kataoka, Janine Splettstoesser, Matteo Acciai, Maria Cecilia da Silva Figueira, Kemal \"Oztas, Alex Trellakis, Thomas Grange, Oleg M. Yevtushenko, Stefan Birner, Christopher B\"auerle(参考訳) 半導体ベースのナノスケールデバイスにおける電荷操作の進歩は、単一の電子で飛ぶ量子ビットを実現するための新しい経路を開いた。 本稿では、電子飛行量子ビットの概念を紹介し、最も有望な実現について論じ、数値シミュレーションが実験開発サイクルの加速にどのように適用できるかを示す。 現在学術や量子企業によって直面しているフライングキュービットの技術的課題に対処するため、我々は、新興の量子産業を前進させるための学際協力の関連性を強調します。 電子飛行キュービットへの道: GaAsベースのデバイスにおける1電子輸送の3つの経路に対処し、表面音響波、量子ドットポンプからのホット電子放出、およびレヴィトンについて検討する。 それぞれの手法について,最新の実験結果について考察し,数値シミュレーションが電子飛行量子ビットの工学をいかに促進するかを指摘する。 量子デバイスの数値モデリング: 空飛ぶ量子ビットの作成に必要な数値シミュレーションの全スタックを概観する。 適切なモデルを選択すると、基本的な量子力学シミュレーションの例が詳細に説明される。 本稿では,オープンソース(KWANT)と商用(Nextnano)プラットフォームのフライングキュービットモデリングへの応用について論じる。 この議論は、効率的な操作に適した量子デバイスを設計するためのソフトウェアツールの大規模な関連性を指摘している。

The progress of charge manipulation in semiconductor-based nanoscale devices opened up a novel route to realise a flying qubit with a single electron. In the present review, we introduce the concept of these electron flying qubits, discuss their most promising realisations and show how numerical simulations are applicable to accelerate experimental development cycles. Addressing the technological challenges of flying qubits that are currently faced by academia and quantum enterprises, we underline the relevance of interdisciplinary cooperation to move emerging quantum industry forward. The review consists of two main sections: Pathways towards the electron flying qubit: We address three routes of single-electron transport in GaAs-based devices focusing on surface acoustic waves, hot-electron emission from quantum dot pumps and Levitons. For each approach, we discuss latest experimental results and point out how numerical simulations facilitate engineering the electron flying qubit. Numerical modelling of quantum devices: We review the full stack of numerical simulations needed for fabrication of the flying qubits. Choosing appropriate models, examples of basic quantum mechanical simulations are explained in detail. We discuss applications of open-source (KWANT) and the commercial (nextnano) platforms for modelling the flying qubits. The discussion points out the large relevance of software tools to design quantum devices tailored for efficient operation.
翻訳日:2023-02-06 19:10:46 公開日:2022-07-04
# 変分量子アルゴリズムによるマルチアセット導関数の価格決定

Pricing multi-asset derivatives by variational quantum algorithms ( http://arxiv.org/abs/2207.01277v1 )

ライセンス: Link先を確認
Kenji Kubo, Koichi Miyamoto, Kosuke Mitarai, Keisuke Fujii(参考訳) マルチアセットデリバティブの価格設定は、理論的にも実質的にも、金融工学において重要な問題である。 偏微分方程式を数値的に解いてある種類の微分の価格を計算するのに適しているが、有限差分法のような古典的手法で基礎となる資産の数が増えるにつれて計算複雑性は指数関数的に増加する。 そのため、量子計算を用いて計算複雑性を低減する試みがある。 しかし、ナイーブな量子アルゴリズムで解くとき、対象の微分価格は量子状態の1つの基底の振幅に埋め込まれるので、解を得るには指数関数的複雑性が必要である。 このボトルネックを避けるため、前回の論文~[宮本と久保, IEEE Transactions on Quantum Engineering, \textbf{3}, 1--25 (2022)]は、微分の現在の価格が将来の任意の時点の割引期待値によって得られるという事実を利用して、量子アルゴリズムが複雑性を低減できることを示す。 本稿では,このアルゴリズムを小さな量子コンピュータ上で動作可能にするために,変分量子シミュレーションを用いて黒弦方程式を解き,その解と確率分布との間の内積から導出価格を計算する。 これは、ナイーブアプローチの計測ボトルネックを回避し、ノイズの多い量子コンピュータでも量子スピードアップを提供する。 また,本手法を検証する数値実験を行った。 我々の手法は、小型量子コンピュータを用いたデリバティブ価格の重要なブレークスルーとなる。

Pricing a multi-asset derivative is an important problem in financial engineering, both theoretically and practically. Although it is suitable to numerically solve partial differential equations to calculate the prices of certain types of derivatives, the computational complexity increases exponentially as the number of underlying assets increases in some classical methods, such as the finite difference method. Therefore, there are efforts to reduce the computational complexity by using quantum computation. However, when solving with naive quantum algorithms, the target derivative price is embedded in the amplitude of one basis of the quantum state, and so an exponential complexity is required to obtain the solution. To avoid the bottleneck, the previous study~[Miyamoto and Kubo, IEEE Transactions on Quantum Engineering, \textbf{3}, 1--25 (2022)] utilizes the fact that the present price of a derivative can be obtained by its discounted expected value at any future point in time and shows that the quantum algorithm can reduce the complexity. In this paper, to make the algorithm feasible to run on a small quantum computer, we use variational quantum simulation to solve the Black-Scholes equation and compute the derivative price from the inner product between the solution and a probability distribution. This avoids the measurement bottleneck of the naive approach and would provide quantum speedup even in noisy quantum computers. We also conduct numerical experiments to validate our method. Our method will be an important breakthrough in derivative pricing using small-scale quantum computers.
翻訳日:2023-02-06 19:10:26 公開日:2022-07-04
# LIBOR市場モデルを用いた価格上限の量子計算

Quantum Computation for Pricing Caps using the LIBOR Market Model ( http://arxiv.org/abs/2207.01558v1 )

ライセンス: Link先を確認
Hao Tang and Wenxun Wu and Xian-Min Jin(参考訳) LIBOR Market Model (LMM) は金利デリバティブの価格設定に広く用いられているモデルである。 黒片モデルはストックオプションのような株式デリバティブの価格設定でよく知られているが、デリバティブの大部分は株式ではなく金利に基づいている。 金利デリバティブの価格設定は、以前のモデルでは市場において直接観測できない即時利率またはフォワードレートを使用していたため、以前は困難であった。 LMMが引き上げられて以来、これは非常に改善されており、直接観測可能な銀行間取引レートを使用しており、より正確であることが期待されている。 近年、量子コンピューティングはオプション価格設定タスクの高速化に使われてきたが、構造化された金利デリバティブではまれである。 金利デリバティブ市場の大きさとLMMの広範利用を考えると、LMMに基づく利率デリバティブ、キャップの価格設定に量子コンピューティングを用いる。 多くの複素構造微分に共通する異なるテンソルに対する経路依存モンテカルロ反復に上限価格が関係するので、量子振幅推定アルゴリズムを適用して最後のテンソルの期待値を推定するハイブリッド古典量子アプローチを開発した。 我々のハイブリッドアプローチは、純粋なモンテカルロ法よりも優れた収束性を示しており、微分の多様性がより大きい量子コンピューティングに有用なケーススタディを提供する。

The LIBOR Market Model (LMM) is a widely used model for pricing interest rate derivatives. While the Black-Scholes model is well-known for pricing stock derivatives such as stock options, a larger portion of derivatives are based on interest rates instead of stocks. Pricing interest rate derivatives used to be challenging, as their previous models employed either the instantaneous interest or forward rate that could not be directly observed in the market. This has been much improved since LMM was raised, as it uses directly observable interbank offered rates and is expected to be more precise. Recently, quantum computing has been used to speed up option pricing tasks, but rarely on structured interest rate derivatives. Given the size of the interest rate derivatives market and the widespread use of LMM, we employ quantum computing to price an interest rate derivative, caps, based on the LMM. As caps pricing relates to path-dependent Monte Carlo iterations for different tenors, which is common for many complex structured derivatives, we developed our hybrid classical-quantum approach that applies the quantum amplitude estimation algorithm to estimate the expectation for the last tenor. We show that our hybrid approach still shows better convergence than pure classical Monte Carlo methods, providing a useful case study for quantum computing with a greater diversity of derivatives.
翻訳日:2023-02-06 19:03:50 公開日:2022-07-04
# ランダム化ベンチマークによる平均非マルコビアン性の機械学習

Machine Learning of Average Non-Markovianity from Randomized Benchmarking ( http://arxiv.org/abs/2207.01542v1 )

ライセンス: Link先を確認
Shih-Xian Yang, Pedro Figueroa-Romero and Min-Hsiu Hsieh(参考訳) ノイズ量子回路における相関の存在は、量子デバイスのサイズと深さが増加し続けるにつれて必然的な副作用となる。 ランダム化ベンチマーク(rb)は、量子デバイスの全体的な性能を最初に評価する最も単純な方法であり、時間相関、いわゆる非マルコビアン性の存在を特定できる。 本稿では,行列積演算子を用いた機械学習のパワーを利用して,RB実験のデータで示される最小平均的非マルコビアン性を推定する手法について述べる。

The presence of correlations in noisy quantum circuits will be an inevitable side effect as quantum devices continue to grow in size and depth. Randomized Benchmarking (RB) is arguably the simplest method to initially assess the overall performance of a quantum device, as well as to pinpoint the presence of temporal-correlations, so-called non-Markovianity; however, when such presence is detected, it hitherto remains a challenge to operationally quantify its features. Here, we demonstrate a method exploiting the power of machine learning with matrix product operators to deduce the minimal average non-Markovianity displayed by the data of a RB experiment, arguing that this can be achieved for any suitable gate set, as well as tailored for most specific-purpose RB techniques.
翻訳日:2023-02-06 19:03:27 公開日:2022-07-04
# 変分量子アルゴリズムのクリフォード回路初期化

Clifford Circuit Initialisation for Variational Quantum Algorithms ( http://arxiv.org/abs/2207.01539v1 )

ライセンス: Link先を確認
M. H. Cheng, K. E. Khosla, C. N. Self, M. Lin, B. X. Li, A. C. Medina, and M. S. Kim(参考訳) 本稿では,中間スケール量子コンピュータに適用可能な変分量子アルゴリズムの初期化手法を提案する。 低エネルギー初期条件を求めるための事前最適化として、効率良くシミュレート可能なクリフォードパラメータ点のシミュレートアニーリングを用いる。 本手法の有効性を数値的に検証し,ハミルトン構造,量子ビット数,回路深さに依存する方法について述べる。 様々な問題を考えるが、この手法は量子化学問題に特に有用である。 提案手法は,提案手法が任意にスケーラブルでないことを一般に証明したものの,ノイズやフォールトトレラントな中間スケールデバイスにおいて量子アドバンテージを達成するのに役立つ。

We present an initialisation method for variational quantum algorithms applicable to intermediate scale quantum computers. The method uses simulated annealing of the efficiently simulable Clifford parameter points as a pre-optimisation to find a low energy initial condition. We numerically demonstrate the effectiveness of the technique, and how it depends on Hamiltonian structure, number of qubits and circuit depth. While a range of different problems are considered, we note that the method is particularly useful for quantum chemistry problems. This presented method could help achieve a quantum advantage in noisy or fault-tolerant intermediate scale devices, even though we prove in general that the method is not arbitrarily scalable.
翻訳日:2023-02-06 19:03:14 公開日:2022-07-04
# 円錐に閉じ込められた球状井戸における量子粒子

Quantum particle in a spherical well confined by a cone ( http://arxiv.org/abs/2207.01521v1 )

ライセンス: Link先を確認
Raz Halifa Levi and Yacov Kantor(参考訳) 球面箱または有限球面井戸の粒子の量子問題は、球面の中心から放出される頂点角が 2\theta_0$ の円錐状円錐に閉じ込められ、0<\theta_0<\pi$ である。 この非中央ポテンシャルは球対称問題で使われる手法の拡張によって解決できる。 固有状態の角部分は azimuthal angle $\varphi$ と polar angle $\theta$ as $P_\lambda^m(\cos\theta){\rm e}^{im\varphi}$ に依存する。 m$ と $\theta_0$ に依存する値の無限離散集合 $\lambda=\lambda_i^m$ (i=0,1,3,\dots$) が存在する。 それぞれの$\lambda_i^m$ は、固有関数の半径部分を持つ、E_n(\lambda_i^m)$ の無限列を持つ。 球面箱において、離散エネルギースペクトルは球面ベッセル関数の零点によって決定される。 いくつかの$\theta_0$に対して、ワイルの連続推定値${\cal N}_W$の正確な状態数に対して$\cal N$ to energy $E$ の妥当性を示し、$\cal N$ around ${\cal N}_W$ の変動を評価する。 有限深さ$u_0$ での有界状態の挙動を調べ、すべての有界状態が消滅したときの臨界値$u_c(\theta_0)$を求める。 井戸の外のゼロエネルギー固有状態の半径部分は 1/r^{\lambda+1}$ であり、$\lambda\le 1/2$ の平方積分ではない。 0<\lambda\le 1/2$ は$\theta_0>\theta_c\approx 0.726\pi$ で表せる。 境界状態は空間範囲$\xi$を持ち、これは(おそらく$\lambda$依存の)パワー法則として発散し、U_0$はその状態のアイジネギーが消滅する値に近づく。

We consider the quantum problem of a particle in either a spherical box or a finite spherical well confined by a circular cone with an apex angle $2\theta_0$ emanating from the center of the sphere, with $0<\theta_0<\pi$. This non-central potential can be solved by an extension of techniques used in spherically-symmetric problems. The angular parts of the eigenstates depend on azimuthal angle $\varphi$ and polar angle $\theta$ as $P_\lambda^m(\cos\theta){\rm e}^{im\varphi}$ where $P_\lambda^m$ is the associated Legendre function of integer order $m$ and (usually noninteger) degree $\lambda$. There is an infinite discrete set of values $\lambda=\lambda_i^m$ ($i=0,1,3,\dots$) that depend on $m$ and $\theta_0$. Each $\lambda_i^m$ has an infinite sequence of eigenenergies $E_n(\lambda_i^m)$, with corresponding radial parts of eigenfunctions. In a spherical box the discrete energy spectrum is determined by the zeros of the spherical Bessel functions. For several $\theta_0$ we demonstrate the validity of Weyl's continuous estimate ${\cal N}_W$ for the exact number of states $\cal N$ up to energy $E$, and evaluate the fluctuations of $\cal N$ around ${\cal N}_W$. We examine the behavior of bound states in a well of finite depth $U_0$, and find the critical value $U_c(\theta_0)$ when all bound states disappear. The radial part of the zero energy eigenstate outside the well is $1/r^{\lambda+1}$, which is not square-integrable for $\lambda\le 1/2$. ($0<\lambda\le 1/2$ can appear for $\theta_0>\theta_c\approx 0.726\pi$ and has no parallel in spherically-symmetric potentials.) Bound states have spatial extent $\xi$ which diverges as a (possibly $\lambda$-dependent) power law as $U_0$ approaches the value where the eigenenergy of that state vanishes.
翻訳日:2023-02-06 19:03:02 公開日:2022-07-04
# 熱電輸送によるマヨラナ境界状態の探索

Probing Majorana Bound States via Thermoelectric Transport ( http://arxiv.org/abs/2207.01515v1 )

ライセンス: Link先を確認
Ritesh Das, Colin Benjamin(参考訳) 本研究では,アハロノフ-ボーム干渉法による熱電実験のセットを提案し,近接効果による超伝導および強磁性相関の存在下で2次元トポロジカル絶縁体(TI)で生成するマヨラナ境界状態(MBS)を探索する。 これらのMBSの存在と性質(カップリングまたはアンカップリング)は、電荷と熱輸送の研究、具体的には、フェルミエネルギーの関数としてのゼーベック係数、ペルティエ係数、熱伝導率、ウィデマン・フランツ則の違反といった様々な熱電係数の挙動と、TI環を埋め込みMBSで貫通するアハロノフ・ボームフラックスの研究によって決定できる。

We propose a set of thermoelectric experiments based on Aharonov-Bohm interferometry to probe Majorana bound states (MBS), which are generated in 2D topological insulators (TI) in the presence of superconducting and ferromagnetic correlations via the proximity effect. The existence and nature (coupled or uncoupled) of these MBS can be determined by studying the charge and heat transport, specifically, the behavior of various thermoelectric coefficients like the Seebeck coefficient, Peltier coefficient, thermal conductance, and violations of Wiedemann-Franz law as a function of the Fermi energy and Aharonov-Bohm flux piercing the TI ring with the embedded MBS.
翻訳日:2023-02-06 19:02:18 公開日:2022-07-04
# 数確率分布のガウスフィッティングによる位相図の検出

Phase Diagram Detection via Gaussian Fitting of Number Probability Distribution ( http://arxiv.org/abs/2207.01478v1 )

ライセンス: Link先を確認
Daniele Contessi, Alessio Recati and Matteo Rizzi(参考訳) 量子多体系のサブポーションをグローバルに保存された粒子数で特徴づける数確率密度関数について検討する。 よりリッチな1次元拡張Bose-Hubbardモデルの基底状態位相図をマッピングできる線形フィッティングプロトコルを提案している。 研究量は最も情報に富む二部晶質の諸性質として考慮されるべきであり, 原子ガス実験では容易に利用可能である。

We investigate the number probability density function that characterizes sub-portions of a quantum many-body system with globally conserved number of particles. We put forward a linear fitting protocol capable of mapping out the ground-state phase diagram of the rich one-dimensional extended Bose-Hubbard model: The results are quantitatively comparable with more sophisticated traditional and machine learning techniques. We argue that the studied quantity should be considered among the most informative bipartite properties, being moreover readily accessible in atomic gases experiments.
翻訳日:2023-02-06 19:02:01 公開日:2022-07-04
# in-medium similarity renormalization groupと密度行列再正規化群を組み合わせる:シェル構造と情報エントロピー

Combining the in-medium similarity renormalization group with the density matrix renormalization group: Shell structure and information entropy ( http://arxiv.org/abs/2207.01438v1 )

ライセンス: Link先を確認
A. Tichai, S. Knecht, A.T. Kruppa, \"O. Legeza, C.P. Moca, A. Schwenk, M.A. Werner, G. Zarand(参考訳) 本研究では,密度行列再正規化群 (dmrg) と原子価空間 (vs) を結合した新しい多体フレームワークを提案する。 このハイブリッドスキームは、直接対角化よりも大きな空間計算において好ましい計算スケーリングを許容する。 vs-dmrgアプローチのキャパシティは、キラルな2核および3核子相互作用に基づく中性子リッチニッケル同位体のab initio計算で強調され、地上および励起状態エネルギーの収束ab initio計算を可能にする。 また,VS-DMRGの軌道エンタングルメントについて検討し,酸素,ネオン,マグネシウム同位体の核相関効果について検討した。 調査された絡み合い対策は、核シェルの閉鎖とペアの相関を明らかにする。

We propose a novel many-body framework combining the density matrix renormalization group (DMRG) with the valence-space (VS) formulation of the in-medium similarity renormalization group. This hybrid scheme admits for favorable computational scaling in large-space calculations compared to direct diagonalization. The capacity of the VS-DMRG approach is highlighted in ab initio calculations of neutron-rich nickel isotopes based on chiral two- and three-nucleon interactions, and allows us to perform converged ab initio computations of ground and excited state energies. We also study orbital entanglement in the VS-DMRG, and investigate nuclear correlation effects in oxygen, neon, and magnesium isotopes. The explored entanglement measures reveal nuclear shell closures as well as pairing correlations.
翻訳日:2023-02-06 19:01:30 公開日:2022-07-04
# グラフ上のグローバーの量子ウォークへの定量的アプローチ

Quantitative approach to Grover's quantum walk on graphs ( http://arxiv.org/abs/2207.01686v1 )

ライセンス: Link先を確認
Gamal Mograby, Radhakrishnan Balu, Kasso A. Okoudjou and Alexander Teplyaev(参考訳) 本稿では,グラフ上の連続時間量子ウォークに着目したグローバー探索アルゴリズムについて検討する。 本稿では,グラフ上のGroverのアルゴリズムに代わる最適化手法を提案する。グラフトポロジを関連量子ウォークに便利に見つける代わりに,グラフトポロジを修正し,基礎となるグラフラプラシアンを変化させる。 その結果,グラフ上で最も適切な解析構造を探索し,より優れた探索結果が得られる固定トポロジーを付与した。 グローバーのアルゴリズムの最適性を検討するための戦略を議論し、簡単なチューニング可能なグラフラプラシアンを例示し、アイデアを考察する。

In this paper, we study Grover's search algorithm focusing on continuous-time quantum walk on graphs. We propose an alternative optimization approach to Grover's algorithm on graphs that can be summarized as follows: instead of finding specific graph topologies convenient for the related quantum walk, we fix the graph topology and vary the underlying graph Laplacians. As a result, we search for the most appropriate analytical structure on graphs endowed with fixed topologies yielding better search outcomes. We discuss strategies to investigate the optimality of Grover's algorithm and provide an example with an easy tunable graph Laplacian to investigate our ideas.
翻訳日:2023-02-06 18:54:19 公開日:2022-07-04
# 量子重力シミュレータのフォトニック実装

Photonic Implementation of Quantum Gravity Simulator ( http://arxiv.org/abs/2207.01680v1 )

ライセンス: Link先を確認
Emanuele Polino, Beatrice Polacchi, Davide Poderini, Iris Agresti, Gonzalo Carvacho, Fabio Sciarrino, Andrea Di Biagio, Carlo Rovelli and Marios Christodoulou(参考訳) 重力による絡み合いを検出することは、重力場が量子力学に従う証拠となる。 本稿では,この現象をフォトニックプラットフォームを用いてシミュレーションした結果について報告する。 シミュレーションは、変数の量子的性質を解析して絡み合いを媒介し、理論的および実験的洞察を得るというアイデアをテストする。 エンタングルメントの有無を調べるために, ベル試験, エンタングルメント証人, 量子状態トモグラフィーの3つの方法を用いた。 また, 重力崩壊モデルや実験装置の不完全性により予測される代替シナリオをシミュレートし, 量子状態トモグラフィーを用いてエンタングルメントの欠如を検証した。 シミュレーションの主な教訓は2つある。 1) 経路情報は最初に符号化され、重力場からコヒーレントに消去されなければならない。 2)ベル試験を行うことでより強力な結論が得られ、重力による非局所性の存在が証明される。

Detecting gravity mediated entanglement can provide evidence that the gravitational field obeys quantum mechanics. We report the result of a simulation of the phenomenon using a photonic platform. The simulation tests the idea of probing the quantum nature of a variable by using it to mediate entanglement, and yields theoretical and experimental insights. We employed three methods to test the presence of entanglement: Bell test, entanglement witness and quantum state tomography. We also simulate the alternative scenario predicted by gravitational collapse models or due to imperfections in the experimental setup and use quantum state tomography to certify the absence of entanglement. Two main lessons arise from the simulation: 1) which--path information must be first encoded and subsequently coherently erased from the gravitational field, 2) performing a Bell test leads to stronger conclusions, certifying the existence of gravity mediated nonlocality.
翻訳日:2023-02-06 18:54:08 公開日:2022-07-04
# 二部歩行のハミルトン人

Hamiltonians of Bipartite Walks ( http://arxiv.org/abs/2207.01673v1 )

ライセンス: Link先を確認
Qiuting Chen, Chris Godsil, Mariia Sobchuk, Harmony Zhan(参考訳) 本稿では,二部歩行と呼ばれる離散的な量子ウォークモデルを提案する。 バイパルタイトウォークには、アーク反転ウォークや頂点面ウォークなど、多くの既知の量子ウォークモデルが含まれている。 量子ウォークの遷移行列に対して、それに関連するハミルトン行列が存在する。 我々は二部歩行のハミルトン人を研究する。 S$ をスキュー対称行列とする。 私たちは主に、$iS$という形のハミルトン派に興味を持っています。 ここでは、ハミルトニアンが$iS$と書けることは、二部グラフの隣接行列が可逆である場合に限る。 円弧反転歩行と頂点面歩行は,二部歩行の特別な場合であることを示す。 ハミルトニアンを通じて、二部歩行の現象は連続歩行の現象に繋がる。 連続歩行における普遍的完全状態移動を構築するために,二部歩行を経路上でどのように使うかを詳細に示す。

In this paper, we introduce a discrete quantum walk model called bipartite walks. Bipartite walks include many known discrete quantum walk models, like arc-reversal walks, vertex-face walks. For the transition matrix of a quantum walk, there is a Hamiltonian associated with it. We will study the Hamiltonians of the bipartite walks. Let $S$ be a skew-symmetric matrix. We are mainly interested in the Hamiltonians of the form $iS$. We show that the Hamiltonian can be written as $iS$ if and only if the adjacency matrix of the bipartite graph is invertible. We show that arc-reversal walks and vertex-face walks are special cases of bipartite walks. Via the Hamiltonians, phenomena of bipartite walks lead to phenomena of continuous walks. We show in detail how we use bipartite walks on paths to construct universal perfect state transfer in continuous walks.
翻訳日:2023-02-06 18:53:54 公開日:2022-07-04
# スピン依存スクイーズを用いたロバスト2量子トラップイオンゲート

Robust two-qubit trapped ions gates using spin-dependent squeezing ( http://arxiv.org/abs/2207.01660v1 )

ライセンス: Link先を確認
Yotam Shapira, Sapir Cohen, Nitzan Akerman, Ady Stern and Roee Ozeri(参考訳) エンタングゲートは量子コンピュータの重要な構成要素である。 しかし、スケーラブルな方法で高忠実度ゲートを生成することは、すべての量子情報処理プラットフォームにおいて大きな課題である。 このため、近年、ゲートの忠実性と堅牢性の向上が研究の焦点となっている。 閉じ込められたイオン量子コンピュータでは、イオン鎖の通常の運動モードを駆動し、スピン依存力を生成することで、絡み合うゲートが実行される。 これらのゲートのロバスト性やモジュール性の向上には大きな進展があったが、運転場の強度のノイズに敏感である。 ここでは、従来のスピン依存変位をスピン依存スクイージングで補うことにより、駆動場の振幅の偏差にロバストなゲートを実現する。 一般ハミルトニアンを解き、スペクトルを解析的に解析する。 また、より従来的なロバスト性特性により、多くの実用的なノイズや不正確さの源に弾力性を持たせます。

Entangling gates are an essential component of quantum computers. However, generating high-fidelity gates, in a scalable manner, remains a major challenge in all quantum information processing platforms. Accordingly, improving the fidelity and robustness of these gates has been a research focus in recent years. In trapped ions quantum computers, entangling gates are performed by driving the normal modes of motion of the ion chain, generating a spin-dependent force. Even though there has been significant progress in increasing the robustness and modularity of these gates, they are still sensitive to noise in the intensity of the driving field. Here we supplement the conventional spin-dependent displacement with spin-dependent squeezing, which enables a gate that is robust to deviations in the amplitude of the driving field. We solve the general Hamiltonian and engineer its spectrum analytically. We also endow our gate with other, more conventional, robustness properties, making it resilient to many practical sources of noise and inaccuracies.
翻訳日:2023-02-06 18:53:13 公開日:2022-07-04
# レーザー駆動二極性ボース・アインシュタイン凝縮体の結晶相

Crystalline Phases of Laser-Driven Dipolar Bose-Einstein Condensates ( http://arxiv.org/abs/2207.01650v1 )

ライセンス: Link先を確認
Chinmayee Mishra, Stefan Ostermann, Farokh Mivehvar, B. Prasanna Venkatesh(参考訳) 結晶化は自然界においてユビキタスな現象であるが、結晶形成と融解は依然として興味深いプロセスであり、未解決の問題もいくつか残っている。 本研究では, レーザー駆動二極性ボース・アインシュタイン凝縮体の創発的結晶化について, 長距離磁気相互作用と実質的に無限距離光誘起相互作用の相互作用によって研究する。 これら2つの相互作用の競合は、結晶秩序が現れる2つの異なる長さのスケールを導入する2つのロートンミニマを持つ集合励起スペクトルをもたらす。 回転子の軟化による周期パターンの単純な正則結晶の形成に加えて、両回転子も同時に軟化でき、エキゾチックで複雑な周期的または非周期的な密度パターンを形成することが判明した。 また,すべての結晶基底状態の動的状態準備スキームを実験的に有意かつ実現可能なパラメーターレシスタンスに対して示す。

Although crystallization is a ubiquitous phenomenon in nature, crystal formation and melting still remain fascinating processes with several open questions yet to be addressed. In this work, we study the emergent crystallization of a laser-driven dipolar Bose-Einstein condensate due to the interplay between long-range magnetic and effectively infinite-range light-induced interactions. The competition between these two interactions results in a collective excitation spectrum with two roton minima that introduce two different length scales at which crystalline order can emerge. In addition to the formation of regular crystals with simple periodic patterns due to the softening of one of the rotons, we find that both rotons can also soften simultaneously, resulting in the formation of exotic, complex periodic or aperiodic density patterns. We also demonstrate dynamic state-preparation schemes for achieving all the found crystalline ground states for experimentally relevant and feasible parameter regimes.
翻訳日:2023-02-06 18:52:57 公開日:2022-07-04
# 量子会議鍵合意のための実験ネットワークアドバンテージ

Experimental network advantage for quantum conference key agreement ( http://arxiv.org/abs/2207.01643v1 )

ライセンス: Link先を確認
Alexander Pickston, Joseph Ho, Andr\'es Ulibarrena, Federico Grasselli, Massimiliano Proietti, Christopher L. Morrison, Peter Barrow, Francesco Graffitti and Alessandro Fedrizzi(参考訳) 量子技術の大きな約束の1つは、分散量子コンピューティング、分散量子センシング、量子-セキュア通信といったタスクの絡み合いのグローバルな分散を可能にする量子ネットワークの開発である。 量子ネットワークのポテンシャルを最大限に活用するには、ベル状態のような厳密な対角相関とは対照的に、真のマルチパーティトの絡み合いから効率の利点を引き出すプロトコルが必要である。 Greenberger-Horne-Zeilinger(GHZ)状態のようなマルチユーザ絡み合いは、量子会議鍵合意、量子秘密共有、および量子通信複雑性問題にすでに適用されている。 しかし、真のネットワークアドバンテージはまだ達成されていない。 本研究では、直接量子会議鍵契約のための4ユーザGHZ状態か、等価なペアワイズプロトコルのためのベルペアの必要量のいずれかを導出する6光子グラフ状態ネットワークを作成する。 ghz-stateプロトコルは、セキュアな会議鍵ビットあたりのネットワークリソースの半分しか消費せず、2倍以上の速度の利点があることを示す。

One of the great promises of quantum technology is the development of quantum networks, which will allow global distribution of entanglement for tasks such as distributed quantum computing, distributed quantum sensing and quantum-secure communication. To leverage the full potential of quantum networks we require protocols that draw an efficiency advantage from genuine multi-partite entanglement as opposed to strictly pair-wise correlations such as Bell states. Multi-user entanglement such as Greenberger-Horne-Zeilinger (GHZ) states have already found application in quantum conference key agreement, quantum secret sharing and quantum communication complexity problems. However, a true network advantage has not yet been achieved. In this work we create a six-photon graph-state network from which we derive either a four-user GHZ state for direct quantum conference key agreement or the required amount of Bell pairs for the equivalent pair-wise protocol. We show that the GHZ-state protocol has a more than two-fold rate advantage by only consuming half the amount of network resources per secure conference key bit.
翻訳日:2023-02-06 18:52:24 公開日:2022-07-04
# マイクロ波共振器内の磁気浮上 : キャラクタリゼーション, 挑戦, 可能性

Magnetic levitation within a microwave cavity: characterization, challenges, and possibilities ( http://arxiv.org/abs/2208.03220v1 )

ライセンス: Link先を確認
Nabin K. Raut, Jeffery Miller, Raymond E. Chiao, and Jay E. Sharping(参考訳) 超伝導磁気浮上における低エネルギー損失は、物理学のエキサイティングな応用に魅力を与える。 近年の超伝導磁気浮上は、窒素空洞中心におけるスピンキュービットの機械的な変換として実現されている [1]。 さらに、マイスナーは修正された重力波検出 [2] の研究のために提案されている。 マイクロ波キャビティ内のマイスナー浮上は、新しいキャビティ・オプティメカティカル・システム、トランスモンやマグノンなどの量子オブジェクトの読み出し、重力波検出、磁気力学[3]のための道を開くことができる。 この研究はマイクロ波内の磁気浮上を特徴とした。 また、空洞磁気系の可能性、課題、室温、低温実験についても論じている。

The low energy losses in the superconducting magnetic levitation make it attractive for exciting applications in physics. Recently, superconducting magnetic levitation has been realized as novel mechanical transduction for the individual spin qubit in the nitrogen-vacancy center [1]. Furthermore, the Meissner has been proposed for the study of modified gravitational wave detection [2]. Meissner levitation within the microwave cavity could open avenues for the novel cavity optomechanical system, readout for quantum object such as the transmon, and magnon, gravitational wave detection, and magnetomechanics [3]. This work characterized magnetic levitation within a microwave. It also discusses possibilities, challenges, and room temperature and cryogenic experiments of the cavity-magnet system.
翻訳日:2023-02-06 18:46:13 公開日:2022-07-04
# 透明導電性酸化物を用いた電気スイッチ可能なカシミール力

Electrically switchable Casimir forces using transparent conductive oxides ( http://arxiv.org/abs/2207.02305v1 )

ライセンス: Link先を確認
Tao Gong, Benjamin Spreng, Miguel Camacho, Inigo Liberal, Nader Engheta and Jeremy N. Munday(参考訳) 電荷-中性体間のカシミール力は、電磁場の量子真空ゆらぎに由来する。 長年にわたり、材料の光学特性のその場調整は様々な方法で実現され、電気光学変調、過渡色生成、生物または化学センシングなど、様々な用途で広く利用されてきた。 しかし、カシミールの力変調は、カシミール相互作用のブロードバンド特性による高変調信号の達成の困難さによって妨げられている。 本稿では、透明導電性酸化物(TCO)材料からなる金属絶縁体-半導体接合体(MIS)の電気ゲーティングにより、カシミール力のその場調節を可能にする2つの構成を提案する。 ゲート電圧をオン/オフさせることにより、TCO層に静電荷担体が蓄積しているため、400 pNの力変調を予測し、原子間力顕微鏡(AFM)の最先端の力測定技術を用いて容易に測定できる。 さらに, 酸化物層厚が力変調に及ぼす影響についても検討し, 酸化物層堆積の微調整の重要性を示唆した。 本研究は,実験的に測定可能な力コントラストを用いてカシミール効果をその場で変調する有望な経路を提供する。

Casimir forces between charge-neutral bodies originate from quantum vacuum fluctuations of electromagnetic fields, which exhibit a critical dependence on material's electromagnetic properties. Over the years, in-situ modulation of material's optical properties has been enabled through various means and has been widely exploited in a plethora of applications such as electro-optical modulation, transient color generation, bio- or chemical sensing, etc. Yet Casimir force modulation has been hindered by difficulty in achieving high modulation signals due to the broadband nature of the Casimir interaction. Here we propose and investigate two configurations that allow for in-situ modulation of Casimir forces through electrical gating of a metal-insulator-semiconductor (MIS) junction comprised of transparent conductive oxide (TCO) materials. By switching the gate voltage on and off, a force modulation of > 400 pN is predicted due to substantive charge carrier accumulation in the TCO layer, which can be easily measured using state-of-the-art force measurement techniques in an atomic force microscope (AFM). We further examine the influence of the oxide layer thickness on the force modulation, suggesting the importance of the fine control of the oxide layer deposition. Our work provides a promising pathway for modulating the Casimir effect in-situ with experimentally measurable force contrast.
翻訳日:2023-02-06 18:45:48 公開日:2022-07-04
# 消失する差別者の問題について

On the problem of the vanishing discriminant ( http://arxiv.org/abs/2207.02298v1 )

ライセンス: Link先を確認
Francisco M. Fern\'andez(参考訳) いくつかの物理的問題に対する判別器の直接的適用は、自明な無駄な結果をもたらす可能性がある。 モデル行列の対称性がモデルパラメータの変動によって変化しない場合、判別式は縮退のためにパラメータのすべての値に対して消滅することがある。 我々は、エルミートハミルトン作用素の単純な 6\times6$ 行列表現を用いてこの問題を説明する。

We show that the straightforward application of the discriminant to some physical problems may yield a trivial useless result. If the symmetry of the model matrix does not change with variations of the model parameter the discriminant may vanish for all values of the parameter due to degeneracy. We illustrate this problem by means of a simple $6\times6$ matrix representation of an Hermitian Hamiltonian operator.
翻訳日:2023-02-06 18:45:10 公開日:2022-07-04
# トロイダル殻中の電子ガス:モードカップリングと状態関数

Electron gases in toroidal shells: mode coupling and state functions ( http://arxiv.org/abs/2207.01745v1 )

ライセンス: Link先を確認
Mario Encinosa and Johnny Williamson(参考訳) トロイダル貝殻中の自由電子ガスを記述する固有値と波動関数は, 系の幾何学に自然な基底集合展開を用いて決定する。 アジムタールとポロイドモードの結合は${m_\phi}$の低い値で認識でき、殻内の単一粒子密度分布を変化させることができる。 熱力学状態関数は、固体トロイダル体積と計算され、対比される。

Eigenvalues and wave functions describing free electron gases in toroidal shells are determined using a basis set expansion natural to the system geometry. Couplings between azimuthal and poloidal modes are found to be appreciable at lower values of ${m_\phi}$, modifying single particle density distributions within the shells. Thermodynamic state functions are calculated and contrasted with those of a solid toroidal volume.
翻訳日:2023-02-06 18:45:00 公開日:2022-07-04
# 低周波量子ビットノイズの特徴付け

Characterizing low-frequency qubit noise ( http://arxiv.org/abs/2207.01740v1 )

ライセンス: Link先を確認
Filip Wudarski, Yaxing Zhang, Alexander Korotkov, A. G. Petukhov, and M. I. Dykman(参考訳) 量子ビット周波数の変動は、スケーラブルな量子コンピュータへの道のりで克服すべき主要な問題の1つである。 特に重要なのは、素早いプロセスによる減衰と強調によるデコヒーレンス時間を超える相関時間とのゆらぎである。 ゆらぎの統計は、定期的に繰り返されるラムジー測定の結果の相関を測定することで特徴づけられる。 本研究は,進化する雑音の存在下で繰り返し測定中に量子力学を記述する手法を提案する。 これにより、特に2レベルシステムからの雑音に対する2回コリレータの評価とガウス雑音に対する2回および3回コリレータの取得が可能となった。 相関器の明示的な表現はシミュレーションと比較される。 2レベルシステムからのノイズとガウス雑音に対する3つのコリケータの有意な差が示されている。 雑音相関時間に匹敵するデータ取得時間に対して, ラムジー測定結果の分布を, 微視的構造で強く拡大する傾向がみられた。

Fluctuations of the qubit frequencies are one of the major problems to overcome on the way to scalable quantum computers. Of particular importance are fluctuations with the correlation time that exceeds the decoherence time due to decay and dephasing by fast processes. The statistics of the fluctuations can be characterized by measuring the correlators of the outcomes of periodically repeated Ramsey measurements. This work suggests a method that allows describing qubit dynamics during repeated measurements in the presence of evolving noise. It made it possible, in particular, to evaluate the two-time correlator for the noise from two-level systems and obtain two- and three-time correlators for a Gaussian noise. The explicit expressions for the correlators are compared with simulations. A significant difference of the three-time correlators for the noise from two-level systems and for a Gaussian noise is demonstrated. Strong broadening of the distribution of the outcomes of Ramsey measurements, with a possible fine structure, is found for the data acquisition time comparable to the noise correlation time.
翻訳日:2023-02-06 18:44:48 公開日:2022-07-04
# 1+1次元量子色力学の量子シミュレーションのための準備:(i)軸ゲージ

Preparations for Quantum Simulations of Quantum Chromodynamics in 1+1 Dimensions: (I) Axial Gauge ( http://arxiv.org/abs/2207.01731v1 )

ライセンス: Link先を確認
Roland C. Farrell, Ivan A. Chernyshev, Sarah J. M. Powell, Nikita A. Zemlevskiy, Marc Illa and Martin J. Savage(参考訳) 1+1 次元量子色力学の量子シミュレーションに必要なツールを開発した。 軸ゲージと2つのクォークのフレーバーで定式化された場合、このシステムは、非局所相互作用によるゲージ場を含む空間的位置当たり12キュービットを必要とする。 古典計算とd波の量子アニーラーの利点はハドロンスペクトルを決定するために使われ、質量の分解とクォークの絡み合いの研究を可能にしている。 格子の端部のスクリーニング長さ内に閉じ込められたカラーエッジ状態が見つかる。 IBM の 7-qubit 量子コンピュータ ibmq_jakarta と ibm_perth は、1つの空間的位置を持つ 1-flavor QCD における自明な真空からのダイナミクスを計算するために用いられる。 より一般的には、1+1$次元のSU(N_c)$ゲージ理論の時間発展のためのハミルトニアン回路と量子回路が開発され、大規模量子シミュレーションのリソース要件が推定される。

Tools necessary for quantum simulations of $1+1$ dimensional quantum chromodynamics are developed. When formulated in axial gauge and with two flavors of quarks, this system requires 12 qubits per spatial site with the gauge fields included via non-local interactions. Classical computations and D-Wave's quantum annealer Advantage are used to determine the hadronic spectrum, enabling a decomposition of the masses and a study of quark entanglement. Color edge states confined within a screening length of the end of the lattice are found. IBM's 7-qubit quantum computers, ibmq_jakarta and ibm_perth, are used to compute dynamics from the trivial vacuum in one-flavor QCD with one spatial site. More generally, the Hamiltonian and quantum circuits for time evolution of $1+1$ dimensional $SU(N_c)$ gauge theory with $N_f$ flavors of quarks are developed, and the resource requirements for large-scale quantum simulations are estimated.
翻訳日:2023-02-06 18:44:21 公開日:2022-07-04
# キャビティ内の冷間原子の基底状態安定性

Ground state bistability of cold atoms in a cavity ( http://arxiv.org/abs/2207.01724v1 )

ライセンス: Link先を確認
B. G\'abor, D. Nagy, A. Dombi, T. W. Clark, F. I. B. Williams, K. V. Adwaith, A. Vukics, P. Domokos(参考訳) 本研究では,2つの超微細原子基底状態間の光ビスタビリティを,集合的強結合状態における光共振器の単一モードを用いて実験的に実証する。 慣れ親しんだ場合、双安定領域は原子飽和によって生成されるが、将来の情報保存に必須な高い量子純度状態の間の効果を報告する。 遷移の非線形性は、冷たく閉じ込められた原子の基底状態間の空洞補助ポンプによって生じ、安定性は2つの駆動レーザーの強度に依存する。 伝送場と駆動場をそれぞれ順序パラメータと制御パラメータとして理解した一階駆動散逸相遷移の最近のパラダイムを用いて,この現象を解釈する。 飽和によって引き起こされるビスタビリティは、制御の1つにおいて無限ドライブに対して回復される。 遷移の順序は、2つの制御パラメータのどちらかが不安定領域をまたいで繰り返し渡され、基礎となる位相図が半古典平均場理論に従って予測されるとき、順序パラメータのヒステリシスによって実験的に確認される。

We experimentally demonstrate an optical bistability between two hyperfine atomic ground states, using a single mode of an optical resonator in the collective strong coupling regime. Whereas in the familiar case, the bistable region is created through atomic saturation, we report an effect between states of high quantum purity, which is essential for future information storage. The nonlinearity of the transitions arise from cavity-assisted pumping between ground states of cold, trapped atoms and the stability depends on the intensity of two driving lasers. We interpret the phenomenon in terms of the recent paradigm of first-order, driven-dissipative phase transitions, where the transmitted and driving fields are understood as the order and control parameters, respectively. The saturation-induced bistability is recovered for infinite drive in one of the controls. The order of the transition is confirmed experimentally by hysteresis in the order parameter when either of the two control parameters is swept repeatedly across the bistability region and the underlying phase diagram is predicted in line with semiclassical mean-field theory.
翻訳日:2023-02-06 18:44:02 公開日:2022-07-04
# 集積量子光源のためのカスタム非線形プロファイル

Custom nonlinearity profile for integrated quantum light sources ( http://arxiv.org/abs/2207.01714v1 )

ライセンス: Link先を確認
Salvador Poveda-Hospital, Nicol\'as Quesada, and Yves-Alain Peter(参考訳) ヘラルド単光子源は、光量子技術の基本構成要素である。 これらのソースは、優れたスケーラビリティを持ち、不要な損失を避けるために、フィルタを外して統合する必要がある。 この目的を達成するためには、導波路源に混在して伝播する磁場の有効非線形性を制御する必要がある。 本稿では,非線形導波路を任意に形作る非線形導波路設計法を提案する。 この方法は、第2次非線形応答がテンソル量であるという事実を生かして、物質の局所的有効非線形性は、相互作用に関与する場の伝播方向に依存する。 したがって、フィールドの伝搬方向を局所的に変化させることで、波混合プロセスを変調することができる。 導波路の材料構造は1つの結晶でできており, 配向パターン (OP) や周期性ポーリング (PP) はもはや不要である。 提案手法を用いて伝搬長がガウス的である非線形プロファイルを持つ導波路を設計し,完全純粋に隠蔽された単一光子を生成する。

Heralded single-photon sources are a fundamental building block for optical quantum technologies. These sources need to be unfiltered and integrated to have good scalability and avoid unnecessary losses. To attain this goal, it is necessary to control the effective nonlinearity seen by the fields as they mix and propagate in a waveguide source. In this paper, we introduce a method to design nonlinear waveguides with arbitrarily shaped effective nonlinearity profiles. The method takes advantage of the fact that the second order nonlinear response is a tensor quantity and thus the local effective nonlinearity of a material depends on the propagation direction of the fields participating in the interaction. Thus, by locally changing the propagation direction of the fields we can modulate the wave-mixing process. Our methods allows for the waveguide fabrication process to be significantly simplified: The material structure of the waveguide is made by a single crystal, no longer needing oriented patterning (OP) or periodic poling (PP). We use our method to design waveguides with a nonlinearity profile that is Gaussian in the propagation length, allowing to generate perfectly pure heralded single photons.
翻訳日:2023-02-06 18:43:38 公開日:2022-07-04
# フェルミオン性空孔の部位別合成におけるゲート複合体の推定

Estimating gate complexities for the site-by-site preparation of fermionic vacua ( http://arxiv.org/abs/2207.01692v1 )

ライセンス: Link先を確認
Troy Sewell, Aniruddha Bapat, Stephen Jordan(参考訳) 量子シミュレーションの重要な側面は、量子コンピュータ上の物理的に興味深い状態を作成することである。 質量ギャップを持つフェルミオン場の理論の真空状態を作成する方法として、arXiv:1911.03505で「サイト・バイ・サイト」と呼ばれる状態準備スキームが導入された。 より一般に、このアルゴリズムは、連続する中間基底状態が非ゼロ重なりを持ち、ハミルトニアンが有限格子サイズで非有界なスペクトルギャップを持つ限り、1つの点を1つ加えることによって、ハミルトニアンの基底状態を作成するのに使うことができる。 本稿では,2次フェルミオン性ハミルトニアンの点数の関数として基底状態の重なりについて検討する。 自由フェルミオンとして知られる解析式を用いることで、大きなn$の挙動を探索し、状態の重なりに関する結論を導き出すことができる。 研究された全てのモデルにおいて、重なりは(例えば$> 0.1$)、量子相転移またはギャップのないエッジモードの存在を除いて、大きな格子サイズ (n=64,72$) まで大きい。 1次元系では、2つの$N/2$サイト基底状態も位相境界近傍の領域を除いて、ほぼどこでも$N/2$サイト基底状態と大きな重なり合いを持つ。 これらの数値計算結果に基づき,サイトバイサイト状態生成アルゴリズムに代わる再帰的手法を提案する。

An important aspect of quantum simulation is the preparation of physically interesting states on a quantum computer, and this task can often be costly or challenging to implement. A digital, ``site-by-site'' scheme of state preparation was introduced in arXiv:1911.03505 as a way to prepare the vacuum state of certain fermionic field theory Hamiltonians with a mass gap. More generally, this algorithm may be used to prepare ground states of Hamiltonians by adding one site at a time as long as successive intermediate ground states share a non-zero overlap and the Hamiltonian has a non-vanishing spectral gap at finite lattice size. In this paper, we study the ground state overlap as a function of the number of sites for a range of quadratic fermionic Hamiltonians. Using analytical formulas known for free fermions, we are able to explore the large-$N$ behavior and draw conclusions about the state overlap. For all models studied, we find that the overlap remains large (e.g. $> 0.1$) up to large lattice sizes ($N=64,72$) except near quantum phase transitions or in the presence of gapless edge modes. For one-dimensional systems, we further find that two $N/2$-site ground states also share a large overlap with the $N$-site ground state everywhere except a region near the phase boundary. Based on these numerical results, we additionally propose a recursive alternative to the site-by-site state preparation algorithm.
翻訳日:2023-02-06 18:43:20 公開日:2022-07-04
# グローバルリプシッツ最適化のためのpiyavskii-shubertアルゴリズムの後悔解析

Regret analysis of the Piyavskii-Shubert algorithm for global Lipschitz optimization ( http://arxiv.org/abs/2002.02390v4 )

ライセンス: Link先を確認
Cl\'ement Bouttier, Tommaso Cesari (TSE), M\'elanie Ducoffe, S\'ebastien Gerchinovitz (IMT)(参考訳) コンパクト領域上での非凸リプシッツ多変量関数の最大化は、その(おそらく摂動された)値を逐次クエリすることで問題を考える。 1972年にPayavskii と Shubert によって設計された自然アルゴリズムについて検討し、与えられた最適化精度に到達または証明するのに必要な関数の評価の回数に関する新しい限界を証明した。 バンディット最適化の観点から分析を行い,ハンセンらによるオープンな問題を解き明かした。 \ (1991) は、与えられた精度をパッキング数のほぼ最適の和で証明する評価の個数を境界にしている。

We consider the problem of maximizing a non-concave Lipschitz multivariate function over a compact domain by sequentially querying its (possibly perturbed) values. We study a natural algorithm designed originally by Piyavskii and Shubert in 1972, for which we prove new bounds on the number of evaluations of the function needed to reach or certify a given optimization accuracy. Our analysis uses a bandit-optimization viewpoint and solves an open problem from Hansen et al.\ (1991) by bounding the number of evaluations to certify a given accuracy with a near-optimal sum of packing numbers.
翻訳日:2023-01-03 10:11:21 公開日:2022-07-04
# dynamical variational autoencoder: 包括的レビュー

Dynamical Variational Autoencoders: A Comprehensive Review ( http://arxiv.org/abs/2008.12595v4 )

ライセンス: Link先を確認
Laurent Girin and Simon Leglaive and Xiaoyu Bie and Julien Diard and Thomas Hueber and Xavier Alameda-Pineda(参考訳) 変分自己エンコーダ(VAE)は、教師なしの方法で学習された低次元潜在空間を通して高次元複素データを表現するために広く用いられる強力な深部生成モデルである。 元のvaeモデルでは、入力データベクトルは独立に処理される。 最近、一連の論文は、逐次データを処理するためのvaeの異なる拡張を提示している。これは、潜時空間だけでなく、データベクトルと対応する潜時ベクトルのシーケンス内の時間依存性を、再帰的なニューラルネットワークや状態空間モデルに依存してモデル化する。 本稿では,これらのモデルについて文献レビューを行う。 我々は,これらの時間的vae拡張の大きなサブセットを含む動的変分オートエンコーダ(dvaes)と呼ばれる,一般的なモデルのクラスを紹介し,議論する。 そこで,本稿では,提案した7つのDVAEモデルについて詳述する。表記法と提示行を均質化し,これらのモデルを従来の時間モデルと関連付けることを目的としている。 我々は,これらの7つのDVAEモデルを再実装し,音声解析・合成作業(PyTorch符号を公開)で実施した実験結果を示す。 本論文は,DVAEモデルと今後の研究ガイドラインに関する重要な課題について論じる。

Variational autoencoders (VAEs) are powerful deep generative models widely used to represent high-dimensional complex data through a low-dimensional latent space learned in an unsupervised manner. In the original VAE model, the input data vectors are processed independently. Recently, a series of papers have presented different extensions of the VAE to process sequential data, which model not only the latent space but also the temporal dependencies within a sequence of data vectors and corresponding latent vectors, relying on recurrent neural networks or state-space models. In this paper, we perform a literature review of these models. We introduce and discuss a general class of models, called dynamical variational autoencoders (DVAEs), which encompasses a large subset of these temporal VAE extensions. Then, we present in detail seven recently proposed DVAE models, with an aim to homogenize the notations and presentation lines, as well as to relate these models with existing classical temporal models. We have reimplemented those seven DVAE models and present the results of an experimental benchmark conducted on the speech analysis-resynthesis task (the PyTorch code is made publicly available). The paper concludes with a discussion on important issues concerning the DVAE class of models and future research guidelines.
翻訳日:2022-10-24 01:40:29 公開日:2022-07-04
# 非凸凹最小値問題に対する単ループ平滑勾配勾配勾配アルゴリズム

A Single-Loop Smoothed Gradient Descent-Ascent Algorithm for Nonconvex-Concave Min-Max Problems ( http://arxiv.org/abs/2010.15768v2 )

ライセンス: Link先を確認
Jiawei Zhang, Peijun Xiao, Ruoyu Sun and Zhi-Quan Luo(参考訳) 非凸-凸 min-max 問題は、一連の非凸関数のポイントワイド最大値の最小化や、ニューラルネットワークの堅牢な逆トレーニングを含む、多くの機械学習アプリケーションで発生する。 この問題を解決する一般的なアプローチは勾配降下・上昇(gda)アルゴリズムであり、不運にも非凸の場合の振動を示すことができる。 本稿では,振動の安定化と定常解の収束を確保するため,GDAと組み合わせることができる「平滑化」方式を提案する。 安定化gdaアルゴリズムは、非凸関数の有限集合のポイントワイズ最大を最小化するために、$o(1/\epsilon^2)$の反復複雑性を実現できることを証明した。 さらに、スムーズなGDAアルゴリズムは一般的な非凸凹問題に対して$O(1/\epsilon^4)$反復複雑性を実現する。 この安定化GDAアルゴリズムのマルチブロックケースへの拡張を示す。 我々の知る限りでは、これは非凸凹問題のクラスに対して$O(1/\epsilon^2)$を達成した最初のアルゴリズムである。 本稿では,安定GDAアルゴリズムのロバストトレーニングにおける実用性について述べる。

Nonconvex-concave min-max problem arises in many machine learning applications including minimizing a pointwise maximum of a set of nonconvex functions and robust adversarial training of neural networks. A popular approach to solve this problem is the gradient descent-ascent (GDA) algorithm which unfortunately can exhibit oscillation in case of nonconvexity. In this paper, we introduce a "smoothing" scheme which can be combined with GDA to stabilize the oscillation and ensure convergence to a stationary solution. We prove that the stabilized GDA algorithm can achieve an $O(1/\epsilon^2)$ iteration complexity for minimizing the pointwise maximum of a finite collection of nonconvex functions. Moreover, the smoothed GDA algorithm achieves an $O(1/\epsilon^4)$ iteration complexity for general nonconvex-concave problems. Extensions of this stabilized GDA algorithm to multi-block cases are presented. To the best of our knowledge, this is the first algorithm to achieve $O(1/\epsilon^2)$ for a class of nonconvex-concave problem. We illustrate the practical efficiency of the stabilized GDA algorithm on robust training.
翻訳日:2022-10-01 23:47:05 公開日:2022-07-04
# 深部ニューラルネットワークにおけるランダム行列について:一般I.I.D.の場合

On Random Matrices Arising in Deep Neural Networks: General I.I.D. Case ( http://arxiv.org/abs/2011.11439v2 )

ライセンス: Link先を確認
L. Pastur and V. Slavin(参考訳) 本研究では, ニューラルネットワーク解析に係わるランダム行列の積の特異値分布について検討した。 行列はサンプル共分散行列の積に似ているが、重要な違いは、統計学やランダム行列理論におけるランダムデータ行列とは無関係であると仮定された集団共分散行列が、ランダムデータ行列(ディープニューラルネットワーク用語におけるシナプス重み行列)の特定の関数である点である。 この問題は自由確率論の手法を用いて最近の研究[25,13]で扱われている。 しかし、自由確率理論はデータ行列とは独立な集団共分散行列を扱うので、その適用性は正当化する必要がある。 この正当性は、確率行列理論のテクニックのバージョンを用いて、自由確率の標準的な解析モデルである独立成分を持つガウスデータ行列に対して [22] に与えられる。 本稿では, [22] の結果を一般化するために, 確率行列理論の別の,より合理化されたバージョンを用いて, シナプス重み行列の項目が, 平均と有限の4モーメントをもたない, 独立に分散した確率変数である場合に適用する。 これは特に、見なされるランダム行列上のいわゆるマクロ普遍性の性質を拡張するものである。

We study the distribution of singular values of product of random matrices pertinent to the analysis of deep neural networks. The matrices resemble the product of the sample covariance matrices, however, an important difference is that the population covariance matrices assumed to be non-random or random but independent of the random data matrix in statistics and random matrix theory are now certain functions of random data matrices (synaptic weight matrices in the deep neural network terminology). The problem has been treated in recent work [25, 13] by using the techniques of free probability theory. Since, however, free probability theory deals with population covariance matrices which are independent of the data matrices, its applicability has to be justified. The justification has been given in [22] for Gaussian data matrices with independent entries, a standard analytical model of free probability, by using a version of the techniques of random matrix theory. In this paper we use another, more streamlined, version of the techniques of random matrix theory to generalize the results of [22] to the case where the entries of the synaptic weight matrices are just independent identically distributed random variables with zero mean and finite fourth moment. This, in particular, extends the property of the so-called macroscopic universality on the considered random matrices.
翻訳日:2022-09-23 06:34:49 公開日:2022-07-04
# NN2Rules:ニューラルネットワークからルールリストを抽出する

NN2Rules: Extracting Rule List from Neural Networks ( http://arxiv.org/abs/2207.12271v1 )

ライセンス: Link先を確認
G Roshan Lal and Varun Mithal(参考訳) トレーニングされたニューラルネットワークをルールリストに変換するアルゴリズムであるNN2Rulesを提案する。 ルールリストは、人間が意思決定する方法に合致するため、より解釈可能である。 NN2Rulesはルール抽出の分解的アプローチであり、トレーニングされたニューラルネットワークモデルのパラメータから一連の決定ルールを抽出する。 抽出された決定規則は、提示された任意の入力上のニューラルネットワークと同じ予測を持つため、精度が同じであることを示す。 NN2Rulesの重要な貢献は、隠されたニューロンの挙動がソフトバイナリ活性化(例えばシグモイド活性化)または修正線形(ReLU)のいずれかであり、ソフトバイナリ活性化を仮定して開発された既存の分解的アプローチとは対照的である。

We present an algorithm, NN2Rules, to convert a trained neural network into a rule list. Rule lists are more interpretable since they align better with the way humans make decisions. NN2Rules is a decompositional approach to rule extraction, i.e., it extracts a set of decision rules from the parameters of the trained neural network model. We show that the decision rules extracted have the same prediction as the neural network on any input presented to it, and hence the same accuracy. A key contribution of NN2Rules is that it allows hidden neuron behavior to be either soft-binary (eg. sigmoid activation) or rectified linear (ReLU) as opposed to existing decompositional approaches that were developed with the assumption of soft-binary activation.
翻訳日:2022-07-31 14:43:31 公開日:2022-07-04
# 対面防止のためのオンライン適応型パーソナライゼーション

Online Adaptive Personalization for Face Anti-spoofing ( http://arxiv.org/abs/2207.12272v1 )

ライセンス: Link先を確認
Davide Belli and Debasmit Das and Bence Major and Fatih Porikli(参考訳) 顔認証システムは、認証されたユーザのスプーフ画像を作成することで欺くことができるため、堅牢なアンチスプーフモジュールを必要とする。 最近の顔の偽造防止手法は、最適化されたアーキテクチャとトレーニング目標に依存して、トレインとテストユーザ間の分散シフトを軽減する。 しかし、実際のオンラインシナリオでは、ユーザの過去のデータは、分散シフトを軽減するために使用できる貴重な情報を含んでいる。 そこで我々はoap(online adaptive personalization:オンライン適応パーソナライゼーション)を導入する。 OAPは、元の生体画像を保存することなく、ほとんどのアンチスプーフィング法に応用できる。 siwデータセットを実験的に評価することにより,spoofビデオとライブ映像をインターリーブしてspoofing攻撃をシミュレートするシングルビデオ設定と継続設定の両方において,既存手法の認識性能がoapにより向上することを示す。 また、私たちのソリューションの設計選択を確認するためにアブレーション研究も行います。

Face authentication systems require a robust anti-spoofing module as they can be deceived by fabricating spoof images of authorized users. Most recent face anti-spoofing methods rely on optimized architectures and training objectives to alleviate the distribution shift between train and test users. However, in real online scenarios, past data from a user contains valuable information that could be used to alleviate the distribution shift. We thus introduce OAP (Online Adaptive Personalization): a lightweight solution which can adapt the model online using unlabeled data. OAP can be applied on top of most anti-spoofing methods without the need to store original biometric images. Through experimental evaluation on the SiW dataset, we show that OAP improves recognition performance of existing methods on both single video setting and continual setting, where spoof videos are interleaved with live ones to simulate spoofing attacks. We also conduct ablation studies to confirm the design choices for our solution.
翻訳日:2022-07-31 14:42:38 公開日:2022-07-04
# デジタル広告のための多言語偽情報検出

Multilingual Disinformation Detection for Digital Advertising ( http://arxiv.org/abs/2207.10649v1 )

ライセンス: Link先を確認
Zofia Trstanova, Nadir El Manouzi, Maryline Chen, Andre L. V. da Cunha, Sergei Ivanov(参考訳) 今日の世界では、オンラインの偽情報やプロパガンダの存在はかつてないほど広まっている。 独立系出版社は、主にデジタル広告を通じて資金を提供している。 オープンインターネットへの悪影響にもかかわらず、このようなパブリッシャーを広告在庫から排除する方法の問題は長い間無視されてきた。 本研究は、偽情報で公衆を操作可能なWebサイトを素早く検知し、リフレッグする第一歩である。 私たちは、多言語テキスト埋め込みに基づく機械学習モデルを構築し、まずページが関心のあるトピックを参照しているかどうかを判断し、その後、悪意のあるコンテンツの可能性を見積もり、人間の専門家によってレビューされる出版社のショートリストを作成します。 当社のシステムでは,広告提供者の評判を保護し,安全でないコンテンツを積極的にブラックリスト化する代わりに,社内チームが積極的に対応できるようにする。

In today's world, the presence of online disinformation and propaganda is more widespread than ever. Independent publishers are funded mostly via digital advertising, which is unfortunately also the case for those publishing disinformation content. The question of how to remove such publishers from advertising inventory has long been ignored, despite the negative impact on the open internet. In this work, we make the first step towards quickly detecting and red-flagging websites that potentially manipulate the public with disinformation. We build a machine learning model based on multilingual text embeddings that first determines whether the page mentions a topic of interest, then estimates the likelihood of the content being malicious, creating a shortlist of publishers that will be reviewed by human experts. Our system empowers internal teams to proactively, rather than defensively, blacklist unsafe content, thus protecting the reputation of the advertisement provider.
翻訳日:2022-07-24 11:43:22 公開日:2022-07-04
# (参考訳) 遺伝子組換えのための関係抽出ベースラインの構築:再現性の検討

Building a Relation Extraction Baseline for Gene-Disease Associations: A Reproducibility Study ( http://arxiv.org/abs/2207.06226v1 )

ライセンス: CC BY-SA 4.0
Laura Menotti(参考訳) 再現性は科学研究において重要な課題である。 研究者は、新しく開発されたシステムと最先端のシステムを比較して、ブレークスルーを行ったかどうかを評価することが重要である。 しかし、例えばソースコードがないため、以前の作業はすぐには再現できないかもしれない。 本研究は,生物医学的抽象物からGDA(Gene-Disease Associations)を自動的に抽出するシステムであるDEXTERを再現する。 目標は、関係抽出(RE)に関する将来の研究のためのベンチマークを提供することで、研究者が結果をテストして比較できるようにすることである。

Reproducibility is an important task in scientific research. It is crucial for researchers to compare newly developed systems with the state-of-the-art to assess whether they made a breakthrough. However previous works may not be immediately reproducible, for example due to the lack of source code. In this work we reproduce DEXTER, a system to automatically extract Gene-Disease Associations (GDAs) from biomedical abstracts. The goal is to provide a benchmark for future works regarding Relation Extraction (RE), enabling researchers to test and compare their results.
翻訳日:2022-07-17 18:29:08 公開日:2022-07-04
# 生理信号深層学習の注意機構:どの注意が必要であるか?

Attention mechanisms for physiological signal deep learning: which attention should we take? ( http://arxiv.org/abs/2207.06904v1 )

ライセンス: Link先を確認
Seong-A Park, Hyung-Chul Lee, Chul-Woo Jung, Hyun-Lim Yang(参考訳) 注意機構は様々な分野におけるディープラーニングモデルの性能を劇的に改善するために広く利用されている。 しかし、生理学的信号深層学習モデルの性能を向上させる能力は未熟である。 本研究では,2つの代表的な生理的信号予測タスク(低血圧予測のための分類,心臓出力予測のための回帰)の4つの注意機構(例えば,スクイーズ・アンド・エクスシジョン,非局所,畳み込みブロック・アテンションモジュール,マルチヘッド・セルフアテンション)と3つの畳み込みニューラルネットワーク(cnn)アーキテクチャ(例えば,vgg,resnet,インセプション)を実験的に解析した。 生理的信号深層学習モデルの性能と収束のための複数の組み合わせを評価した。 その結果,空間的注意機構を持つCNNモデルは分類問題において最高の性能を示し,チャネル注意機構は回帰問題において最も低い誤差を達成した。 さらに,注意機構を有するCNNモデルの性能と収束性は,両問題において単独の自己注意モデルよりも優れていた。 したがって,独立自己認識モデルではパラメータの少ないにもかかわらず,畳み込み操作と注意機構が相補的であり,収束時間を短縮できることを確認した。

Attention mechanisms are widely used to dramatically improve deep learning model performance in various fields. However, their general ability to improve the performance of physiological signal deep learning model is immature. In this study, we experimentally analyze four attention mechanisms (e.g., squeeze-and-excitation, non-local, convolutional block attention module, and multi-head self-attention) and three convolutional neural network (CNN) architectures (e.g., VGG, ResNet, and Inception) for two representative physiological signal prediction tasks: the classification for predicting hypotension and the regression for predicting cardiac output (CO). We evaluated multiple combinations for performance and convergence of physiological signal deep learning model. Accordingly, the CNN models with the spatial attention mechanism showed the best performance in the classification problem, whereas the channel attention mechanism achieved the lowest error in the regression problem. Moreover, the performance and convergence of the CNN models with attention mechanisms were better than stand-alone self-attention models in both problems. Hence, we verified that convolutional operation and attention mechanisms are complementary and provide faster convergence time, despite the stand-alone self-attention models requiring fewer parameters.
翻訳日:2022-07-17 16:03:46 公開日:2022-07-04
# (参考訳) データフリーインクリメンタル学習のためのクラス印象

Class Impression for Data-free Incremental Learning ( http://arxiv.org/abs/2207.00005v2 )

ライセンス: CC BY 4.0
Sana Ayromlou and Purang Abolmaesumi and Teresa Tsang and Xiaoxiao Li(参考訳) 標準的なディープラーニングベースの分類アプローチでは、すべてのクラスからすべてのサンプルを事前に収集し、オフラインでトレーニングする必要がある。 このパラダイムは、新しいデータの追加によって新しいクラスが徐々に導入される現実の臨床応用では実用的ではないかもしれない。 クラスインクリメンタルな学習は、このようなデータから学ぶことができる戦略である。 しかし、大きな課題は破滅的な忘れ、すなわち、トレーニングされたモデルを新しいデータに適用する際の前のクラスのパフォーマンス劣化である。 この課題を緩和する以前の手法では、トレーニングデータの一部を保存するには、プライバシー問題を引き起こす可能性のあるデータの永続的な保存が必要である。 本稿では,従来のクラスでトレーニングされたモデルからデータを初めて合成して,‘ours’を生成する,新しいデータ自由クラスインクリメンタルラーニングフレームワークを提案する。 その後、合成したデータを新しいクラスデータと組み合わせてモデルを更新する。 さらに,コサイン正規化クロスエントロピー損失を組み込んで不均衡の悪影響を緩和し,先行クラスと新規クラスの分離を増加させるマージン損失と,合成データで訓練されたモデルを実データに一般化するドメイン内コントラスト損失とを組み込んだ。 本研究は,11,062例の心エコーシネシリーズの分類における精度の向上を実証するため,本手法とクラスインクリメンタルラーニングの最先端手法を比較した。

Standard deep learning-based classification approaches require collecting all samples from all classes in advance and are trained offline. This paradigm may not be practical in real-world clinical applications, where new classes are incrementally introduced through the addition of new data. Class incremental learning is a strategy allowing learning from such data. However, a major challenge is catastrophic forgetting, i.e., performance degradation on previous classes when adapting a trained model to new data. Prior methodologies to alleviate this challenge save a portion of training data require perpetual storage of such data that may introduce privacy issues. Here, we propose a novel data-free class incremental learning framework that first synthesizes data from the model trained on previous classes to generate a \ours. Subsequently, it updates the model by combining the synthesized data with new class data. Furthermore, we incorporate a cosine normalized Cross-entropy loss to mitigate the adverse effects of the imbalance, a margin loss to increase separation among previous classes and new ones, and an intra-domain contrastive loss to generalize the model trained on the synthesized data to real data. We compare our proposed framework with state-of-the-art methods in class incremental learning, where we demonstrate improvement in accuracy for the classification of 11,062 echocardiography cine series of patients.
翻訳日:2022-07-10 13:52:57 公開日:2022-07-04
# (参考訳) モンテカルロ探索によるスペクトルグラフ理論の難解化

Refutation of Spectral Graph Theory Conjectures with Monte Carlo Search ( http://arxiv.org/abs/2207.03343v1 )

ライセンス: CC BY 4.0
Milo Roucairol and Tristan Cazenave(参考訳) 我々は,モンテカルロ探索 (MCS) アルゴリズム,すなわちNested Monte Carlo Search (NMCS) とNested Rollout Policy Adaptation (NRPA) を用いてグラフを構築し,スペクトルグラフ理論の予想に対する反例を見つける方法を示した。 また、ピーター・ショア(Peter Shor)が残した予想にも反論する。

We demonstrate how Monte Carlo Search (MCS) algorithms, namely Nested Monte Carlo Search (NMCS) and Nested Rollout Policy Adaptation (NRPA), can be used to build graphs and find counter-examples to spectral graph theory conjectures in minutes. We also refute a conjecture attributed to Peter Shor that was left open.
翻訳日:2022-07-09 09:13:51 公開日:2022-07-04
# (参考訳) ニューラルネットワークにおけるファクタリング知識

Factorizing Knowledge in Neural Networks ( http://arxiv.org/abs/2207.03337v1 )

ライセンス: CC BY 4.0
Xingyi Yang, Jingwen Ye, Xinchao Wang(参考訳) 本稿では,知識因子化(KF)と呼ばれる,新規かつ野心的な知識伝達タスクについて検討する。 事前訓練されたネットワークモデルを入力として与えると、KFはそれをいくつかのファクターネットワークに分解することを目的としており、それぞれが専用のタスクのみを処理し、ソースネットワークから分解されたタスク固有の知識を維持する。 このような因子ネットワークはタスクワイドに切り離され、微調整なしで直接組み立てて、より有能な複合タスクネットワークを生成することができる。 言い換えれば、ファクターネットワークはレゴブロックのようなビルディングブロックとして機能し、プラグインとプレイでカスタマイズされたネットワークを構築することができます。 具体的には、各ファクタネットワークは、タスクに依存しない共通知識モジュールと、ファクタネットワーク自体専用のタスク固有モジュールという2つのモジュールで構成されている。 学習表現と入力間の相互情報を最適化してkfを行うための情報理論目標infomax-bottleneck~(imb)を提案する。 様々なベンチマーク実験により、導出要因ネットワークは、専用タスクだけでなく、非絡み合いにも満足できる性能を得ると同時に、より優れた解釈性とモジュラリティを享受できることを示した。 さらに、学習された共通知識表現は、転送学習において印象的な結果をもたらす。

In this paper, we explore a novel and ambitious knowledge-transfer task, termed Knowledge Factorization~(KF). The core idea of KF lies in the modularization and assemblability of knowledge: given a pretrained network model as input, KF aims to decompose it into several factor networks, each of which handles only a dedicated task and maintains task-specific knowledge factorized from the source network. Such factor networks are task-wise disentangled and can be directly assembled, without any fine-tuning, to produce the more competent combined-task networks. In other words, the factor networks serve as Lego-brick-like building blocks, allowing us to construct customized networks in a plug-and-play manner. Specifically, each factor network comprises two modules, a common-knowledge module that is task-agnostic and shared by all factor networks, alongside with a task-specific module dedicated to the factor network itself. We introduce an information-theoretic objective, InfoMax-Bottleneck~(IMB), to carry out KF by optimizing the mutual information between the learned representations and input. Experiments across various benchmarks demonstrate that, the derived factor networks yield gratifying performances on not only the dedicated tasks but also disentanglement, while enjoying much better interpretability and modularity. Moreover, the learned common-knowledge representations give rise to impressive results on transfer learning.
翻訳日:2022-07-09 09:00:40 公開日:2022-07-04
# (参考訳) 画像分割モデルの弱教師付き事前学習における説明の蒸留アンサンブル

Distilling Ensemble of Explanations for Weakly-Supervised Pre-Training of Image Segmentation Models ( http://arxiv.org/abs/2207.03335v1 )

ライセンス: CC BY 4.0
Xuhong Li, Haoyi Xiong, Yi Liu, Dingfu Zhou, Zeyu Chen, Yaqing Wang, Dejing Dou(参考訳) 訓練済みの微調整ネットワークはイメージセグメンテーションモデルをトレーニングする一般的な方法となっているが、画像セグメンテーションのためのバックボーンネットワークは画像分類ソースデータセット(例えば ImageNet)を使用して事前トレーニングされることが多い。 画像分類データセットは、リッチな視覚的特徴と識別能力を持つバックボーンネットワークを提供することができるが、ターゲットモデル(すなわちbackbone+segmentationモジュール)をエンドツーエンドで完全に事前学習することはできない。 セグメンテーションモジュールは、分類データセットにおけるセグメンテーションラベルの欠如により、微調整プロセスのランダム初期化に残される。 本研究では,Pseudo Semantic Segmentation Labels(PSSL)を用いて,分類データセットに基づく画像分割モデルのエンドツーエンド事前学習を可能にする手法を提案する。 PSSLは、CAM、SmoothGrad、LIMEなどの説明アルゴリズムによって得られた分類モデルの説明結果が、視覚オブジェクトのピクセルクラスタに近くなるという観察にインスパイアされた。 具体的には、分類結果を解釈し、複数の分類器からクエリされた説明の集合を集約することにより、各画像に対してPSSLを求め、単一のモデルによるバイアスを低くする。 画像ネットの全ての画像に対するpsslを用いて,提案手法は重み付きセグメント化学習手順を活用し,セグメント化ネットワークの事前学習を行う。 実験の結果、ImageNetはソースデータセットとしてPSSLを伴い、提案されたエンドツーエンドの事前トレーニング戦略により、CamVid、VOC-A、VOC-C、ADE20K、CityScapesなどのセグメンテーションタスクにおいて、様々なセグメンテーションモデル、すなわちPSPNet-ResNet50、DeepLabV3-ResNet50、OCRNet-HRNetW18のパフォーマンスを向上することに成功した。 ソースコードはhttps://github.com/PaddlePaddle/PaddleSeg.comにある。

While fine-tuning pre-trained networks has become a popular way to train image segmentation models, such backbone networks for image segmentation are frequently pre-trained using image classification source datasets, e.g., ImageNet. Though image classification datasets could provide the backbone networks with rich visual features and discriminative ability, they are incapable of fully pre-training the target model (i.e., backbone+segmentation modules) in an end-to-end manner. The segmentation modules are left to random initialization in the fine-tuning process due to the lack of segmentation labels in classification datasets. In our work, we propose a method that leverages Pseudo Semantic Segmentation Labels (PSSL), to enable the end-to-end pre-training for image segmentation models based on classification datasets. PSSL was inspired by the observation that the explanation results of classification models, obtained through explanation algorithms such as CAM, SmoothGrad and LIME, would be close to the pixel clusters of visual objects. Specifically, PSSL is obtained for each image by interpreting the classification results and aggregating an ensemble of explanations queried from multiple classifiers to lower the bias caused by single models. With PSSL for every image of ImageNet, the proposed method leverages a weighted segmentation learning procedure to pre-train the segmentation network en masse. Experiment results show that, with ImageNet accompanied by PSSL as the source dataset, the proposed end-to-end pre-training strategy successfully boosts the performance of various segmentation models, i.e., PSPNet-ResNet50, DeepLabV3-ResNet50, and OCRNet-HRNetW18, on a number of segmentation tasks, such as CamVid, VOC-A, VOC-C, ADE20K, and CityScapes, with significant improvements. The source code is availabel at https://github.com/PaddlePaddle/PaddleSeg.
翻訳日:2022-07-09 08:41:30 公開日:2022-07-04
# 2流時空間融合ネットワークを用いた乳幼児の一般運動の自動分類

Automated Classification of General Movements in Infants Using a Two-stream Spatiotemporal Fusion Network ( http://arxiv.org/abs/2207.03344v1 )

ライセンス: Link先を確認
Yuki Hashimoto, Akira Furui, Koji Shimatani, Maura Casadio, Paolo Moretti, Pietro Morasso, Toshio Tsuji(参考訳) 幼児の全身運動(GM)の評価は神経発達障害の早期診断に有用である。 しかし, 臨床実習における評価は, 専門家による視覚検査に依存し, 自動化された解決策が待ち望まれている。 近年、ビデオベースのGM分類が注目されているが、この手法はビデオの背景乱れなどの無関係な情報の影響を強く受けている。 また,信頼性向上のためには,乳児の時空間的特徴を適切に抽出する必要がある。 本研究では,GMのビデオから不要な背景情報を取り除き,幼児の身体位置を調節する前処理ネットワークと,後続の2ストリーム構造に基づく動作分類ネットワークからなる自動GM分類手法を提案する。 提案手法は,gms分類に必要な時空間的特徴を効率的に抽出し,異なる記録環境における無関係情報への過剰適合を防止できる。 提案手法は乳幼児100名から得られたビデオを用いて検証した。 実験の結果,提案手法はいくつかのベースラインモデルや既存手法よりも優れていた。

The assessment of general movements (GMs) in infants is a useful tool in the early diagnosis of neurodevelopmental disorders. However, its evaluation in clinical practice relies on visual inspection by experts, and an automated solution is eagerly awaited. Recently, video-based GMs classification has attracted attention, but this approach would be strongly affected by irrelevant information, such as background clutter in the video. Furthermore, for reliability, it is necessary to properly extract the spatiotemporal features of infants during GMs. In this study, we propose an automated GMs classification method, which consists of preprocessing networks that remove unnecessary background information from GMs videos and adjust the infant's body position, and a subsequent motion classification network based on a two-stream structure. The proposed method can efficiently extract the essential spatiotemporal features for GMs classification while preventing overfitting to irrelevant information for different recording environments. We validated the proposed method using videos obtained from 100 infants. The experimental results demonstrate that the proposed method outperforms several baseline models and the existing methods.
翻訳日:2022-07-08 15:02:20 公開日:2022-07-04
# グラディエントDescent Trained Expert System Networkの設計と開発を自動化する

Automating the Design and Development of Gradient Descent Trained Expert System Networks ( http://arxiv.org/abs/2207.02845v1 )

ライセンス: Link先を確認
Jeremy Straub(参考訳) 従来の研究は、ニューラルネットワークの学習能力とエキスパートシステムの理解性と防御可能なロジックを概念的に組み合わせた勾配降下訓練エキスパートシステムを導入していた。 このシステムは、データからパターンを学習し、ニューラルネットワークシステムによって報告されたパターンに匹敵するレベルで意思決定を行うことができる。 しかし、このアプローチの主な制限は、ルールファクトネットワーク(後にバックプロパゲーションを使用してトレーニングされる)の手動開発の必要性であった。 本稿では,ニューラルネットワークと比較して,この重要な限界を克服する手法を提案する。 具体的には,アプリケーションに必要なルールファクトネットワークを大規模かつ高密度に使用することを提案する。 複数種類のネットワークを複数の動作条件下で評価し,その結果を提示し,評価する。 これらの個別実験条件評価に基づいて,提案手法を評価する。 得られたデータによると、誤差率は3.9%(平均1.2%中央値)で、多くのアプリケーションでこの手法の有効性を示す。

Prior work introduced a gradient descent trained expert system that conceptually combines the learning capabilities of neural networks with the understandability and defensible logic of an expert system. This system was shown to be able to learn patterns from data and to perform decision-making at levels rivaling those reported by neural network systems. The principal limitation of the approach, though, was the necessity for the manual development of a rule-fact network (which is then trained using backpropagation). This paper proposes a technique for overcoming this significant limitation, as compared to neural networks. Specifically, this paper proposes the use of larger and denser-than-application need rule-fact networks which are trained, pruned, manually reviewed and then re-trained for use. Multiple types of networks are evaluated under multiple operating conditions and these results are presented and assessed. Based on these individual experimental condition assessments, the proposed technique is evaluated. The data presented shows that error rates as low as 3.9% (mean, 1.2% median) can be obtained, demonstrating the efficacy of this technique for many applications.
翻訳日:2022-07-08 12:50:50 公開日:2022-07-04
# (参考訳) AutoSpeed:超音波超音波のパルスエコー速度計測のためのリンクオートエンコーダアプローチ

AutoSpeed: A Linked Autoencoder Approach for Pulse-Echo Speed-of-Sound Imaging for Medical Ultrasound ( http://arxiv.org/abs/2207.02392v1 )

ライセンス: CC BY 4.0
Farnaz Khun Jush, Markus Biele, Peter M. Dueppenbecker, Andreas Maier(参考訳) 定量的超音波、例えば、組織内の音速(SoS)は、診断値を持つ組織特性に関する情報を提供する。 近年の研究では、シミュレーションデータで完全に訓練されたディープニューラルネットワークを用いて、パルスエコー超音波原データ(RFデータ)からSoS情報を抽出できる可能性が示されている。 これらの方法は、RFデータ(RFデータ)を入力として取り、エンドツーエンドでネットワークを訓練し、RFデータドメインとSoSドメインの間の暗黙のマッピングを学ぶ。 しかし、そのようなネットワークは、測定データ上でテストした場合、性能や不安定性が低下するシミュレーションデータに過度に適合する傾向にある。 2つのリンクされたオートエンコーダからの学習表現を用いたsosマッピング手法を提案する。 人間の乳房から得られたファントムを模倣したシミュレーションおよび計測データを用いて実験を行った。 リンクオートエンコーダを用いてSoSマッピングが可能であることを示す。 提案手法はシミュレーションデータに対して平均絶対パーセンテージ誤差(MAPE)が2.39%である。 その結果,提案手法の予測値はMAPE 1.1%の予測値に近いことがわかった。 エンド・ツー・エンドのトレーニングネットワークと比較して,提案手法は高い安定性と再現性を示す。

Quantitative ultrasound, e.g., speed-of-sound (SoS) in tissues, provides information about tissue properties that have diagnostic value. Recent studies showed the possibility of extracting SoS information from pulse-echo ultrasound raw data (a.k.a. RF data) using deep neural networks that are fully trained on simulated data. These methods take sensor domain data, i.e., RF data, as input and train a network in an end-to-end fashion to learn the implicit mapping between the RF data domain and SoS domain. However, such networks are prone to overfitting to simulated data which results in poor performance and instability when tested on measured data. We propose a novel method for SoS mapping employing learned representations from two linked autoencoders. We test our approach on simulated and measured data acquired from human breast mimicking phantoms. We show that SoS mapping is possible using linked autoencoders. The proposed method has a Mean Absolute Percentage Error (MAPE) of 2.39% on the simulated data. On the measured data, the predictions of the proposed method are close to the expected values with MAPE of 1.1%. Compared to an end-to-end trained network, the proposed method shows higher stability and reproducibility.
翻訳日:2022-07-08 08:14:28 公開日:2022-07-04
# (参考訳) FDG PETとCT画像の空間的不確実性に対する適応しきい値付き喉頭癌セグメント化によるスライス・バイ・スライス深層学習

Slice-by-slice deep learning aided oropharyngeal cancer segmentation with adaptive thresholding for spatial uncertainty on FDG PET and CT images ( http://arxiv.org/abs/2207.01623v1 )

ライセンス: CC BY 4.0
Alessia De Biase, Nanna Maria Sijtsema, Lisanne van Dijk, Johannes A. Langendijk, Peter van Ooijen(参考訳) 腫瘍セグメンテーションは放射線治療計画の基本的なステップである。 口腔咽頭癌患者(OPC)の原発性腫瘍(GTVp)の正確なセグメンテーションを定義するには、異なる画像モダリティの同時評価が必要であり、各画像容積を異なる方向からスライス・バイ・スライスする。 さらに,手動によるセグメンテーションの固定境界は,腫瘍の脱線で発生する空間的不確実性を無視している。 本研究では,FDG PET/CT画像のスライス・バイ・スライス・アダプティブGTVpセグメンテーションにおいて,放射線医学者を支援する新しい深層学習モデルを提案する。 当院ではopc患者138名に化学放射線療法を施行した。 我々のDLフレームワークは、インタースライスとイントラスライスの両方を利用する。 コンカレントFDG PET/CT画像とGTVp輪郭画像の連続2Dスライスを入力として用いた。 3倍のクロス検証を行い,113例の軸(a),矢状(s),コロナ(c)面から抽出した配列を訓練した。 ボリュームの連続シーケンスは重複スライスを含むため、各スライスの結果、平均3つの結果予測結果が得られた。 a面、s面、c面において、出力は腫瘍を予測する確率が異なる領域を示す。 Dice Score Coefficient (DSC) を用いて, 確率閾値の異なる25例を対象に, モデルの性能評価を行った。 予測は、確率しきい値0.9 (dsc は a で 0.70 であり、s では 0.77 であり、c 平面では 0.80 である。 登録されたfdg pet/ct画像の確率マップは,slice-by-slice適応gtvpセグメンテーションにおいて放射線腫瘍学者を誘導する可能性が示唆された。

Tumor segmentation is a fundamental step for radiotherapy treatment planning. To define an accurate segmentation of the primary tumor (GTVp) of oropharyngeal cancer patients (OPC), simultaneous assessment of different image modalities is needed, and each image volume is explored slice-by-slice from different orientations. Moreover, the manual fixed boundary of segmentation neglects the spatial uncertainty known to occur in tumor delineation. This study proposes a novel automatic deep learning (DL) model to assist radiation oncologists in a slice-by-slice adaptive GTVp segmentation on registered FDG PET/CT images. We included 138 OPC patients treated with (chemo)radiation in our institute. Our DL framework exploits both inter and intra-slice context. Sequences of 3 consecutive 2D slices of concatenated FDG PET/CT images and GTVp contours were used as input. A 3-fold cross validation was performed three times, training on sequences extracted from the Axial (A), Sagittal (S), and Coronal (C) plane of 113 patients. Since consecutive sequences in a volume contain overlapping slices, each slice resulted in three outcome predictions that were averaged. In the A, S, and C planes, the output shows areas with different probabilities of predicting the tumor. The performance of the models was assessed on 25 patients at different probability thresholds using the mean Dice Score Coefficient (DSC). Predictions were the closest to the ground truth at a probability threshold of 0.9 (DSC of 0.70 in the A, 0.77 in the S, and 0.80 in the C plane). The promising results of the proposed DL model show that the probability maps on registered FDG PET/CT images could guide radiation oncologists in a slice-by-slice adaptive GTVp segmentation.
翻訳日:2022-07-07 06:54:12 公開日:2022-07-04
# (参考訳) 人間反応生成のためのインタラクショントランス

Interaction Transformer for Human Reaction Generation ( http://arxiv.org/abs/2207.01685v1 )

ライセンス: CC BY 4.0
Baptiste Chopin, Hao Tang, Naima Otberdout, Mohamed Daoudi, Nicu Sebe(参考訳) 入力動作に基づいて対応する反応を生成することを目的としたヒト反応生成の課題に対処する。 既存の作業の多くは、反応の生成と予測に焦点を合わせておらず、アクションのみを入力として与えたときに動作を生成できない。 そこで,本稿では,時間的および空間的に注目されるトランスネットワークからなるインタラクショントランス(interformer)を提案する。 具体的には、時間的注意は両方の文字の動きと相互作用の時間的依存関係を捉え、空間的注意は各文字の異なる身体部分と相互作用の一部であるものの間の依存関係を学習する。 さらに,両文字間の相互作用距離モジュールを用いて空間的注意力の向上を図るために,グラフを用いた手法を提案する。 SBUインタラクション、K3HI、DuetDanceデータセットに関する大規模な実験は、InterFormerの有効性を示している。 提案手法は汎用的であり,より複雑かつ長期的な相互作用を生成できる。

We address the challenging task of human reaction generation which aims to generate a corresponding reaction based on an input action. Most of the existing works do not focus on generating and predicting the reaction and cannot generate the motion when only the action is given as input. To address this limitation, we propose a novel interaction Transformer (InterFormer) consisting of a Transformer network with both temporal and spatial attentions. Specifically, the temporal attention captures the temporal dependencies of the motion of both characters and of their interaction, while the spatial attention learns the dependencies between the different body parts of each character and those which are part of the interaction. Moreover, we propose using graphs to increase the performance of the spatial attention via an interaction distance module that helps focus on nearby joints from both characters. Extensive experiments on the SBU interaction, K3HI, and DuetDance datasets demonstrate the effectiveness of InterFormer. Our method is general and can be used to generate more complex and long-term interactions.
翻訳日:2022-07-07 06:37:19 公開日:2022-07-04
# (参考訳) 監視場面における骨格軌跡解析による犯罪現場分類

Crime scene classification from skeletal trajectory analysis in surveillance settings ( http://arxiv.org/abs/2207.01687v1 )

ライセンス: CC BY 4.0
Alina-Daniela Matei, Estefania Talavera, Maya Aghaei(参考訳) 映像異常解析はコンピュータビジョンの分野で活発に研究され、監視映像における現実世界の犯罪検出に応用されている。 本研究では,人間関係犯罪分類の課題に対処する。 提案手法では, 骨格関節軌跡として表されるビデオフレーム内の人体が, 探索の主な源として利用されている。 まず,HR-Crimeデータセットの基底真理ラベルを拡張することの重要性を紹介し,トラジェクティブレベルの基底真理ラベルを生成するための教師なし手法を提案する。 次に、軌道レベルの基底真理が利用可能であることを踏まえ、軌道に基づく犯罪分類の枠組みを導入する。 アブレーション研究は、様々なアーキテクチャとヒトの軌道表現のための特徴融合戦略を用いて行われる。 実験により,課題の実現可能性を示すとともに,さらなる研究の道筋をたどることができた。

Video anomaly analysis is a core task actively pursued in the field of computer vision, with applications extending to real-world crime detection in surveillance footage. In this work, we address the task of human-related crime classification. In our proposed approach, the human body in video frames, represented as skeletal joints trajectories, is used as the main source of exploration. First, we introduce the significance of extending the ground truth labels for HR-Crime dataset and hence, propose a supervised and unsupervised methodology to generate trajectory-level ground truth labels. Next, given the availability of the trajectory-level ground truth, we introduce a trajectory-based crime classification framework. Ablation studies are conducted with various architectures and feature fusion strategies for the representation of the human trajectories. The conducted experiments demonstrate the feasibility of the task and pave the path for further research in the field.
翻訳日:2022-07-07 06:19:23 公開日:2022-07-04
# (参考訳) BERT, HEはコントラストの焦点を予測できるのか? 言語モデルを用いた神経ttのプロミネンス予測と制御

BERT, can HE predict contrastive focus? Predicting and controlling prominence in neural TTS using a language model ( http://arxiv.org/abs/2207.01718v1 )

ライセンス: CC BY 4.0
Brooke Stephenson, Laurent Besacier, Laurent Girin, Thomas Hueber(参考訳) 近年,テキスト音声合成(TTS)の韻律的特徴を推測するためにトランスフォーマー言語モデル表現を用いた研究が行われている。 これらの研究は概して韻律を探求してきたが、本研究では個人代名詞に対する対比的焦点の予測に特に注目する。 これは、しばしば正しく予測するために意味的、非帰的、あるいは実践的な知識を必要とするため、特に難しいタスクである。 コントラスト焦点を含む発話のコーパスを収集し,これらのサンプルを用いてBERTモデルの精度を評価し,音質特性の定量化を図った。 また,過去の発話がこの予測にどのように関連する情報を提供できるかについても検討する。 さらに,音響的特徴に基づくTSモデルにおける代名詞長の制御性の評価を行った。

Several recent studies have tested the use of transformer language model representations to infer prosodic features for text-to-speech synthesis (TTS). While these studies have explored prosody in general, in this work, we look specifically at the prediction of contrastive focus on personal pronouns. This is a particularly challenging task as it often requires semantic, discursive and/or pragmatic knowledge to predict correctly. We collect a corpus of utterances containing contrastive focus and we evaluate the accuracy of a BERT model, finetuned to predict quantized acoustic prominence features, on these samples. We also investigate how past utterances can provide relevant information for this prediction. Furthermore, we evaluate the controllability of pronoun prominence in a TTS model conditioned on acoustic prominence features.
翻訳日:2022-07-07 06:18:23 公開日:2022-07-04
# (参考訳) 適応的細粒スケッチに基づく画像検索

Adaptive Fine-Grained Sketch-Based Image Retrieval ( http://arxiv.org/abs/2207.01723v1 )

ライセンス: CC BY 4.0
Ayan Kumar Bhunia, Aneeshan Sain, Parth Shah, Animesh Gupta, Pinaki Nath Chowdhury, Tao Xiang, Yi-Zhe Song(参考訳) 最近のFG-SBIR(Fin-Grained Sketch-Based Image Retrieval)の焦点は、トレーニングデータなしで新しいカテゴリにモデルを一般化することへと移行している。 しかし、現実の応用においては、訓練されたFG-SBIRモデルは、新しいカテゴリと異なる人間のスケッチ、すなわち異なる描画スタイルの両方に適用されることが多い。 これは一般化の問題を複雑にしますが、幸いにもいくつかの例が一般的に利用可能で、モデルが新しいカテゴリ/スタイルに適応できるようにしています。 本稿では、新しい視点を提供します -- 一般化するモデルを求めるのではなく、テスト中に(数ショットで)ごくわずかなサンプルで、迅速に適応するモデルを提案します。 この問題を解決するために,モデルに依存しないメタラーニング(MAML)に基づく新しいフレームワークを導入する。(1) マージンベースのコントラスト損失のある検索タスクとして,内部ループでのMAMLトレーニングを簡素化し,より安定かつトラクタブルにする。 (2) 対照的な損失のマージンは、モデルの他の部分ともメタ学習される。 (3) メタ学習型FG-SBIRモデルをカテゴリー/スタイル適応に有効にするため, 外部ループに3つの追加正規化損失が導入された。 公開データセットに関する広範囲な実験は、一般化やゼロショットベースアプローチに対する大きな利益と、少数の強力なマイナショットベースラインを示唆している。

The recent focus on Fine-Grained Sketch-Based Image Retrieval (FG-SBIR) has shifted towards generalising a model to new categories without any training data from them. In real-world applications, however, a trained FG-SBIR model is often applied to both new categories and different human sketchers, i.e., different drawing styles. Although this complicates the generalisation problem, fortunately, a handful of examples are typically available, enabling the model to adapt to the new category/style. In this paper, we offer a novel perspective -- instead of asking for a model that generalises, we advocate for one that quickly adapts, with just very few samples during testing (in a few-shot manner). To solve this new problem, we introduce a novel model-agnostic meta-learning (MAML) based framework with several key modifications: (1) As a retrieval task with a margin-based contrastive loss, we simplify the MAML training in the inner loop to make it more stable and tractable. (2) The margin in our contrastive loss is also meta-learned with the rest of the model. (3) Three additional regularisation losses are introduced in the outer loop, to make the meta-learned FG-SBIR model more effective for category/style adaptation. Extensive experiments on public datasets suggest a large gain over generalisation and zero-shot based approaches, and a few strong few-shot baselines.
翻訳日:2022-07-07 06:07:10 公開日:2022-07-04
# (参考訳) どのくらいのデータが必要なのか? ダウンストリームタスクの要件推定

How Much More Data Do I Need? Estimating Requirements for Downstream Tasks ( http://arxiv.org/abs/2207.01725v1 )

ライセンス: CC BY 4.0
Rafid Mahmood, James Lucas, David Acuna, Daiqing Li, Jonah Philion, Jose M. Alvarez, Zhiding Yu, Sanja Fidler, Marc T. Law(参考訳) 小さなトレーニングデータセットと学習アルゴリズムを考えると、ターゲットのバリデーションやテストパフォーマンスに到達するのに、どれくらいのデータが必要か? この問題は、データ収集が高価で時間を要する自動運転や医療画像などの応用において重要である。 データ要求を過大評価または過小評価すると、十分な予算で回避できる相当なコストが発生する。 ニューラルスケーリング法則に関する以前の研究は、パワーロー関数が検証性能曲線に適合し、より大きなデータセットサイズに外挿できることを示唆している。 これは、ターゲットのパフォーマンスを満たすために必要なデータセットサイズを推定するより難しいダウンストリームタスクに、すぐには変換されない。 本研究では,幅広いコンピュータビジョンタスクを考察し,データ要求のより良い推定を可能にするパワーロー関数を一般化する関数群を体系的に検討する。 最後に,調整された補正係数を組み込んで複数のラウンドを収集することで,データ推定器の性能が大幅に向上することを示す。 本ガイドラインを用いて,機械学習システムのデータ要求を正確に推定し,開発時間とデータ取得コストの双方で節約することができる。

Given a small training data set and a learning algorithm, how much more data is necessary to reach a target validation or test performance? This question is of critical importance in applications such as autonomous driving or medical imaging where collecting data is expensive and time-consuming. Overestimating or underestimating data requirements incurs substantial costs that could be avoided with an adequate budget. Prior work on neural scaling laws suggest that the power-law function can fit the validation performance curve and extrapolate it to larger data set sizes. We find that this does not immediately translate to the more difficult downstream task of estimating the required data set size to meet a target performance. In this work, we consider a broad class of computer vision tasks and systematically investigate a family of functions that generalize the power-law function to allow for better estimation of data requirements. Finally, we show that incorporating a tuned correction factor and collecting over multiple rounds significantly improves the performance of the data estimators. Using our guidelines, practitioners can accurately estimate data requirements of machine learning systems to gain savings in both development time and data acquisition costs.
翻訳日:2022-07-07 05:45:32 公開日:2022-07-04
# (参考訳) まれな貧血障害分類のための異常認識型多重学習

Anomaly-aware multiple instance learning for rare anemia disorder classification ( http://arxiv.org/abs/2207.01742v1 )

ライセンス: CC BY 4.0
Salome Kazeminia and Ario Sadafi and Asya Makhro and Anna Bogdanova and Shadi Albarqouni and Carsten Marr(参考訳) ディープラーニングに基づく希少貧血障害の分類は、トレーニングデータとインスタンスレベルのアノテーションの欠如によって困難である。 MIL(Multiple Instance Learning)は有効なソリューションであることがわかったが、精度が低く、説明性が制限されている。 注意機構の導入はこれらの課題に対処しているが、その効果はトレーニングサンプル中の細胞の量と多様性に大きく依存している。 したがって、血液サンプルからのまれな貧血障害分類における機械学習性能の低下は未解決である。 本稿では,これらの制約に対処するための解釈可能なMILプーリング法を提案する。 陰性袋のインスタンスレベルの情報(すなわち健康な個体の良性良性細胞)の利点により、我々のアプローチは異常な事例の寄与を増大させる。 我々の戦略は標準的なMIL分類アルゴリズムよりも優れており、その決定の背後にある意味のある説明を提供する。 さらに、トレーニング段階では見られないまれな血液疾患の異常な例を示すこともできる。

Deep learning-based classification of rare anemia disorders is challenged by the lack of training data and instance-level annotations. Multiple Instance Learning (MIL) has shown to be an effective solution, yet it suffers from low accuracy and limited explainability. Although the inclusion of attention mechanisms has addressed these issues, their effectiveness highly depends on the amount and diversity of cells in the training samples. Consequently, the poor machine learning performance on rare anemia disorder classification from blood samples remains unresolved. In this paper, we propose an interpretable pooling method for MIL to address these limitations. By benefiting from instance-level information of negative bags (i.e., homogeneous benign cells from healthy individuals), our approach increases the contribution of anomalous instances. We show that our strategy outperforms standard MIL classification algorithms and provides a meaningful explanation behind its decisions. Moreover, it can denote anomalous instances of rare blood diseases that are not seen during the training phase.
翻訳日:2022-07-07 05:22:15 公開日:2022-07-04
# (参考訳) Federated Split GANs

Federated Split GANs ( http://arxiv.org/abs/2207.01750v1 )

ライセンス: CC BY-SA 4.0
Pranvera Korto\c{c}i, Yilei Liang, Pengyuan Zhou, Lik-Hang Lee, Abbas Mehrabi, Pan Hui, Sasu Tarkoma, Jon Crowcroft(参考訳) モバイルデバイスとそれらが生成する膨大な量と多様なデータが、機械学習(ML)ベースのアプリケーションの重要な実現要因である。 従来のML技術は、ユーザのデータプライバシ保護を改善するために、フェデレーション(FL)や分割学習(SL)といった新しいパラダイムに移行している。 しかしながら、これらのパラダイムは、クライアントデバイス上の限られたリソースの流出を避けるために、MLモデルの計算量の多い部分をトレーニングするために、エッジやクラウドに位置するサーバに依存することが多い。 本研究は,ユーザのデバイス自体に計算量の多いMLモデルをトレーニングするための代替手法を提案する。 具体的には、gan(generative adversarial networks)に注目し、その固有のプライバシー保護属性を活用します。 我々はganの識別部分をユーザのデバイス上の生データで訓練するが、生成モデルはリモート(例えばサーバ)で訓練され、センサの真のデータにアクセスする必要がない。 さらに,本手法により,識別モデルの学習の計算負荷が,SLを用いてユーザのデバイス間で共有されることが保証される。 実資源制約のあるデバイスにおいて,計算量の多いGANモデルの協調学習手法を実装した。 その結果,本システムはデータのプライバシを保ち,短時間のトレーニング時間を保ち,制約のないデバイス(クラウドなど)におけるモデルトレーニングの精度が同じであることがわかった。 私たちのコードはhttps://github.com/YukariSonz/FSL-GANで確認できます。

Mobile devices and the immense amount and variety of data they generate are key enablers of machine learning (ML)-based applications. Traditional ML techniques have shifted toward new paradigms such as federated (FL) and split learning (SL) to improve the protection of user's data privacy. However, these paradigms often rely on server(s) located in the edge or cloud to train computationally-heavy parts of a ML model to avoid draining the limited resource on client devices, resulting in exposing device data to such third parties. This work proposes an alternative approach to train computationally-heavy ML models in user's devices themselves, where corresponding device data resides. Specifically, we focus on GANs (generative adversarial networks) and leverage their inherent privacy-preserving attribute. We train the discriminative part of a GAN with raw data on user's devices, whereas the generative model is trained remotely (e.g., server) for which there is no need to access sensor true data. Moreover, our approach ensures that the computational load of training the discriminative model is shared among user's devices-proportional to their computation capabilities-by means of SL. We implement our proposed collaborative training scheme of a computationally-heavy GAN model in real resource-constrained devices. The results show that our system preserves data privacy, keeps a short training time, and yields same accuracy of model training in unconstrained devices (e.g., cloud). Our code can be found on https://github.com/YukariSonz/FSL-GAN
翻訳日:2022-07-07 05:13:17 公開日:2022-07-04
# ロボットの生体とロボットの健康 : 逆条件下でのロボットの動作性能劣化の系統的定量化を目指して

Robot Vitals and Robot Health: Towards Systematically Quantifying Runtime Performance Degradation in Robots Under Adverse Conditions ( http://arxiv.org/abs/2207.01684v1 )

ライセンス: Link先を確認
Aniketh Ramesh, Rustam Stolkin, Manolis Chiou(参考訳) 本稿ではタスク実行中の遠隔移動ロボットの性能劣化を自動的に検出し定量化する問題に対処する。 ロボットはタスク実行中に様々な不確実性や逆境に遭遇し、タスクを効果的に実行できなくなり、パフォーマンスが低下する可能性がある。 このような状況は、タイムリーな検出と介入(遠隔操作モードで制御を引き継ぐ遠隔人監督者など)によって緩和または回避することができる。 病院における患者トリアージシステムに触発されて,総合的な「ロボット健康」を推定するための「ロボットバイタル」の枠組みを導入する。 ロボットのバイタル(英: Robot's vitals)とは、ある時点においてロボットが直面する性能劣化の程度を推定する指標である。 ロボットの健康は、ロボットのバイタルを1つのスカラー値に組み合わせ、性能劣化を推定する指標である。 シミュレーションと実際の移動ロボットを用いた実験では,提案したロボットのバイタルとロボットの健康状態を効果的に利用し,実行中のロボットの性能劣化を推定できることを示した。

This paper addresses the problem of automatically detecting and quantifying performance degradation in remote mobile robots during task execution. A robot may encounter a variety of uncertainties and adversities during task execution, which can impair its ability to carry out tasks effectively and cause its performance to degrade. Such situations can be mitigated or averted by timely detection and intervention (e.g., by a remote human supervisor taking over control in teleoperation mode). Inspired by patient triaging systems in hospitals, we introduce the framework of "robot vitals" for estimating overall "robot health". A robot's vitals are a set of indicators that estimate the extent of performance degradation faced by a robot at a given point in time. Robot health is a metric that combines robot vitals into a single scalar value estimate of performance degradation. Experiments, both in simulation and on a real mobile robot, demonstrate that the proposed robot vitals and robot health can be used effectively to estimate robot performance degradation during runtime.
翻訳日:2022-07-06 15:56:45 公開日:2022-07-04
# 産業再構成管理によるソリューション空間のインテリジェント探索

Intelligent Exploration of Solution Spaces Exemplified by Industrial Reconfiguration Management ( http://arxiv.org/abs/2207.01693v1 )

ライセンス: Link先を確認
Timo M\"uller, Benjamin Maschler, Daniel Dittler, Nasser Jazdi and Michael Weyrich(参考訳) 多くの意思決定アプローチは、特定の基準に関して解空間の探索に依存する。 しかし、複雑な環境では、ブルートフォース探査戦略は通常実現不可能である。 その代替として,探索タスクの垂直部分分割をパラマウント問題の異なる逐次相互依存部分問題を表す層と,自己持続型解部分空間への水平部分分割の組み合わせを提案する。 本稿では,ソリューション空間のインテリジェントな探索のための普遍的な方法論を提案し,産業4.0における再構成管理の分野から利用事例を導出する。

Many decision-making approaches rely on the exploration of solution spaces with regards to specified criteria. However, in complex environments, brute-force exploration strategies are usually not feasible. As an alternative, we propose the combination of an exploration task's vertical sub-division into layers representing different sequentially interdependent sub-problems of the paramount problem and a horizontal sub-division into self-sustained solution sub-spaces. In this paper, we present a universal methodology for the intelligent exploration of solution spaces and derive a use-case specific example from the field of reconfiguration management in industry 4.0.
翻訳日:2022-07-06 15:56:25 公開日:2022-07-04
# 認めざるを得ない - ソフトウェア開発のためのオープンソースライブラリの比較

Do Not Take It for Granted: Comparing Open-Source Libraries for Software Development Effort Estimation ( http://arxiv.org/abs/2207.01705v1 )

ライセンス: Link先を確認
Rebecca Moussa and Federica Sarro(参考訳) 過去20年間で、いくつかの機械学習(ML)ライブラリが無料で利用可能になった。 多くの研究は、予測ソフトウェア工学(SE)タスクに関する実証的な調査を行うためにそのようなライブラリを使っている。 しかし、あるライブラリを別のライブラリで使用することに起因する違いは見過ごされ、これらのライブラリを使用すると、同じか非常に似た結果が得られると暗黙的に仮定している。 本稿では,ソフトウェア開発作業推定(SEE)に異なるMLライブラリを使用した場合の差異に対する意識を高めることを目的としている。 そこで我々は,さまざまな言語(Scikit-Learn, Caret, Weka)で書かれた最も人気のあるMLオープンソースライブラリのうち,3つが提供する決定論的機械学習について検討した。 私たちは、最もよく見られる2つのシナリオ(アウトオブボックスmlとtuned-ml)のデータセットと、apiのドキュメンテーションとコードを詳細に分析した、機械学習の性能比較を行い、徹底的な実証研究を行いました。 本研究の結果から,3つの図書館が提供する予測は,平均95%のケースで105のケースで異なることが明らかとなった。 これらの違いは、ほとんどのケースにおいて著しく大きく、最大で近似の誤推定をもたらす。 1プロジェクトあたり3000時間。 さらに当社のapi分析では,これらのライブラリがユーザに対して,操作可能なパラメータのコントロールレベルの違いと,ユーザを誤解させる可能性のある明確性と一貫性の欠如を明らかにした。 この結果から,MLライブラリはSEE研究において重要な設計選択であり,性能の違いにつながる可能性が示唆された。 しかし、そのような違いは文書化されていない。 最後に,オープンチャレングを強調して,ライブラリの開発者や,それを使用する研究者や実践者への提案を行った。

In the past two decades, several Machine Learning (ML) libraries have become freely available. Many studies have used such libraries to carry out empirical investigations on predictive Software Engineering (SE) tasks. However, the differences stemming from using one library over another have been overlooked, implicitly assuming that using any of these libraries would provide the user with the same or very similar results. This paper aims at raising awareness of the differences incurred when using different ML libraries for software development effort estimation (SEE), one of most widely studied SE prediction tasks. To this end, we investigate 4 deterministic machine learners as provided by 3 of the most popular ML open-source libraries written in different languages (namely, Scikit-Learn, Caret and Weka). We carry out a thorough empirical study comparing the performance of the machine learners on 5 SEE datasets in the two most common SEE scenarios (i.e., out-of-the-box-ml and tuned-ml) as well as an in-depth analysis of the documentation and code of their APIs. The results of our study reveal that the predictions provided by the 3 libraries differ in 95% of the cases on average across a total of 105 cases studied. These differences are significantly large in most cases and yield misestimations of up to approx. 3,000 hours per project. Moreover, our API analysis reveals that these libraries provide the user with different levels of control on the parameters one can manipulate, and a lack of clarity and consistency, overall, which might mislead users. Our findings highlight that the ML library is an important design choice for SEE studies, which can lead to a difference in performance. However, such a difference is under-documented. We conclude by highlighting open-challenges with suggestions for the developers of libraries as well as for the researchers and practitioners using them.
翻訳日:2022-07-06 15:56:15 公開日:2022-07-04
# アクセス制御における機械学習: 分類学と調査

Machine Learning in Access Control: A Taxonomy and Survey ( http://arxiv.org/abs/2207.01739v1 )

ライセンス: Link先を確認
Mohammad Nur Nobi, Maanak Gupta, Lopamudra Praharaj, Mahmoud Abdelsalam, Ram Krishnan, Ravi Sandhu(参考訳) 機械学習(ML)の進歩を活用することの重要性を認識し、アクセス制御属性、ポリシーマイニング、ポリシー検証、アクセス決定などの効率的な自動化の必要性に対処している。 本研究では,さまざまなアクセス制御問題を解くためのMLアプローチを調査し,要約する。 本稿では,アクセス制御領域におけるMLモデルの新たな分類法を提案する。 我々は、パブリックな実世界のデータセットの欠如、MLベースのアクセス制御システムの管理、ブラックボックスMLモデルの決定の理解など、現在の制限とオープンな課題を強調し、今後の研究方向性を列挙する。

An increasing body of work has recognized the importance of exploiting machine learning (ML) advancements to address the need for efficient automation in extracting access control attributes, policy mining, policy verification, access decisions, etc. In this work, we survey and summarize various ML approaches to solve different access control problems. We propose a novel taxonomy of the ML model's application in the access control domain. We highlight current limitations and open challenges such as lack of public real-world datasets, administration of ML-based access control systems, understanding a black-box ML model's decision, etc., and enumerate future research directions.
翻訳日:2022-07-06 15:55:43 公開日:2022-07-04
# TT-PINN:エッジコンピューティングのためのテンソル圧縮型ニューラルPDEソルバー

TT-PINN: A Tensor-Compressed Neural PDE Solver for Edge Computing ( http://arxiv.org/abs/2207.01751v1 )

ライセンス: Link先を確認
Ziyue Liu, Xinling Yu, Zheng Zhang(参考訳) 物理インフォームドニューラルネットワーク(PINN)は、複雑な物理システムをモデル化する能力のため、ますます採用されている。 表現性を向上するためには、多くの問題においてネットワークサイズが大きくなる必要がある。 これは、メモリ、コンピューティング、エネルギー資源に制限のあるエッジデバイス上でPINNをトレーニングする必要がある場合に、問題を引き起こします。 本稿では,エッジデバイス上でのPINNのトレーニングを実現するために,Tensor-Train分解に基づくエンドツーエンド圧縮PINNを提案する。 ヘルムホルツ方程式の解法において,提案モデルは,パラメータの少ないピン数を有意に上回り,最大15$\times$ のパラメータ低減で十分な予測を達成している。

Physics-informed neural networks (PINNs) have been increasingly employed due to their capability of modeling complex physics systems. To achieve better expressiveness, increasingly larger network sizes are required in many problems. This has caused challenges when we need to train PINNs on edge devices with limited memory, computing and energy resources. To enable training PINNs on edge devices, this paper proposes an end-to-end compressed PINN based on Tensor-Train decomposition. In solving a Helmholtz equation, our proposed model significantly outperforms the original PINNs with few parameters and achieves satisfactory prediction with up to 15$\times$ overall parameter reduction.
翻訳日:2022-07-06 15:55:31 公開日:2022-07-04
# ディープラーニングトランスフォーマーモードに基づくゲーム用適応音楽生成アーキテクチャ

An adaptive music generation architecture for games based on the deep learning Transformer mode ( http://arxiv.org/abs/2207.01698v1 )

ライセンス: Link先を確認
Gustavo Amaral Costa dos Santos and Augusto Baffa and Jean-Pierre Briot and Bruno Feij\'o and Antonio Luz Furtado(参考訳) 本稿では,トランスフォーマーディープラーニングモデルに基づくビデオゲーム用音楽を生成するためのアーキテクチャを提案する。 このシステムは、ゲーム音楽を設計する作曲家が現在使用している標準的な階層化戦略に従って、様々な層で音楽を生成する。 arousal-valenceモデルに従って、音楽はプレイヤーの心理的な文脈に適応する。 私たちのモチベーションは、音楽のトレーニング例のセットを通じて、好みの音楽スタイルを選択することができるプレイヤーの好みに応じて音楽をカスタマイズすることにあります。 本稿では,音楽成分の協調的,インタラクティブな制御など,今後の課題と展望について考察する。

This paper presents an architecture for generating music for video games based on the Transformer deep learning model. The system generates music in various layers, following the standard layering strategy currently used by composers designing video game music. The music is adaptive to the psychological context of the player, according to the arousal-valence model. Our motivation is to customize music according to the player's tastes, who can select his preferred style of music through a set of training examples of music. We discuss current limitations and prospects for the future, such as collaborative and interactive control of the musical components.
翻訳日:2022-07-06 15:52:47 公開日:2022-07-04
# ビジネス最適化のための因果的アプローチ:オンラインマーケットプレースへの応用

A Causal Approach for Business Optimization: Application on an Online Marketplace ( http://arxiv.org/abs/2207.01722v1 )

ライセンス: Link先を確認
Naama Parush and Ohad Levinkron-Fisch and Hanan Shteingart and Amir Bar Sela and Amir Zilberman and Jake Klein(参考訳) 一般的な販売戦略は、会計幹部(AE)が積極的に連絡を取り、潜在的な顧客と接触させることである。 しかし、すべての接触の試みにポジティブな効果があるわけではない:ある試みは顧客の決定を変えないが、他の試みは望ましい結果に干渉するかもしれない。 そこで本研究では, 因果推論を用いて, 潜在顧客間の接触効果を推定し, 適切な接触方針を設定することを提案する。 このアプローチをオンラインジュエリー市場であるworthy.comのデータで実証する。 我々は、Worthyのビジネスプロセスを調べて、関連する意思決定と成果を特定し、それらの作り方に関する仮定を定式化した。 因果的ツールを用いて,AE接触活動の改善が期待できる決定点を選択した。 そして、パーソナライズされたポリシーを作成し、それが有益な顧客のみにリーチすることを推奨しました。 最後に, 3カ月間のA\B試験の結果を検証した結果, 対象人口の商品配送率を22%向上させた(p-value=0.026)。 この政策は現在進行中である。

A common sales strategy involves having account executives (AEs) actively reach out and contact potential customers. However, not all contact attempts have a positive effect: some attempts do not change customer decisions, while others might even interfere with the desired outcome. In this work we propose using causal inference to estimate the effect of contacting each potential customer and setting the contact policy accordingly. We demonstrate this approach on data from Worthy.com, an online jewelry marketplace. We examined the Worthy business process to identify relevant decisions and outcomes, and formalized assumptions on how they were made. Using causal tools, we selected a decision point where improving AE contact activity appeared to be promising. We then generated a personalized policy and recommended reaching out only to customers for whom it would be beneficial. Finally, we validated the results in an A\B test over a 3-month period, resulting in an increase in item delivery rate of the targeted population by 22% (p-value=0.026). This policy is now being used on an ongoing basis.
翻訳日:2022-07-06 15:29:55 公開日:2022-07-04
# Ego4D Challenge 2022

Egocentric Video-Language Pretraining @ Ego4D Challenge 2022 ( http://arxiv.org/abs/2207.01622v1 )

ライセンス: Link先を確認
Kevin Qinghong Lin, Alex Jinpeng Wang, Mattia Soldan, Michael Wray, Rui Yan, Eric Zhongcong Xu, Difei Gao, Rongcheng Tu, Wenzhe Zhao, Weijie Kong, Chengfei Cai, Hongfa Wang, Dima Damen, Bernard Ghanem, Wei Liu, Mike Zheng Shou(参考訳) 本稿では、自然言語クエリ(NLQ)、モーメントクエリ(MQ)、オブジェクト状態変化分類(OSCC)、PNRローカライゼーション(PNR)を含む4つのEgo4D課題タスクに対して、ビデオ言語事前学習(VLP)ベースのソリューション \cite{kevin2022egovlp}を提案する。 特に、最近リリースされたEgo4Dデータセット \cite{grauman2021ego4d} を利用して、事前学習データセット、事前学習目標、開発セットからEgocentric VLPを開拓する。 上記の3つの設計に基づいて、ビデオ中心の動画テキスト表現やビデオのみの表現を複数の下流タスクに転送できる事前訓練されたビデオ言語モデルを開発する。 我々のEgocentric VLPはNLQで10.46R@1&IoU @0.3、MQで10.33mAP、OSCCで74%、PNRで0.67秒のエラーを達成した。 コードはhttps://github.com/showlab/egovlpで入手できる。

In this report, we propose a video-language pretraining (VLP) based solution \cite{kevin2022egovlp} for four Ego4D challenge tasks, including Natural Language Query (NLQ), Moment Query (MQ), Object State Change Classification (OSCC), and PNR Localization (PNR). Especially, we exploit the recently released Ego4D dataset \cite{grauman2021ego4d} to pioneer Egocentric VLP from pretraining dataset, pretraining objective, and development set. Based on the above three designs, we develop a pretrained video-language model that is able to transfer its egocentric video-text representation or video-only representation to several video downstream tasks. Our Egocentric VLP achieves 10.46R@1&IoU @0.3 on NLQ, 10.33 mAP on MQ, 74% Acc on OSCC, 0.67 sec error on PNR. The code is available at https://github.com/showlab/EgoVLP.
翻訳日:2022-07-06 15:04:15 公開日:2022-07-04
# TM2T:3次元人の動作とテキストの相互生成のための確率的およびトークン化モデリング

TM2T: Stochastic and Tokenized Modeling for the Reciprocal Generation of 3D Human Motions and Texts ( http://arxiv.org/abs/2207.01696v1 )

ライセンス: Link先を確認
Chuan Guo, Xinxin Xuo, Sen Wang, Li Cheng(参考訳) 本論文は,視覚と言語との強い結びつき,2つの親密な人間の知覚とコミュニケーションのモダリティに着想を得て,テキストからの3次元人体運動の生成と,テキスト2モーションとモーション2テキストのショートハンドによる相互タスクを探求することを目的とする。 既存の課題,特に同一テキストから複数の異なる動きを生成できるようにすること,および自明な動きのないポーズ列の望ましくない生成を避けるために,離散的かつコンパクトな動き表現である動きトークンを提案する。 これは、動きとテキストの信号の両方を、それぞれ動きとテキストのトークンとして考えるとき、一段階のプレイグラウンドを提供する。 さらに、入力テキストからの合成テキストの大幅な逸脱がトレーニング損失の大きな原因で罰せられるようなテキスト2モーショントレーニングパイプラインの逆アライメントプロセスに統合され、これを実証的に示し、性能を効果的に向上させる。 最後に、動作とテキストの2つのモード間のマッピングは、機械翻訳のためのニューラルモデル(NMT)を我々の文脈に適応させることにより容易になる。 この離散運動トークン上の分布の自己回帰モデリングにより、入力テキストから可変長のポーズ列を非決定論的に生成することができる。 私たちのアプローチは柔軟で、text2motionと Motion2textタスクの両方に使用できます。 2つのベンチマークデータセットに対する実証的な評価は、さまざまな最先端手法よりも、両方のタスクに対するアプローチの優れた性能を示す。 プロジェクトページ: https://ericguo5513.github.io/TM2T/

Inspired by the strong ties between vision and language, the two intimate human sensing and communication modalities, our paper aims to explore the generation of 3D human full-body motions from texts, as well as its reciprocal task, shorthanded for text2motion and motion2text, respectively. To tackle the existing challenges, especially to enable the generation of multiple distinct motions from the same text, and to avoid the undesirable production of trivial motionless pose sequences, we propose the use of motion token, a discrete and compact motion representation. This provides one level playing ground when considering both motions and text signals, as the motion and text tokens, respectively. Moreover, our motion2text module is integrated into the inverse alignment process of our text2motion training pipeline, where a significant deviation of synthesized text from the input text would be penalized by a large training loss; empirically this is shown to effectively improve performance. Finally, the mappings in-between the two modalities of motions and texts are facilitated by adapting the neural model for machine translation (NMT) to our context. This autoregressive modeling of the distribution over discrete motion tokens further enables non-deterministic production of pose sequences, of variable lengths, from an input text. Our approach is flexible, could be used for both text2motion and motion2text tasks. Empirical evaluations on two benchmark datasets demonstrate the superior performance of our approach on both tasks over a variety of state-of-the-art methods. Project page: https://ericguo5513.github.io/TM2T/
翻訳日:2022-07-06 15:03:44 公開日:2022-07-04
# WPPG Net: コンパチブルトレーニング能力を備えた非接触型ビデオベース心拍抽出ネットワークフレームワーク

WPPG Net: A Non-contact Video Based Heart Rate Extraction Network Framework with Compatible Training Capability ( http://arxiv.org/abs/2207.01697v1 )

ライセンス: Link先を確認
Weiyu Sun, Xinyu Zhang, Ying Chen, Yun Ge, Chunyu Ji, Xiaolin Huang(参考訳) 顔の皮膚は、リモートフォトプレチモグラフィ(rppg)信号として知られる微妙な色変化を示しており、そこから被験者の心拍数を抽出できる。 近年,rPPG信号抽出に関する多くの深層学習手法と関連するデータセットが提案されている。 しかしながら,BVP信号などのラベル波は,体中を流れる時間的血流量や他の要因により,実際のrPPG信号に不確実な遅延が生じ,予測したrPPG波を直接出力するネットワークの訓練が困難になる。 本稿では、rPPG信号とラベル波のリズムと周期性に関する共通特性を解析することにより、これらのネットワークを包み、データセットに頻繁な不確実な遅延が存在する場合にトレーニングを継続できるようにし、他の遅延のないrPPG抽出方法よりも正確でロバストな心拍予測結果を得る訓練手法を提案する。

Our facial skin presents subtle color change known as remote Photoplethysmography (rPPG) signal, from which we could extract the heart rate of the subject. Recently many deep learning methods and related datasets on rPPG signal extraction are proposed. However, because of the time consumption blood flowing through our body and other factors, label waves such as BVP signals have uncertain delays with real rPPG signals in some datasets, which results in the difficulty on training of networks which output predicted rPPG waves directly. In this paper, by analyzing the common characteristics on rhythm and periodicity of rPPG signals and label waves, we propose a whole set of training methodology which wraps these networks so that they could remain efficient when be trained at the presence of frequent uncertain delay in datasets and gain more precise and robust heart rate prediction results than other delay-free rPPG extraction methods.
翻訳日:2022-07-06 15:03:16 公開日:2022-07-04
# メトリクスは何を計測するか? 画像キャプションタスクメトリクスの評価

Are metrics measuring what they should? An evaluation of image captioning task metrics ( http://arxiv.org/abs/2207.01733v1 )

ライセンス: Link先を確認
Oth\'on Gonz\'alez-Ch\'avez, Guillermo Ruiz, Daniela Moctezuma, Tania A. Ramirez-delReal(参考訳) 画像キャプション(英: image captioning)は、映像の内容とそのシーンにおける関係を記述する現在の研究課題である。 この課題に取り組むために、人工視覚と自然言語処理という2つの重要な研究領域が使われている。 イメージキャプションでは、あらゆる計算知能タスクと同様に、パフォーマンスメトリクスは、メソッドがどれだけうまく(または悪く)いるかを知るのに不可欠である。 近年,n-gramに基づく古典的メトリクスは,画像中の内容を記述する意味や重要な意味を捉えるには不十分であることが観察されている。 本論文では,現在および最近の指標の集合がどの程度うまく行っているかを評価するために,複数の種類の画像キャプチャー計測値の評価を行い,その比較をMS COCOデータセットを用いて行った。 このために2つのシナリオをデザインしました 1) 品質の異なる人工的に構築されたキャプションのセット 2) 最先端画像キャプション手法の比較 現在のメトリクスは、高品質なキャプションの生成に役立ちますか? 実際のメトリクスはどのように比較されますか? 測定基準は何でしょう?

Image Captioning is a current research task to describe the image content using the objects and their relationships in the scene. To tackle this task, two important research areas are used, artificial vision, and natural language processing. In Image Captioning, as in any computational intelligence task, the performance metrics are crucial for knowing how well (or bad) a method performs. In recent years, it has been observed that classical metrics based on n-grams are insufficient to capture the semantics and the critical meaning to describe the content in an image. Looking to measure how well or not the set of current and more recent metrics are doing, in this manuscript, we present an evaluation of several kinds of Image Captioning metrics and a comparison between them using the well-known MS COCO dataset. For this, we designed two scenarios; 1) a set of artificially build captions with several quality, and 2) a comparison of some state-of-the-art Image Captioning methods. We tried to answer the questions: Are the current metrics helping to produce high quality captions? How do actual metrics compare to each other? What are the metrics really measuring?
翻訳日:2022-07-06 15:02:56 公開日:2022-07-04
# FACT:高次元ランダムフォレスト推論

FACT: High-Dimensional Random Forests Inference ( http://arxiv.org/abs/2207.01678v1 )

ライセンス: Link先を確認
Chien-Ming Chi, Yingying Fan, Jinchi Lv(参考訳) ランダムフォレストは、その優れた経験的パフォーマンスのおかげで、過去10年間で最も広く使われている機械学習手法の1つです。 しかし、ブラックボックスの性質のため、ランダムな森林による結果は、多くのビッグデータアプリケーションで解釈することは困難である。 ランダム森林学習における個々の特徴の有用性の定量化は、その解釈可能性を大幅に向上させる。 既存の研究では、ランダム林に対する特徴重要度対策がバイアス問題に苦しんでいることが示されている。 さらに、これらの既存手法の大部分が網羅的なサイズと電力分析を欠いている。 本稿では,仮説テストを通じてこの問題にアプローチし,バイアス耐性特性を持つランダムフォレストモデルにおける特徴の意義を評価するための自己正規化特徴対応相関テスト(fact)の枠組みを提案する。 このような無作為な森林推定への取り組みは、高次元の無作為な森林の整合性に関する最近の発展によって促進されている。 FACTテストのバニラバージョンは、機能依存の存在下でバイアスの問題に悩まされる可能性があります。 偏り補正には不均衡とコンディショニングの手法を活用している。 さらに,拡張パワーに対する機能変換を通じて,アンサンブルのアイデアを事実統計に取り入れる。 比較的一般的な高次元非パラメトリックモデルにおいて,FACTは理論上正当化されたランダムな森林にp値を持たせることができ,非漸近解析による魅力あるパワーを享受できることを正式に証明した。 提案手法の理論的結果と有限サンプルの利点をいくつかのシミュレーション例とcovid-19に関する経済予測の適用例で示す。

Random forests is one of the most widely used machine learning methods over the past decade thanks to its outstanding empirical performance. Yet, because of its black-box nature, the results by random forests can be hard to interpret in many big data applications. Quantifying the usefulness of individual features in random forests learning can greatly enhance its interpretability. Existing studies have shown that some popularly used feature importance measures for random forests suffer from the bias issue. In addition, there lack comprehensive size and power analyses for most of these existing methods. In this paper, we approach the problem via hypothesis testing, and suggest a framework of the self-normalized feature-residual correlation test (FACT) for evaluating the significance of a given feature in the random forests model with bias-resistance property, where our null hypothesis concerns whether the feature is conditionally independent of the response given all other features. Such an endeavor on random forests inference is empowered by some recent developments on high-dimensional random forests consistency. The vanilla version of our FACT test can suffer from the bias issue in the presence of feature dependency. We exploit the techniques of imbalancing and conditioning for bias correction. We further incorporate the ensemble idea into the FACT statistic through feature transformations for the enhanced power. Under a fairly general high-dimensional nonparametric model setting with dependent features, we formally establish that FACT can provide theoretically justified random forests feature p-values and enjoy appealing power through nonasymptotic analyses. The theoretical results and finite-sample advantages of the newly suggested method are illustrated with several simulation examples and an economic forecasting application in relation to COVID-19.
翻訳日:2022-07-06 14:28:11 公開日:2022-07-04
# 日本の政治討論における論証マイニングのカスケードモデル:QA Lab-PoliInfo-3 事例研究

A Cascade Model for Argument Mining in Japanese Political Discussions: the QA Lab-PoliInfo-3 Case Study ( http://arxiv.org/abs/2207.01672v1 )

ライセンス: Link先を確認
Ramon Ruiz-Dolz(参考訳) rVRAINチームは、分類と情報検索のサブタスクを組み合わせたBAM(Budget Argument Mining)タスクに取り組みました。 議論分類(AC)では、チームは5クラスのBERTベースのカスケードモデルでいくつかの手作りのルールを補完し、最高の結果を得た。 規則は、その表現が金銭的かどうかを決定するために用いられた。 そして、各通貨表現は、カスケードモデルの第一段階における前提または結論として分類された。 最後に、各前提を3つの前提クラスに分類し、各結論を2つの結論クラスに分類した。 情報検索 (リレーショナルID検出, RID) では, BERTに基づくバイナリ分類器と, 金銭的表現と予算的な密埋め込みからなるペアのコサイン類似性を組み合わせることで, 最良の結果が得られた。

The rVRAIN team tackled the Budget Argument Mining (BAM) task, consisting of a combination of classification and information retrieval sub-tasks. For the argument classification (AC), the team achieved its best performing results with a five-class BERT-based cascade model complemented with some handcrafted rules. The rules were used to determine if the expression was monetary or not. Then, each monetary expression was classified as a premise or as a conclusion in the first level of the cascade model. Finally, each premise was classified into the three premise classes, and each conclusion into the two conclusion classes. For the information retrieval (i.e., relation ID detection or RID), our best results were achieved by a combination of a BERT-based binary classifier, and the cosine similarity of pairs consisting of the monetary expression and budget dense embeddings.
翻訳日:2022-07-06 14:23:53 公開日:2022-07-04
# テキストからの位置参照認識:調査と比較

Location reference recognition from texts: A survey and comparison ( http://arxiv.org/abs/2207.01683v1 )

ライセンス: Link先を確認
Xuke Hu, Zhiyong Zhou, Hao Li, Yingjie Hu, Fuqiang Gu, Jens Kersten, Hongchao Fan, Friederike Klan(参考訳) 膨大な量の位置情報が、ソーシャルメディア投稿、ニュース記事、科学記事、ウェブページ、旅行ブログ、歴史アーカイブなどの非構造化テキストに存在している。 ジオパーシング(Geoparsing)とは、テキストから位置参照を認識し、その地理空間表現を識別するプロセスである。 geoparsingは多くのドメインに利益をもたらすが、特定のアプリケーションの概要はまだ欠けている。 さらに、ジオパーシングの第一段階と第一段階である位置参照認識に対する既存のアプローチの包括的なレビューと比較が欠落している。 これらの研究のギャップを埋めるために、まず、地理情報検索、災害管理、疾病監視、交通管理、空間人文科学、観光管理、犯罪管理の7つの典型的なアプリケーションドメインをまとめます。 次に,これらの手法を基本原理であるルールベース,ガゼテアマッチングベース,統計的学習ベース,ハイブリッドアプローチの4つのグループに分類することで,位置参照認識のための既存のアプローチをレビューする。 次に,世界中の39,736箇所の文献を含む26の公開データセット(ソーシャルメディア投稿やニュース記事など)に基づいて,最も広く用いられている27の位置情報参照認識手法の正確性と計算効率を徹底的に評価する。 この徹底的な評価の結果は、位置参照認識のための今後の方法論開発に役立ち、アプリケーションニーズに基づいた適切なアプローチの選択を導くのに役立ちます。

A vast amount of location information exists in unstructured texts, such as social media posts, news stories, scientific articles, web pages, travel blogs, and historical archives. Geoparsing refers to the process of recognizing location references from texts and identifying their geospatial representations. While geoparsing can benefit many domains, a summary of the specific applications is still missing. Further, there lacks a comprehensive review and comparison of existing approaches for location reference recognition, which is the first and a core step of geoparsing. To fill these research gaps, this review first summarizes seven typical application domains of geoparsing: geographic information retrieval, disaster management, disease surveillance, traffic management, spatial humanities, tourism management, and crime management. We then review existing approaches for location reference recognition by categorizing these approaches into four groups based on their underlying functional principle: rule-based, gazetteer matching-based, statistical learning-based, and hybrid approaches. Next, we thoroughly evaluate the correctness and computational efficiency of the 27 most widely used approaches for location reference recognition based on 26 public datasets with different types of texts (e.g., social media posts and news stories) containing 39,736 location references across the world. Results from this thorough evaluation can help inform future methodological developments for location reference recognition, and can help guide the selection of proper approaches based on application needs.
翻訳日:2022-07-06 14:23:38 公開日:2022-07-04
# プロンプトによる調査

Probing via Prompting ( http://arxiv.org/abs/2207.01736v1 )

ライセンス: Link先を確認
Jiaoda Li, Ryan Cotterell, Mrinmaya Sachan(参考訳) 探索は、事前訓練された言語モデルの表現に含まれる言語情報を識別する一般的な方法である。 しかし、プローブモデルを選択するメカニズムは、プローブが単に情報を取り出したり、言語特性自体をモデル化しているかどうかが定かでないため、近年激しい議論の対象となっている。 この課題に対処するため,本稿では,プロンピングをプロンピングタスクとして定式化することにより,新しいモデルフリーな探索手法を提案する。 我々は,5つの調査課題について実験を行い,そのアプローチが,診断プローブよりも情報抽出に匹敵するあるいは優れたものであることを示す。 さらに,プロンプトアプローチと注意ヘッドプルーニングを組み合わせることで,モデルがそのアーキテクチャに言語情報を格納する場所を分析する。 次に,その特性に不可欠な頭部を除去し,言語モデルの性能を評価することで,事前学習のための特定の言語特性の有用性を検討する。

Probing is a popular method to discern what linguistic information is contained in the representations of pre-trained language models. However, the mechanism of selecting the probe model has recently been subject to intense debate, as it is not clear if the probes are merely extracting information or modeling the linguistic property themselves. To address this challenge, this paper introduces a novel model-free approach to probing, by formulating probing as a prompting task. We conduct experiments on five probing tasks and show that our approach is comparable or better at extracting information than diagnostic probes while learning much less on its own. We further combine the probing via prompting approach with attention head pruning to analyze where the model stores the linguistic information in its architecture. We then examine the usefulness of a specific linguistic property for pre-training by removing the heads that are essential to that property and evaluating the resulting model's performance on language modeling.
翻訳日:2022-07-06 14:21:46 公開日:2022-07-04
# 木構造順列による離散木流

Discrete Tree Flows via Tree-Structured Permutations ( http://arxiv.org/abs/2207.01744v1 )

ライセンス: Link先を確認
Mai Elkady, Jim Lim, David I. Inouye(参考訳) 連続データに対する正規化フローは広く研究されているが、離散データに対するフローは近年研究されている。 しかし、これらの先行モデルは連続フローとは異なる制限に悩まされる。 特に、離散フローベースモデルは、離散関数の勾配が未定義またはゼロであるため、従来のディープラーニング手法では直接最適化できない。 先行研究は離散関数の擬次数を近似しているが、基本レベルでは解かない。 それに加えて、バックプロパゲーションは決定木アルゴリズムのような別の離散アルゴリズムと比較して計算的に負担がかかる。 本手法は,決定木に基づく離散フローを開発することにより,計算負担の低減と擬似勾配の必要性を解消することを目的としている。 まず、逆の計算が容易な離散データの置換をコンパクトに符号化する木構造置換(TSP)を定義し、その密度値を効率的に計算し、新しいデータをサンプリングする。 そこで本研究では,各ノードにおける木構造と置換を学習するtspsを構築する決定木アルゴリズムを提案する。 複数のデータセットに対して,本手法の有効性を実証的に示す。

While normalizing flows for continuous data have been extensively researched, flows for discrete data have only recently been explored. These prior models, however, suffer from limitations that are distinct from those of continuous flows. Most notably, discrete flow-based models cannot be straightforwardly optimized with conventional deep learning methods because gradients of discrete functions are undefined or zero. Previous works approximate pseudo-gradients of the discrete functions but do not solve the problem on a fundamental level. In addition to that, backpropagation can be computationally burdensome compared to alternative discrete algorithms such as decision tree algorithms. Our approach seeks to reduce computational burden and remove the need for pseudo-gradients by developing a discrete flow based on decision trees -- building upon the success of efficient tree-based methods for classification and regression for discrete data. We first define a tree-structured permutation (TSP) that compactly encodes a permutation of discrete data where the inverse is easy to compute; thus, we can efficiently compute the density value and sample new data. We then propose a decision tree algorithm to build TSPs that learns the tree structure and permutations at each node via novel criteria. We empirically demonstrate the feasibility of our method on multiple datasets.
翻訳日:2022-07-06 13:59:23 公開日:2022-07-04
# 知識ベースを用いた絡み合った行動認識

Disentangled Action Recognition with Knowledge Bases ( http://arxiv.org/abs/2207.01708v1 )

ライセンス: Link先を確認
Zhekun Luo, Shalini Ghosh, Devin Guillory, Keizo Kato, Trevor Darrell, Huijuan Xu(参考訳) ビデオでのアクションは通常、人間と物体の相互作用を伴う。 アクションラベルは通常、動詞と名詞の様々な組み合わせで構成されていますが、可能なすべての組み合わせのトレーニングデータを持っていません。 本稿では,知識グラフの力を活用して,学習期間中に見つからない新しい動詞や新しい名詞に対する合成行動認識モデルの一般化能力を向上させることを目的とする。 従来の研究では、知識グラフの動詞合成行動ノードを利用しており、動詞と名詞の数に関して2次的に構成行動ノードの数が増加するため、スケールすることができない。 この問題に対処するために,我々は,行動の固有構成性を活用する知識ベース(dark)を用いた不等角化行動認識を提案する。 ダークは、まず動詞と名詞に対する不連続な特徴表現を抽出し、それから外部知識グラフにおける関係を用いて分類重みを予測して因子化モデルを訓練する。 動詞と名詞の間の型制約は外部知識ベースから抽出され、最後に行動を構成する際に適用される。 DARKはオブジェクトと動詞の数でスケーラビリティが向上し、Charadesデータセット上で最先端のパフォーマンスを達成する。 さらに,クラス数やサンプル数で桁違いに大きいEpic-kitchenデータセットに基づく新しいベンチマークスプリットを提案し,このベンチマークで様々なモデルをベンチマークする。

Action in video usually involves the interaction of human with objects. Action labels are typically composed of various combinations of verbs and nouns, but we may not have training data for all possible combinations. In this paper, we aim to improve the generalization ability of the compositional action recognition model to novel verbs or novel nouns that are unseen during training time, by leveraging the power of knowledge graphs. Previous work utilizes verb-noun compositional action nodes in the knowledge graph, making it inefficient to scale since the number of compositional action nodes grows quadratically with respect to the number of verbs and nouns. To address this issue, we propose our approach: Disentangled Action Recognition with Knowledge-bases (DARK), which leverages the inherent compositionality of actions. DARK trains a factorized model by first extracting disentangled feature representations for verbs and nouns, and then predicting classification weights using relations in external knowledge graphs. The type constraint between verb and noun is extracted from external knowledge bases and finally applied when composing actions. DARK has better scalability in the number of objects and verbs, and achieves state-of-the-art performance on the Charades dataset. We further propose a new benchmark split based on the Epic-kitchen dataset which is an order of magnitude bigger in the numbers of classes and samples, and benchmark various models on this benchmark.
翻訳日:2022-07-06 13:20:44 公開日:2022-07-04
# (参考訳) 一貫性に関するすべて--連続学習におけるリプレイ方式のメモリ構成に関する研究

It's all About Consistency: A Study on Memory Composition for Replay-Based Methods in Continual Learning ( http://arxiv.org/abs/2207.01145v1 )

ライセンス: CC BY 4.0
Julio Hurtado, Alain Raymond-Saez, Vladimir Araujo, Vincenzo Lomonaco, Davide Bacciu(参考訳) 連続学習法は、新しいものを学ぶ際に、以前に学習したタスクからの知識が失われる、破滅的な忘れ(cf)を緩和しようとする。 これらのアルゴリズムのうち、トレーニング時に以前のタスクからサンプルを一部保持するものもある。 これらのサンプルはメモリと呼ばれる。 これらの手法は概念的にシンプルで実装が容易でありながら優れた性能を示している。 しかし、その人気にもかかわらず、どの要素をメモリに含めるべきかを理解するためにはほとんど行われていない。 現在、このメモリは、以前の知識を維持するのに役立つ指針のないランダムサンプリングによって埋められることが多い。 本研究では,Consistency AWare Sampling (CAWS) と呼ばれるサンプルの学習一貫性に基づく基準を提案する。 この基準は、ディープネットワークで学習しやすいサンプルを優先する。 我々は、MNIST、CIFAR-10、CIFAR-100データセット上で、AGEM、GDumb、Experience Replayの3つの異なるメモリベース手法の研究を行う。 計算予算に制約された場合、最も一貫した要素を用いることで性能が向上し、そのような制約がなければ、ランダムサンプリングは強力なベースラインとなる。 しかし、CAWS on Experience Replayを使用すると、ランダムなベースラインよりもパフォーマンスが向上する。 最後に、CAWSは、計算資源を著しく少なくしながら、一般的なメモリ選択法と同様の結果が得られることを示す。

Continual Learning methods strive to mitigate Catastrophic Forgetting (CF), where knowledge from previously learned tasks is lost when learning a new one. Among those algorithms, some maintain a subset of samples from previous tasks when training. These samples are referred to as a memory. These methods have shown outstanding performance while being conceptually simple and easy to implement. Yet, despite their popularity, little has been done to understand which elements to be included into the memory. Currently, this memory is often filled via random sampling with no guiding principles that may aid in retaining previous knowledge. In this work, we propose a criterion based on the learning consistency of a sample called Consistency AWare Sampling (CAWS). This criterion prioritizes samples that are easier to learn by deep networks. We perform studies on three different memory-based methods: AGEM, GDumb, and Experience Replay, on MNIST, CIFAR-10 and CIFAR-100 datasets. We show that using the most consistent elements yields performance gains when constrained by a compute budget; when under no such constrain, random sampling is a strong baseline. However, using CAWS on Experience Replay yields improved performance over the random baseline. Finally, we show that CAWS achieves similar results to a popular memory selection method while requiring significantly less computational resources.
翻訳日:2022-07-06 05:19:19 公開日:2022-07-04
# (参考訳) 畳み込みニューラルネットワークを用いたポルトガルの戦争イメージ分類

Portuguese Man-of-War Image Classification with Convolutional Neural Networks ( http://arxiv.org/abs/2207.01171v1 )

ライセンス: CC BY 4.0
Alessandra Carneiro and Lorena Nascimento and Mauricio Noernberg and Carmem Hara and Aurora Pozo(参考訳) ポルトガルのマン・オブ・ウォー(pmw)は長い触手を持つゼラチン質の生物で、深刻な火傷を引き起こし、観光や漁業などの人間の活動に悪影響を及ぼす。 この種の時空間的変動に関する情報が不足している。 そのため、データ収集に代替手法を用いることで、モニタリングに寄与することができる。 ソーシャルネットワークの普及とPMWの目を引く外観を考えると、Instagramの投稿は監視のための有望なデータソースとなる。 このアプローチに従う最初のタスクは、PMWを参照する投稿を特定することです。 本稿では、Instagram投稿の認識を自動化するために、PMW画像分類における畳み込みニューラルネットワークの使用について報告する。 私たちは適切なデータセットを作成し、ImageNetデータセットで事前トレーニングされたステップで、VGG-16、ResNet50、InceptionV3という3つの異なるニューラルネットワークをトレーニングしました。 その結果を,精度,精度,リコール,F1スコアを用いて分析した。 トレーニング済みのResNet50ネットワークでは、94%の精度、95%の精度、リコール、F1スコアが得られた。 これらの結果は、畳み込みニューラルネットワークがinstagramのソーシャルメディアからpmw画像を認識するのに非常に有効であることを示している。

Portuguese man-of-war (PMW) is a gelatinous organism with long tentacles capable of causing severe burns, thus leading to negative impacts on human activities, such as tourism and fishing. There is a lack of information about the spatio-temporal dynamics of this species. Therefore, the use of alternative methods for collecting data can contribute to their monitoring. Given the widespread use of social networks and the eye-catching look of PMW, Instagram posts can be a promising data source for monitoring. The first task to follow this approach is to identify posts that refer to PMW. This paper reports on the use of convolutional neural networks for PMW images classification, in order to automate the recognition of Instagram posts. We created a suitable dataset, and trained three different neural networks: VGG-16, ResNet50, and InceptionV3, with and without a pre-trained step with the ImageNet dataset. We analyzed their results using accuracy, precision, recall, and F1 score metrics. The pre-trained ResNet50 network presented the best results, obtaining 94% of accuracy and 95% of precision, recall, and F1 score. These results show that convolutional neural networks can be very effective for recognizing PMW images from the Instagram social media.
翻訳日:2022-07-06 05:03:53 公開日:2022-07-04
# (参考訳) 自然最寄り近傍に基づく密度ピーククラスタリングのための改良確率伝播アルゴリズム

An Improved Probability Propagation Algorithm for Density Peak Clustering Based on Natural Nearest Neighborhood ( http://arxiv.org/abs/2207.01178v1 )

ライセンス: CC BY 4.0
Wendi Zuo, Xinmin Hou(参考訳) 高速探索によるクラスタリングと密度ピーク(dpc)の発見(2014年以降)は、密度ピークを見つけることでクラスタの中心を効率的に発見する有望なクラスタリングアプローチであることが証明されている。 DPCの精度は、カットオフ距離(d_c$)、クラスタ番号(k$)、クラスタの中心の選択に依存する。 さらに、最終的な割り当て戦略は敏感であり、耐障害性に乏しい。 上記の欠点により、アルゴリズムはパラメータに敏感になり、特定のデータセットにのみ適用できる。 DPCの限界を克服するため,本論文では,DPC-PPNNNに基づく密度ピーククラスタリングのための改良された確率伝搬アルゴリズムを提案する。 DPC-PPNNNは、自然近接近傍と確率伝播の概念を導入し、非パラメトリッククラスタリングプロセスを実現し、より複雑なデータセットに適用する。 いくつかのデータセットの実験では、DPC-PPNNNはDPC、K-means、DBSCANより優れていた。

Clustering by fast search and find of density peaks (DPC) (Since, 2014) has been proven to be a promising clustering approach that efficiently discovers the centers of clusters by finding the density peaks. The accuracy of DPC depends on the cutoff distance ($d_c$), the cluster number ($k$) and the selection of the centers of clusters. Moreover, the final allocation strategy is sensitive and has poor fault tolerance. The shortcomings above make the algorithm sensitive to parameters and only applicable for some specific datasets. To overcome the limitations of DPC, this paper presents an improved probability propagation algorithm for density peak clustering based on the natural nearest neighborhood (DPC-PPNNN). By introducing the idea of natural nearest neighborhood and probability propagation, DPC-PPNNN realizes the nonparametric clustering process and makes the algorithm applicable for more complex datasets. In experiments on several datasets, DPC-PPNNN is shown to outperform DPC, K-means and DBSCAN.
翻訳日:2022-07-06 04:36:07 公開日:2022-07-04
# (参考訳) CNNとバウンディングボックスプロパゲーションを用いた魚眼交通監視ビデオの高速車両検出と追跡

Fast Vehicle Detection and Tracking on Fisheye Traffic Monitoring Video using CNN and Bounding Box Propagation ( http://arxiv.org/abs/2207.01183v1 )

ライセンス: CC BY 4.0
Sandy Ardianto, Hsueh-Ming Hang, Wen-Huang Cheng (National Yang Ming Chiao Tung University)(参考訳) 横断歩道に設置した魚眼映像の交通監視のための高速車検出・追跡アルゴリズムを設計する。 我々はICIP 2020 VIP Cupデータセットを使用し、オブジェクト検出ベースモデルとしてYOLOv5を採用する。 このデータセットの夜間ビデオは非常に困難であり、ベースモデルの検出精度(AP50)は約54%である。 フレーム間のバウンディングボックス伝搬の概念に基づいて, 夜間および昼間ビデオのベースモデルに対して17.9パーセンテージ点 (pp) と7ppの精度向上をそれぞれ与えた, 信頼性の高い車検出・追跡アルゴリズムを設計した。 高速化には、セグメント内の中間フレームに対してグレースケールのフレーム差を用い、処理速度を2倍にすることができる。

We design a fast car detection and tracking algorithm for traffic monitoring fisheye video mounted on crossroads. We use ICIP 2020 VIP Cup dataset and adopt YOLOv5 as the object detection base model. The nighttime video of this dataset is very challenging, and the detection accuracy (AP50) of the base model is about 54%. We design a reliable car detection and tracking algorithm based on the concept of bounding box propagation among frames, which provides 17.9 percentage points (pp) and 7 pp accuracy improvement over the base model for the nighttime and daytime videos, respectively. To speed up, the grayscale frame difference is used for the intermediate frames in a segment, which can double the processing speed.
翻訳日:2022-07-06 04:22:29 公開日:2022-07-04
# (参考訳) 財務諸表データに基づくニューラルネットワークによるetfポートフォリオの構築

ETF Portfolio Construction via Neural Network trained on Financial Statement Data ( http://arxiv.org/abs/2207.01187v1 )

ライセンス: CC BY 4.0
Jinho Lee, Sungwoo Park, Jungyu Ahn, Jonghun Kwak(参考訳) 近年,アセットマネジメントにおける高度な機械学習手法の適用が,最も興味をそそる話題となっている。 残念ながら、深層ニューラルネットワークのようなこれらの手法の適用は、データ不足の問題のために困難である。 この問題に対処するために,ニューラルネットワークを用いた新たなアプローチを提案し,そのコンポーネントの財務諸表データに基づいて交換取引資金(ETF)のポートフォリオを構築する。 過去数十年間、etfとetf管理ポートフォリオが数多く出現しているが、etfポートフォリオを管理するためにニューラルネットワークを適用する能力は、etfの数と歴史的存在がそれぞれ個々の株式よりも比較的小さく短いため、限られている。 したがって、個々の在庫のデータを用いてニューラルネットワークをトレーニングし、個々の在庫の将来のパフォーマンスを予測し、これらの予測とポートフォリオ預金ファイル(PDF)を使用してETFのポートフォリオを構築する。 複数の実験が実施されており,提案手法がベースラインより優れていることがわかった。 高度な機械学習手法をトレーニングするための履歴データが比較的限られているthematic etfsのような最近リストアップされたetfを管理する場合、このアプローチはより有益であると信じています。

Recently, the application of advanced machine learning methods for asset management has become one of the most intriguing topics. Unfortunately, the application of these methods, such as deep neural networks, is difficult due to the data shortage problem. To address this issue, we propose a novel approach using neural networks to construct a portfolio of exchange traded funds (ETFs) based on the financial statement data of their components. Although a number of ETFs and ETF-managed portfolios have emerged in the past few decades, the ability to apply neural networks to manage ETF portfolios is limited since the number and historical existence of ETFs are relatively smaller and shorter, respectively, than those of individual stocks. Therefore, we use the data of individual stocks to train our neural networks to predict the future performance of individual stocks and use these predictions and the portfolio deposit file (PDF) to construct a portfolio of ETFs. Multiple experiments have been performed, and we have found that our proposed method outperforms the baselines. We believe that our approach can be more beneficial when managing recently listed ETFs, such as thematic ETFs, of which there is relatively limited historical data for training advanced machine learning methods.
翻訳日:2022-07-06 04:13:03 公開日:2022-07-04
# (参考訳) 小集合の基底真理データを用いたランク付けへの学習

Learning to Rank with Small Set of Ground Truth Data ( http://arxiv.org/abs/2207.01188v1 )

ライセンス: CC BY 4.0
Jiashu Wu(参考訳) 過去数十年にわたり、研究者は、情報検索中に検索されたクエリ結果をランク付けしたり、推奨する製品を推奨システムでランク付けするために使用されるランキング技術を調査してきた。 本研究は,大学学術検索プラットフォームの実現を支援するために,検索,ランキング,推薦手法を検討することを目的としている。 基礎的真理ランキングデータが多数存在する通常の情報検索シナリオとは異なり、我々の場合、学術的ランキングに関する基礎的真理知識は限られている。 例えば、いくつかの検索クエリを考えると、非常に関連性の高い、したがってトップにランクされるべき研究者はごくわずかであり、他の検索クエリについては、どの研究者がトップにランクすべきかを知ることができない。 基礎的真理データの限られた量によって、従来のランキング技術や評価指標が実現不可能になり、このプロジェクトで直面した大きな課題である。 本プロジェクトでは,学習者の学術的学習経験を大幅に向上させ,大学だけでなく,学生の学習経験にも有用である,研究者,出版,研究情報分野を含む学術的検索プラットフォームの実現に寄与する。

Over the past decades, researchers had put lots of effort investigating ranking techniques used to rank query results retrieved during information retrieval, or to rank the recommended products in recommender systems. In this project, we aim to investigate searching, ranking, as well as recommendation techniques to help to realize a university academia searching platform. Unlike the usual information retrieval scenarios where lots of ground truth ranking data is present, in our case, we have only limited ground truth knowledge regarding the academia ranking. For instance, given some search queries, we only know a few researchers who are highly relevant and thus should be ranked at the top, and for some other search queries, we have no knowledge about which researcher should be ranked at the top at all. The limited amount of ground truth data makes some of the conventional ranking techniques and evaluation metrics become infeasible, and this is a huge challenge we faced during this project. This project enhances the user's academia searching experience to a large extent, it helps to achieve an academic searching platform which includes researchers, publications and fields of study information, which will be beneficial not only to the university faculties but also to students' research experiences.
翻訳日:2022-07-06 03:49:36 公開日:2022-07-04
# (参考訳) 視聴覚分離のためのマルチモーダルマルチ相関学習

Multi-Modal Multi-Correlation Learning for Audio-Visual Speech Separation ( http://arxiv.org/abs/2207.01197v1 )

ライセンス: CC BY 4.0
Xiaoyu Wang, Xiangyu Kong, Xiulian Peng, Yan Lu(参考訳) 本稿では,音声と視覚の音声分離を対象とするマルチモーダル多相関学習フレームワークを提案する。 これまでの努力は、オーディオと視覚のモダリティの組み合わせに大きく取り組んできたが、そのほとんどは、オーディオと視覚的特徴の直接的な結合を採用するだけである。 これら2つのモダリティの真に有用な情報を活用するために,(1)識別相関(音色と顔の属性),(2)音声相関(音素と唇の動き)という2つの重要な相関関係を定義した。 これら2つの相関関係は完全な情報で構成されており、同一の性別や類似した内容など、特に難しい場合において、ターゲット話者の声の分離において一定の優位性を示す。 この2つの相関関係を最大化するために,コントラスト学習あるいは逆学習アプローチを適用した。 どちらもうまく機能するが、対照的な学習の制限を避けることで、敵対的な訓練が優位性を示している。 従来の研究と比較すると, 追加の複雑さを伴わずに, 実験値の明確な改善が示される。 さらなる分析により,提案アーキテクチャの有効性と今後の拡張の可能性を明らかにする。

In this paper we propose a multi-modal multi-correlation learning framework targeting at the task of audio-visual speech separation. Although previous efforts have been extensively put on combining audio and visual modalities, most of them solely adopt a straightforward concatenation of audio and visual features. To exploit the real useful information behind these two modalities, we define two key correlations which are: (1) identity correlation (between timbre and facial attributes); (2) phonetic correlation (between phoneme and lip motion). These two correlations together comprise the complete information, which shows a certain superiority in separating target speaker's voice especially in some hard cases, such as the same gender or similar content. For implementation, contrastive learning or adversarial training approach is applied to maximize these two correlations. Both of them work well, while adversarial training shows its advantage by avoiding some limitations of contrastive learning. Compared with previous research, our solution demonstrates clear improvement on experimental metrics without additional complexity. Further analysis reveals the validity of the proposed architecture and its good potential for future extension.
翻訳日:2022-07-06 03:48:32 公開日:2022-07-04
# (参考訳) 人物の再識別におけるカメラ性能の不均衡に対する対角的逆注意:新しいデータセットとメトリクス

Adversarial Pairwise Reverse Attention for Camera Performance Imbalance in Person Re-identification: New Dataset and Metrics ( http://arxiv.org/abs/2207.01204v1 )

ライセンス: CC BY 4.0
Eugene P.W. Ang, Shan Lin, Rahul Ahuja, Nemath Ahmed, Alex C. Kot(参考訳) 個人再識別(Person ReID)モデルの既存の評価指標はシステム全体のパフォーマンスに重点を置いている。 しかし,本研究では,カメラ間の不均一なデータ分布と,reidシステムを悪用する異なるカメラ特性による弱点を明らかにした。 本研究では,カメラ性能の不均衡に関する長年無視されてきたreid問題を提起し,38台のカメラから実世界のプライバシー対応データセットを収集し,不均衡問題の研究を支援する。 本稿では,カメラ性能の不均衡を定量化するための新しい指標を提案し,さらに,カメラ不変性を学ぶモデルに新たな対向的注意インバージョン機構を付与するAdversarial Pairwise Reverse Attention (APRA)モジュールを提案する。

Existing evaluation metrics for Person Re-Identification (Person ReID) models focus on system-wide performance. However, our studies reveal weaknesses due to the uneven data distributions among cameras and different camera properties that expose the ReID system to exploitation. In this work, we raise the long-ignored ReID problem of camera performance imbalance and collect a real-world privacy-aware dataset from 38 cameras to assist the study of the imbalance issue. We propose new metrics to quantify camera performance imbalance and further propose the Adversarial Pairwise Reverse Attention (APRA) Module to guide the model learning the camera invariant feature with a novel pairwise attention inversion mechanism.
翻訳日:2022-07-06 03:37:31 公開日:2022-07-04
# (参考訳) WebShop: グラウンドド言語エージェントによるスケーラブルな実世界のWebインタラクションを目指す

WebShop: Towards Scalable Real-World Web Interaction with Grounded Language Agents ( http://arxiv.org/abs/2207.01206v1 )

ライセンス: CC BY 4.0
Shunyu Yao, Howard Chen, John Yang, Karthik Narasimhan(参考訳) インタラクティブな環境での言語を基盤とする既存のベンチマークでは、実際の言語要素が欠如しているか、あるいはデータやフィードバック信号の収集に人間がかなり関与しているため、スケールアップが困難である。 このギャップを埋めるため、私たちはwebshopを開発しました。webshopはシミュレーションされたeコマースのwebサイト環境で、実世界の製品が118万ドル、クラウドソースのテキストインストラクションが12,087ドルです。 製品要件を指定するテキスト命令が与えられると、エージェントは複数のタイプのウェブページをナビゲートし、アイテムを探し、カスタマイズし、購入するためにさまざまなアクションを発行する必要があります。 WebShopは、コンポジション命令の理解、クエリ(re-)フォーミュレーション、Webページ内の騒々しいテキストの理解と動作、戦略的探索など、言語基盤に関するいくつかの課題を提供する。 このタスクのために1,600ドル以上の人的デモンストレーションを集め、強化学習、模倣学習、事前訓練された画像および言語モデルを用いて多様なエージェントを訓練し、評価する。 私たちの最良のモデルは、ルールベースのヒューリスティック($9.6\%$)よりも優れていますが、人間のエキスパートのパフォーマンス($59\%$)よりもはるかに低いタスク成功率を実現しています。 また,エージェントと人間の軌跡を分析し,より強力な言語理解と意思決定能力を備えた未来のエージェント開発のための洞察を提供する。 最後に、WebShopで訓練されたエージェントが、amazon.comで評価すると、非自明なsim-to-real転送を示すことを示す。

Existing benchmarks for grounding language in interactive environments either lack real-world linguistic elements, or prove difficult to scale up due to substantial human involvement in the collection of data or feedback signals. To bridge this gap, we develop WebShop -- a simulated e-commerce website environment with $1.18$ million real-world products and $12,087$ crowd-sourced text instructions. Given a text instruction specifying a product requirement, an agent needs to navigate multiple types of webpages and issue diverse actions to find, customize, and purchase an item. WebShop provides several challenges for language grounding including understanding compositional instructions, query (re-)formulation, comprehending and acting on noisy text in webpages, and performing strategic exploration. We collect over $1,600$ human demonstrations for the task, and train and evaluate a diverse range of agents using reinforcement learning, imitation learning, and pre-trained image and language models. Our best model achieves a task success rate of $29\%$, which outperforms rule-based heuristics ($9.6\%$) but is far lower than human expert performance ($59\%$). We also analyze agent and human trajectories and ablate various model components to provide insights for developing future agents with stronger language understanding and decision making abilities. Finally, we show that agents trained on WebShop exhibit non-trivial sim-to-real transfer when evaluated on amazon.com, indicating the potential value of WebShop in developing practical web-based agents that can operate in the wild.
翻訳日:2022-07-06 03:29:15 公開日:2022-07-04
# (参考訳) 臨床的に正確なx線レポート生成のための遺伝異常グラフ埋め込み

Attributed Abnormality Graph Embedding for Clinically Accurate X-Ray Report Generation ( http://arxiv.org/abs/2207.01208v1 )

ライセンス: CC BY 4.0
Sixing Yan, William K. Cheung, Keith Chiu, Terence M. Tong, Charles K. Cheung(参考訳) X線画像から医療報告を自動生成することで、放射線医が時間を要するが重要な報告を行うのを助けることができる。 しかし、臨床的に正確な報告を得ることは依然として困難である。 知識グラフを用いた基礎疾患のモデリングは,臨床精度の向上に有望であることがわかった。 本稿では, 属性異常グラフ (ATAG) と呼ばれる, きめ細かな知識グラフ構造を紹介する。 ATAGは相互接続された異常ノードと属性ノードで構成されており、異常の詳細をより正確に把握することができる。 従来の異常グラフを手動で構築する手法とは対照的に,アノテーションやX線データセットの医療報告,RadLex放射線学のレキシコンに基づく微細なグラフ構造を自動的に構築する手法を提案する。 次に、レポート生成のためのエンコーダデコーダアーキテクチャを持つディープモデルを用いてATAG埋め込みを学習する。 特に、異常とその属性間の関係を符号化するために、グラフ注意ネットワークを探索する。 ゲーティング機構が採用され、世代ごとに様々なデコーダと統合される。 提案したATAGベースディープモデルは,ベンチマークデータセットに基づく広範囲な実験を行い,SOTA法よりも大きなマージンを達成し,得られた報告の臨床的精度を向上できることを示す。

Automatic generation of medical reports from X-ray images can assist radiologists to perform the time-consuming and yet important reporting task. Yet, achieving clinically accurate generated reports remains challenging. Modeling the underlying abnormalities using the knowledge graph approach has been found promising in enhancing the clinical accuracy. In this paper, we introduce a novel fined-grained knowledge graph structure called an attributed abnormality graph (ATAG). The ATAG consists of interconnected abnormality nodes and attribute nodes, allowing it to better capture the abnormality details. In contrast to the existing methods where the abnormality graph was constructed manually, we propose a methodology to automatically construct the fine-grained graph structure based on annotations, medical reports in X-ray datasets, and the RadLex radiology lexicon. We then learn the ATAG embedding using a deep model with an encoder-decoder architecture for the report generation. In particular, graph attention networks are explored to encode the relationships among the abnormalities and their attributes. A gating mechanism is adopted and integrated with various decoders for the generation. We carry out extensive experiments based on the benchmark datasets, and show that the proposed ATAG-based deep model outperforms the SOTA methods by a large margin and can improve the clinical accuracy of the generated reports.
翻訳日:2022-07-06 02:31:54 公開日:2022-07-04
# (参考訳) ゼロサムゲームに基づくロボコードロボット適応整合の解析

Analysis of Robocode Robot Adaptive Confrontation Based on Zero-Sum Game ( http://arxiv.org/abs/2207.01211v1 )

ライセンス: CC BY 4.0
Xiangri Lu(参考訳) 現代のインテリジェンスの対決はある程度不完全な情報対決であり、どちらの側も敵の展開状況を検出するのに十分な情報にアクセスできず、それに基づいて情報検索を完了し、対決環境における対決戦略を開発する必要がある。 本論文では,TestRobotを含む7台のタンクロボットを1V1独立・混合対決用に編成する。 本研究の目的は,TestRobotのZero-sum Game Alpha-Betaプルーニングアルゴリズムの有効性と,ゲームラウンド戦略下での対戦者の次モーメント動作位置の推定と,前もって知的体自身の弾丸を放出して相手に当たらせる効果とを組み合わせて検証することである。 最後に, 対決実験の結果に基づき, 1V1独立対決のヒストグラムと混合対決のレーダプロットをプロットすることにより, タンクインテリジェンスの自然特性差を表現した。

The confrontation of modern intelligence is to some extent a non-complete information confrontation, where neither side has access to sufficient information to detect the deployment status of the adversary, and then it is necessary for the intelligence to complete information retrieval adaptively and develop confrontation strategies in the confrontation environment. In this paper, seven tank robots, including TestRobot, are organized for 1V 1 independent and mixed confrontations. The main objective of this paper is to verify the effectiveness of TestRobot's Zero-sum Game Alpha-Beta pruning algorithm combined with the estimation of the opponent's next moment motion position under the game round strategy and the effect of releasing the intelligent body's own bullets in advance to hit the opponent. Finally, based on the results of the confrontation experiments, the natural property differences of the tank intelligence are expressed by plotting histograms of 1V1 independent confrontations and radar plots of mixed confrontations.
翻訳日:2022-07-06 01:54:57 公開日:2022-07-04
# (参考訳) ディープHDRDeghostingによるセグメンテーションガイド

Segmentation Guided Deep HDR Deghosting ( http://arxiv.org/abs/2207.01229v1 )

ライセンス: CC BY 4.0
K. Ram Prabhakar, Susmit Agrawal, R. Venkatesh Babu(参考訳) 本稿では,高ダイナミックレンジ(hdr)画像デグホストのための動き分割誘導畳み込みニューラルネットワーク(cnn)アプローチを提案する。 まず、CNNを用いて入力シーケンス内の移動領域を分割する。 そして,静止領域と移動領域を別々に融合し,融合した特徴を組み合わせ,最後のゴーストフリーHDR画像を生成する。 動作セグメンテーションをガイドしたHDR融合法は,既存のHDRデゴースト法に対して大きな利点がある。 まず, 入力シーケンスを静的領域と移動領域に分割することにより, 様々な難解な飽和度や動きタイプに対する効果的な融合規則を学習する。 第2に,飽和領域の可視的詳細を生成するために必要な特徴を蓄積する新しいメモリネットワークを提案する。 提案手法は,2つの公開データセットで既存の9つの最新手法を上回り,ゴーストフリーなhdr結果を生成する。 また,研究コミュニティのために,3683種類の露出画像の大規模な動き分割データセットも提示した。

We present a motion segmentation guided convolutional neural network (CNN) approach for high dynamic range (HDR) image deghosting. First, we segment the moving regions in the input sequence using a CNN. Then, we merge static and moving regions separately with different fusion networks and combine fused features to generate the final ghost-free HDR image. Our motion segmentation guided HDR fusion approach offers significant advantages over existing HDR deghosting methods. First, by segmenting the input sequence into static and moving regions, our proposed approach learns effective fusion rules for various challenging saturation and motion types. Second, we introduce a novel memory network that accumulates the necessary features required to generate plausible details in the saturated regions. The proposed method outperforms nine existing state-of-the-art methods on two publicly available datasets and generates visually pleasing ghost-free HDR results. We also present a large-scale motion segmentation dataset of 3683 varying exposure images to benefit the research community.
翻訳日:2022-07-06 01:45:30 公開日:2022-07-04
# (参考訳) 回帰・物体検出のためのパラメトリック・多変量不確かさ校正

Parametric and Multivariate Uncertainty Calibration for Regression and Object Detection ( http://arxiv.org/abs/2207.01242v1 )

ライセンス: CC BY 4.0
Fabian K\"uppers, Jonas Schneider, Anselm Haselhoff(参考訳) 物体検出モデルの信頼性の高い空間不確実性評価は特に興味深く、近年の研究の対象となっている。 本稿では,確率回帰タスクの不確実性校正に関する既存の定義について概説する。 我々は,共通検出ネットワークのキャリブレーション特性を検査し,最先端再校正法を拡張する。 本手法では,パラメトリック分布を出力として得るガウス過程(gp)リカバリレーションスキームを用いる(ガウス分布やコーシー分布など)。 GP再校正の使用により、隣接するサンプル間の依存関係をキャプチャすることで、局所的な(条件付き)不確実性の校正が可能になる。 ガウス分布のようなパラメトリック分布を用いることで、後続のプロセスにおけるキャリブレーション(例えば、オブジェクト追跡のスコープにおけるカルマンフィルタリング)の適応を単純化することができる。 さらに,GP再校正方式を用いて,物体検出における位置,幅,高さなどの出力量間の局所的相関を保温後に導入できる共分散推定を行う。 多変量とおそらく相関関係のあるデータの合同校正を測定するために、予測分布と基底真理との間のマハラノビス距離に基づく量子量校正誤差を導入し、基底真理が予測量子量内にあるかどうかを判定する。 実験では,観測誤差と比較して空間的不確かさを過大評価する共通検出モデルを示す。 簡易な等方性回帰復調法は, キャリブレーションによる不確実性定量化を実現するのに十分であることを示す。 対照的に、後続のプロセスに正規分布が必要な場合、GP-Normal再校正法が最良の結果をもたらす。 最後に, 共分散推定法により, 連立多変量キャリブレーションの最適キャリブレーション結果が得られることを示す。

Reliable spatial uncertainty evaluation of object detection models is of special interest and has been subject of recent work. In this work, we review the existing definitions for uncertainty calibration of probabilistic regression tasks. We inspect the calibration properties of common detection networks and extend state-of-the-art recalibration methods. Our methods use a Gaussian process (GP) recalibration scheme that yields parametric distributions as output (e.g. Gaussian or Cauchy). The usage of GP recalibration allows for a local (conditional) uncertainty calibration by capturing dependencies between neighboring samples. The use of parametric distributions such as as Gaussian allows for a simplified adaption of calibration in subsequent processes, e.g., for Kalman filtering in the scope of object tracking. In addition, we use the GP recalibration scheme to perform covariance estimation which allows for post-hoc introduction of local correlations between the output quantities, e.g., position, width, or height in object detection. To measure the joint calibration of multivariate and possibly correlated data, we introduce the quantile calibration error which is based on the Mahalanobis distance between the predicted distribution and the ground truth to determine whether the ground truth is within a predicted quantile. Our experiments show that common detection models overestimate the spatial uncertainty in comparison to the observed error. We show that the simple Isotonic Regression recalibration method is sufficient to achieve a good uncertainty quantification in terms of calibrated quantiles. In contrast, if normal distributions are required for subsequent processes, our GP-Normal recalibration method yields the best results. Finally, we show that our covariance estimation method is able to achieve best calibration results for joint multivariate calibration.
翻訳日:2022-07-06 01:21:59 公開日:2022-07-04
# (参考訳) 正規化流れを伴う2つの経験的分布間の最適輸送の学習

Learning Optimal Transport Between two Empirical Distributions with Normalizing Flows ( http://arxiv.org/abs/2207.01246v1 )

ライセンス: CC BY 4.0
Florentin Coeurdouxn, Nicolas Dobigeon, Pierre Chainais(参考訳) 最適輸送(OT)は、確率測度の比較とマッピングに有効なツールを提供する。 ニューラルネットワークの柔軟性を活用して、近似最適輸送マップを学習することを提案する。 より正確には、第1の基底となる未知の分布に付随する有限集合のサンプルを、別の未知の分布から引き出された別の有限集合のサンプルへ輸送する問題に対処する新しいオリジナルな方法を提案する。 可逆ニューラルネットワークの特定の例、すなわち正規化フローは、一対の経験的分布の間のこのot問題の解を近似するために利用できることを示す。 本研究の目的は,対応するワッサーシュタイン距離の最小化により,プッシュフォワード測度の等式制約を置き換えることで,OTのモンジュ定式化を緩和することである。 取得するプッシュフォワード演算子は、結果のコスト関数を最適化してトレーニングされる正規化フローに制限される。 このアプローチにより、トランスポートマップは関数の合成として識別できる。 これらの関数はネットワークの1つのサブフローに関連付けられ、その出力は元の測度とターゲット測度の間の中間ステップを提供する。 この離散化はまた、二つの利害の測度の間の中間バリセンタの集合をもたらす。 おもちゃの例で行った実験と教師なし翻訳の難しい課題は,提案手法の興味を示している。 最後に、いくつかの実験により、提案手法が真のOTの良好な近似に繋がることを示した。

Optimal transport (OT) provides effective tools for comparing and mapping probability measures. We propose to leverage the flexibility of neural networks to learn an approximate optimal transport map. More precisely, we present a new and original method to address the problem of transporting a finite set of samples associated with a first underlying unknown distribution towards another finite set of samples drawn from another unknown distribution. We show that a particular instance of invertible neural networks, namely the normalizing flows, can be used to approximate the solution of this OT problem between a pair of empirical distributions. To this aim, we propose to relax the Monge formulation of OT by replacing the equality constraint on the push-forward measure by the minimization of the corresponding Wasserstein distance. The push-forward operator to be retrieved is then restricted to be a normalizing flow which is trained by optimizing the resulting cost function. This approach allows the transport map to be discretized as a composition of functions. Each of these functions is associated to one sub-flow of the network, whose output provides intermediate steps of the transport between the original and target measures. This discretization yields also a set of intermediate barycenters between the two measures of interest. Experiments conducted on toy examples as well as a challenging task of unsupervised translation demonstrate the interest of the proposed method. Finally, some experiments show that the proposed approach leads to a good approximation of the true OT.
翻訳日:2022-07-06 01:06:49 公開日:2022-07-04
# (参考訳) CPrune: 効率的なターゲット対応DNN実行のためのコンパイラインフォームドモデルプルーニング

CPrune: Compiler-Informed Model Pruning for Efficient Target-Aware DNN Execution ( http://arxiv.org/abs/2207.01260v1 )

ライセンス: CC BY 4.0
Taeho Kim, Yongin Kwon, Jemin Lee, Taeho Kim, Sangtae Ha(参考訳) モバイルデバイスは、画像分類や音声認識など、さまざまな目的でディープラーニングモデルを実行する。 モバイルデバイスのリソース制約のため、研究者はモデルプルーニングを使用した軽量のディープニューラルネットワーク(DNN)モデルの作成や、コンパイラ最適化を使用した効率的なコード生成に注力している。 驚いたことに、モデル圧縮とコンパイラの自動チューニングの直接的な統合は、ターゲットデバイスにとって最も効率的なモデルを生成しないことが多い。 そこで我々は,CPruneを提案する。CPruneは,効率的なターゲット認識DNN実行のためのコンパイラインフォームドモデルプルーニングである。 CPruneは、コンパイラチューニングプロセス中に構築されたサブグラフの構造情報に基づいて、インフォメーションプルーニングを通じて軽量なDNNモデルを作成する。 実験結果から,CPruneのDNN実行速度は現状のTVMオートチューンの2.73倍に向上し,精度を満足することがわかった。

Mobile devices run deep learning models for various purposes, such as image classification and speech recognition. Due to the resource constraints of mobile devices, researchers have focused on either making a lightweight deep neural network (DNN) model using model pruning or generating an efficient code using compiler optimization. Surprisingly, we found that the straightforward integration between model compression and compiler auto-tuning often does not produce the most efficient model for a target device. We propose CPrune, a compiler-informed model pruning for efficient target-aware DNN execution to support an application with a required target accuracy. CPrune makes a lightweight DNN model through informed pruning based on the structural information of subgraphs built during the compiler tuning process. Our experimental results show that CPrune increases the DNN execution speed up to 2.73x compared to the state-of-the-art TVM auto-tune while satisfying the accuracy requirement.
翻訳日:2022-07-06 00:52:48 公開日:2022-07-04
# (参考訳) 潜在空間における計画によるレース学習の課題解決

Solving Learn-to-Race Autonomous Racing Challenge by Planning in Latent Space ( http://arxiv.org/abs/2207.01275v1 )

ライセンス: CC BY 4.0
Shivansh Beohar, Fabian Heinrich, Rahul Kala, Helge Ritter and Andrew Melnik(参考訳) Learn-to-Race Autonomous Racing Virtual Challengeはwww.aicrowd.comプラットフォーム上で開催され、シングルカメラとマルチカメラの2つのトラックで構成された。 われわれのUniTeamチームは、Single Cameraトラックの最終勝者の一人だった。 エージェントは、少なくともオフロード運転違反の少ない時間内に、未知のf1スタイルのトラックを通過させる必要がある。 提案手法では,道路セグメンテーションにu-netアーキテクチャ,道路バイナリマスクを符号化する変分オートコーダ,与えられた状態に対して最善のアクションを選択する最寄りのneighbor探索戦略を用いた。 我々のエージェントは、ステージ1(既知の軌道)で平均105km/h、ステージ2(知られていない軌道)で73km/hを達成した。 ここでは、解決策と結果を示す。 コード実装は以下の通りである。 https://gitlab.aicrowd.com/shivansh beohar/l2r

Learn-to-Race Autonomous Racing Virtual Challenge hosted on www.aicrowd.com platform consisted of two tracks: Single and Multi Camera. Our UniTeam team was among the final winners in the Single Camera track. The agent is required to pass the previously unknown F1-style track in the minimum time with the least amount of off-road driving violations. In our approach, we used the U-Net architecture for road segmentation, variational autocoder for encoding a road binary mask, and a nearest-neighbor search strategy that selects the best action for a given state. Our agent achieved an average speed of 105 km/h on stage 1 (known track) and 73 km/h on stage 2 (unknown track) without any off-road driving violations. Here we present our solution and results. The code implementation is available here: https://gitlab.aicrowd.com/shivansh beohar/l2r
翻訳日:2022-07-06 00:37:35 公開日:2022-07-04
# (参考訳) FFCNet: 大腸疾患分類のためのフーリエ変換に基づく周波数学習と複雑畳み込みネットワーク

FFCNet: Fourier Transform-Based Frequency Learning and Complex Convolutional Network for Colon Disease Classification ( http://arxiv.org/abs/2207.01287v1 )

ライセンス: CC BY 4.0
Kai-Ni Wang, Yuting He, Shuaishuai Zhuang, Juzheng Miao, Xiaopu He, Ping Zhou, Guanyu Yang, Guang-Quan Zhou, Shuo Li(参考訳) 大腸内視鏡画像の信頼性の高い自動分類は大腸病変の病期評価や適切な治療計画の策定に非常に重要である。 しかし, 不均一な明るさ, 位置変動, クラス間類似性, クラス内類似性などにより, 分類精度に影響を与えている。 そこで本研究では,結腸疾患分類のためのフーリエベース周波数複合ネットワーク (ffcnet) を提案する。 具体的には、FFCNetは複雑な畳み込みネットワークと周波数学習を組み合わせることで、実際の畳み込み操作による位相情報の損失を克服する新しい複雑なネットワークである。 また、フーリエ変換は、画像の平均輝度をスペクトルの点(直流成分)に転送し、画像の内容と明るさを分離することで、均一な明るさの影響を緩和する。 さらに、FFCNetの画像パッチスクランブルモジュールはランダムな局所スペクトルブロックを生成し、ネットワークが長距離および局所的な疾患の特徴を学習し、ハードサンプルの識別能力を向上させる。 提案するffcnetを2568枚の大腸内視鏡画像を用いた社内データセット上で評価し,従来法と比較して86:35%,精度4.46%の精度で高い性能が得られることを示した。 コード付きのプロジェクトページはhttps://github.com/soleilssss/FFCNetで公開されている。

Reliable automatic classification of colonoscopy images is of great significance in assessing the stage of colonic lesions and formulating appropriate treatment plans. However, it is challenging due to uneven brightness, location variability, inter-class similarity, and intra-class dissimilarity, affecting the classification accuracy. To address the above issues, we propose a Fourier-based Frequency Complex Network (FFCNet) for colon disease classification in this study. Specifically, FFCNet is a novel complex network that enables the combination of complex convolutional networks with frequency learning to overcome the loss of phase information caused by real convolution operations. Also, our Fourier transform transfers the average brightness of an image to a point in the spectrum (the DC component), alleviating the effects of uneven brightness by decoupling image content and brightness. Moreover, the image patch scrambling module in FFCNet generates random local spectral blocks, empowering the network to learn long-range and local diseasespecific features and improving the discriminative ability of hard samples. We evaluated the proposed FFCNet on an in-house dataset with 2568 colonoscopy images, showing our method achieves high performance outperforming previous state-of-the art methods with an accuracy of 86:35% and an accuracy of 4.46% higher than the backbone. The project page with code is available at https://github.com/soleilssss/FFCNet.
翻訳日:2022-07-06 00:30:46 公開日:2022-07-04
# (参考訳) 密度推定に基づくクラスタリング評価のための新しい指標

A New Index for Clustering Evaluation Based on Density Estimation ( http://arxiv.org/abs/2207.01294v1 )

ライセンス: CC BY 4.0
Gangli Liu(参考訳) クラスタリングの内部評価のための新しい指標を導入する。 インデックスは2つのサブインデックスの混合として定義される。 最初のサブインデックス $ I_a $ は Ambiguous Index と呼ばれ、2番目のサブインデックス $ I_s $ は similarity Index と呼ばれる。 2つのサブインデックスの計算は、データのパーティションの各クラスタに対する密度推定に基づいている。 新しいインデックスのパフォーマンスをテストする実験を行い、145のデータセットのセット上で、calinski-harabasz index、silhouette coefficient、davies-bouldin indexという3つの一般的な内部クラスタリング評価指標と比較した。 その結果,新しい指標は,3つの人気指標を59\%,34\%,74\%,それぞれ改善することが示された。

A new index for internal evaluation of clustering is introduced. The index is defined as a mixture of two sub-indices. The first sub-index $ I_a $ is called the Ambiguous Index; the second sub-index $ I_s $ is called the Similarity Index. Calculation of the two sub-indices is based on density estimation to each cluster of a partition of the data. An experiment is conducted to test the performance of the new index, and compared with three popular internal clustering evaluation indices -- Calinski-Harabasz index, Silhouette coefficient, and Davies-Bouldin index, on a set of 145 datasets. The result shows the new index improves the three popular indices by 59\%, 34\%, and 74\%, correspondingly.
翻訳日:2022-07-06 00:21:51 公開日:2022-07-04
# (参考訳) ベトナムの資本化と句読点回復モデル

Vietnamese Capitalization and Punctuation Recovery Models ( http://arxiv.org/abs/2207.01312v1 )

ライセンス: CC BY 4.0
Hoang Thi Thu Uyen, Nguyen Anh Tu and Ta Duc Huy(参考訳) 近年のASR(Automatic Speech Recognition)における性能評価手法の台頭にもかかわらず、これらの手法は出力に対する適切なケーシングと句読点を保証するものではない。 この問題は、自然言語処理(nlp)アルゴリズムと人間の処理の両方の理解に重大な影響を与えている。 原文入力の事前処理パイプラインでは,大文字化と句読点復元が不可欠である。 ベトナムのような低リソース言語では、このタスクの公開データセットは少ない。 本稿では,ベトナムにおける資本化と句読点回復のためのパブリックデータセットを提案し,ジョイントCapPuncという2つのタスクのジョイントモデルを提案する。 ベトナムのデータセットを用いた実験結果から,我々の関節モデルの有効性が単一モデルと過去の関節学習モデルと比較された。 私たちはデータセットとモデルの実装をhttps://github.com/anhtunguyen98/JointCapPuncで公開しています。

Despite the rise of recent performant methods in Automatic Speech Recognition (ASR), such methods do not ensure proper casing and punctuation for their outputs. This problem has a significant impact on the comprehension of both Natural Language Processing (NLP) algorithms and human to process. Capitalization and punctuation restoration is imperative in pre-processing pipelines for raw textual inputs. For low resource languages like Vietnamese, public datasets for this task are scarce. In this paper, we contribute a public dataset for capitalization and punctuation recovery for Vietnamese; and propose a joint model for both tasks named JointCapPunc. Experimental results on the Vietnamese dataset show the effectiveness of our joint model compare to single model and previous joint learning model. We publicly release our dataset and the implementation of our model at https://github.com/anhtunguyen98/JointCapPunc
翻訳日:2022-07-06 00:09:45 公開日:2022-07-04
# (参考訳) グラファイト製造における製品トレーサビリティ向上のためのコンピュータビジョン応用

Computer vision application for improved product traceability in the granite manufacturing industry ( http://arxiv.org/abs/2207.01323v1 )

ライセンス: CC BY 4.0
Xurxo Rigueira, Javier Martinez, Maria Araujo, Antonio Recaman(参考訳) グラファイトブロックのトレーサビリティは、各ブロックを数値コードを表す限られた数のカラーバンドで識別することで構成される。 このコードは製造プロセスを通じて何度も読まなければならないが、その正確さはヒューマンエラーの対象であり、トレーサビリティシステムの障害の原因となる。 色検出と関連するコードの復号化により,この問題に対処するコンピュータビジョンシステムを提案する。 開発したシステムは色空間変換といくつかのしきい値を用いて色を分離する。 カラー識別のための輪郭検出手法とともに,コンピュータビジョン方式を実装した。 最後に、幾何学的特徴の分析を用いて、キャプチャしたカラーコードを復号する。 提案アルゴリズムは, 異なる環境条件で撮影された109枚の画像から訓練され, 21枚の画像で検証される。 その結果、検証プロセスで75.00%の精度で有望な結果が得られる。 したがって、提示されたアプリケーションは、従業員が製品追跡のミスの数を減らすのに役立つ。

The traceability of granite blocks consists in identifying each block with a finite number of color bands which represent a numerical code. This code has to be read several times throughout the manufacturing process, but its accuracy is subject to human errors, leading to cause faults in the traceability system. A computer vision system is presented to address this problem through color detection and the decryption of the associated code. The system developed makes use of color space transformations, and several thresholds for the isolation of the colors. Computer vision methods are implemented, along with contour detection procedures for color identification. Lastly, the analysis of geometrical features is used to decrypt the color code captured. The proposed algorithm is trained on a set of 109 pictures taken in different environmental conditions and validated on a set of 21 images. The outcome shows promising results with an accuracy rate of 75.00% in the validation process. Therefore, the application presented can help employees reduce the number of mistakes on product tracking.
翻訳日:2022-07-05 23:56:35 公開日:2022-07-04
# (参考訳) BoAT v2 - 凝集型言語に焦点を当てたWebベースの依存性アノテーションツール

BoAT v2 -- A Web-Based Dependency Annotation Tool with Focus on Agglutinative Languages ( http://arxiv.org/abs/2207.01327v1 )

ライセンス: CC BY 4.0
Salih Furkan Akkurt and B\"u\c{s}ra Mar\c{s}an and Susan Uskudarli(参考訳) 自然言語処理ツールの開発で重要な役割を担っているため、品質の高い木銀行の価値は着実に高まっている。 このような木バンクの作成は労働集約的で時間を要する。 特に、ツリーバンクのサイズを考慮すれば、アノテーションプロセスをサポートするツールが不可欠です。 様々なアノテーションツールが提案されているが、トルコ語のような凝集言語には適さないことが多い。 BoAT v1 は依存性関係を注釈付けするために開発され、その後手動で BOUN Treebank (UD_Turkish-BOUN) を作成した。 本稿では,BoAT v1の使用経験をもとに,依存性アノテーションツールBoAT v2の設計と実装について報告する。 BoAT v2はマルチユーザおよびWebベースの依存性アノテーションツールで、アノテータのユーザエクスペリエンスを重視して、有効なアノテーションを提供する。 ツールの主な目的は、(1)有効で一貫性のあるアノテーションの作成を支援すること、(2)アノテータのユーザエクスペリエンスを大幅に改善すること、(3)アノテータ間のコラボレーションをサポートすること、(4)フレキシブルなアプリケーションプログラミングインタフェース(api)を備えた、オープンソースでデプロイしやすいwebベースのアノテーションツールを提供することである。 本稿では,BoAT v2の要件適用,設計,実装を事例とともに論じる。

The value of quality treebanks is steadily increasing due to the crucial role they play in the development of natural language processing tools. The creation of such treebanks is enormously labor-intensive and time-consuming. Especially when the size of treebanks is considered, tools that support the annotation process are essential. Various annotation tools have been proposed, however, they are often not suitable for agglutinative languages such as Turkish. BoAT v1 was developed for annotating dependency relations and was subsequently used to create the manually annotated BOUN Treebank (UD_Turkish-BOUN). In this work, we report on the design and implementation of a dependency annotation tool BoAT v2 based on the experiences gained from the use of BoAT v1, which revealed several opportunities for improvement. BoAT v2 is a multi-user and web-based dependency annotation tool that is designed with a focus on the annotator user experience to yield valid annotations. The main objectives of the tool are to: (1) support creating valid and consistent annotations with increased speed, (2) significantly improve the user experience of the annotator, (3) support collaboration among annotators, and (4) provide an open-source and easily deployable web-based annotation tool with a flexible application programming interface (API) to benefit the scientific community. This paper discusses the requirements elicitation, design, and implementation of BoAT v2 along with examples.
翻訳日:2022-07-05 23:41:25 公開日:2022-07-04
# (参考訳) 平衡学習における最小制御原理

The least-control principle for learning at equilibrium ( http://arxiv.org/abs/2207.01332v1 )

ライセンス: CC BY-SA 4.0
Alexander Meulemans, Nicolas Zucchet, Seijin Kobayashi, Johannes von Oswald, Jo\~ao Sacramento(参考訳) 平衡系は神経計算を表現する強力な方法である。 特殊な場合として、それらは、平衡再帰ニューラルネットワーク、深層平衡モデル、メタラーニングなど、神経科学と機械学習の両方に対する大きな関心のモデルを含んでいる。 本稿では、時間的および空間的局所的な規則でそのようなシステムを学ぶための新しい原則を提案する。 我々の原則は学習を最小制御問題とみなし、まずシステムをソリューション状態に導くための最適なコントローラを導入し、次に学習をそのような状態に到達するために必要な制御量の削減として定義する。 最適制御としてダイナミックスに学習信号を組み込むことで、予め未知の方法で信用代入情報を伝達し、中間状態を記憶するのを避けることができ、無限小学習信号に頼らないことを示す。 実際、我々の原理は、繰り返しニューラルネットワークやメタラーニングを含む一連の問題に適用した場合、勾配に基づく学習手法を先導する性能の整合性をもたらす。 私たちの結果は、脳がどのように学習するかを明らかにし、幅広い機械学習問題にアプローチする新しい方法を提供する。

Equilibrium systems are a powerful way to express neural computations. As special cases, they include models of great current interest in both neuroscience and machine learning, such as equilibrium recurrent neural networks, deep equilibrium models, or meta-learning. Here, we present a new principle for learning such systems with a temporally- and spatially-local rule. Our principle casts learning as a least-control problem, where we first introduce an optimal controller to lead the system towards a solution state, and then define learning as reducing the amount of control needed to reach such a state. We show that incorporating learning signals within a dynamics as an optimal control enables transmitting credit assignment information in previously unknown ways, avoids storing intermediate states in memory, and does not rely on infinitesimal learning signals. In practice, our principle leads to strong performance matching that of leading gradient-based learning methods when applied to an array of problems involving recurrent neural networks and meta-learning. Our results shed light on how the brain might learn and offer new ways of approaching a broad class of machine learning problems.
翻訳日:2022-07-05 23:31:48 公開日:2022-07-04
# (参考訳) 信頼度に基づくフィルタによる安全強化学習

Safe Reinforcement Learning via Confidence-Based Filters ( http://arxiv.org/abs/2207.01337v1 )

ライセンス: CC BY 4.0
Sebastian Curi, Armin Lederer, Sandra Hirche, Andreas Krause(参考訳) 現実世界のシステムに強化学習(RL)を展開する場合、安全性を確保することが重要な課題である。 確率力学モデルに基づく標準RL手法を用いて学習した名目ポリシーに対して、状態安全性制約を認証するための制御理論的手法である信頼性に基づく安全フィルタを開発する。 提案手法は,コスト関数の観点からの制約の修正に基づくもので,安全性検証を標準のRLタスクに還元する。 幻覚入力の概念を利用して、この定式化を拡張し、未知のシステムに対して高い確率で安全である"バックアップ"ポリシーを決定する。 最後に、バックアップポリシーへのロールアウト中のステップ毎に、名目ポリシーを最小に調整し、その後、安全なリカバリが保証される。 我々は、正式な安全保証を提供し、我々のアプローチの有効性を実証的に示す。

Ensuring safety is a crucial challenge when deploying reinforcement learning (RL) to real-world systems. We develop confidence-based safety filters, a control-theoretic approach for certifying state safety constraints for nominal policies learned via standard RL techniques, based on probabilistic dynamics models. Our approach is based on a reformulation of state constraints in terms of cost functions, reducing safety verification to a standard RL task. By exploiting the concept of hallucinating inputs, we extend this formulation to determine a "backup" policy that is safe for the unknown system with high probability. Finally, the nominal policy is minimally adjusted at every time step during a roll-out towards the backup policy, such that safe recovery can be guaranteed afterwards. We provide formal safety guarantees, and empirically demonstrate the effectiveness of our approach.
翻訳日:2022-07-05 23:30:26 公開日:2022-07-04
# (参考訳) 大規模データベースにおける高精度CADモデル検索

Accurate Instance-Level CAD Model Retrieval in a Large-Scale Database ( http://arxiv.org/abs/2207.01339v1 )

ライセンス: CC BY 4.0
Jiaxin Wei, Lan Hu, Chenyu Wang, Laurent Kneip(参考訳) 本稿では,RGBDスキャンの詳細な形状形状を復元するために,大規模データベースからクリーンCADモデルのきめ細かい検索方法を提案する。 オブジェクト形状記述子を用いて中程度に小さなデータベースにインデックス化してトップ検索結果を受け入れる従来の作業とは異なり、大規模データベースの場合、より正確なモデルが記述子の近傍で見つかる可能性があると論じる。 より重要なことは, 形状記述子のインスタンスレベルでの特異性の欠如は, その近傍の幾何学的再分類によって補うことができるということである。 提案手法はまず,学習表現の識別力を活用して,モデルの異なるカテゴリを識別し,新しいロバストな点集合距離測定値を用いてCAD近傍を再現し,大きな形状データベースにおけるきめ細かい検索を可能にする。 実世界のデータセットによる評価は、我々の幾何に基づく再ランク付けは概念的には単純だが非常に効果的な方法であり、最先端技術と比較して精度が大幅に向上することを示している。

We present a new solution to the fine-grained retrieval of clean CAD models from a large-scale database in order to recover detailed object shape geometries for RGBD scans. Unlike previous work simply indexing into a moderately small database using an object shape descriptor and accepting the top retrieval result, we argue that in the case of a large-scale database a more accurate model may be found within a neighborhood of the descriptor. More importantly, we propose that the distinctiveness deficiency of shape descriptors at the instance level can be compensated by a geometry-based re-ranking of its neighborhood. Our approach first leverages the discriminative power of learned representations to distinguish between different categories of models and then uses a novel robust point set distance metric to re-rank the CAD neighborhood, enabling fine-grained retrieval in a large shape database. Evaluation on a real-world dataset shows that our geometry-based re-ranking is a conceptually simple but highly effective method that can lead to a significant improvement in retrieval accuracy compared to the state-of-the-art.
翻訳日:2022-07-05 23:10:01 公開日:2022-07-04
# (参考訳) シーンテキスト検出のための高速なローカライゼーション学習

Explore Faster Localization Learning For Scene Text Detection ( http://arxiv.org/abs/2207.01342v1 )

ライセンス: CC BY 4.0
Yuzhong Zhao, Yuanqiang Cai, Weijia Wu, Weiqiang Wang(参考訳) 深層ネットワークに基づく良質なテキスト検出を実現するためには,事前学習と長期学習の計算が必要となる。 本稿では,高速収束速度と高精度テキストローカライゼーションを備えた新しいシーンテキスト検出ネットワーク(fanet)を提案する。 提案するfanetは、トランスフォーマー特徴学習と正規化フーリエ記述子モデリングに基づくエンドツーエンドテキスト検出器であり、フーリエ記述子提案ネットワークと反復テキスト復号ネットワークは、テキスト提案を効率的かつ正確に識別するために設計されている。 さらに,ネットワーク性能を最適化するために,Dense Matching Strategy と well-designed loss function も提案されている。 大規模な実験により,提案するFANetは,訓練エポックを減らし,事前学習を行わずにSOTA性能を達成できることが実証された。 事前学習のための追加データを導入すると,提案するFANetは,MSRATD500,CTW1500,TotalText上でSOTA性能を実現することができる。 アブレーション実験は,我々の貢献の有効性も検証した。

Generally pre-training and long-time training computation are necessary for obtaining a good-performance text detector based on deep networks. In this paper, we present a new scene text detection network (called FANet) with a Fast convergence speed and Accurate text localization. The proposed FANet is an end-to-end text detector based on transformer feature learning and normalized Fourier descriptor modeling, where the Fourier Descriptor Proposal Network and Iterative Text Decoding Network are designed to efficiently and accurately identify text proposals. Additionally, a Dense Matching Strategy and a well-designed loss function are also proposed for optimizing the network performance. Extensive experiments are carried out to demonstrate that the proposed FANet can achieve the SOTA performance with fewer training epochs and no pre-training. When we introduce additional data for pre-training, the proposed FANet can achieve SOTA performance on MSRATD500, CTW1500 and TotalText. The ablation experiments also verify the effectiveness of our contributions.
翻訳日:2022-07-05 22:54:50 公開日:2022-07-04
# (参考訳) 細粒度マイズショット分類のためのタスク不一致最大化

Task Discrepancy Maximization for Fine-grained Few-Shot Classification ( http://arxiv.org/abs/2207.01376v1 )

ライセンス: CC BY 4.0
SuBeen Lee, WonJun Moon, Jae-Pil Heo(参考訳) 目やくちばしなどの識別的詳細を認識することは、全体的な外観が似ているため、きめ細かいクラスを区別する上で重要である。 本稿では,細粒度小ショット分類のための簡易モジュールであるtdm(task discrepancy maximization)を提案する。 本研究の目的は,クラス別情報を符号化するチャネルを強調することにより,クラス別判別領域のローカライズを行うことである。 具体的には、TDMは2つの新しいコンポーネント、SAM(Support Attention Module)とQAM(Query Attention Module)に基づいてタスク固有のチャネルウェイトを学習する。 SAMは、各クラスに対するチャネルワイドの識別力を表すサポートウェイトを生成する。 しかし、samは基本的にラベル付きサポートセットのみに基づいているため、このようなサポートセットに対するバイアスに弱い可能性がある。 そこで本研究では,クエリの重み付けによってSAMを補完するQAMを提案する。 これら2つの重みを組み合わせることで、クラスワイズタスク固有のチャネル重みが定義される。 重み付けはタスク適応機能マップの作成に応用され、より識別的詳細に焦点をあてる。 本実験は,tdmの有効性と,それ以前の手法による補足的な効果を検証する。

Recognizing discriminative details such as eyes and beaks is important for distinguishing fine-grained classes since they have similar overall appearances. In this regard, we introduce Task Discrepancy Maximization (TDM), a simple module for fine-grained few-shot classification. Our objective is to localize the class-wise discriminative regions by highlighting channels encoding distinct information of the class. Specifically, TDM learns task-specific channel weights based on two novel components: Support Attention Module (SAM) and Query Attention Module (QAM). SAM produces a support weight to represent channel-wise discriminative power for each class. Still, since the SAM is basically only based on the labeled support sets, it can be vulnerable to bias toward such support set. Therefore, we propose QAM which complements SAM by yielding a query weight that grants more weight to object-relevant channels for a given query image. By combining these two weights, a class-wise task-specific channel weight is defined. The weights are then applied to produce task-adaptive feature maps more focusing on the discriminative details. Our experiments validate the effectiveness of TDM and its complementary benefits with prior methods in fine-grained few-shot classification.
翻訳日:2022-07-05 22:28:36 公開日:2022-07-04
# (参考訳) スパイクニューラルネットワークのための抽選チケット仮説

Lottery Ticket Hypothesis for Spiking Neural Networks ( http://arxiv.org/abs/2207.01382v1 )

ライセンス: CC BY 4.0
Youngeun Kim, Yuhang Li, Hyoungseob Park, Yeshwanth Venkatesha, Ruokai Yin, and Priyadarshini Panda(参考訳) スパイキングニューラルネットワーク(SNN)は、最近、バイナリスパイクが複数のタイムステップにまたがる情報を伝達する、次世代の低電力ディープニューラルネットワークとして登場した。 SNNのプルーニングは、リソース制約のあるモバイル/エッジデバイスにデプロイされるため、非常に重要である。 従来のSNNプルーニング作業は浅いSNN(2~6層)に焦点を当てていたが,現状のSNN作業ではより深いSNN(>16層)が提案されている。 ディープSNNに向けてのプルーニング手法をスケールアップするために、高密度ネットワークは高密度ネットワークと同等の性能を達成する小さなサブネット(すなわち、入賞チケット)を含むことを述べるロッティ・ティケット仮説(LTH)を調査する。 LTHに関する我々の研究によると、入賞チケットは様々なデータセットやアーキテクチャの深いSNNに一貫して存在し、パフォーマンスの大幅な劣化なしに最大97%のスパシティを提供する。 しかし、LTHの反復探索プロセスは、SNNの複数のタイムステップと組み合わせることで、膨大なトレーニング計算コストをもたらす。 このような検索コストを軽減するために,我々は,より少ない時間ステップで重要な重み付け接続を求める早期チケットを提案する。 提案したETチケットは,イテレーティブ・マグニチュード・プルーニング(IMP)やアーリーバード(EB)チケットといった,勝利チケットを見つけるための一般的なプルーニング手法とシームレスに組み合わせることができる。 実験の結果,提案するETチケットはIMPやEBに比べて検索時間を最大38%削減できることがわかった。

Spiking Neural Networks (SNNs) have recently emerged as a new generation of low-power deep neural networks where binary spikes convey information across multiple timesteps. Pruning for SNNs is highly important as they become deployed on a resource-constraint mobile/edge device. The previous SNN pruning works focus on shallow SNNs (2~6 layers), however, deeper SNNs (>16 layers) are proposed by state-of-the-art SNN works, which is difficult to be compatible with the current pruning work. To scale up a pruning technique toward deep SNNs, we investigate Lottery Ticket Hypothesis (LTH) which states that dense networks contain smaller subnetworks (i.e., winning tickets) that achieve comparable performance to the dense networks. Our studies on LTH reveal that the winning tickets consistently exist in deep SNNs across various datasets and architectures, providing up to 97% sparsity without huge performance degradation. However, the iterative searching process of LTH brings a huge training computational cost when combined with the multiple timesteps of SNNs. To alleviate such heavy searching cost, we propose Early-Time (ET) ticket where we find the important weight connectivity from a smaller number of timesteps. The proposed ET ticket can be seamlessly combined with common pruning techniques for finding winning tickets, such as Iterative Magnitude Pruning (IMP) and Early-Bird (EB) tickets. Our experiment results show that the proposed ET ticket reduces search time by up to 38% compared to IMP or EB methods.
翻訳日:2022-07-05 22:13:58 公開日:2022-07-04
# (参考訳) タスク指向自己教師付き学習による脳波異常検出

Task-oriented Self-supervised Learning for Anomaly Detection in Electroencephalography ( http://arxiv.org/abs/2207.01391v1 )

ライセンス: CC BY 4.0
Yaojia Zheng, Zhouwu Liu, Rong Mo, Ziyi Chen, Wei-shi Zheng, and Ruixuan Wang(参考訳) 脳波の正確な自動分析は、臨床医が様々な脳疾患の患者を効果的に監視し、診断するのに役立ちます。 ラベル付き疾患の脳波データを用いた教師付き学習と比較すると、特定の疾患を分析するためにモデルを訓練できるが、これまで見つからなかった状態の監視に失敗する可能性がある。 モデル開発における異常データの性質を考慮しない既存の異常検出戦略とは違って,正常な脳波と異常脳波に関する専門知識を活用して,その後の異常検出装置の開発に有効な特徴抽出器を訓練するタスク指向の自己教師型学習手法を提案する。 さらに、より大きなカーネルを持つ特定の2つの分岐畳み込みニューラルネットワークを特徴抽出器として設計し、使用不能な異常脳波によく現れる大きな特徴と小さな特徴の両方を容易に抽出できるようにしている。 効果的に設計・訓練された特徴抽出装置は、3つの脳波データセットで示されるように、正常データに基づく異常検出および新しい脳波の将来の異常検出のために脳波からより優れた特徴表現を抽出することができる。 コードはhttps://github.com/ironing/EEG-ADで公開されている。

Accurate automated analysis of electroencephalography (EEG) would largely help clinicians effectively monitor and diagnose patients with various brain diseases. Compared to supervised learning with labelled disease EEG data which can train a model to analyze specific diseases but would fail to monitor previously unseen statuses, anomaly detection based on only normal EEGs can detect any potential anomaly in new EEGs. Different from existing anomaly detection strategies which do not consider any property of unavailable abnormal data during model development, a task-oriented self-supervised learning approach is proposed here which makes use of available normal EEGs and expert knowledge about abnormal EEGs to train a more effective feature extractor for the subsequent development of anomaly detector. In addition, a specific two branch convolutional neural network with larger kernels is designed as the feature extractor such that it can more easily extract both larger scale and small-scale features which often appear in unavailable abnormal EEGs. The effectively designed and trained feature extractor has shown to be able to extract better feature representations from EEGs for development of anomaly detector based on normal data and future anomaly detection for new EEGs, as demonstrated on three EEG datasets. The code is available at https://github.com/ironing/EEG-AD.
翻訳日:2022-07-05 21:51:02 公開日:2022-07-04
# (参考訳) マルチアームバンドを用いた自律薬物設計

Autonomous Drug Design with Multi-armed Bandits ( http://arxiv.org/abs/2207.01393v1 )

ライセンス: CC BY 4.0
Hampus Gummesson Svensson, Esben Bjerrum, Christian Tyrchan, Ola Engkvist and Morteza Haghir Chehreghani(参考訳) 最近の人工知能とオートメーションの発展は、新しい薬物設計パラダイムである自律的な薬物設計を可能にする可能性がある。 このパラダイムの下では、生成モデルは特定の性質を持つ何千もの分子に提案を提供する。 しかし、限られた数の分子しか合成・テストできないため、効果的に選択する方法が明らかな課題である。 我々は,このタスクを,複数のプレイと揮発性アームを用いたコンテキスト確率的マルチアームバンディット問題として定式化する。 そこで,本稿では,この設定を反映するために,従来のマルチアームバンディットの研究を拡張し,ランダムサンプリング,グリーディ選択,崩壊・エプシロン-グリーディ選択と比較する。 選択戦略の違いが累積報酬と選択の多様性にどのように影響するかを調べるため,薬物設計過程をシミュレートする。 シミュレーション結果によると、我々のアプローチは、自律的な薬物設計のために化学空間を探索し、活用する可能性を持っている。

Recent developments in artificial intelligence and automation could potentially enable a new drug design paradigm: autonomous drug design. Under this paradigm, generative models provide suggestions on thousands of molecules with specific properties. However, since only a limited number of molecules can be synthesized and tested, an obvious challenge is how to efficiently select these. We formulate this task as a contextual stochastic multi-armed bandit problem with multiple plays and volatile arms. Then, to solve it, we extend previous work on multi-armed bandits to reflect this setting, and compare our solution with random sampling, greedy selection and decaying-epsilon-greedy selection. To investigate how the different selection strategies affect the cumulative reward and the diversity of the selections, we simulate the drug design process. According to the simulation results, our approach has the potential for better exploring and exploiting the chemical space for autonomous drug design.
翻訳日:2022-07-05 21:38:18 公開日:2022-07-04
# (参考訳) BiTAT:タスク依存集約変換を用いたニューラルネットワークのバイナリ化

BiTAT: Neural Network Binarization with Task-dependent Aggregated Transformation ( http://arxiv.org/abs/2207.01394v1 )

ライセンス: CC BY 4.0
Geon Park, Jaehong Yoon, Haiyang Zhang, Xing Zhang, Sung Ju Hwang, Yonina C. Eldar(参考訳) ニューラルネットワーク量子化(neural network quantization)は、与えられたニューラルネットワークの高精度重みとアクティベーションを低精度重み/アクティベーションに変換し、メモリ使用量と計算量を削減することを目的としている。 しかし、コンパクトに設計されたバックボーンアーキテクチャ(例えばMobileNets)の極端な量子化(1ビットの重み/1ビットのアクティベーション)は、エッジデバイス展開にしばしば使用される。 本稿では,各層内の重みと連続する層間の重み関係に着目して,極端に量子化しても効果的に性能低下を緩和できる新しい量子化・アウェアトレーニング(qat)手法を提案する。 各重みの量子化の影響を最小限に抑えるため、各重みが他の重みから切り離されるような入力依存相関行列と重要ベクトルをトレーニングすることにより、各重みの正規正規正規変換を行う。 そして、その重要性に基づいて重みを定量化し、元の重み/アクティベーションからの情報損失を最小限に抑える。 さらに,各層における量子化が,前層における重みとアクティベーションの量子化分布を反映するように,下層から上層への進行層毎の量子化を行う。 我々は,画像ネットの性能劣化を軽減し,コンパクトなバックボーンネットワークを用いたCIFAR-100上での完全精度モデル性能の維持に成功したことを示す。

Neural network quantization aims to transform high-precision weights and activations of a given neural network into low-precision weights/activations for reduced memory usage and computation, while preserving the performance of the original model. However, extreme quantization (1-bit weight/1-bit activations) of compactly-designed backbone architectures (e.g., MobileNets) often used for edge-device deployments results in severe performance degeneration. This paper proposes a novel Quantization-Aware Training (QAT) method that can effectively alleviate performance degeneration even with extreme quantization by focusing on the inter-weight dependencies, between the weights within each layer and across consecutive layers. To minimize the quantization impact of each weight on others, we perform an orthonormal transformation of the weights at each layer by training an input-dependent correlation matrix and importance vector, such that each weight is disentangled from the others. Then, we quantize the weights based on their importance to minimize the loss of the information from the original weights/activations. We further perform progressive layer-wise quantization from the bottom layer to the top, so that quantization at each layer reflects the quantized distributions of weights and activations at previous layers. We validate the effectiveness of our method on various benchmark datasets against strong neural quantization baselines, demonstrating that it alleviates the performance degeneration on ImageNet and successfully preserves the full-precision model performance on CIFAR-100 with compact backbone networks.
翻訳日:2022-07-05 21:28:08 公開日:2022-07-04
# (参考訳) INR-based GANのためのメモリ効率の良いパッチベーストレーニング

Memory Efficient Patch-based Training for INR-based GANs ( http://arxiv.org/abs/2207.01395v1 )

ライセンス: CC BY 4.0
Namwoo Lee, Hyunsu Kim, Gayoung Lee, Sungjoo Yoo, Yunjey Choi(参考訳) 近年の研究では、暗黙の神経表現(INR)に基づいて、(x, y)座標を与えられたRGB値を生成するMLPが顕著に進歩している。 画像は、GANアプリケーション(ゼロショット超解像、画像の露光など)のための新しい水平線を開く2Dアレイではなく、基礎となる2D信号の連続バージョンとして表現される。 しかし、既存の手法の訓練には、(x, y) 座標毎に MLP 演算を演算するため、画像解像度に比例した計算コストが必要となる。 この問題を軽減するため,画像解像度に関わらず,INRベースのGANを柔軟な計算コストでトレーニングできる,複数段階のパッチベーストレーニングを提案する。 具体的には,新しい再構成損失により,パッチによって画像の局所的詳細を学習し,全体構造情報を学習し,効率的なgan学習を可能にする。 ベンチマークデータセットで実験を行い,本手法がgpuメモリのベースラインモデルを強化しつつ,fidを妥当なレベルで維持することを示す。

Recent studies have shown remarkable progress in GANs based on implicit neural representation (INR) - an MLP that produces an RGB value given its (x, y) coordinate. They represent an image as a continuous version of the underlying 2D signal instead of a 2D array of pixels, which opens new horizons for GAN applications (e.g., zero-shot super-resolution, image outpainting). However, training existing approaches require a heavy computational cost proportional to the image resolution, since they compute an MLP operation for every (x, y) coordinate. To alleviate this issue, we propose a multi-stage patch-based training, a novel and scalable approach that can train INR-based GANs with a flexible computational cost regardless of the image resolution. Specifically, our method allows to generate and discriminate by patch to learn the local details of the image and learn global structural information by a novel reconstruction loss to enable efficient GAN training. We conduct experiments on several benchmark datasets to demonstrate that our approach enhances baseline models in GPU memory while maintaining FIDs at a reasonable level.
翻訳日:2022-07-05 21:04:32 公開日:2022-07-04
# (参考訳) 新型コロナウイルス検出のための情報理論を用いた表現学習

Representation Learning with Information Theory for COVID-19 Detection ( http://arxiv.org/abs/2207.01437v1 )

ライセンス: CC BY 4.0
Abel D\'iaz Berenguer, Tanmoy Mukherjee, Matias Bossa, Nikos Deligiannis, Hichem Sahli(参考訳) データ表現の成功は、機械学習に基づく医療画像解析の基本的な要素である。 深層学習(DL)は、堅牢な表現学習において重要な役割を担っている。 しかし、見えないデータに一般化する深層モデルがないことは、複雑なパターンを素早く過剰に利用することができる。 これにより、データから有用な先行情報を発見し、本質的な特性を学習する深層モデルを支援する戦略を便利に実装できる。 我々のモデルはデュアルロールネットワーク (DRN) と呼ばれ、Last Squared Mutual Information (LSMI) に基づく依存性の最大化手法を用いている。 LSMIは依存度を利用して表現不変性と局所的滑らか性を保証する。 先行研究では,密度推定ステップにより計算コストが高いことで知られる相互情報などの情報理論尺度が用いられてきたが,lsmiの定式化は,難解な相互情報推定の問題を緩和し,その近似に利用できる。 CTによるCOVID-19検出とCOVID-19重症度検出のベンチマーク実験により,本手法の有効性が示された。

Successful data representation is a fundamental factor in machine learning based medical imaging analysis. Deep Learning (DL) has taken an essential role in robust representation learning. However, the inability of deep models to generalize to unseen data can quickly overfit intricate patterns. Thereby, we can conveniently implement strategies to aid deep models in discovering useful priors from data to learn their intrinsic properties. Our model, which we call a dual role network (DRN), uses a dependency maximization approach based on Least Squared Mutual Information (LSMI). The LSMI leverages dependency measures to ensure representation invariance and local smoothness. While prior works have used information theory measures like mutual information, known to be computationally expensive due to a density estimation step, our LSMI formulation alleviates the issues of intractable mutual information estimation and can be used to approximate it. Experiments on CT based COVID-19 Detection and COVID-19 Severity Detection benchmarks demonstrate the effectiveness of our method.
翻訳日:2022-07-05 20:57:28 公開日:2022-07-04
# (参考訳) T-Domino:品質多様性のある複数基準とトーナメント支配目標

T-DominO: Exploring Multiple Criteria with Quality-Diversity and the Tournament Dominance Objective ( http://arxiv.org/abs/2207.01439v1 )

ライセンス: CC BY 4.0
Adam Gaier, James Stoddart, Lorenzo Villaggi, Peter J Bentley(参考訳) 現実世界の設計問題は制約や目的、機能の混乱した組み合わせです。 これらの問題空間を探索することはマルチクリテリア探索(mcx:multi-criteria exploration)問題として定義することができる。 品質多様性アルゴリズムは必要な設計のバリエーションを生成するが、通常は単一の目的しか考慮しない。 我々は、MCX問題における複数の目的を具体的に扱うために設計された新しいランキングであるT-DominOを提示する。 T-DominOは、アーカイブ内の他のソリューションと比較して個人をランク付けし、他者のコストでいくつかの目標を達成しているものよりも、バランスのとれたパフォーマンスの個人を優先している。 各MAP-Elitesビンに1つのバランスの取れたソリューションだけを保持することで、アーカイブの視覚的アクセシビリティが維持される。 我々は,そのアプローチを,容易に理解可能なベンチマークで説明し,多目的な実世界のアーキテクチャケーススタディにおいてその可能性を示す。

Real-world design problems are a messy combination of constraints, objectives, and features. Exploring these problem spaces can be defined as a Multi-Criteria Exploration (MCX) problem, whose goals are to produce a set of diverse solutions with high performance across many objectives, while avoiding low performance across any objectives. Quality-Diversity algorithms produce the needed design variation, but typically consider only a single objective. We present a new ranking, T-DominO, specifically designed to handle multiple objectives in MCX problems. T-DominO ranks individuals relative to other solutions in the archive, favoring individuals with balanced performance over those which excel at a few objectives at the cost of the others. Keeping only a single balanced solution in each MAP-Elites bin maintains the visual accessibility of the archive -- a strong asset for design exploration. We illustrate our approach on a set of easily understood benchmarks, and showcase its potential in a many-objective real-world architecture case study.
翻訳日:2022-07-05 20:47:43 公開日:2022-07-04
# (参考訳) 深層強化学習による先行制約付きトラベリングセールスパーソン問題の解決

Solving the Traveling Salesperson Problem with Precedence Constraints by Deep Reinforcement Learning ( http://arxiv.org/abs/2207.01443v1 )

ライセンス: CC BY 4.0
Christian L\"owens, Muhammad Inaam Ashraf, Alexander Gembus, Genesis Cuizon, Jonas K. Falkner, Lars Schmidt-Thieme(参考訳) 本研究は, 先行制約付きトラベリングセールスパーソン問題 (TSPPC) に対して, 従来のTSPによく適合する近年のアプローチを適用し, DRL(Deep Reinforcement Learning) を用いた解決法を提案する。 これらのアプローチに共通するのは、マルチヘッドアテンション(mha)層に基づくグラフモデルの利用である。 ピックアップ・アンド・デリバリ問題(pdp)を解決するひとつのアイデアは、各ノードが取り得るさまざまな役割を組み込むために、異種注意を使用することである。 本研究では、TSPPCに対する異種注意の概念を一般化する。 さらに、より優れたスケーラビリティのために注意をそらすために、最近のアイデアを適応させます。 TSPPCの解決における最近のDRL手法の適用と評価を通じて,研究コミュニティに貢献する。

This work presents solutions to the Traveling Salesperson Problem with precedence constraints (TSPPC) using Deep Reinforcement Learning (DRL) by adapting recent approaches that work well for regular TSPs. Common to these approaches is the use of graph models based on multi-head attention (MHA) layers. One idea for solving the pickup and delivery problem (PDP) is using heterogeneous attentions to embed the different possible roles each node can take. In this work, we generalize this concept of heterogeneous attentions to the TSPPC. Furthermore, we adapt recent ideas to sparsify attentions for better scalability. Overall, we contribute to the research community through the application and evaluation of recent DRL methods in solving the TSPPC.
翻訳日:2022-07-05 20:34:40 公開日:2022-07-04
# (参考訳) PC-MRIのための物理インフォーム圧縮センシング--逆ナビエ・ストークス問題

Physics-informed compressed sensing for PC-MRI: an inverse Navier-Stokes problem ( http://arxiv.org/abs/2207.01466v1 )

ライセンス: CC BY 4.0
Alexandros Kontogiannis, Matthew P. Juniper(参考訳) 我々は、ノイズとスパース位相コントラスト磁気共鳴信号から速度場を再構成するための物理インフォームド圧縮センシング(PICS)法を定式化する。 本手法は逆ナビエ-ストークス境界値問題の解法であり,速度場を共同で再構成し,セグメント化することができると同時に,流体圧や壁せん断応力などの隠れた量を推定することができる。 ベイズフレームワークを用いて,未知パラメータの事前情報をガウス確率場の形で導入することにより,問題を正規化する。 この事前情報はエネルギーベースのセグメンテーション機能であるnavier-stokes問題を用いて更新され、復元が$k$-space信号と一致することを要求される。 我々は, この再構成問題を解くアルゴリズムを作成し, コンバージノズルを通した流れの$k$-space信号に対して, ノイズとスパースで試す。 提案手法は,sparsely-sampled (15% $k$-space カバレッジ), low (\sim$$$10$) signal-to-noise ratio (snr) 信号から速度場を再構成・分割することが可能であり,再構成速度場はフルサンプリング (100% $k$-space カバレッジ) high (>40$) snr信号とよく比較できることがわかった。

We formulate a physics-informed compressed sensing (PICS) method for the reconstruction of velocity fields from noisy and sparse phase-contrast magnetic resonance signals. The method solves an inverse Navier-Stokes boundary value problem, which permits us to jointly reconstruct and segment the velocity field, and at the same time infer hidden quantities such as the hydrodynamic pressure and the wall shear stress. Using a Bayesian framework, we regularize the problem by introducing a priori information about the unknown parameters in the form of Gaussian random fields. This prior information is updated using the Navier-Stokes problem, an energy-based segmentation functional, and by requiring that the reconstruction is consistent with the $k$-space signals. We create an algorithm that solves this reconstruction problem, and test it for noisy and sparse $k$-space signals of the flow through a converging nozzle. We find that the method is capable of reconstructing and segmenting the velocity fields from sparsely-sampled (15% $k$-space coverage), low ($\sim$$10$) signal-to-noise ratio (SNR) signals, and that the reconstructed velocity field compares well with that derived from fully-sampled (100% $k$-space coverage) high ($>40$) SNR signals of the same flow.
翻訳日:2022-07-05 19:59:56 公開日:2022-07-04
# (参考訳) 将来のトレースの効率的なハッシュによる状態マシンの学習

Learning state machines via efficient hashing of future traces ( http://arxiv.org/abs/2207.01516v1 )

ライセンス: CC BY 4.0
Robert Baumgartner, Sicco Verwer(参考訳) ステートマシンは、ソフトウェアシステムなどの離散システムをモデル化し、視覚化し、正規文法を表現する一般的なモデルである。 データから状態マシンを受動的に学習するほとんどのアルゴリズムは、すべてのデータを最初から利用できると仮定し、そのデータをメモリにロードする。 これにより、データを継続的にストリーミングすることは難しくなり、大きなデータセットを扱う際に大きなメモリ要求が発生する。 本稿では,count-min-sketchデータ構造を用いたデータストリームから状態マシンを学習する手法を提案する。 検索スペースを削減するために、よく知られた赤青のフレームを用いて状態マージを適用する。 我々は、状態マシンを学習するための確立されたフレームワークにアプローチを実装し、それをよく知られたデータセットで評価し、実験データを提供し、結果の品質と実行時間に対するアプローチの有効性を示した。

State machines are popular models to model and visualize discrete systems such as software systems, and to represent regular grammars. Most algorithms that passively learn state machines from data assume all the data to be available from the beginning and they load this data into memory. This makes it hard to apply them to continuously streaming data and results in large memory requirements when dealing with large datasets. In this paper we propose a method to learn state machines from data streams using the count-min-sketch data structure to reduce memory requirements. We apply state merging using the well-known red-blue-framework to reduce the search space. We implemented our approach in an established framework for learning state machines, and evaluated it on a well know dataset to provide experimental data, showing the effectiveness of our approach with respect to quality of the results and run-time.
翻訳日:2022-07-05 19:20:17 公開日:2022-07-04
# (参考訳) CTを用いたトランスウイルス検出のための適応型GLCMサンプリング

Adaptive GLCM sampling for transformer-based COVID-19 detection on CT ( http://arxiv.org/abs/2207.01520v1 )

ライセンス: CC BY 4.0
Okchul Jung, Dong Un Kang, Gwanghyun Kim, Se Young Chun(参考訳) 世界は過去2年間、新型コロナウイルス(SARS-CoV-2)に苦しんできた。 そこで,胸部CTスキャンによる深層学習によるCOVID-19の自動検出が期待できるようになり,診断の精度が向上した。 近年,CTの3次元情報を活用するために,CT上のトランスフォーマーを用いたCOVID-19検出法が提案されている。 しかし,スライス選択のためのサンプリング手法は最適ではない。 我々は,CTボリュームのリッチな3D情報を活用するために,新しいデータキュレーションとグレーレベル共起行列(GLCM)を用いた適応サンプリング手法を用いたトランスフォーマーベースのCOVID-19検出を提案する。 CNN層とトランスフォーマーアーキテクチャからなるモデルをトレーニングするために,まず肺分画に基づくデータキュレーションを行い,CTボリューム中の各スライスのGLCM値のエントロピーを利用して,予測のための重要なスライスを選択する。 実験結果から,提案手法はモデル変更の困難さを伴わずに,大きなマージンで検出性能を向上することを示した。

The world has suffered from COVID-19 (SARS-CoV-2) for the last two years, causing much damage and change in people's daily lives. Thus, automated detection of COVID-19 utilizing deep learning on chest computed tomography (CT) scans became promising, which helps correct diagnosis efficiently. Recently, transformer-based COVID-19 detection method on CT is proposed to utilize 3D information in CT volume. However, its sampling method for selecting slices is not optimal. To leverage rich 3D information in CT volume, we propose a transformer-based COVID-19 detection using a novel data curation and adaptive sampling method using gray level co-occurrence matrices (GLCM). To train the model which consists of CNN layer, followed by transformer architecture, we first executed data curation based on lung segmentation and utilized the entropy of GLCM value of every slice in CT volumes to select important slices for the prediction. The experimental results show that the proposed method improve the detection performance with large margin without much difficult modification to the model.
翻訳日:2022-07-05 19:12:10 公開日:2022-07-04
# (参考訳) 変動型ニューラルネットワーク

Variational Neural Networks ( http://arxiv.org/abs/2207.01524v1 )

ライセンス: CC BY 4.0
Illia Oleksiienko, Dat Thanh Tran and Alexandros Iosifidis(参考訳) ベイズニューラルネットワーク(BNN)は、重みの分布を考慮し、入力毎に異なるモデルをサンプリングすることにより、ニューラルネットワークの不確かさを推定するツールを提供する。 本稿では,重みの分布を考慮せず,学習可能なサブレイヤで入力を変換して,レイヤの出力分布のパラメータを生成する,変動ニューラルネットワークと呼ばれるニューラルネットワークにおける不確実性推定手法を提案する。 不確実性品質推定実験において,vnnはモンテカルロドロップアウトやベイズよりも,バックプロパゲーション法により良好な不確実性品質が得られることを示した。

Bayesian Neural Networks (BNNs) provide a tool to estimate the uncertainty of a neural network by considering a distribution over weights and sampling different models for each input. In this paper, we propose a method for uncertainty estimation in neural networks called Variational Neural Network that, instead of considering a distribution over weights, generates parameters for the output distribution of a layer by transforming its inputs with learnable sub-layers. In uncertainty quality estimation experiments, we show that VNNs achieve better uncertainty quality than Monte Carlo Dropout or Bayes By Backpropagation methods.
翻訳日:2022-07-05 19:06:49 公開日:2022-07-04
# (参考訳) 改良型スウィントランスを用いた効率的な肺癌画像分類と分節化アルゴリズム

Efficient Lung Cancer Image Classification and Segmentation Algorithm Based on Improved Swin Transformer ( http://arxiv.org/abs/2207.01527v1 )

ライセンス: CC BY 4.0
Ruina Sun, Yuexin Pang(参考訳) コンピュータ技術の発展に伴い、人工知能に様々なモデルが登場した。 トランスフォーマーモデルは、自然言語処理(nlp)の成功の後、コンピュータビジョン(cv)の分野で応用されてきた。 放射線学者は、労働負荷の増加や診断要求の増加など、今日の急速に発展する医療分野において、さまざまな課題に直面し続けている。 従来の肺がん検出法はいくつかあるが、特に現実的な診断シナリオにおいて、精度は改善する必要がある。 本稿では,効率的な変圧器に基づくセグメンテーション法を創造的に提案し,医用画像解析に適用する。 本アルゴリズムは,肺癌データを解析して肺がん分類と分節化のタスクを完了し,医療スタッフに効率的な技術支援を提供することを目的とする。 さらに,様々な側面から評価・比較を行った。 分類ミッションでは、正規訓練によるSwin-Tの最大精度と事前訓練による2つの解像度でのSwin-Bの最大精度は82.3%である。 セグメンテーションミッションでは、モデルが実験の精度を向上させるのを助けるために、事前トレーニングを使用します。 3つのモデルの精度は95%以上に達する。 実験は、このアルゴリズムが肺癌の分類と分節ミッションにうまく適用できることを示した。

With the development of computer technology, various models have emerged in artificial intelligence. The transformer model has been applied to the field of computer vision (CV) after its success in natural language processing (NLP). Radiologists continue to face multiple challenges in today's rapidly evolving medical field, such as increased workload and increased diagnostic demands. Although there are some conventional methods for lung cancer detection before, their accuracy still needs to be improved, especially in realistic diagnostic scenarios. This paper creatively proposes a segmentation method based on efficient transformer and applies it to medical image analysis. The algorithm completes the task of lung cancer classification and segmentation by analyzing lung cancer data, and aims to provide efficient technical support for medical staff. In addition, we evaluated and compared the results in various aspects. For the classification mission, the max accuracy of Swin-T by regular training and Swin-B in two resolutions by pre-training can be up to 82.3%. For the segmentation mission, we use pre-training to help the model improve the accuracy of our experiments. The accuracy of the three models reaches over 95%. The experiments demonstrate that the algorithm can be well applied to lung cancer classification and segmentation missions.
翻訳日:2022-07-05 18:56:39 公開日:2022-07-04
# (参考訳) ワイルドネットワーク:5gネットワーク基盤の敵への露出

Wild Networks: Exposure of 5G Network Infrastructures to Adversarial Examples ( http://arxiv.org/abs/2207.01531v1 )

ライセンス: CC BY 4.0
Giovanni Apruzzese, Rodion Vladimirov, Aliya Tastemirova, Pavel Laskov(参考訳) 第5世代(5g)ネットワークは、最適なサービス品質(qos)を保証しながら、数十億もの異種デバイスをサポートしなければならない。 このような要件は人力だけでは実現不可能であり、マシンラーニング(ml)は5gのコア資産である。 しかし、MLは敵の例に対して脆弱であることが知られており、我々の論文が示すように、5Gコンテキストは既存の脅威モデルでは形式化できない、さらに別の種類の敵のML攻撃にさらされている。 このようなリスクの積極的な評価は、敵ML研究に利用可能なML駆動の5G機器が不足しているため、難しい。 これらの問題に対処するために、我々は、特に5Gシナリオに適した、MLによって解決された正確な機能に非依存な、新しい敵対的ML脅威モデルを提案する。 既存のml脅威モデルとは対照的に、当社の攻撃では、qosの保証と5gネットワークのオープン性のため、ターゲットとする5gシステムの妥協は必要ありません。 さらに、公開データに基づく現実的なMLセキュリティアセスメントのための独自のフレームワークを提案する。 5Gで想定されるMLの6つの応用に対する脅威モデルを積極的に評価する。 我々の攻撃は、トレーニングと推論段階の両方に影響し、最先端のMLシステムの性能を低下させ、以前の攻撃よりも低い侵入障壁を持つことができる。

Fifth Generation (5G) networks must support billions of heterogeneous devices while guaranteeing optimal Quality of Service (QoS). Such requirements are impossible to meet with human effort alone, and Machine Learning (ML) represents a core asset in 5G. ML, however, is known to be vulnerable to adversarial examples; moreover, as our paper will show, the 5G context is exposed to a yet another type of adversarial ML attacks that cannot be formalized with existing threat models. Proactive assessment of such risks is also challenging due to the lack of ML-powered 5G equipment available for adversarial ML research. To tackle these problems, we propose a novel adversarial ML threat model that is particularly suited to 5G scenarios, and is agnostic to the precise function solved by ML. In contrast to existing ML threat models, our attacks do not require any compromise of the target 5G system while still being viable due to the QoS guarantees and the open nature of 5G networks. Furthermore, we propose an original framework for realistic ML security assessments based on public data. We proactively evaluate our threat model on 6 applications of ML envisioned in 5G. Our attacks affect both the training and the inference stages, can degrade the performance of state-of-the-art ML systems, and have a lower entry barrier than previous attacks.
翻訳日:2022-07-05 18:45:25 公開日:2022-07-04
# (参考訳) GAN生成試料の多様性を選択的に増大させる

Selectively increasing the diversity of GAN-generated samples ( http://arxiv.org/abs/2207.01561v1 )

ライセンス: CC BY 4.0
Jan Dubi\'nski, Kamil Deja, Sandro Wenzel, Przemys{\l}aw Rokita, Tomasz Trzci\'nski(参考訳) generative adversarial network (gans) は、実データ分布によく似たデータサンプルを合成できる強力なモデルであるが、gansで観測されるモード崩壊現象によって生成されたサンプルの多様性は限られている。 特にモード崩壊の傾向は条件付きGANであり、入力ノイズベクトルを無視して条件情報に集中する傾向がある。 この制限を緩和する最近の手法は、生成したサンプルの多様性を高めるが、サンプルの類似性が必要な場合、モデルの性能を低下させる。 そこで本研究では,GAN生成サンプルの多様性を選択的に向上する手法を提案する。 トレーニング損失関数にシンプルで効果的な正規化を加えることで、生成元は多様な出力に関連する入力の新しいデータモードを発見し、残りのデータに対して一貫性のあるサンプルを生成することを推奨します。 より正確には、与えられた条件付き入力に対するサンプルの多様性に応じて効果をスケールする入力潜在ベクトルと生成画像間の距離の比率を最大化する。 LHC,CERNにおけるALICE実験のZero Degree Calorimeterから得られたデータをシミュレーションする実生活シナリオとともに,本手法の優位性を示す。

Generative Adversarial Networks (GANs) are powerful models able to synthesize data samples closely resembling the distribution of real data, yet the diversity of those generated samples is limited due to the so-called mode collapse phenomenon observed in GANs. Especially prone to mode collapse are conditional GANs, which tend to ignore the input noise vector and focus on the conditional information. Recent methods proposed to mitigate this limitation increase the diversity of generated samples, yet they reduce the performance of the models when similarity of samples is required. To address this shortcoming, we propose a novel method to selectively increase the diversity of GAN-generated samples. By adding a simple, yet effective regularization to the training loss function we encourage the generator to discover new data modes for inputs related to diverse outputs while generating consistent samples for the remaining ones. More precisely, we maximise the ratio of distances between generated images and input latent vectors scaling the effect according to the diversity of samples for a given conditional input. We show the superiority of our method in a synthetic benchmark as well as a real-life scenario of simulating data from the Zero Degree Calorimeter of ALICE experiment in LHC, CERN.
翻訳日:2022-07-05 18:00:21 公開日:2022-07-04
# (参考訳) 効率的な生成リハーサルのためのプログレッシブ潜在リプレイ

Progressive Latent Replay for efficient Generative Rehearsal ( http://arxiv.org/abs/2207.01562v1 )

ライセンス: CC BY 4.0
Stanis{\l}aw Pawlak, Filip Szatkowski, Micha{\l} Bortkiewicz, Jan Dubi\'nski, Tomasz Trzci\'nski(参考訳) 本稿では,ネットワークの深さに基づいてリハーサルの頻度を変調する新しい内部再生法を提案する。 リプレイ戦略は、ニューラルネットワークにおける破滅的な忘れ方の影響を緩和するが、ジェネレーティブリプレイに関する最近の研究は、ネットワークの深い層でのみリハーサルを行うことで、継続的な学習のパフォーマンスが向上することを示している。 しかし、生成的アプローチは計算オーバーヘッドを増加させ、アプリケーションを制限する。 ニューラルネットワークの初期の層が突然の遅延をあまり忘れないという観察に触発されて、リプレイ中の中間レベル特徴を用いて様々な周波数でネットワーク層を更新することを提案する。 これにより、ジェネレータの深い層とメインモデルの前の層の両方の計算を省略することで、計算負担を低減することができる。 我々は,提案手法をProgressive Latent Replayと命名し,リソースを著しく減らしながら内部リプレイより優れていることを示す。

We introduce a new method for internal replay that modulates the frequency of rehearsal based on the depth of the network. While replay strategies mitigate the effects of catastrophic forgetting in neural networks, recent works on generative replay show that performing the rehearsal only on the deeper layers of the network improves the performance in continual learning. However, the generative approach introduces additional computational overhead, limiting its applications. Motivated by the observation that earlier layers of neural networks forget less abruptly, we propose to update network layers with varying frequency using intermediate-level features during replay. This reduces the computational burden by omitting computations for both deeper layers of the generator and earlier layers of the main model. We name our method Progressive Latent Replay and show that it outperforms Internal Replay while using significantly fewer resources.
翻訳日:2022-07-05 17:51:42 公開日:2022-07-04
# (参考訳) ベイズ最適化手法を用いたサリエンシマップ記述のためのアンサンブル集合の忠実性

Fidelity of Ensemble Aggregation for Saliency Map Explanations using Bayesian Optimization Techniques ( http://arxiv.org/abs/2207.01565v1 )

ライセンス: CC BY 4.0
Yannik Mahlau, Christian Nolde(参考訳) 近年,ニューラルネットワークを説明するための特徴帰属法が数多く開発されている。 特にコンピュータビジョンの分野では、画素属性を提供するサリエンシマップを生成する多くの方法が存在する。 しかし、それらの説明はしばしば矛盾しており、どの説明を信用するかは明らかではない。 この問題の自然な解決策は、複数の説明の集約である。 異なるピクセルベース集約スキームと,モデル決定に対する忠実度が各説明よりも高い新たな説明の生成を目標とし,比較を行った。 ベイズ最適化の分野からの手法を用いて、個々の説明間の分散を集約プロセスに組み込む。 さらに,複数の正規化手法がアンサンブルアグリゲーションに与える影響を分析する。

In recent years, an abundance of feature attribution methods for explaining neural networks have been developed. Especially in the field of computer vision, many methods for generating saliency maps providing pixel attributions exist. However, their explanations often contradict each other and it is not clear which explanation to trust. A natural solution to this problem is the aggregation of multiple explanations. We present and compare different pixel-based aggregation schemes with the goal of generating a new explanation, whose fidelity to the model's decision is higher than each individual explanation. Using methods from the field of Bayesian Optimization, we incorporate the variance between the individual explanations into the aggregation process. Additionally, we analyze the effect of multiple normalization techniques on ensemble aggregation.
翻訳日:2022-07-05 17:42:39 公開日:2022-07-04
# (参考訳) 少数ながら重要な国家を識別する学習による一般政策評価と改善

General Policy Evaluation and Improvement by Learning to Identify Few But Crucial States ( http://arxiv.org/abs/2207.01566v1 )

ライセンス: CC BY 4.0
Francesco Faccio, Aditya Ramesh, Vincent Herrmann, Jean Harb, J\"urgen Schmidhuber(参考訳) 政策評価と改善の学習は強化学習(RL)の中核的な問題である。 従来のRLアルゴリズムは、1つのポリシーで定義された値関数を学ぶ。 最近検討された競合代替手段は、多くのポリシーで単一の値関数を学ぶことである。 ここでは,パラメータベース価値関数のアクタ批判的アーキテクチャとポリシ評価ネットワークのポリシ埋め込みを組み合わせて,ディープニューラルネットワーク(NN)で表されるポリシを評価する(そして改善を支援する)ための単一値関数を学習する。 この方法は競争実験の結果をもたらす。 無限に多くの状態を持つ連続制御問題において、我々の値関数はその予測誤差を最小にし、少数の「探索状態」を学習し、探索状態から政策の帰結へと作用をマッピングする。 この方法は、環境に関する重要な抽象的な知識を、多くのポリシーの振る舞いを完全に特定するのに十分な状態の形で抽出する。 政策は、値関数の予測の勾配に従って、探索状態における行動を変更することによってのみ改善される。 驚くべきことに、スイマーv3およびホッパーv3環境における最適に近いポリシーの挙動を、それぞれ3および5の学習状態においてどのように振る舞うかを知るだけでクローンすることができる。 注目すべきことに、NNポリシーを評価するために訓練された価値関数は、ポリシーアーキテクチャの変更にも不変である。 私たちのコードは公開されています。

Learning to evaluate and improve policies is a core problem of Reinforcement Learning (RL). Traditional RL algorithms learn a value function defined for a single policy. A recently explored competitive alternative is to learn a single value function for many policies. Here we combine the actor-critic architecture of Parameter-Based Value Functions and the policy embedding of Policy Evaluation Networks to learn a single value function for evaluating (and thus helping to improve) any policy represented by a deep neural network (NN). The method yields competitive experimental results. In continuous control problems with infinitely many states, our value function minimizes its prediction error by simultaneously learning a small set of `probing states' and a mapping from actions produced in probing states to the policy's return. The method extracts crucial abstract knowledge about the environment in form of very few states sufficient to fully specify the behavior of many policies. A policy improves solely by changing actions in probing states, following the gradient of the value function's predictions. Surprisingly, it is possible to clone the behavior of a near-optimal policy in Swimmer-v3 and Hopper-v3 environments only by knowing how to act in 3 and 5 such learned states, respectively. Remarkably, our value function trained to evaluate NN policies is also invariant to changes of the policy architecture: we show that it allows for zero-shot learning of linear policies competitive with the best policy seen during training. Our code is public.
翻訳日:2022-07-05 17:29:09 公開日:2022-07-04
# e2efold-3d : 高精度 de novo rna 3d構造予測のためのエンドツーエンドディープラーニング法

E2Efold-3D: End-to-End Deep Learning Method for accurate de novo RNA 3D Structure Prediction ( http://arxiv.org/abs/2207.01586v1 )

ライセンス: Link先を確認
Tao Shen, Zhihang Hu, Zhangzhi Peng, Jiayang Chen, Peng Xiong, Liang Hong, Liangzhen Zheng, Yixuan Wang, Irwin King, Sheng Wang, Siqi Sun, and Yu Li(参考訳) RNAの構造決定と予測は、RNAを標的とした医薬品開発とエンジニアリング可能な合成元素設計を促進する。 しかし、RNAの固有の構造的柔軟性のため、3つの主要な構造決定法(X線結晶学、NMR、Cryo-EM)は、RNA構造を分解する際に問題に遭遇し、解決されたRNA構造が不足する。 計算予測手法は実験手法の補完として現れる。 しかし、 \textit{de novo} のアプローチは、構造があまりにも少ないため、ディープラーニングに基づいていない。 その代わりに、多くは時間を要するサンプリングベースの戦略を適用し、そのパフォーマンスは高水準に達するように思える。 本研究では,e2efold-3dという最初のエンドツーエンドのディープラーニング手法を開発し,rna構造予測を精度良く行う。 完全微分可能なエンドツーエンドパイプライン、二次構造による自己蒸留、パラメータ効率のよいバックボーンの定式化など、データ不足を克服するために、いくつかの新しいコンポーネントが提案されている。 このような設計は、独立して重複しないRNAパズルテストデータセットで検証され、平均的なサブ-4 \AA{}ルート平均二乗偏差に達する。 興味深いことに、RNAの複雑な構造を予測する際にも有望な結果が得られる。 E2Efold-3Dと実験技術が組み合わさると、RNA構造予測場が大きく進歩する。

RNA structure determination and prediction can promote RNA-targeted drug development and engineerable synthetic elements design. But due to the intrinsic structural flexibility of RNAs, all the three mainstream structure determination methods (X-ray crystallography, NMR, and Cryo-EM) encounter challenges when resolving the RNA structures, which leads to the scarcity of the resolved RNA structures. Computational prediction approaches emerge as complementary to the experimental techniques. However, none of the \textit{de novo} approaches is based on deep learning since too few structures are available. Instead, most of them apply the time-consuming sampling-based strategies, and their performance seems to hit the plateau. In this work, we develop the first end-to-end deep learning approach, E2Efold-3D, to accurately perform the \textit{de novo} RNA structure prediction. Several novel components are proposed to overcome the data scarcity, such as a fully-differentiable end-to-end pipeline, secondary structure-assisted self-distillation, and parameter-efficient backbone formulation. Such designs are validated on the independent, non-overlapping RNA puzzle testing dataset and reach an average sub-4 \AA{} root-mean-square deviation, demonstrating its superior performance compared to state-of-the-art approaches. Interestingly, it also achieves promising results when predicting RNA complex structures, a feat that none of the previous systems could accomplish. When E2Efold-3D is coupled with the experimental techniques, the RNA structure prediction field can be greatly advanced.
翻訳日:2022-07-05 17:03:58 公開日:2022-07-04
# (参考訳) 2段階LSTMと変圧器を用いたCTスキャンのための時空間特徴学習

Spatiotemporal Feature Learning Based on Two-Step LSTM and Transformer for CT Scans ( http://arxiv.org/abs/2207.01579v1 )

ライセンス: CC BY 4.0
Chih-Chung Hsu, Chi-Han Tsai, Guan-Lin Chen, Sin-Di Ma, Shen-Chieh Tai(参考訳) CTは様々な疾患の診断に有用である。 しかし、CTスキャンの解像度とスライス数は、マシンとその設定によって決定されるので、CT画像の性質はさらに多様である。 ディープニューラルネットワークの必須要件は入力データの一貫性のある形状であるため、従来のディープラーニングモデルはこのような多様なデータをくすぐるのは難しい。 本稿では,新型コロナウイルスの症状分類を徹底的に行うための,新規で効果的な2段階的アプローチを提案する。 まず,従来のバックボーンネットワークにより,CTスキャンにおける各スライスの意味的特徴埋め込みを抽出する。 そして、時間的特徴学習に対処するため、長期記憶(LSTM)とトランスフォーマーベースのサブネットワークを提案し、時空間特徴表現学習を実現した。 この方法では、2段階のLSTMモデルではオーバーフィットが防止され、性能が向上する。 総合実験の結果,提案手法は優れた性能を示すだけでなく,相互に補償できることがわかった。 具体的には、2段階のLSTMモデルは偽陰性率が低く、2段階のSwinモデルは偽陽性率が低い。 要約すると、モデルアンサンブルは現実のアプリケーションにおいてより安定的で有望な性能に応用できる可能性が示唆されている。

Computed tomography (CT) imaging could be very practical for diagnosing various diseases. However, the nature of the CT images is even more diverse since the resolution and number of the slices of a CT scan are determined by the machine and its settings. Conventional deep learning models are hard to tickle such diverse data since the essential requirement of the deep neural network is the consistent shape of the input data. In this paper, we propose a novel, effective, two-step-wise approach to tickle this issue for COVID-19 symptom classification thoroughly. First, the semantic feature embedding of each slice for a CT scan is extracted by conventional backbone networks. Then, we proposed a long short-term memory (LSTM) and Transformer-based sub-network to deal with temporal feature learning, leading to spatiotemporal feature representation learning. In this fashion, the proposed two-step LSTM model could prevent overfitting, as well as increase performance. Comprehensive experiments reveal that the proposed two-step method not only shows excellent performance but also could be compensated for each other. More specifically, the two-step LSTM model has a lower false-negative rate, while the 2-step Swin model has a lower false-positive rate. In summary, it is suggested that the model ensemble could be adopted for more stable and promising performance in real-world applications.
翻訳日:2022-07-05 17:02:21 公開日:2022-07-04
# 要約グラフによるノード埋め込みの学習 : 簡単な理論的解析

Learning node embeddings via summary graphs: a brief theoretical analysis ( http://arxiv.org/abs/2207.01189v1 )

ライセンス: Link先を確認
Houquan Zhou, Shenghua Liu, Danai Koutra, Huawei Shen, Xueqi Cheng(参考訳) グラフ表現学習は多くのグラフマイニングアプリケーションで重要な役割を果たすが、大規模グラフの埋め込みの学習は依然として問題となっている。 最近の研究は、グラフの要約(つまり、より小さな要約グラフへの埋め込みを学習し、元のグラフのノード埋め込みを復元することでスケーラビリティを向上させる。 しかし、既存の作品は全てヒューリスティックな設計に依存しており、理論的分析が欠けている。 既存の研究と異なり、導入したカーネル行列に基づく3つの特定の埋め込み学習手法の詳細な理論的解析を行い、グラフ要約による学習埋め込みが実際に構成モデルによって構築された近似グラフへの埋め込みを学習していることを明らかにする。 また,近似誤差の解析を行う。 私たちの知る限りでは、このアプローチを理論的に分析するのはこれが初めてです。 さらに,本分析フレームワークは,既存の手法を解釈し,今後の課題に対する深い洞察を与える。

Graph representation learning plays an important role in many graph mining applications, but learning embeddings of large-scale graphs remains a problem. Recent works try to improve scalability via graph summarization -- i.e., they learn embeddings on a smaller summary graph, and then restore the node embeddings of the original graph. However, all existing works depend on heuristic designs and lack theoretical analysis. Different from existing works, we contribute an in-depth theoretical analysis of three specific embedding learning methods based on introduced kernel matrix, and reveal that learning embeddings via graph summarization is actually learning embeddings on a approximate graph constructed by the configuration model. We also give analysis about approximation error. To the best of our knowledge, this is the first work to give theoretical analysis of this approach. Furthermore, our analysis framework gives interpretation of some existing methods and provides great insights for future work on this problem.
翻訳日:2022-07-05 16:53:37 公開日:2022-07-04
# スケールで理想的な計算を行う近似

Approximate Vanishing Ideal Computations at Scale ( http://arxiv.org/abs/2207.01236v1 )

ライセンス: Link先を確認
Elias Wirth, Hiroshi Kera, Sebastian Pokutta(参考訳) 点の集合 $X = \{\mathbf{x}_1, \ldots, \mathbf{x}_m\}\subseteq [0,1]^n$ の近似消滅イデアルは、すべての点$\mathbf{x} \in X$ に対しておよそ 0$ と評価され、生成元と呼ばれる多項式の有限集合による効率的な表現を認める多項式の集合である。 この生成器の集合を構成するアルゴリズムは広範囲に研究されているが、計算の複雑さはサンプル数$m$で超線形であると考えられるため、結局は実用的でない。 本稿では,Oracle Approximate Vanishing Idealアルゴリズム(OAVI)のスケールアップに注力する。 oaviの計算複雑性は超線形ではなく、サンプル数 m$ と多項式数 n$ で線形であることが証明され、大規模機械学習のための魅力的な前処理技術となる。 OAVIのトレーニング時間をさらに加速するために、私たちは2つの変更を提案する。 OAVIの標準解法の一つであるPairwise Conditional Gradientsアルゴリズムを、より高速なBlended Pairwise Conditional Gradientsアルゴリズムに置き換えることで、OAVIが凸解法の研究の進歩から直接恩恵を受けるかを説明する。 Inverse Hessian Boosting (IHB): IHB は OAVI が2次凸最適化の問題を繰り返し解決し,その解が逆 Hessian 情報を用いて閉じた形で書けることを活用する。 ヘッセン行列の逆数を効率的に更新することにより、凸最適化問題をほぼ瞬時に解き、OAVIのトレーニング時間を最大で複数の桁に短縮することができる。 我々は、サンプル数が数百万であるデータセットに関する広範な数値実験で理論解析を補完する。

The approximate vanishing ideal of a set of points $X = \{\mathbf{x}_1, \ldots, \mathbf{x}_m\}\subseteq [0,1]^n$ is the set of polynomials that approximately evaluate to $0$ over all points $\mathbf{x} \in X$ and admits an efficient representation by a finite set of polynomials called generators. Algorithms that construct this set of generators are extensively studied but ultimately find little practical application because their computational complexities are thought to be superlinear in the number of samples $m$. In this paper, we focus on scaling up the Oracle Approximate Vanishing Ideal algorithm (OAVI), one of the most powerful of these methods. We prove that the computational complexity of OAVI is not superlinear but linear in the number of samples $m$ and polynomial in the number of features $n$, making OAVI an attractive preprocessing technique for large-scale machine learning. To further accelerate OAVI's training time, we propose two changes: First, as the name suggests, OAVI makes repeated oracle calls to convex solvers throughout its execution. By replacing the Pairwise Conditional Gradients algorithm, one of the standard solvers used in OAVI, with the faster Blended Pairwise Conditional Gradients algorithm, we illustrate how OAVI directly benefits from advancements in the study of convex solvers. Second, we propose Inverse Hessian Boosting (IHB): IHB exploits the fact that OAVI repeatedly solves quadratic convex optimization problems that differ only by very little and whose solutions can be written in closed form using inverse Hessian information. By efficiently updating the inverse of the Hessian matrix, the convex optimization problems can be solved almost instantly, accelerating OAVI's training time by up to multiple orders of magnitude. We complement our theoretical analysis with extensive numerical experiments on data sets whose sample numbers are in the millions.
翻訳日:2022-07-05 16:53:21 公開日:2022-07-04
# DiffML: エンドツーエンドの差別化可能なMLパイプライン

DiffML: End-to-end Differentiable ML Pipelines ( http://arxiv.org/abs/2207.01269v1 )

ライセンス: Link先を確認
Benjamin Hilprecht, Christian Hammacher, Eduardo Reis, Mohamed Abdelaal and Carsten Binnig(参考訳) 本稿では、DiffMLと呼ばれる差別化可能なMLパイプラインのビジョンを示し、エンドツーエンドでMLパイプラインの構築を自動化する。 DiffMLは、MLモデル自体だけでなく、データクリーニングや機能選択など、データ前処理ステップを含むパイプライン全体の共同トレーニングを可能にする。 私たちの中核的な考え方は、パイプライン全体をバックプロパゲーションを使ってトレーニングできるように、すべてのパイプラインステップを差別化可能な方法で定式化することです。 しかし、これは非自明な問題であり、多くの新しい研究課題を提起する。 この方向の実現可能性を示すために,データクリーニングや特徴選択,データセット選択といった典型的な前処理ステップを微分可能なプログラムとして定式化し,mlモデルと共同で学習する方法について,初期アイデアと一般的な原則を示す。 さらに、完全に差別化可能なMLパイプラインを実現するために、体系的に取り組まなければならない研究ロードマップとコア課題についても論じる。

In this paper, we present our vision of differentiable ML pipelines called DiffML to automate the construction of ML pipelines in an end-to-end fashion. The idea is that DiffML allows to jointly train not just the ML model itself but also the entire pipeline including data preprocessing steps, e.g., data cleaning, feature selection, etc. Our core idea is to formulate all pipeline steps in a differentiable way such that the entire pipeline can be trained using backpropagation. However, this is a non-trivial problem and opens up many new research questions. To show the feasibility of this direction, we demonstrate initial ideas and a general principle of how typical preprocessing steps such as data cleaning, feature selection and dataset selection can be formulated as differentiable programs and jointly learned with the ML model. Moreover, we discuss a research roadmap and core challenges that have to be systematically tackled to enable fully differentiable ML pipelines.
翻訳日:2022-07-05 16:52:38 公開日:2022-07-04
# 遠隔リンクモデリングによるフィールド展開WDMネットワークのスペクトルパワープロファイル最適化

Spectral Power Profile Optimization of Field-Deployed WDM Network by Remote Link Modeling ( http://arxiv.org/abs/2207.01336v1 )

ライセンス: Link先を確認
Rasmus T. Jones and Kyle R. H. Bottrill and Natsupa Taengnoi and Periklis Petropoulos and Metodi P. Yankov(参考訳) 単一アクセスポイントからマルチノードWDMネットワークのディジタルツインモデルを得る。 このモデルはネットワーク内の各リンクの送信電力プロファイルを予測・最適化するために使用され、最大2.2~dbのマージン改善がw.r.t.非最適化伝送が得られる。

A digital twin model of a multi-node WDM network is obtained from a single access point. The model is used to predict and optimize the transmit power profile for each link in the network and up to 2.2~dB of margin improvements are obtained w.r.t. unoptimized transmission.
翻訳日:2022-07-05 16:52:19 公開日:2022-07-04
# グラフベース集合被覆問題に対するニューラルネットワークによるカラム生成高速化アルゴリズム

The Neural-Prediction based Acceleration Algorithm of Column Generation for Graph-Based Set Covering Problems ( http://arxiv.org/abs/2207.01411v1 )

ライセンス: Link先を確認
Haofeng Yuan, Peng Jiang and Shiji Song(参考訳) 集合被覆問題は組合せ最適化問題の重要なクラスであり、多くの分野で広く適用され研究されている。 本稿では,グラフに基づく集合被覆問題の解法として,ニューラルネットワークを用いたカラム生成アルゴリズムを提案する。 グラフニューラルネットワークに基づくニューラル予測モデルを用いて,各エッジに対する最終解に含まれる確率を予測する。 我々のCG-Pアルゴリズムは、予測確率の高いエッジのみを含む縮小グラフを構築し、このグラフ削減プロセスは解処理を著しく高速化する。 鉄道員のスケジューリング問題に対するCG-Pアルゴリズムの評価を行い,ベースライン列生成アルゴリズムよりも優れていた。 我々はCG-Pアルゴリズムに2つの解モードを提供する。 最適モードでは、時間コストを63.12%に抑えながら最適性を保証する解が得られる。 高速モードでは、わずか2.91%の計算時間で7.62%の最適ギャップを持つ準最適解が得られる。

Set covering problem is an important class of combinatorial optimization problems, which has been widely applied and studied in many fields. In this paper, we propose an improved column generation algorithm with neural prediction (CG-P) for solving graph-based set covering problems. We leverage a graph neural network based neural prediction model to predict the probability to be included in the final solution for each edge. Our CG-P algorithm constructs a reduced graph that only contains the edges with higher predicted probability, and this graph reduction process significantly speeds up the solution process. We evaluate the CG-P algorithm on railway crew scheduling problems and it outperforms the baseline column generation algorithm. We provide two solution modes for our CG-P algorithm. In the optimal mode, we can obtain a solution with an optimality guarantee while reducing the time cost to 63.12%. In the fast mode, we can obtain a sub-optimal solution with a 7.62% optimality gap in only 2.91% computation time.
翻訳日:2022-07-05 16:50:58 公開日:2022-07-04
# 教育用対話型シミュレーションにおける初期予測の一般化手法

Generalisable Methods for Early Prediction in Interactive Simulations for Education ( http://arxiv.org/abs/2207.01457v1 )

ライセンス: Link先を確認
Jade Ma\"i Cock and Mirko Marras and Christian Giang and Tanja K\"aser(参考訳) 対話型シミュレーションにより、学生は自身の探索を通じて科学的現象の基本的な原理を発見できる。 残念ながら、学生はこれらの環境で効果的に学ぶのに苦労することが多い。 期待性能に基づくシミュレーションにおける学生のインタラクションデータの分類は、適応的な指導を可能にし、その結果、生徒の学習を改善する可能性を秘めている。 この分野でのこれまでの研究は主に、特定の予測モデルとシミュレーションに限定されたa-posteriori分析や研究に焦点が当てられている。 本稿では,対話型シミュレーションによる学生のクリックストリームデータに基づく概念理解の早期予測のためのモデルの品質と一般化可能性について検討する。 まず,学生の理解度をタスク内パフォーマンスを通して測定する。 そこで,我々は,クリックストリームデータから,シミュレーションの状態と学生の行動の両方を符号化する新しいタイプの特徴を提案する。 我々は最終的に、これらの特徴をGRUベースのモデルに反映し、注意を払わずに予測することを提案する。 2つの異なるシミュレーションと2つの異なる集団による実験により、提案モデルが浅層学習ベースラインを上回り、異なる学習環境や集団により良い一般化が得られた。 モデルへの注意の取り込みは、効果的な調査の観点から解釈可能性を高める。 ソースコードはgithubから入手できる(https://github.com/epfl-ml4ed/beerslaw-lab.git)。

Interactive simulations allow students to discover the underlying principles of a scientific phenomenon through their own exploration. Unfortunately, students often struggle to learn effectively in these environments. Classifying students' interaction data in the simulations based on their expected performance has the potential to enable adaptive guidance and consequently improve students' learning. Previous research in this field has mainly focused on a-posteriori analyses or investigations limited to one specific predictive model and simulation. In this paper, we investigate the quality and generalisability of models for an early prediction of conceptual understanding based on clickstream data of students across interactive simulations. We first measure the students' conceptual understanding through their in-task performance. Then, we suggest a novel type of features that, starting from clickstream data, encodes both the state of the simulation and the action performed by the student. We finally propose to feed these features into GRU-based models, with and without attention, for prediction. Experiments on two different simulations and with two different populations show that our proposed models outperform shallow learning baselines and better generalise to different learning environments and populations. The inclusion of attention into the model increases interpretability in terms of effective inquiry. The source code is available on Github (https://github.com/epfl-ml4ed/beerslaw-lab.git).
翻訳日:2022-07-05 16:50:45 公開日:2022-07-04
# (参考訳) 転帰学習と重み付き損失を伴う畳み込みニューラルネットワーク(cnn)を用いたアルツハイマー病の分類

Classification of Alzheimer's Disease Using the Convolutional Neural Network (CNN) with Transfer Learning and Weighted Loss ( http://arxiv.org/abs/2207.01584v1 )

ライセンス: CC BY 4.0
Muhammad Wildan Oktavian, Novanto Yudistira, Achmad Ridok(参考訳) アルツハイマー病は進行性神経変性疾患であり、認知機能の患者を徐々に失い、死に至る。 今日の技術の進歩により、MRIスキャンによりアルツハイマー病を検出することができる。 したがって、MRIはアルツハイマー病の進行の診断と解析に最もよく用いられる技術である。 この技術により、アルツハイマー病の早期診断における画像認識は機械学習を用いて自動的に実現できる。 機械学習には多くの利点があるが、ディープラーニングの利用は、より強力な学習能力を持ち、画像認識問題を解決するのにより適するため、より広く適用されている。 しかし、大規模なデータセットの必要性、大規模なコンピューティングリソースの必要性、過度な適合や不適合を防ぐために注意深くパラメータ設定を必要とすることなど、ディープラーニングを実装する上で直面する課題はいくつかある。 深層学習を用いてアルツハイマー病を分類する課題に対応するために,Residual Network 18 Layer(ResNet-18)アーキテクチャを用いた畳み込みニューラルネットワーク(CNN)手法を提案する。 大規模でバランスの取れたデータセットの必要性を克服するために、ImageNetからの転送学習を使用し、各クラスが同じ重みを持つように損失関数値を重み付けする。 また,ネットワークアクティベーション機能をmishアクティベーション関数に変更し,精度を向上させる実験を行った。 その結果, 伝達学習, 重み付け損失, およびmish活性化関数を用いて, モデルの精度は88.3 %であった。 この精度値は、69.1 %の精度しか得られないベースラインモデルから増加する。

Alzheimer's disease is a progressive neurodegenerative disorder that gradually deprives the patient of cognitive function and can end in death. With the advancement of technology today, it is possible to detect Alzheimer's disease through Magnetic Resonance Imaging (MRI) scans. So that MRI is the technique most often used for the diagnosis and analysis of the progress of Alzheimer's disease. With this technology, image recognition in the early diagnosis of Alzheimer's disease can be achieved automatically using machine learning. Although machine learning has many advantages, currently the use of deep learning is more widely applied because it has stronger learning capabilities and is more suitable for solving image recognition problems. However, there are still several challenges that must be faced to implement deep learning, such as the need for large datasets, requiring large computing resources, and requiring careful parameter setting to prevent overfitting or underfitting. In responding to the challenge of classifying Alzheimer's disease using deep learning, this study propose the Convolutional Neural Network (CNN) method with the Residual Network 18 Layer (ResNet-18) architecture. To overcome the need for a large and balanced dataset, transfer learning from ImageNet is used and weighting the loss function values so that each class has the same weight. And also in this study conducted an experiment by changing the network activation function to a mish activation function to increase accuracy. From the results of the tests that have been carried out, the accuracy of the model is 88.3 % using transfer learning, weighted loss and the mish activation function. This accuracy value increases from the baseline model which only gets an accuracy of 69.1 %.
翻訳日:2022-07-05 16:44:05 公開日:2022-07-04
# エッジにおける持続可能なAI処理

Sustainable AI Processing at the Edge ( http://arxiv.org/abs/2207.01209v1 )

ライセンス: Link先を確認
S\'ebastien Ollivier, Sheng Li, Yue Tang, Chayanika Chaudhuri, Peipei Zhou, Xulong Tang, Jingtong Hu, and Alex K. Jones (University of Pittsburgh)(参考訳) エッジコンピューティングは、通信遅延をクラウドで処理することなく、モバイルデバイスをサポートする機械学習アルゴリズムを加速するための一般的なターゲットである。 機械学習のエッジデプロイメントは主に、インストールに対する制約(サイズ、重さ、パワー)のスワップなど、従来の関心事を考慮する。 しかしながら、これらの指標は、エンボディドエネルギーと炭素からの重要な貢献を考えると、コンピューティングの環境への影響を考えるのに十分ではない。 本稿では,畳み込みニューラルネットワーク加速度エンジンの推論とオンライントレーニングのトレードオフについて検討する。 特に、PIM(Process-in-Memory)アプローチ、モバイルGPUアクセラレータ、最近リリースされたFPGAの使用について検討し、新しいRacetrackメモリPIMと比較する。 レーストラックメモリPIMでPIM対応DDR3をリプレースすると、そのエンボディエネルギーは1年で回復する。 高アクティビティ比では、モバイルGPUはより持続性が高いが、PIM対応のRacetrackメモリよりもエボデードエネルギが高い。

Edge computing is a popular target for accelerating machine learning algorithms supporting mobile devices without requiring the communication latencies to handle them in the cloud. Edge deployments of machine learning primarily consider traditional concerns such as SWaP constraints (Size, Weight, and Power) for their installations. However, such metrics are not entirely sufficient to consider environmental impacts from computing given the significant contributions from embodied energy and carbon. In this paper we explore the tradeoffs of convolutional neural network acceleration engines for both inference and on-line training. In particular, we explore the use of processing-in-memory (PIM) approaches, mobile GPU accelerators, and recently released FPGAs, and compare them with novel Racetrack memory PIM. Replacing PIM-enabled DDR3 with Racetrack memory PIM can recover its embodied energy as quickly as 1 year. For high activity ratios, mobile GPUs can be more sustainable but have higher embodied energy to overcome compared to PIM-enabled Racetrack memory.
翻訳日:2022-07-05 16:32:45 公開日:2022-07-04
# ソフトウェア工学におけるボットの現状と将来

The Present and Future of Bots in Software Engineering ( http://arxiv.org/abs/2207.01254v1 )

ライセンス: Link先を確認
Emad Shihab and Stefan Wagner and Marco A. Gerosa and Mairieli Wessel and Jordi Cabot(参考訳) ソフトウェアエンジニアリングボットや、ユーザーが投稿したツールやメッセージによって引き起こされるイベントに反応し、さまざまなドメインで自動タスクを実行するアプリケーションなど、大規模な採用を目の当たりにしています。 このテーマの問題は、これらのボットの経験と課題を記述している。

We are witnessing a massive adoption of software engineering bots, applications that react to events triggered by tools and messages posted by users and run automated tasks in response, in a variety of domains. This thematic issues describes experiences and challenges with these bots.
翻訳日:2022-07-05 16:32:29 公開日:2022-07-04
# 量子ニューラルネットワークの圧縮

Quantum Neural Network Compression ( http://arxiv.org/abs/2207.01578v1 )

ライセンス: Link先を確認
Zhirui Hu, Peiyan Dong, Zhepeng Wang, Youzuo Lin, Yanzhi Wang, Weiwen Jiang(参考訳) プルーニングや量子化などのモデル圧縮は、リソース制限された古典的デバイス上でのニューラルネットワークの最適化に広く応用されている。 近年、量子コンピュータ(すなわち量子ニューラルネットワーク)上のニューラルネットワークの一種である変分量子回路(vqc)への関心が高まっている。 近い将来の量子デバイスは高いノイズと限られた資源(量子ビット、量子ビットなど)を持つことが知られているが、量子ニューラルネットワークの圧縮方法はまだ十分に研究されていない。 量子シナリオに古典的な圧縮技術を適用するのは簡単だと思います。 しかし,本論文は,量子ニューラルネットワークと古典ニューラルネットワークの圧縮に違いがあることを明らかにする。 この結果から,圧縮プロセスにはコンパイル/トランススピル化が関与する必要があると結論づけた。 そこで我々は,量子ニューラルネットワーク(QNN)を圧縮するための,最初の体系的フレームワークであるCompVQCを提案する。 CompVQCでは、乗算器(ADMM)アプローチの交互方向法に基づく新しい圧縮アルゴリズムが鍵となる。 実験では、CompVQCの利点が示され、回路深さ(ほぼ2.5%)が減少し、無視できる精度が低下する(<1%)。 もう一つの有望な真実は、我々のCompVQCは、近い将来のノイズ量子デバイスにおけるQNNの堅牢性を促進することができるということです。

Model compression, such as pruning and quantization, has been widely applied to optimize neural networks on resource-limited classical devices. Recently, there are growing interest in variational quantum circuits (VQC), that is, a type of neural network on quantum computers (a.k.a., quantum neural networks). It is well known that the near-term quantum devices have high noise and limited resources (i.e., quantum bits, qubits); yet, how to compress quantum neural networks has not been thoroughly studied. One might think it is straightforward to apply the classical compression techniques to quantum scenarios. However, this paper reveals that there exist differences between the compression of quantum and classical neural networks. Based on our observations, we claim that the compilation/traspilation has to be involved in the compression process. On top of this, we propose the very first systematical framework, namely CompVQC, to compress quantum neural networks (QNNs).In CompVQC, the key component is a novel compression algorithm, which is based on the alternating direction method of multipliers (ADMM) approach. Experiments demonstrate the advantage of the CompVQC, reducing the circuit depth (almost over 2.5 %) with a negligible accuracy drop (<1%), which outperforms other competitors. Another promising truth is our CompVQC can indeed promote the robustness of the QNN on the near-term noisy quantum devices.
翻訳日:2022-07-05 16:32:24 公開日:2022-07-04
# VIP-SLAM - RGB-Dビジュアル慣性平面SLAM

VIP-SLAM: An Efficient Tightly-Coupled RGB-D Visual Inertial Planar SLAM ( http://arxiv.org/abs/2207.01158v1 )

ライセンス: Link先を確認
Danpeng Chen, Shuai Wang, Weijian Xie, Shangjin Zhai, Nan Wang, Hujun Bao, Guofeng Zhang(参考訳) 本稿では,RGB,Depth,IMU,構造化平面情報とを融合した密結合SLAMシステムを提案する。 従来のスパースポイントに基づくSLAMシステムは、常に環境をモデル化するためのマップポイントの質量を保持する。 膨大な数のマップポイントが計算の複雑さをもたらし、モバイルデバイスにデプロイすることが困難になります。 一方、平面は人造環境、特に屋内環境において一般的な構造である。 通常、少数の飛行機を使って大きなシーンを表現できます。 ですから、この記事の主な目的は、スパースポイントベースのslamの複雑さを下げることです。 我々は,数平面と地図点からなる軽量なバックエンドマップを構築し,同一以上の精度で効率的なバンドル調整(BA)を実現する。 ホモグラフィ制約を用いて、最適化における多数の平面点のパラメータを排除し、BAの複雑さを低減する。 ホモグラフィおよび点対平面制約におけるパラメータと測定値を分離し、測定部を圧縮し、baの速度をさらに効果的に改善する。 また,平面情報をシステム全体に統合し,ロバストな平面特徴抽出,データアソシエーション,グローバルな一貫した平面再構成を実現する。 最後に,アブレーション実験を行い,シミュレーションや実環境データにおいて同様の手法との比較を行った。 システムは精度と効率において明らかな利点を享受する。 平面パラメータが最適化に関わっているとしても、平面構造を用いてバックエンドマップを効果的に単純化する。 グローバルバンドルの調整はスパースポイントベースのslamアルゴリズムの約2倍高速である。

In this paper, we propose a tightly-coupled SLAM system fused with RGB, Depth, IMU and structured plane information. Traditional sparse points based SLAM systems always maintain a mass of map points to model the environment. Huge number of map points bring us a high computational complexity, making it difficult to be deployed on mobile devices. On the other hand, planes are common structures in man-made environment especially in indoor environments. We usually can use a small number of planes to represent a large scene. So the main purpose of this article is to decrease the high complexity of sparse points based SLAM. We build a lightweight back-end map which consists of a few planes and map points to achieve efficient bundle adjustment (BA) with an equal or better accuracy. We use homography constraints to eliminate the parameters of numerous plane points in the optimization and reduce the complexity of BA. We separate the parameters and measurements in homography and point-to-plane constraints and compress the measurements part to further effectively improve the speed of BA. We also integrate the plane information into the whole system to realize robust planar feature extraction, data association, and global consistent planar reconstruction. Finally, we perform an ablation study and compare our method with similar methods in simulation and real environment data. Our system achieves obvious advantages in accuracy and efficiency. Even if the plane parameters are involved in the optimization, we effectively simplify the back-end map by using planar structures. The global bundle adjustment is nearly 2 times faster than the sparse points based SLAM algorithm.
翻訳日:2022-07-05 16:26:33 公開日:2022-07-04
# ビデオ行動認識モデルの大規模ロバスト性解析

Large-scale Robustness Analysis of Video Action Recognition Models ( http://arxiv.org/abs/2207.01398v1 )

ライセンス: Link先を確認
Madeline C. Schiappa, Naman Biyani, Shruti Vyas, Hamid Palangi, Vibhav Vineet, Yogesh Rawat(参考訳) 近年,映像動作認識の進歩がみられた。 convolutional neural network (cnn) に基づいたモデルがいくつかあり、既存のベンチマークデータセットで最先端のパフォーマンスを提供するトランスフォーマティブベースのアプローチもいくつかある。 しかし、これらのモデルに対して大規模なロバスト性は研究されていない。 本研究では,映像動作認識のための既存モデルの大規模ロバストネス解析を行う。 我々は主に,逆摂動ではなく実世界の摂動による分布変化に対するロバスト性に注目している。 我々は,HMDB-51P,UCF-101P,Kinetics-400P,SSv2Pの4つの異なるベンチマークデータセットを提案し,90の異なる摂動に対する6種類の動作認識モデルの堅牢性を検討した。 この研究は興味深い発見をいくつか明らかにしている。 1)変換器ベースモデルはCNNベースモデルと比較した場合,ほとんどの摂動に対して一貫して堅牢である。 2)プリトレーニングは、トランスフォーマーベースのモデルがcnnベースのモデルと異なる摂動に対してより堅牢になるのに役立つ。 3)すべてのモデルでは,ssv2よりもssv2データセット上での時間的摂動にロバストであるが,ssv2では時間的情報よりも,ssv2データセット上での行動ラベル予測に時間的情報がより重要であることが示唆された。 この研究が、堅牢なビデオアクション認識における将来の研究のベンチマークとなることを期待している。 プロジェクトの詳細はhttps://rose-ar.github.io/で確認できる。

We have seen a great progress in video action recognition in recent years. There are several models based on convolutional neural network (CNN) with some recent transformer based approaches which provide state-of-the-art performance on existing benchmark datasets. However, large-scale robustness has not been studied for these models which is a critical aspect for real-world applications. In this work we perform a large-scale robustness analysis of these existing models for video action recognition. We mainly focus on robustness against distribution shifts due to real-world perturbations instead of adversarial perturbations. We propose four different benchmark datasets, HMDB-51P, UCF-101P, Kinetics-400P, and SSv2P and study the robustness of six different state-of-the-art action recognition models against 90 different perturbations. The study reveals some interesting findings, 1) transformer based models are consistently more robust against most of the perturbations when compared with CNN based models, 2) Pretraining helps Transformer based models to be more robust to different perturbations than CNN based models, and 3) All of the studied models are robust to temporal perturbation on the Kinetics dataset, but not on SSv2; this suggests temporal information is much more important for action label prediction on SSv2 datasets than on the Kinetics dataset. We hope that this study will serve as a benchmark for future research in robust video action recognition. More details about the project are available at https://rose-ar.github.io/.
翻訳日:2022-07-05 16:26:09 公開日:2022-07-04
# VECtor: マルチセンサSLAMのためのVersatile Event-Centricベンチマーク

VECtor: A Versatile Event-Centric Benchmark for Multi-Sensor SLAM ( http://arxiv.org/abs/2207.01404v1 )

ライセンス: Link先を確認
Ling Gao and Yuxuan Liang and Jiaqi Yang and Shaoxun Wu and Chenyu Wang and Jiaben Chen and Laurent Kneip(参考訳) イベントカメラは、高ダイナミックな状況や難易度照明の状況において、通常のカメラを補完する強い可能性を秘めている。 イベントカメラの追加の恩恵を受ける可能性のある重要な問題は、同時ローカライゼーションとマッピング(SLAM)によって与えられる。 しかし,イベント包摂型マルチセンサSLAMの進展を保証するためには,新しいベンチマークシーケンスが必要である。 私たちのコントリビューションは、イベントベースのステレオカメラ、通常のステレオカメラ、多重深度センサー、慣性測定ユニットを含むマルチセンサー設定で収集された最初のベンチマークデータセットである。 セットアップは完全にハードウェア同期され、正確な余分なキャリブレーションが行われた。 全てのシーケンスは、モーションキャプチャシステムのような高度に正確な外部参照装置によってキャプチャされた地上の真実データと共にくる。 個々のシーケンスには、小規模と大規模の両方の環境が含まれ、動的視覚センサーがターゲットとする特定の課題をカバーする。

Event cameras have recently gained in popularity as they hold strong potential to complement regular cameras in situations of high dynamics or challenging illumination. An important problem that may benefit from the addition of an event camera is given by Simultaneous Localization And Mapping (SLAM). However, in order to ensure progress on event-inclusive multi-sensor SLAM, novel benchmark sequences are needed. Our contribution is the first complete set of benchmark datasets captured with a multi-sensor setup containing an event-based stereo camera, a regular stereo camera, multiple depth sensors, and an inertial measurement unit. The setup is fully hardware-synchronized and underwent accurate extrinsic calibration. All sequences come with ground truth data captured by highly accurate external reference devices such as a motion capture system. Individual sequences include both small and large-scale environments, and cover the specific challenges targeted by dynamic vision sensors.
翻訳日:2022-07-05 16:25:45 公開日:2022-07-04
# 時系列列における遠絡ランダムと周期効果

Disentangling Random and Cyclic Effects in Time-Lapse Sequences ( http://arxiv.org/abs/2207.01413v1 )

ライセンス: Link先を確認
Erik H\"ark\"onen, Miika Aittala, Tuomas Kynk\"a\"anniemi, Samuli Laine, Timo Aila, Jaakko Lehtinen(参考訳) タイムラプス画像シーケンスは、リアルタイムに観察するには遅すぎる動的プロセスに対する視覚的に魅力的な洞察を提供する。 しかし、ビデオのように長いタイムラプスのシーケンスを再生すると、天気などのランダムな効果や、昼夜サイクルのような循環的な効果によって、邪魔になることが多い。 本稿では,画像の全体的な傾向,循環的効果,ランダムな効果を個別に後続的に制御し,この目標を達成するデータ駆動生成モデルに基づく手法について述べる。 これにより、入力画像だけでは不可能な方法でシーケンスを“再レンダリング”することが可能になります。 例えば、選択可能な一貫した天候の下で、植物の成長に焦点を当てるために長い配列を安定させることができる。 提案手法は,時間経過シーケンスの時間座標を条件としたGAN(Generative Adversarial Networks)に基づく。 我々のアーキテクチャと訓練手順は、GANの潜在空間を用いて天気などのランダムな変動をモデル化し、特定の周波数のフーリエ特徴を用いて条件付け時間ラベルをモデルに入力することにより、全体的な傾向と周期的な変動を解き放つように設計されている。 我々のモデルはトレーニングデータの欠陥に対して堅牢であることを示し、一時的な閉塞、不均一フレーム間隔、欠落フレームなどの長い時間経過シーケンスをキャプチャする実践的な困難を修正できることを示した。

Time-lapse image sequences offer visually compelling insights into dynamic processes that are too slow to observe in real time. However, playing a long time-lapse sequence back as a video often results in distracting flicker due to random effects, such as weather, as well as cyclic effects, such as the day-night cycle. We introduce the problem of disentangling time-lapse sequences in a way that allows separate, after-the-fact control of overall trends, cyclic effects, and random effects in the images, and describe a technique based on data-driven generative models that achieves this goal. This enables us to "re-render" the sequences in ways that would not be possible with the input images alone. For example, we can stabilize a long sequence to focus on plant growth over many months, under selectable, consistent weather. Our approach is based on Generative Adversarial Networks (GAN) that are conditioned with the time coordinate of the time-lapse sequence. Our architecture and training procedure are designed so that the networks learn to model random variations, such as weather, using the GAN's latent space, and to disentangle overall trends and cyclic variations by feeding the conditioning time label to the model using Fourier features with specific frequencies. We show that our models are robust to defects in the training data, enabling us to amend some of the practical difficulties in capturing long time-lapse sequences, such as temporary occlusions, uneven frame spacing, and missing frames.
翻訳日:2022-07-05 16:25:28 公開日:2022-07-04
# ライダーポイントクラウドのためのオープンワールドセマンティクスセグメンテーション

Open-world Semantic Segmentation for LIDAR Point Clouds ( http://arxiv.org/abs/2207.01452v1 )

ライセンス: Link先を確認
Jun Cen, Peng Yun, Shiwei Zhang, Junhao Cai, Di Luan, Michael Yu Wang, Ming Liu, Mingqian Tang(参考訳) 現在のlidarセマンティクスセグメンテーションの手法は、クローズドセットで静的であるため、現実のアプリケーション、例えば自動運転に十分堅牢ではない。 クローズドセットの仮定により、ネットワークはトレーニングされたクラスのラベルのみを出力できる。 そこで本研究では,lidar point cloudのためのオープンワールドセマンティクスセグメンテーションタスクを提案する。 1)オープンセットセマンティックセグメンテーションを用いて古クラスと新クラスを識別し、 2) 古いクラスを忘れることなく,段階的学習を用いて,新たなオブジェクトを既存の知識ベースに徐々に組み込む。 この目的のために,オープンセット意味セグメンテーションとインクリメンタル学習問題の両方に対して,汎用アーキテクチャを提供するための冗長性分類器(real)フレームワークを提案する。 実験結果から,REALはSemanticKITTIおよびnuScenesデータセットのオープンセットセマンティックセマンティックセマンティックセマンティクスタスクにおいて,同時に最先端の性能を達成でき,漸進学習において大きなマージンを持つ壊滅的忘れ問題を軽減することができることがわかった。

Current methods for LIDAR semantic segmentation are not robust enough for real-world applications, e.g., autonomous driving, since it is closed-set and static. The closed-set assumption makes the network only able to output labels of trained classes, even for objects never seen before, while a static network cannot update its knowledge base according to what it has seen. Therefore, in this work, we propose the open-world semantic segmentation task for LIDAR point clouds, which aims to 1) identify both old and novel classes using open-set semantic segmentation, and 2) gradually incorporate novel objects into the existing knowledge base using incremental learning without forgetting old classes. For this purpose, we propose a REdundAncy cLassifier (REAL) framework to provide a general architecture for both the open-set semantic segmentation and incremental learning problems. The experimental results show that REAL can simultaneously achieves state-of-the-art performance in the open-set semantic segmentation task on the SemanticKITTI and nuScenes datasets, and alleviate the catastrophic forgetting problem with a large margin during incremental learning.
翻訳日:2022-07-05 16:25:03 公開日:2022-07-04
# PVO:Panoptic Visual Odometry

PVO: Panoptic Visual Odometry ( http://arxiv.org/abs/2207.01610v1 )

ライセンス: Link先を確認
Weicai Ye, Xinyue Lan, Shuo Chen, Yuhang Ming, Xingyuan Yu, Hujun Bao, Zhaopeng Cui, Guofeng Zhang(参考訳) 本稿では,シーンの動き,形状,パンオプティカルセグメンテーション情報をより包括的にモデル化するために,pvoと呼ばれる新しいパンオプティカルビジュアルオドメトリフレームワークを提案する。 pvoは、視覚オドメトリ(vo)とビデオパノプティックセグメンテーション(vps)を統一ビューでモデル化し、2つのタスクが相互に容易になるようにした。 具体的には、イメージpanopticセグメンテーションで動作するvoモジュールにpanoptic updateモジュールを導入する。 このPanoptic-Enhanced VOモジュールは、最適化されたカメラポーズの重みを調整することで、カメラポーズ推定における動的オブジェクトの干渉をトリムすることができる。 一方、VO強化VPSモジュールは、VOモジュールから得られるカメラポーズ、深さ、光学フローなどの幾何学的情報を用いて、現在のフレームのパノプティックセグメンテーション結果を隣接するフレームに融合することにより、セグメンテーション精度を向上させる。 これら2つのモジュールは反復最適化によって相互に寄与する。 広汎な実験により、PVOは視覚計測とビデオパノプティクスのセグメンテーションの両方において最先端の手法より優れていることが示された。 コードとデータはプロジェクトwebページにある。 \urlstyle{tt} \textcolor{url_color}{\url{https://zju3dv.github.io/pvo/}}。

We present a novel panoptic visual odometry framework, termed PVO, to achieve a more comprehensive modeling of the scene's motion, geometry, and panoptic segmentation information. PVO models visual odometry (VO) and video panoptic segmentation (VPS) in a unified view, enabling the two tasks to facilitate each other. Specifically, we introduce a panoptic update module into the VO module, which operates on the image panoptic segmentation. This Panoptic-Enhanced VO module can trim the interference of dynamic objects in the camera pose estimation by adjusting the weights of optimized camera poses. On the other hand, the VO-Enhanced VPS module improves the segmentation accuracy by fusing the panoptic segmentation result of the current frame on the fly to the adjacent frames, using geometric information such as camera pose, depth, and optical flow obtained from the VO module. These two modules contribute to each other through a recurrent iterative optimization. Extensive experiments demonstrate that PVO outperforms state-of-the-art methods in both visual odometry and video panoptic segmentation tasks. Code and data are available on the project webpage: \urlstyle{tt} \textcolor{url_color}{\url{https://zju3dv.github.io/pvo/}}.
翻訳日:2022-07-05 16:23:38 公開日:2022-07-04
# マルチリムレスロボットの自由傾きを可能にする分散最適化による同時接触リッチ把持と移動

Simultaneous Contact-Rich Grasping and Locomotion via Distributed Optimization Enabling Free-Climbing for Multi-Limbed Robots ( http://arxiv.org/abs/2207.01418v1 )

ライセンス: Link先を確認
Yuki Shirai, Xuan Lin, Alexander Schperberg, Yusuke Tanaka, Hayato Kato, Varit Vichathorn, Dennis Hong(参考訳) 脚付きロボットの移動計画は非常に成功しているが,足型多指握りロボットの動作計画はまだ未完成である。 本稿では,ロコモーション(例えば,中心運動力学),グルーピング(例えば,パッチコンタクト),接触(例えば歩行)問題を同時に解くための効率的な動作計画フレームワークを提案する。 計画プロセスの高速化を目的として,従来の大規模混合整数非線形計画法(MINLP)を解くために,ADMM(Alternating Direction Methods of Multipliers)に基づく分散最適化フレームワークを提案する。 その結果得られたフレームワークは、混合整数二次プログラミング(miqp)を使用して接触および非線形プログラミング(nlp)を解き、より計算が容易でパラメータに対する感度が低い非線形ダイナミクスを解決する。 また,マイクロスピングリップによる限界面からのパッチ接触制約を明示的に実施する。 提案手法をハードウェア実験で実証し,傾斜角45{\deg}における自由傾きを含む様々な動作を,より短い計画時間で実現できることを示した。

While motion planning of locomotion for legged robots has shown great success, motion planning for legged robots with dexterous multi-finger grasping is not mature yet. We present an efficient motion planning framework for simultaneously solving locomotion (e.g., centroidal dynamics), grasping (e.g., patch contact), and contact (e.g., gait) problems. To accelerate the planning process, we propose distributed optimization frameworks based on Alternating Direction Methods of Multipliers (ADMM) to solve the original large-scale Mixed-Integer NonLinear Programming (MINLP). The resulting frameworks use Mixed-Integer Quadratic Programming (MIQP) to solve contact and NonLinear Programming (NLP) to solve nonlinear dynamics, which are more computationally tractable and less sensitive to parameters. Also, we explicitly enforce patch contact constraints from limit surfaces with micro-spine grippers. We demonstrate our proposed framework in the hardware experiments, showing that the multi-limbed robot is able to realize various motions including free-climbing at a slope angle 45{\deg} with a much shorter planning time.
翻訳日:2022-07-05 16:21:58 公開日:2022-07-04
# 動的ランク付けと翻訳同期

Dynamic Ranking and Translation Synchronization ( http://arxiv.org/abs/2207.01455v1 )

ライセンス: Link先を確認
Ernesto Araya, Eglantine Karl\'e, Hemant Tyagi(参考訳) スポーツトーナメントやレコメンデーションシステムなど,多くのアプリケーションにおいて,1組の$n$アイテム(またはプレイヤー)のペア比較からなる廃棄データがある。 目的は、このデータを使って各項目の潜在強度と/またはランキングを推測することである。 この問題の既存の結果は、主に単一の比較グラフ$G$からなる設定に焦点を当てている。 しかし、ペア比較データが時間とともに進化するシナリオ(例えばスポーツトーナメント)が存在する。 この動的設定の理論的結果は比較的限定的であり,本論文の焦点となっている。 我々は, 動的設定への \emph{translation synchro}問題の拡張について検討する。 ここで $\mathcal{T} \subset [0,1]$ は時間領域を表す格子であり、各項目 $i$ と time $t\in \mathcal{T}$ に対して、関連する未知の強度パラメータ $z^*_{t,i}\in \mathbb{R}$ が存在する。 我々は、$t\in\mathcal{T}$ に対して、強度ベクトル $z^*_t=(z^*_{t,1},\cdots,z^*_{t,n})$ を $z^*_{t,i}-z^*_{t,j}$ のノイズ測定から回復することを目指している。 我々は,$z^*_t$ が$t$ で滑らかに発展することを仮定し,smooness-penalized least squares 法に基づく2つの推定器と,smoothness operator の低周波固有空間への射影に基づく2つの推定器を提案する。 どちらの推定子に対しても、$g_t$ がすべての$t\in \mathcal{t}$ に対して連結であると仮定して、$\ell_2$ 推定誤差の有限なサンプル境界を提供し、グリッドサイズ $|\mathcal{t}|$ の点で提案手法の一貫性を証明する。 理論的な知見を合成データと実データの実験で補完する。

In many applications, such as sport tournaments or recommendation systems, we have at our disposal data consisting of pairwise comparisons between a set of $n$ items (or players). The objective is to use this data to infer the latent strength of each item and/or their ranking. Existing results for this problem predominantly focus on the setting consisting of a single comparison graph $G$. However, there exist scenarios (e.g., sports tournaments) where the the pairwise comparison data evolves with time. Theoretical results for this dynamic setting are relatively limited and is the focus of this paper. We study an extension of the \emph{translation synchronization} problem, to the dynamic setting. In this setup, we are given a sequence of comparison graphs $(G_t)_{t\in \mathcal{T}}$, where $\mathcal{T} \subset [0,1]$ is a grid representing the time domain, and for each item $i$ and time $t\in \mathcal{T}$ there is an associated unknown strength parameter $z^*_{t,i}\in \mathbb{R}$. We aim to recover, for $t\in\mathcal{T}$, the strength vector $z^*_t=(z^*_{t,1},\cdots,z^*_{t,n})$ from noisy measurements of $z^*_{t,i}-z^*_{t,j}$, where $\{i,j\}$ is an edge in $G_t$. Assuming that $z^*_t$ evolves smoothly in $t$, we propose two estimators -- one based on a smoothness-penalized least squares approach and the other based on projection onto the low frequency eigenspace of a suitable smoothness operator. For both estimators, we provide finite sample bounds for the $\ell_2$ estimation error under the assumption that $G_t$ is connected for all $t\in \mathcal{T}$, thus proving the consistency of the proposed methods in terms of the grid size $|\mathcal{T}|$. We complement our theoretical findings with experiments on synthetic and real data.
翻訳日:2022-07-05 16:21:38 公開日:2022-07-04
# (参考訳) fMRIコネクティビティのための解釈可能な融合分析フレームワーク:自己注意機構と潜在空間項目応答モデル

Interpretable Fusion Analytics Framework for fMRI Connectivity: Self-Attention Mechanism and Latent Space Item-Response Model ( http://arxiv.org/abs/2207.01581v1 )

ライセンス: CC BY 4.0
Jeong-Jae Kim, Yeseul Jeon, SuMin Yu, Junggu Choi, Sanghoon Han(参考訳) 脳のfMRI信号に基づく深層学習を用いて認知障害疾患を分類する試みがいくつかある。 しかし、ディープラーニングは隠されたブラックボックスモデルであり、分類のプロセスを理解するのが困難である。 この問題に対処するために,深層学習プロセスからの分類結果を解釈する新しい分析フレームワークを提案する。 興味領域(ROI)関数接続ネットワーク(FCN)を,その類似した信号パターンに基づいて埋め込み関数によって導出する。 そして,自己注意型深層学習モデルを用いて,そのFCNに基づいて疾患を分類する。 最後に, 分類結果を解釈するために, 潜在空間アイテム-応答インタラクションネットワークモデルを用いて, 他の疾患と比較して異なる接続パターンを示す重要な機能を同定した。 この枠組みを4種類の認知障害に適用することにより,本手法が重要なROI関数の決定に有効であることを示す。

There have been several attempts to use deep learning based on brain fMRI signals to classify cognitive impairment diseases. However, deep learning is a hidden black box model that makes it difficult to interpret the process of classification. To address this issue, we propose a novel analytical framework that interprets the classification result from deep learning processes. We first derive the region of interest (ROI) functional connectivity network (FCN) by embedding functions based on their similar signal patterns. Then, using the self-attention equipped deep learning model, we classify diseases based on their FCN. Finally, in order to interpret the classification results, we employ a latent space item-response interaction network model to identify the significant functions that exhibit distinct connectivity patterns when compared to other diseases. The application of this proposed framework to the four types of cognitive impairment shows that our approach is valid for determining the significant ROI functions.
翻訳日:2022-07-05 16:15:23 公開日:2022-07-04
# 包括的評価とリーダーシップによる長期文書ランキングモデルの性能理解

Understanding Performance of Long-Document Ranking Models through Comprehensive Evaluation and Leaderboarding ( http://arxiv.org/abs/2207.01262v1 )

ライセンス: Link先を確認
Leonid Boytsov, Tianyi Lin, Fangwei Gao, Yutian Zhao, Jeffrey Huang, Eric Nyberg(参考訳) 2つの人気コレクション(ms marco文書とロバスト04)を用いて,最近の13種類の長文分類モデルの包括的評価を行った。 私たちのモデル動物園には、2つの特殊なTransformerモデル(Longformerなど)が含まれています。 その過程で,これらのモデルの学習と比較に関するいくつかの困難を文書化する。 意外なことに、単純なFirstPベースライン(典型的なTransformerモデルの入力シーケンス制約を満たすためにドキュメントをトランクする)は非常に効果的である。 この現象を説明するために,関連文(文書内)の分布を分析する。 また,ロバスト04とMS MARCOの文書は広く使用されているが,長期文書モデルのベンチマークには特に有用ではない。

We carry out a comprehensive evaluation of 13 recent models for ranking of long documents using two popular collections (MS MARCO documents and Robust04). Our model zoo includes two specialized Transformer models (such as Longformer) that can process long documents without the need to split them. Along the way, we document several difficulties regarding training and comparing such models. Somewhat surprisingly, we find the simple FirstP baseline (truncating documents to satisfy the input-sequence constraint of a typical Transformer model) to be quite effective. We analyze the distribution of relevant passages (inside documents) to explain this phenomenon. We further argue that, despite their widespread use, Robust04 and MS MARCO documents are not particularly useful for benchmarking of long-document models.
翻訳日:2022-07-05 15:46:23 公開日:2022-07-04
# Unify and Conquer: 音声特徴表現が多言語テキスト音声(TTS)に与える影響

Unify and Conquer: How Phonetic Feature Representation Affects Polyglot Text-To-Speech (TTS) ( http://arxiv.org/abs/2207.01547v1 )

ライセンス: Link先を確認
Ariadna Sanchez, Alessio Falai, Ziyao Zhang, Orazio Angelini, Kayoko Yanagisawa(参考訳) 多言語ニューラルテキスト音声(NTTS)システムの基本設計決定は、モデル内の入力言語的特徴をどのように表現するかである。 文学における様々なアプローチを見ると、2つの主要なパラダイムが出現し、統一され、別々の表現が生まれます。 前者は言語間の音声トークンの共有セットを使用し、後者は言語毎にユニークな音声トークンを使用する。 本稿では,両表現を訓練した多言語NTTSシステムモデルと比較した総合的研究を行う。 以上の結果から,統一アプローチは自然性とアクセントの両方において,より優れた言語間合成を実現することが判明した。 分離表現は、モデルの容量に影響を与える可能性がある統一表現よりも桁違いに多くのトークンを持つ傾向がある。 そこで我々は,表現型とトークン埋め込みの大きさとの相互作用を理解するため,アブレーション研究を行った。 この2つのパラダイムの違いは、特定のしきい値埋め込みサイズを超えるだけである。 本研究は,多言語NTTSシステム構築において,統一表現が望ましいパラダイムであることを示す。

An essential design decision for multilingual Neural Text-To-Speech (NTTS) systems is how to represent input linguistic features within the model. Looking at the wide variety of approaches in the literature, two main paradigms emerge, unified and separate representations. The former uses a shared set of phonetic tokens across languages, whereas the latter uses unique phonetic tokens for each language. In this paper, we conduct a comprehensive study comparing multilingual NTTS systems models trained with both representations. Our results reveal that the unified approach consistently achieves better cross-lingual synthesis with respect to both naturalness and accent. Separate representations tend to have an order of magnitude more tokens than unified ones, which may affect model capacity. For this reason, we carry out an ablation study to understand the interaction of the representation type with the size of the token embedding. We find that the difference between the two paradigms only emerges above a certain threshold embedding size. This study provides strong evidence that unified representations should be the preferred paradigm when building multilingual NTTS systems.
翻訳日:2022-07-05 15:46:11 公開日:2022-07-04
# あなたのフェアネスはどんなものか? 非知覚分布シフト下における公平性の評価と維持

How Robust is Your Fairness? Evaluating and Sustaining Fairness under Unseen Distribution Shifts ( http://arxiv.org/abs/2207.01168v1 )

ライセンス: Link先を確認
Haotao Wang, Junyuan Hong, Jiayu Zhou, Zhangyang Wang(参考訳) 近年、深層学習の公平性に対する懸念が高まっている。 既存の公正を意識した機械学習手法は主に流通データの公平性に焦点を当てている。 しかし,実世界のアプリケーションでは,トレーニングデータとテストデータ間の分散シフトが一般的である。 本稿では,まず,既存の方法によって達成される公平性が,わずかな分布シフトによって容易に破れることを示す。 そこで本研究では,未知分布の領域に一般化可能なロバストな公平性を実現するために,cuma(curvature matching)と呼ばれる新しいフェアネス学習法を提案する。 具体的には、CUMAは2つのグループの損失曲率分布を一致させることにより、多数派と少数派に類似した一般化能力を持つモデルを強制する。 提案手法を3つの人気フェアネスデータセットで評価する。 既存の方法と比較して、cumaは全体の正確性や分布内公平性を犠牲にすることなく、見えない分布シフト下で優れた公平性を達成している。

Increasing concerns have been raised on deep learning fairness in recent years. Existing fairness-aware machine learning methods mainly focus on the fairness of in-distribution data. However, in real-world applications, it is common to have distribution shift between the training and test data. In this paper, we first show that the fairness achieved by existing methods can be easily broken by slight distribution shifts. To solve this problem, we propose a novel fairness learning method termed CUrvature MAtching (CUMA), which can achieve robust fairness generalizable to unseen domains with unknown distributional shifts. Specifically, CUMA enforces the model to have similar generalization ability on the majority and minority groups, by matching the loss curvature distributions of the two groups. We evaluate our method on three popular fairness datasets. Compared with existing methods, CUMA achieves superior fairness under unseen distribution shifts, without sacrificing either the overall accuracy or the in-distribution fairness.
翻訳日:2022-07-05 15:42:32 公開日:2022-07-04
# アウトオブディストリビューションデータシナリオにおけるアクティブラーニングのためのpareto最適化

Pareto Optimization for Active Learning under Out-of-Distribution Data Scenarios ( http://arxiv.org/abs/2207.01190v1 )

ライセンス: Link先を確認
Xueying Zhan, Zeyu Dai, Qingzhong Wang, Qing Li, Haoyi Xiong, Dejing Dou, Antoni B. Chan(参考訳) プールベースのアクティブラーニング(AL)は、大きなラベル付きデータプールから情報付き未ラベルのサンプルを順次選択し、オラクル/アノテーションからラベルをクエリすることで、ラベルの最小化に成功している。 しかし、既存のalサンプリング戦略は、ラベルのないデータプールがターゲットタスクのクラスに属さないいくつかのデータサンプルを含む、out-of-distribution(ood)データシナリオではうまく機能しないかもしれない。 OODデータシナリオ下での優れたALパフォーマンスを達成することは、ALサンプリング戦略とOODサンプル検出との自然な衝突のため、難しい作業である。 ALは、現在の基本的な分類器(例えば、予測クラス確率が高いエントロピーを持つサンプル)によって分類されにくいデータを選択する一方、OODサンプルは、分布内データよりも予測クラス確率(高いエントロピー)が高い傾向にある。 本稿では,未ラベルデータプールからバッチサイズを固定した未ラベルサンプルの最適サブセットを選択する,モンテカルロ・パレート最適化(poal)というサンプリング手法を提案する。 我々は、ALサンプリングタスクを多目的最適化問題とし、(1)通常のALデータサンプリングスキーム(例えば、最大エントロピー)と(2)OODサンプルでない自信の2つの相反する目的に基づいてPareto最適化を利用する。 実験結果は、古典的機械学習(ML)タスクとディープラーニング(DL)タスクの両方において効果を示す。

Pool-based Active Learning (AL) has achieved great success in minimizing labeling cost by sequentially selecting informative unlabeled samples from a large unlabeled data pool and querying their labels from oracle/annotators. However, existing AL sampling strategies might not work well in out-of-distribution (OOD) data scenarios, where the unlabeled data pool contains some data samples that do not belong to the classes of the target task. Achieving good AL performance under OOD data scenarios is a challenging task due to the natural conflict between AL sampling strategies and OOD sample detection. AL selects data that are hard to be classified by the current basic classifier (e.g., samples whose predicted class probabilities have high entropy), while OOD samples tend to have more uniform predicted class probabilities (i.e., high entropy) than in-distribution (ID) data. In this paper, we propose a sampling scheme, Monte-Carlo Pareto Optimization for Active Learning (POAL), which selects optimal subsets of unlabeled samples with fixed batch size from the unlabeled data pool. We cast the AL sampling task as a multi-objective optimization problem, and thus we utilize Pareto optimization based on two conflicting objectives: (1) the normal AL data sampling scheme (e.g., maximum entropy), and (2) the confidence of not being an OOD sample. Experimental results show its effectiveness on both classical Machine Learning (ML) and Deep Learning (DL) tasks.
翻訳日:2022-07-05 15:42:17 公開日:2022-07-04
# 部分リスク正規化による複数ラベルなしデータセットからの学習

Learning from Multiple Unlabeled Datasets with Partial Risk Regularization ( http://arxiv.org/abs/2207.01555v1 )

ライセンス: Link先を確認
Yuting Tang, Nan Lu, Tianyi Zhang, Masashi Sugiyama(参考訳) 近年、教師付きディープラーニングが大きな成功をおさめており、予測モデルは大量のラベル付きデータから訓練されている。 しかし実際には、そのようなビッグデータのラベル付けは非常にコストがかかり、プライバシー上の理由から不可能な場合もある。 そこで本稿では,クラスラベルなしで正確な分類器を学習することを目的としている。 より具体的には、複数のラベル付きデータの集合とそれらのクラス事前(すなわち各クラスの比率)のみが利用可能である場合を考える。 本稿ではまず,与えられたラベル付き集合から推定できる分類リスクの偏りのない推定器を導出し,学習した分類器の一般化誤差を理論的に解析する。 その結果、経験的リスクがトレーニング中に負になるにつれて、分類器が過度に適合する傾向があることが判明した。 オーバーフィッティングを防止するため,ラベルのないデータセットやクラスに対する部分的リスクを一定のレベルまで維持する部分的リスク正則化を提案する。 実験により,本手法は,複数の未ラベル集合から学習する最先端手法を効果的に緩和し,性能を向上することを示した。

Recent years have witnessed a great success of supervised deep learning, where predictive models were trained from a large amount of fully labeled data. However, in practice, labeling such big data can be very costly and may not even be possible for privacy reasons. Therefore, in this paper, we aim to learn an accurate classifier without any class labels. More specifically, we consider the case where multiple sets of unlabeled data and only their class priors, i.e., the proportions of each class, are available. Under this problem setup, we first derive an unbiased estimator of the classification risk that can be estimated from the given unlabeled sets and theoretically analyze the generalization error of the learned classifier. We then find that the classifier obtained as such tends to cause overfitting as its empirical risks go negative during training. To prevent overfitting, we further propose a partial risk regularization that maintains the partial risks with respect to unlabeled datasets and classes to certain levels. Experiments demonstrate that our method effectively mitigates overfitting and outperforms state-of-the-art methods for learning from multiple unlabeled sets.
翻訳日:2022-07-05 15:40:13 公開日:2022-07-04
# 対実的手法による生成モデルのデバイアス化

De-Biasing Generative Models using Counterfactual Methods ( http://arxiv.org/abs/2207.01575v1 )

ライセンス: Link先を確認
Sunay Bhat, Jeffrey Jiang, Omead Pooladzandi, Gregory Pottie(参考訳) 変分オートエンコーダ(vaes)やその他の生成法は、その生成特性だけでなく、低次元の潜在変数空間を非絡ませる能力にも関心を集めている。 しかし、因果関係を考慮した既存の生成モデルはほとんどない。 本研究では,因果モデルの一部を学習できる部分学習可能な因果層を含む,ccgm(causal counterfactual generative model)と呼ばれる新しいデコーダベースのフレームワークを提案する。 画像意味ラベルや表変数間の因果関係を学習することにより、バイアスを分析し、生成モデルに介入し、新しいシナリオをシミュレートすることができる。 さらに、因果構造を変更することで、元のトレーニングデータのドメイン外でサンプルを生成し、そのような反ファクトモデルを使ってデータセットを非バイアスにすることができる。 したがって、既知のバイアスを持つデータセットは、まだ因果生成モデルのトレーニングや因果関係の学習に使用できるが、生成側では偏りのないデータセットを生成できる。 提案手法では,因果的忠実性を重視した因果的潜在空間vaeモデルと具体的修正を組み合わせることで,因果的階層の微調整とロバストな介入フレームワークの学習を可能にする。 因果的学習と符号化/復号化が因果的介入の質を高めるかを検討する。 また、我々のモデルと類似の研究を比較し、介入以上の明確な生成脱バイアスの必要性を示す。 最初の実験では,本モデルでは,因果関係に忠実な画像や表データを生成することができ,基幹よりも因果関係を無視する明示的な非バイアス処理が可能であった。

Variational autoencoders (VAEs) and other generative methods have garnered growing interest not just for their generative properties but also for the ability to dis-entangle a low-dimensional latent variable space. However, few existing generative models take causality into account. We propose a new decoder based framework named the Causal Counterfactual Generative Model (CCGM), which includes a partially trainable causal layer in which a part of a causal model can be learned without significantly impacting reconstruction fidelity. By learning the causal relationships between image semantic labels or tabular variables, we can analyze biases, intervene on the generative model, and simulate new scenarios. Furthermore, by modifying the causal structure, we can generate samples outside the domain of the original training data and use such counterfactual models to de-bias datasets. Thus, datasets with known biases can still be used to train the causal generative model and learn the causal relationships, but we can produce de-biased datasets on the generative side. Our proposed method combines a causal latent space VAE model with specific modification to emphasize causal fidelity, enabling finer control over the causal layer and the ability to learn a robust intervention framework. We explore how better disentanglement of causal learning and encoding/decoding generates higher causal intervention quality. We also compare our model against similar research to demonstrate the need for explicit generative de-biasing beyond interventions. Our initial experiments show that our model can generate images and tabular data with high fidelity to the causal framework and accommodate explicit de-biasing to ignore undesired relationships in the causal data compared to the baseline.
翻訳日:2022-07-05 15:39:53 公開日:2022-07-04
# Duubly-Asynchronous Value Iteration: アクションで値イテレーションを非同期にする

Doubly-Asynchronous Value Iteration: Making Value Iteration Asynchronous in Actions ( http://arxiv.org/abs/2207.01613v1 )

ライセンス: Link先を確認
Tian Tian, Kenny Young, Richard S. Sutton(参考訳) 価値反復 (vi) は基礎的な動的プログラミング手法であり、最適制御と強化学習の学習と計画に重要である。 VIはバッチで進行し、次のバッチの更新が始まる前に、各状態の値に対する更新を完了しなければならない。 単一バッチの完了は、状態空間が大きい場合、非常に高価であり、多くのアプリケーションではviが非現実的になる。 非同期VIは、一度に1つの状態、場所、任意の順序で更新することで、大きな状態空間の問題に対処するのに役立つ。 しかし、非同期 VI はアクション空間全体の最大化を必要とするため、大きなアクション空間を持つドメインに対しては非現実的である。 この問題に対処するために,状態から状態,行動への非同期性の概念を一般化する新しいアルゴリズムであるDAVIを提案する。 より具体的には、daviは任意のユーザ定義サイズのアクションのサンプルサブセットを最大化する。 計算量を削減するためにサンプリングを使用するこの単純なアプローチは、各更新でアクション空間全体を網羅するのを待つことなく、VIに同様の理論的性質をアピールする。 本稿では, davi を確率 1 の最適値関数に収束させ, 確率 1-デルタの近幾何速度で収束させ, vi の既定境界にほぼ一致する計算時間における最適に近い方針を返すことを示す。 また,いくつかの実験でdaviの有効性を実証した。

Value iteration (VI) is a foundational dynamic programming method, important for learning and planning in optimal control and reinforcement learning. VI proceeds in batches, where the update to the value of each state must be completed before the next batch of updates can begin. Completing a single batch is prohibitively expensive if the state space is large, rendering VI impractical for many applications. Asynchronous VI helps to address the large state space problem by updating one state at a time, in-place and in an arbitrary order. However, Asynchronous VI still requires a maximization over the entire action space, making it impractical for domains with large action space. To address this issue, we propose doubly-asynchronous value iteration (DAVI), a new algorithm that generalizes the idea of asynchrony from states to states and actions. More concretely, DAVI maximizes over a sampled subset of actions that can be of any user-defined size. This simple approach of using sampling to reduce computation maintains similarly appealing theoretical properties to VI without the need to wait for a full sweep through the entire action space in each update. In this paper, we show DAVI converges to the optimal value function with probability one, converges at a near-geometric rate with probability 1-delta, and returns a near-optimal policy in computation time that nearly matches a previously established bound for VI. We also empirically demonstrate DAVI's effectiveness in several experiments.
翻訳日:2022-07-05 15:39:22 公開日:2022-07-04
# (参考訳) 製造業における短期的インスタントエネルギー消費予測の深層学習

Deep Learning for Short-term Instant Energy Consumption Forecasting in the Manufacturing Sector ( http://arxiv.org/abs/2207.01595v1 )

ライセンス: CC BY 4.0
Nuno Oliveira, Norberto Sousa and Isabel Pra\c{c}a(参考訳) 電気は不安定な電源であり、短期および長期にわたって優れた計画と資源管理を必要とする。 より具体的には、短期的かつ正確な瞬時エネルギー消費量予測は、建物の効率向上に大きく寄与し、再生可能エネルギーの導入のための新しい道を開く。 その点において、データ駆動アプローチ、すなわち機械学習に基づくアプローチは、より簡単なデプロイメント方法だけでなく、成果の状態も提供するため、従来のものよりも好まれるようになった。 その意味で、この研究は、製造セクター内の実際のテストベッドにおいて、複数のディープラーニングアルゴリズム、LSTM、CNN、CNN-LSTM、TCNのパフォーマンスを適用、比較する。 実験結果から,TCNは短期的なエネルギー消費を予測する最も信頼性の高い手法であることが示唆された。

Electricity is a volatile power source that requires great planning and resource management for both short and long term. More specifically, in the short-term, accurate instant energy consumption forecasting contributes greatly to improve the efficiency of buildings, opening new avenues for the adoption of renewable energy. In that regard, data-driven approaches, namely the ones based on machine learning, are begin to be preferred over more traditional ones since they provide not only more simplified ways of deployment but also state of the art results. In that sense, this work applies and compares the performance of several deep learning algorithms, LSTM, CNN, mixed CNN-LSTM and TCN, in a real testbed within the manufacturing sector. The experimental results suggest that the TCN is the most reliable method for predicting instant energy consumption in the short-term.
翻訳日:2022-07-05 15:36:06 公開日:2022-07-04
# RAF:超限定クエリを用いた顔認識における再帰的敵対攻撃

RAF: Recursive Adversarial Attacks on Face Recognition Using Extremely Limited Queries ( http://arxiv.org/abs/2207.01149v1 )

ライセンス: Link先を確認
Keshav Kasichainula, Hadi Mansourifar, Weidong Shi(参考訳) 最近の顔認識に対する敵意攻撃の成功は、顔認識モデルの顕著な進歩にもかかわらず、認識と認識のための人間の知性にはまだ及ばないことを示している。 深層畳み込みニューラルネットワーク(deep convolutional neural networks, cnns)の脆弱性を、顔認識モデルの敵の例に対する最先端構築ブロックとして明らかにすることで、セキュアなシステムに一定の影響をもたらす可能性がある。 グラディエントベースの敵攻撃は、これまで広く研究され、顔認識モデルに対して成功したことが証明された。 しかし、各顔ごとに最適化された摂動を見つけるには、ターゲットモデルにかなりの数のクエリを提出する必要がある。 本稿では,ターゲットモデルを騙すのに極めて限られたクエリ数を必要とする自動顔ワープを用いた,顔認識に対する再帰的敵対攻撃を提案する。 ランダムな顔の反りの手順の代わりに、反りの機能は、まばたき、鼻、唇などの特定の顔の特定の領域に適用される。 我々は,攻撃者がモデルパラメータや勾配にアクセスできない決定ベースのブラックボックス攻撃設定において,提案手法のロバスト性を評価するが,ハードラベル予測と信頼性スコアは対象モデルによって提供される。

Recent successful adversarial attacks on face recognition show that, despite the remarkable progress of face recognition models, they are still far behind the human intelligence for perception and recognition. It reveals the vulnerability of deep convolutional neural networks (CNNs) as state-of-the-art building block for face recognition models against adversarial examples, which can cause certain consequences for secure systems. Gradient-based adversarial attacks are widely studied before and proved to be successful against face recognition models. However, finding the optimized perturbation per each face needs to submitting the significant number of queries to the target model. In this paper, we propose recursive adversarial attack on face recognition using automatic face warping which needs extremely limited number of queries to fool the target model. Instead of a random face warping procedure, the warping functions are applied on specific detected regions of face like eyebrows, nose, lips, etc. We evaluate the robustness of proposed method in the decision-based black-box attack setting, where the attackers have no access to the model parameters and gradients, but hard-label predictions and confidence scores are provided by the target model.
翻訳日:2022-07-05 15:22:35 公開日:2022-07-04
# Aug-NeRF:三重レベル体力増強による強磁場訓練

Aug-NeRF: Training Stronger Neural Radiance Fields with Triple-Level Physically-Grounded Augmentations ( http://arxiv.org/abs/2207.01164v1 )

ライセンス: Link先を確認
Tianlong Chen, Peihao Wang, Zhiwen Fan, Zhangyang Wang(参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、複数ビュー画像を接地トラストで差分レンダリングすることで、ニューラルネットワークのパラメータ化シーンを回帰する。 しかし、新規な視点を補間する場合、NeRFはしばしば不整合かつ視覚的に非滑らかな幾何学的結果をもたらす。 畳み込みニューラルネットワークの最近の進歩は、ランダムか学習のいずれかの高度なロバストなデータ拡張が、分布内と分布外の両方の一般化を促進することを実証している。 そこで本研究では,nrfトレーニングの正則化にロバストなデータ拡張のパワーを初めてもたらした拡張nrf(aug-nerf)を提案する。 特に,提案手法は,(1)入力座標,画像キャプチャにおける不正確なカメラパラメータのシミュレート,(2)本質的特徴多様体の円滑化,(3)事前レンダリング出力,(3)多視点画像監視における潜在的な劣化要因を考慮し,最悪の場合の摂動を3つの物理グラウンドにシームレスにブレンドすることを目的としている。 Aug-NeRFは、新しいビュー合成(最大1.5dBPSNRゲイン)と基礎となる幾何再構成の両方において、NeRF性能を効果的に向上することを示した。 さらに、トリプルレベルの拡張によって暗黙のスムーズな事前注入により、Aug-NeRFは、ひどく破損した画像からシーンを復元することもできます。 私たちのコードはhttps://github.com/VITA-Group/Aug-NeRFで公開しています。

Neural Radiance Field (NeRF) regresses a neural parameterized scene by differentially rendering multi-view images with ground-truth supervision. However, when interpolating novel views, NeRF often yields inconsistent and visually non-smooth geometric results, which we consider as a generalization gap between seen and unseen views. Recent advances in convolutional neural networks have demonstrated the promise of advanced robust data augmentations, either random or learned, in enhancing both in-distribution and out-of-distribution generalization. Inspired by that, we propose Augmented NeRF (Aug-NeRF), which for the first time brings the power of robust data augmentations into regularizing the NeRF training. Particularly, our proposal learns to seamlessly blend worst-case perturbations into three distinct levels of the NeRF pipeline with physical grounds, including (1) the input coordinates, to simulate imprecise camera parameters at image capture; (2) intermediate features, to smoothen the intrinsic feature manifold; and (3) pre-rendering output, to account for the potential degradation factors in the multi-view image supervision. Extensive results demonstrate that Aug-NeRF effectively boosts NeRF performance in both novel view synthesis (up to 1.5dB PSNR gain) and underlying geometry reconstruction. Furthermore, thanks to the implicit smooth prior injected by the triple-level augmentations, Aug-NeRF can even recover scenes from heavily corrupted images, a highly challenging setting untackled before. Our codes are available in https://github.com/VITA-Group/Aug-NeRF.
翻訳日:2022-07-05 15:22:16 公開日:2022-07-04
# TANet: RGB-D Salient Object Detectionのためのトランスフォーマーベース非対称ネットワーク

TANet: Transformer-based Asymmetric Network for RGB-D Salient Object Detection ( http://arxiv.org/abs/2207.01172v1 )

ライセンス: Link先を確認
Chang Liu, Gang Yang, Shuo Wang, Hangxu Wang, Yunhua Zhang and Yutao Wang(参考訳) 既存のRGB-D SOD法は主に対称な2ストリームCNNネットワークに依存し、RGBと深さチャネルの機能を別々に抽出する。 しかし、対称的ネットワーク構造には2つの問題がある: まず、グローバルコンテキストの学習におけるCNNの能力は制限されている; 次に、対称的2ストリーム構造は、モダリティの固有の相違を無視している。 本稿では,上述の問題を解決するために,変圧器を用いた非対称ネットワーク (tanet) を提案する。 我々はTransformer(PVTv2)の強力な特徴抽出機能を用いて、RGBデータからグローバルな意味情報を抽出し、軽量CNNバックボーン(LWDepthNet)を設計し、事前トレーニングなしで深度データから空間構造情報を抽出する。 非対称ハイブリッドエンコーダ(AHE)は、性能を犠牲にすることなく速度を上げながら、モデル内のパラメータ数を効果的に削減する。 そこで我々は,RGBと深度機能を相互に拡張・融合するクロスモーダル機能融合モジュール (CMFFM) を設計した。 最後に、エッジ予測を補助タスクとして追加し、よりシャープな輪郭を生成するエッジ拡張モジュール(EEM)を提案する。 6つの公開データセット上での14の最先端RGB-D法よりも優れた性能を示す。 私たちのコードはhttps://github.com/lc012463/tanetでリリースします。

Existing RGB-D SOD methods mainly rely on a symmetric two-stream CNN-based network to extract RGB and depth channel features separately. However, there are two problems with the symmetric conventional network structure: first, the ability of CNN in learning global contexts is limited; second, the symmetric two-stream structure ignores the inherent differences between modalities. In this paper, we propose a Transformer-based asymmetric network (TANet) to tackle the issues mentioned above. We employ the powerful feature extraction capability of Transformer (PVTv2) to extract global semantic information from RGB data and design a lightweight CNN backbone (LWDepthNet) to extract spatial structure information from depth data without pre-training. The asymmetric hybrid encoder (AHE) effectively reduces the number of parameters in the model while increasing speed without sacrificing performance. Then, we design a cross-modal feature fusion module (CMFFM), which enhances and fuses RGB and depth features with each other. Finally, we add edge prediction as an auxiliary task and propose an edge enhancement module (EEM) to generate sharper contours. Extensive experiments demonstrate that our method achieves superior performance over 14 state-of-the-art RGB-D methods on six public datasets. Our code will be released at https://github.com/lc012463/TANet.
翻訳日:2022-07-05 15:20:55 公開日:2022-07-04
# 3Dポイントクラウド理解のための拡散を用いた局所特徴学習の強化

Enhancing Local Feature Learning Using Diffusion for 3D Point Cloud Understanding ( http://arxiv.org/abs/2207.01174v1 )

ライセンス: Link先を確認
Haoyi Xiu, Xin Liu, Weimin Wang, Kyoung-Sook Kim, Takayuki Shinohara, Qiong Chang, Masashi Matsuoka(参考訳) 接続情報、すなわちエッジが欠如しているため、ポイントクラウドの学習は困難である。 既存のエッジアウェアメソッドはエッジをモデリングすることでパフォーマンスを向上させることができるが、エッジが改善にどのように寄与するかは不明だ。 本研究では,作業機構を明確に保ちながらエッジの強化・抑制を自動的に学習する手法を提案する。 まず,エッジエンハンスメント/サプレッションの仕組みを理論的に把握する。 第2に、エッジの強化/抑制挙動を実験的に検証する。 第3に、この動作がパフォーマンスを改善することを実証的に示します。 一般に,提案手法は,ポイントクラウドの分類とセグメンテーションタスクにおける競合性能を実現する。

Learning point clouds is challenging due to the lack of connectivity information, i.e., edges. Although existing edge-aware methods can improve the performance by modeling edges, how edges contribute to the improvement is unclear. In this study, we propose a method that automatically learns to enhance/suppress edges while keeping the its working mechanism clear. First, we theoretically figure out how edge enhancement/suppression works. Second, we experimentally verify the edge enhancement/suppression behavior. Third, we empirically show that this behavior improves performance. In general, we observe that the proposed method achieves competitive performance in point cloud classification and segmentation tasks.
翻訳日:2022-07-05 15:20:32 公開日:2022-07-04
# デカップリング畳み込みによる3次元点雲の局所幾何学習の強化

Enhancing Local Geometry Learning for 3D Point Cloud via Decoupling Convolution ( http://arxiv.org/abs/2207.01181v1 )

ライセンス: Link先を確認
Haoyi Xiu, Xin Liu, Weimin Wang, Kyoung-Sook Kim, Takayuki Shinohara, Qiong Chang, Masashi Matsuoka(参考訳) 局所表面形状のモデリングは、接続情報の欠如により、3Dポイントクラウド理解において困難である。 ほとんどの先行作業は、様々な畳み込み演算を用いて局所幾何をモデル化する。 畳み込みは局所成分と大域成分の重み付け結合として等価に分解できる。 この観察により、これらの2つの成分を明示的に分離し、局所曲面幾何学の学習を容易にする。 具体的には,局所幾何学の学習を促進できるシンプルで効果的なアーキテクチャユニットであるLaplacian Unit (LU)を提案する。 広範な実験により、lusを搭載したネットワークは、典型的なポイントクラウド理解タスクにおいて、競合性または優れたパフォーマンスを達成できることが示されている。 さらに, 平均曲率流間の接続を確立することにより, 適応的平滑化とLUの研削効果を解析するために, 曲率に基づくLUのさらなる検討を行う。 コードは利用可能だ。

Modeling the local surface geometry is challenging in 3D point cloud understanding due to the lack of connectivity information. Most prior works model local geometry using various convolution operations. We observe that the convolution can be equivalently decomposed as a weighted combination of a local and a global component. With this observation, we explicitly decouple these two components so that the local one can be enhanced and facilitate the learning of local surface geometry. Specifically, we propose Laplacian Unit (LU), a simple yet effective architectural unit that can enhance the learning of local geometry. Extensive experiments demonstrate that networks equipped with LUs achieve competitive or superior performance on typical point cloud understanding tasks. Moreover, through establishing connections between the mean curvature flow, a further investigation of LU based on curvatures is made to interpret the adaptive smoothing and sharpening effect of LU. The code will be available.
翻訳日:2022-07-05 15:20:21 公開日:2022-07-04
# 顔偽造検出・分類のためのリズムパターンの同定

Identifying Rhythmic Patterns for Face Forgery Detection and Categorization ( http://arxiv.org/abs/2207.01199v1 )

ライセンス: Link先を確認
Jiahao Liang, Weihong Deng(参考訳) GANの出現に伴い、顔偽造技術は乱用されている。 正確な顔偽造検出は差し迫っている。 リモート光胸腺造影(rPPG)により, PPG信号は顔面ビデオにおける心拍による皮膚色の周期的変化に対応し, 偽造過程中にPSG信号が失われることは避けられないものの, 偽造ビデオにPPG信号と独自のリズムパターンが混在していることが観察された。 そこで本研究では, 顔の偽造検出と分類のための枠組みを提案する。 1)ppg信号フィルタリングのための空間時空間フィルタリングネットワーク(stfnet) 2) PPG信号の制約と相互作用のための時空間相互作用ネットワーク(STINet)。 さらに,フォージェリー手法の生成について考察し,フレームワークの性能を高めるために,イントラソースおよびイントラソースブレンディングを提案する。 概して,本手法の優位性は広範な実験によって証明されている。

With the emergence of GAN, face forgery technologies have been heavily abused. Achieving accurate face forgery detection is imminent. Inspired by remote photoplethysmography (rPPG) that PPG signal corresponds to the periodic change of skin color caused by heartbeat in face videos, we observe that despite the inevitable loss of PPG signal during the forgery process, there is still a mixture of PPG signals in the forgery video with a unique rhythmic pattern depending on its generation method. Motivated by this key observation, we propose a framework for face forgery detection and categorization consisting of: 1) a Spatial-Temporal Filtering Network (STFNet) for PPG signals filtering, and 2) a Spatial-Temporal Interaction Network (STINet) for constraint and interaction of PPG signals. Moreover, with insight into the generation of forgery methods, we further propose intra-source and inter-source blending to boost the performance of the framework. Overall, extensive experiments have proved the superiority of our method.
翻訳日:2022-07-05 15:20:06 公開日:2022-07-04
# S$^{5}$Mars: 火星セグメンテーションのための自己監督型半監督型学習

S$^{5}$Mars: Self-Supervised and Semi-Supervised Learning for Mars Segmentation ( http://arxiv.org/abs/2207.01200v1 )

ライセンス: Link先を確認
Jiahang Zhang, Lilang Lin, Zejia Fan, Wenjing Wang, Jiaying Liu(参考訳) 深層学習は火星探査の強力なツールとなっている。 火星の地形のセグメンテーションは、ローバーの自律計画と安全な運転の基盤となる重要な火星の視覚タスクである。 しかし、既存の深層学習に基づく地形区分法は、十分な詳細かつ高信頼なアノテーションの欠如と、アノテーション付き訓練データに対するモデルの過度な信頼という2つの問題に直面している。 本稿では,共同データと手法設計の観点から,これらの2つの問題に対処する。 まず,6k高分解能画像を含む新しい火星地形区分データセットを提示し,信頼度に基づいて微妙な注釈付けを行い,ラベルの高品質を保証した。 そして、このスパースデータから学習するために、自己教師付き学習段階(事前学習用)と半教師付き学習段階(微調整用)を含む火星地形セグメンテーションのための表現学習ベースのフレームワークを提案する。 具体的には,画像のテクスチャ情報を強調するために,マスク画像モデリング(MIM)の概念に基づくマルチタスク機構を設計する。 半教師あり学習では,データセットのアノテートが少なすぎるため,疑似ラベルをオンラインで生成・活用することにより,各画像におけるラベルなし領域の情報抽出をモデルに促す。 我々のデータセットと手法をS$^{5}$Mars (Self-Supervised and Semi-Supervised Segmentation for Mars) と命名した。 実験の結果,本手法は最先端のアプローチを上回ることができ,地形区分性能を大きなマージンで向上できることがわかった。

Deep learning has become a powerful tool for Mars exploration. Mars terrain segmentation is an important Martian vision task, which is the base of rover autonomous planning and safe driving. However, existing deep-learning-based terrain segmentation methods face two problems: one is the lack of sufficient detailed and high-confidence annotations, and the other is the over-reliance of models on annotated training data. In this paper, we address these two problems from the perspective of joint data and method design. We first present a new Mars terrain segmentation dataset which contains 6K high-resolution images and is sparsely annotated based on confidence, ensuring the high quality of labels. Then to learn from this sparse data, we propose a representation-learning-based framework for Mars terrain segmentation, including a self-supervised learning stage (for pre-training) and a semi-supervised learning stage (for fine-tuning). Specifically, for self-supervised learning, we design a multi-task mechanism based on the masked image modeling (MIM) concept to emphasize the texture information of images. For semi-supervised learning, since our dataset is sparsely annotated, we encourage the model to excavate the information of unlabeled area in each image by generating and utilizing pseudo-labels online. We name our dataset and method Self-Supervised and Semi-Supervised Segmentation for Mars (S$^{5}$Mars). Experimental results show that our method can outperform state-of-the-art approaches and improve terrain segmentation performance by a large margin.
翻訳日:2022-07-05 15:19:50 公開日:2022-07-04
# R^2VOS:リレーショナルマルチモーダルサイクル一貫性によるビデオオブジェクトセグメンテーションのロバスト参照

R^2VOS: Robust Referring Video Object Segmentation via Relational Multimodal Cycle Consistency ( http://arxiv.org/abs/2207.01203v1 )

ライセンス: Link先を確認
Xiang Li, Jinglu Wang, Xiaohao Xu, Xiao Li, Yan Lu, Bhiksha Raj(参考訳) ビデオオブジェクトセグメンテーション(R-VOS)は、オブジェクトへの参照言語表現が与えられたビデオにオブジェクトマスクをセグメントすることを目的としている。 最近紹介された、研究の注目を集めるタスクである。 式によって描かれたオブジェクトは、ビデオの中に存在しなければならない、すなわち、式とビデオは、オブジェクトレベルのセマンティックコンセンサスを持つ必要がある。 これは、式を偽ビデオにクエリできる現実世界のアプリケーションではしばしば違反し、既存のメソッドは仮定を悪用するため、常に偽のクエリで失敗する。 本研究では,R-VOSのロバスト性を改善するためには意味論的コンセンサスの研究が必要であることを強調する。 したがって、意味的コンセンサスを仮定せずにR-VOSから拡張されたタスクをRobost R-VOS(\mathrm{R}^2$-VOS)と呼ぶ。 $\mathrm{R}^2$-VOS タスクは、本質的には一次 R-VOS タスクの合同モデリングとその双対問題(テキスト再構成)に関連している。 我々は,埋め込み空間がテキスト-ビデオ-テキスト変換のサイクルを通じて関係性を持つという観察を受け入れた。 サイクル一貫性を利用して意味的コンセンサスを識別し、主要なタスクを進める。 初期接地媒体を導入することにより,主問題と双対問題の並列最適化が可能となる。 新しい評価データセットである$\mathrm{R}^2$-Youtube-VOSは、未ペアビデオや表現に対するR-VOSモデルの堅牢性を測定するために収集される。 本手法は,非関係な表現とビデオの負のペアを同定するだけでなく,不明瞭な能力を有する正のペアのセグメンテーション精度も向上することを示す。 我々のモデルは,Ref-DAVIS17,Ref-Youtube-VOS,および新しい$\mathrm{R}^2$-Youtube-VOSデータセットの最先端性能を実現する。

Referring video object segmentation (R-VOS) aims to segment the object masks in a video given a referring linguistic expression to the object. It is a recently introduced task attracting growing research attention. However, all existing works make a strong assumption: The object depicted by the expression must exist in the video, namely, the expression and video must have an object-level semantic consensus. This is often violated in real-world applications where an expression can be queried to false videos, and existing methods always fail in such false queries due to abusing the assumption. In this work, we emphasize that studying semantic consensus is necessary to improve the robustness of R-VOS. Accordingly, we pose an extended task from R-VOS without the semantic consensus assumption, named Robust R-VOS ($\mathrm{R}^2$-VOS). The $\mathrm{R}^2$-VOS task is essentially related to the joint modeling of the primary R-VOS task and its dual problem (text reconstruction). We embrace the observation that the embedding spaces have relational consistency through the cycle of text-video-text transformation, which connects the primary and dual problems. We leverage the cycle consistency to discriminate the semantic consensus, thus advancing the primary task. Parallel optimization of the primary and dual problems are enabled by introducing an early grounding medium. A new evaluation dataset, $\mathrm{R}^2$-Youtube-VOS, is collected to measure the robustness of R-VOS models against unpaired videos and expressions. Extensive experiments demonstrate that our method not only identifies negative pairs of unrelated expressions and videos, but also improves the segmentation accuracy for positive pairs with a superior disambiguating ability. Our model achieves the state-of-the-art performance on Ref-DAVIS17, Ref-Youtube-VOS, and the novel $\mathrm{R}^2$-Youtube-VOS dataset.
翻訳日:2022-07-05 15:19:22 公開日:2022-07-04
# SnakeCLEF 2022における細粒・長細スネーク種認識の解法

Solutions for Fine-grained and Long-tailed Snake Species Recognition in SnakeCLEF 2022 ( http://arxiv.org/abs/2207.01216v1 )

ライセンス: Link先を確認
Cheng Zou, Furong Xu, Meng Wang, Wen Li, Yuan Cheng(参考訳) 自動ヘビ種認識は、ヘビによる死亡や障害の軽減に役立つ可能性があるため重要である。 我々はSnakeCLEF 2022でヘビの種を認識できる方法を紹介した。 まず,ネットワークアーキテクチャは,視覚モダリティから写真,言語モダリティから地理的局所情報など,複数のモダリティから特徴を抽出・融合するように設計されている。 次に,ロジット調整に基づく手法について検討し,重度のクラス不均衡による影響を緩和する。 次に,ラベル付きトレーニングデータとラベルなしテストデータの両方を含むデータセットをフル活用するために,教師付き学習と自己教師付き学習を組み合わせた学習手法を提案する。 最後に,マルチスケールおよびマルチクロップテスト時拡張,位置フィルタリング,モデルアンサンブルといったポスト処理戦略を,パフォーマンス向上に活用する。 いくつかの異なるモデルのアンサンブルで、3位にランク付けされたプライベートスコア82.65%が最終リーダーボードで達成される。

Automatic snake species recognition is important because it has vast potential to help lower deaths and disabilities caused by snakebites. We introduce our solution in SnakeCLEF 2022 for fine-grained snake species recognition on a heavy long-tailed class distribution. First, a network architecture is designed to extract and fuse features from multiple modalities, i.e. photograph from visual modality and geographic locality information from language modality. Then, logit adjustment based methods are studied to relieve the impact caused by the severe class imbalance. Next, a combination of supervised and self-supervised learning method is proposed to make full use of the dataset, including both labeled training data and unlabeled testing data. Finally, post processing strategies, such as multi-scale and multi-crop test-time-augmentation, location filtering and model ensemble, are employed for better performance. With an ensemble of several different models, a private score 82.65%, ranking the 3rd, is achieved on the final leaderboard.
翻訳日:2022-07-05 15:18:44 公開日:2022-07-04
# ラベル効率の深いセグメンテーションに関する調査:弱視と密度予測のギャップを埋める

A Survey on Label-efficient Deep Segmentation: Bridging the Gap between Weak Supervision and Dense Prediction ( http://arxiv.org/abs/2207.01223v1 )

ライセンス: Link先を確認
Wei Shen, Zelin Peng, Xuehui Wang, Huayu Wang, Jiazhong Cen, Dongsheng Jiang, Lingxi Xie, Xiaokang Yang, Qi Tian(参考訳) ディープラーニングの急速な発展は、コンピュータビジョンの基本的なタスクであるセグメンテーションにおいて大きな進歩を遂げた。 しかし、現在のセグメンテーションアルゴリズムは主にピクセルレベルのアノテーションの可用性に依存している。 この負担を軽減するため、過去数年間、ラベル効率が高くディープラーニングに基づくセグメンテーションアルゴリズムの構築に注目が集まっている。 本稿ではラベル効率の良いセグメンテーション手法について概観する。 この目的のために,まず,異なる弱いラベル(無監督,粗監視,不完全な監督,騒がしい監督を含む)によって提供される監督に従ってこれらの手法を整理する分類法を開発し,セグメンテーション問題(意味セグメンテーション,インスタンスセグメンテーション,panopticセグメンテーションを含む)の種類を補足する。 次に,既存のラベル効率の高いセグメンテーション手法を統一的な視点から要約する。弱い監督と密集した予測のギャップをいかに橋渡しするか -- 現在の手法は,主にクロスピクセル類似性,クロスラベル制約,クロスビュー一貫性,クロスイメージ関係など,ヒューリスティックな事前性に基づいています。 最後に,ラベル効率の高い深層セグメンテーション研究の今後の方向性について考察する。

The rapid development of deep learning has made a great progress in segmentation, one of the fundamental tasks of computer vision. However, the current segmentation algorithms mostly rely on the availability of pixel-level annotations, which are often expensive, tedious, and laborious. To alleviate this burden, the past years have witnessed an increasing attention in building label-efficient, deep-learning-based segmentation algorithms. This paper offers a comprehensive review on label-efficient segmentation methods. To this end, we first develop a taxonomy to organize these methods according to the supervision provided by different types of weak labels (including no supervision, coarse supervision, incomplete supervision and noisy supervision) and supplemented by the types of segmentation problems (including semantic segmentation, instance segmentation and panoptic segmentation). Next, we summarize the existing label-efficient segmentation methods from a unified perspective that discusses an important question: how to bridge the gap between weak supervision and dense prediction -- the current methods are mostly based on heuristic priors, such as cross-pixel similarity, cross-label constraint, cross-view consistency, cross-image relation, etc. Finally, we share our opinions about the future research directions for label-efficient deep segmentation.
翻訳日:2022-07-05 15:18:26 公開日:2022-07-04
# カテゴリー認識型特徴アライメントと擬似ラベリングによるドメイン適応型ヌクレイインスタンスセグメンテーションと分類

Domain Adaptive Nuclei Instance Segmentation and Classification via Category-aware Feature Alignment and Pseudo-labelling ( http://arxiv.org/abs/2207.01233v1 )

ライセンス: Link先を確認
Canran Li, Dongnan Liu, Haoran Li, Zheng Zhang, Guangming Lu, Xiaojun Chang and Weidong Cai(参考訳) 非教師なし領域適応(UDA)法は、一般的なコンピュータビジョンにおけるモデルの適応性を改善するために広く利用されている。 しかし, 自然画像と異なり, 病理組織像の異なるカテゴリの核には大きな意味的ギャップが存在する。 異なるデータセット間で正確なセグメンテーションや核インスタンスの分類のための一般化されたUDAモデルを構築する方法はまだ解明されていない。 本研究では,UDA原子核インスタンス分割と分類のための新しいディープニューラルネットワーク,すなわちカテゴリ・アウェア機能アライメントと擬似ラベルネットワーク(CAPL-Net)を提案する。 具体的には,まず動的学習可能なトレードオフ重み付きカテゴリレベルの機能アライメントモジュールを提案する。 第2に,核レベルのプロトタイプ機能に基づく擬似ラベルを用いた自己教師付きトレーニングにより,対象データのモデル性能を向上させることを提案する。 クロスドメイン核インスタンスのセグメンテーションと分類タスクに関する総合的な実験は、我々のアプローチが最先端のUDA手法よりも顕著に優れていることを示している。

Unsupervised domain adaptation (UDA) methods have been broadly utilized to improve the models' adaptation ability in general computer vision. However, different from the natural images, there exist huge semantic gaps for the nuclei from different categories in histopathology images. It is still under-explored how could we build generalized UDA models for precise segmentation or classification of nuclei instances across different datasets. In this work, we propose a novel deep neural network, namely Category-Aware feature alignment and Pseudo-Labelling Network (CAPL-Net) for UDA nuclei instance segmentation and classification. Specifically, we first propose a category-level feature alignment module with dynamic learnable trade-off weights. Second, we propose to facilitate the model performance on the target data via self-supervised training with pseudo labels based on nuclei-level prototype features. Comprehensive experiments on cross-domain nuclei instance segmentation and classification tasks demonstrate that our approach outperforms state-of-the-art UDA methods with a remarkable margin.
翻訳日:2022-07-05 15:17:34 公開日:2022-07-04
# OS-MSL:シーンセグメンテーションと分類のための1段階マルチモーダルシーケンスリンクフレームワーク

OS-MSL: One Stage Multimodal Sequential Link Framework for Scene Segmentation and Classification ( http://arxiv.org/abs/2207.01241v1 )

ライセンス: Link先を確認
Ye Liu, Lingfeng Qiao, Di Yin, Zhuoxuan Jiang, Xinghua Jiang, Deqiang Jiang, Bo Ren(参考訳) シーンセグメンテーションと分類(SSC)は、ビデオ構造化解析の分野への重要なステップとなる。 直感的には、これらの2つのタスクを共同で学習することは共通の情報を共有することによって互いに促進することができる。 しかし、シーンセグメンテーションは、隣接するショット間の局所的な差異をより懸念し、分類にはシーンセグメンテーションのグローバルな表現が必要であり、おそらくトレーニングフェーズにおける2つのタスクの1つに支配されるモデルに繋がる。 本稿では、上記の課題を克服するために、これらの2つのタスクを1つのタスクに1つのタスクにまとめる: リンクが隣接する2つのショットを接続し、それらが同じシーンやカテゴリに属することを示す。 最後に,2つの学習タスクを一元化して2つの意味論を区別し,活用するための一般の1段階マルチモーダルシーケンスリンクフレームワーク(OS-MSL)を提案する。 さらに、diffcorrnetと呼ばれる特定のモジュールを調整し、ショット間の差異や相関に関する情報を明示的に抽出する。 実世界のアプリケーションから収集した新しい大規模データセットに関する大規模な実験を行い、MovieScenesを行った。 両結果は,提案手法が強いベースラインに対して有効であることを示す。

Scene segmentation and classification (SSC) serve as a critical step towards the field of video structuring analysis. Intuitively, jointly learning of these two tasks can promote each other by sharing common information. However, scene segmentation concerns more on the local difference between adjacent shots while classification needs the global representation of scene segments, which probably leads to the model dominated by one of the two tasks in the training phase. In this paper, from an alternate perspective to overcome the above challenges, we unite these two tasks into one task by a new form of predicting shots link: a link connects two adjacent shots, indicating that they belong to the same scene or category. To the end, we propose a general One Stage Multimodal Sequential Link Framework (OS-MSL) to both distinguish and leverage the two-fold semantics by reforming the two learning tasks into a unified one. Furthermore, we tailor a specific module called DiffCorrNet to explicitly extract the information of differences and correlations among shots. Extensive experiments on a brand-new large scale dataset collected from real-world applications, and MovieScenes are conducted. Both the results demonstrate the effectiveness of our proposed method against strong baselines.
翻訳日:2022-07-05 15:17:16 公開日:2022-07-04
# flownas:光フロー推定のためのニューラルアーキテクチャ探索

FlowNAS: Neural Architecture Search for Optical Flow Estimation ( http://arxiv.org/abs/2207.01271v1 )

ライセンス: Link先を確認
Zhiwei Lin, Tingting Liang, Taihong Xiao, Yongtao Wang, Zhi Tang and Ming-Hsuan Yang(参考訳) 既存の光フロー推定器は通常、ピクセル単位の特徴を抽出するエンコーダとして画像分類のために設計されたネットワークアーキテクチャを用いる。 しかし,タスク間の自然な違いから,画像分類のためのアーキテクチャは,フロー推定に最適である可能性がある。 この問題に対処するために,フロー推定タスクのためのより良いエンコーダアーキテクチャを自動的に見つけるために,flownasというニューラルネットワーク探索手法を提案する。 まず,様々な畳み込み演算子を含む適切な探索空間を設計し,候補アーキテクチャを効率的に評価するための重み共有スーパーネットワークを構築する。 そこで,本研究では,高訓練フロー推定器を用いてスーパーネットワークの訓練を指導する機能アライメント蒸留法を提案する。 最後に、リソース制約付き進化的アルゴリズムが最適なアーキテクチャ(すなわちサブネットワーク)を見つけるために利用される。 実験の結果、超ネットワークから受け継いだ重み付きアーキテクチャは、RAFTベースラインの8.4倍のF1-全誤差をKITTIで達成し、最先端の手作りモデルGMAとAGFlowを上回り、モデルの複雑さとレイテンシを低減した。 ソースコードとトレーニングされたモデルはhttps://github.com/VDIGPKU/FlowNASでリリースされる。

Existing optical flow estimators usually employ the network architectures typically designed for image classification as the encoder to extract per-pixel features. However, due to the natural difference between the tasks, the architectures designed for image classification may be sub-optimal for flow estimation. To address this issue, we propose a neural architecture search method named FlowNAS to automatically find the better encoder architecture for flow estimation task. We first design a suitable search space including various convolutional operators and construct a weight-sharing super-network for efficiently evaluating the candidate architectures. Then, for better training the super-network, we propose Feature Alignment Distillation, which utilizes a well-trained flow estimator to guide the training of super-network. Finally, a resource-constrained evolutionary algorithm is exploited to find an optimal architecture (i.e., sub-network). Experimental results show that the discovered architecture with the weights inherited from the super-network achieves 4.67\% F1-all error on KITTI, an 8.4\% reduction of RAFT baseline, surpassing state-of-the-art handcrafted models GMA and AGFlow, while reducing the model complexity and latency. The source code and trained models will be released in https://github.com/VDIGPKU/FlowNAS.
翻訳日:2022-07-05 15:16:54 公開日:2022-07-04
# ゲームシーン拡張によるゲーム状態学習

Game State Learning via Game Scene Augmentation ( http://arxiv.org/abs/2207.01289v1 )

ライセンス: Link先を確認
Chintan Trivedi, Konstantinos Makantasis, Antonios Liapis, Georgios N. Yannakakis(参考訳) 正確なゲーム状態情報へのアクセスは、ゲームプレイ、テスト、プレイヤーモデリング、手続き的コンテンツ生成を含むあらゆるゲーム人工知能タスクにとって最も重要である。 自己教師付き学習(ssl)技術は、ゲームレンダリングの高次元ピクセル入力から圧縮潜在表現へ正確なゲーム状態情報を推測できることが示されている。 コントラスト学習(Contrastive Learning)は、ゲームイメージの視覚的理解が、単純な画像拡張法によって定義された異種および類似のゲーム状態との対比から生まれるSSLのパラダイムである。 本研究では,ゲームエンジンを利用して,異なるゲーム状態の特定の,高度に制御されたレンダリングを定義し,合成することにより,コントラスト学習性能を向上するゲームシーン拡張技術であるGameCLRを紹介する。 我々は、CARLA運転シミュレータ環境の画像上でGameCLRのコントラスト学習手法を検証し、人気のあるSimCLRベースラインSSL法と比較した。 この結果から,ゲームCLRはベースラインよりもゲーム映像からゲームの状態情報を正確に推測できる可能性が示唆された。 提案手法により,画面画素を直接入力として利用することにより,ゲーム人工知能の研究を行うことができる。

Having access to accurate game state information is of utmost importance for any game artificial intelligence task including game-playing, testing, player modeling, and procedural content generation. Self-Supervised Learning (SSL) techniques have shown to be capable of inferring accurate game state information from the high-dimensional pixel input of game's rendering into compressed latent representations. Contrastive Learning is one such popular paradigm of SSL where the visual understanding of the game's images comes from contrasting dissimilar and similar game states defined by simple image augmentation methods. In this study, we introduce a new game scene augmentation technique -- named GameCLR -- that takes advantage of the game-engine to define and synthesize specific, highly-controlled renderings of different game states, thereby, boosting contrastive learning performance. We test our GameCLR contrastive learning technique on images of the CARLA driving simulator environment and compare it against the popular SimCLR baseline SSL method. Our results suggest that GameCLR can infer the game's state information from game footage more accurately compared to the baseline. The introduced approach allows us to conduct game artificial intelligence research by directly utilizing screen pixels as input.
翻訳日:2022-07-05 15:16:34 公開日:2022-07-04
# 複合現実感におけるビデオ自己アバターのリアルタイムエゴセントリックセグメンテーション

Real Time Egocentric Segmentation for Video-self Avatar in Mixed Reality ( http://arxiv.org/abs/2207.01296v1 )

ライセンス: Link先を確認
Ester Gonzalez-Sosa, Andrija Gajic, Diego Gonzalez-Morin, Guillermo Robledo, Pablo Perez and Alvaro Villegas(参考訳) 本研究では,実時間自己中心体セグメンテーションアルゴリズムを提案する。 提案アルゴリズムは,Thundernetのアーキテクチャにインスパイアされた浅いネットワークにより,66fpsのフレームレートで640x480の入力解像度を実現する。 さらに、トレーニングデータの多様性にも強く重点を置いています。 より具体的には、3つのデータセットから約10,000の画像で構成され、合成方法と実際のキャプチャの両方から生成されるEgocentric Bodies(EgoBodies)データセットの作成プロセスについて説明する。 我々は、個々のデータセットのコントリビューションを理解するために実験を行い、EgoBodiesで訓練されたThundernetモデルと、よりシンプルで複雑な以前のアプローチを比較し、セグメンテーションの品質と推論時間の観点から、実生活におけるそれらのパフォーマンスについて議論する。 訓練された意味セマンティクスセグメンテーションアルゴリズムは、mr(mixed reality)のエンド・ツー・エンドシステムにすでに組み込まれているので、ユーザーはmrシーンに没入しながら自分の身体を見ることができる。

In this work we present our real-time egocentric body segmentation algorithm. Our algorithm achieves a frame rate of 66 fps for an input resolution of 640x480, thanks to our shallow network inspired in Thundernet's architecture. Besides, we put a strong emphasis on the variability of the training data. More concretely, we describe the creation process of our Egocentric Bodies (EgoBodies) dataset, composed of almost 10,000 images from three datasets, created both from synthetic methods and real capturing. We conduct experiments to understand the contribution of the individual datasets; compare Thundernet model trained with EgoBodies with simpler and more complex previous approaches and discuss their corresponding performance in a real-life setup in terms of segmentation quality and inference times. The described trained semantic segmentation algorithm is already integrated in an end-to-end system for Mixed Reality (MR), making it possible for users to see his/her own body while being immersed in a MR scene.
翻訳日:2022-07-05 15:16:16 公開日:2022-07-04
# 視覚認識のためのテキスト知識の伝達

Transferring Textual Knowledge for Visual Recognition ( http://arxiv.org/abs/2207.01297v1 )

ライセンス: Link先を確認
Wenhao Wu, Zhun Sun, Wanli Ouyang(参考訳) ダウンストリームタスクのためのタスク非依存の深層モデルから知識を伝達することは、コンピュータビジョン研究において重要なトピックである。 計算能力の増大とともに、我々はオープンソースのVision-Language事前学習モデルを、大規模なモデルアーキテクチャとデータの量で提供しています。 本研究では,視覚分類タスクにおける知識の伝達に着目した。 従来の手法では、視覚分類のための線形分類器ヘッドをランダムに初期化するが、下流の視覚認識タスクにテキストエンコーダを使用する。 本稿では,線形分類器の役割を再検討し,分類器をオブジェクトカテゴリの組込み言語表現に置き換える。 これらの言語表現は視覚言語事前学習モデルのテキストエンコーダから初期化され、事前学習された言語モデルパラメータをさらに活用する。 実験により,本手法は映像分類の性能とトレーニング速度の両方を,モデルに無視できる変化を伴って改善することを示した。 特に,我々のパラダイムは,Kineetics-400上で87.3%の最先端の精度を実現している。

Transferring knowledge from task-agnostic pre-trained deep models for downstream tasks is an important topic in computer vision research. Along with the growth of computational capacity, we now have open-source Vision-Language pre-trained models in large scales of the model architecture and amount of data. In this study, we focus on transferring knowledge for vision classification tasks. Conventional methods randomly initialize the linear classifier head for vision classification, but they leave the usage of the text encoder for downstream visual recognition tasks undiscovered. In this paper, we revise the role of the linear classifier and replace the classifier with the embedded language representations of the object categories. These language representations are initialized from the text encoder of the vision-language pre-trained model to further utilize its well-pretrained language model parameters. The empirical study shows that our method improves both the performance and the training speed of video classification, with a negligible change in the model. In particular, our paradigm achieves the state-of-the-art accuracy of 87.3% on Kinetics-400.
翻訳日:2022-07-05 15:15:58 公開日:2022-07-04
# Harmonizer: ホワイトボックスイメージとビデオハーモナイズを実現するための学習

Harmonizer: Learning to Perform White-Box Image and Video Harmonization ( http://arxiv.org/abs/2207.01322v1 )

ライセンス: Link先を確認
Zhanghan Ke, Chunyi Sun, Lei Zhu, Ke Xu, Rynson W.H. Lau(参考訳) 画像調和化に関する最近の研究は、大きなオートエンコーダによる画素単位の画像変換タスクとしてこの問題を解決している。 高解像度画像を扱う場合、満足のいくパフォーマンスと推論速度が遅い。 本研究では,基本画像フィルタの入力引数,例えば明るさやコントラストの調整は,人間が合成画像からリアルな画像を生成するのに十分であることを示す。 したがって、画像調和を画像レベルの回帰問題として捉え、人間がタスクに使用するフィルタの引数を学習する。 画像調和のためのハーモナイザフレームワークを提案する。 ブラックボックスオートエンコーダに基づく以前の方法とは異なり、harmonizerにはフィルタ引数予測のためのニューラルネットワークと、画像調和のためのホワイトボックスフィルタ(予測された引数に基づく)が含まれている。 また,Halmonizer のカスケード回帰器と動的損失戦略を導入し,より安定かつ正確にフィルタ引数を学習する。 私たちのネットワークは画像レベルの引数のみを出力し、使用するフィルタは効率的であるため、harmonizerは既存のメソッドよりもはるかに軽量で高速です。 総合的な実験により、ハーモナイザーは特に高分解能入力において既存の手法を超越していることが示されている。 最後に、ハーモナイザーをビデオハーモニゼーションに適用し、1080P解像度でフレーム間56fpsで一貫した結果を得る。 コードとモデルは、https://github.com/zhkke/harmonizerで入手できる。

Recent works on image harmonization solve the problem as a pixel-wise image translation task via large autoencoders. They have unsatisfactory performances and slow inference speeds when dealing with high-resolution images. In this work, we observe that adjusting the input arguments of basic image filters, e.g., brightness and contrast, is sufficient for humans to produce realistic images from the composite ones. Hence, we frame image harmonization as an image-level regression problem to learn the arguments of the filters that humans use for the task. We present a Harmonizer framework for image harmonization. Unlike prior methods that are based on black-box autoencoders, Harmonizer contains a neural network for filter argument prediction and several white-box filters (based on the predicted arguments) for image harmonization. We also introduce a cascade regressor and a dynamic loss strategy for Harmonizer to learn filter arguments more stably and precisely. Since our network only outputs image-level arguments and the filters we used are efficient, Harmonizer is much lighter and faster than existing methods. Comprehensive experiments demonstrate that Harmonizer surpasses existing methods notably, especially with high-resolution inputs. Finally, we apply Harmonizer to video harmonization, which achieves consistent results across frames and 56 fps at 1080P resolution. Code and models are available at: https://github.com/ZHKKKe/Harmonizer.
翻訳日:2022-07-05 15:15:43 公開日:2022-07-04
# デュアルイメージ適応学習フィルタによる夜間運転・シーンセグメンテーションの改善

Improving Nighttime Driving-Scene Segmentation via Dual Image-adaptive Learnable Filters ( http://arxiv.org/abs/2207.01331v1 )

ライセンス: Link先を確認
Wenyu Liu, Wentong Li, Jianke Zhu, Miaomiao Cui, Xuansong Xie, Lei Zhang(参考訳) 運転シーン画像のセマンティックセグメンテーションは自動運転に不可欠である。 昼間の映像では性能向上が達成されているが, 露光不足やラベル付きデータの欠如などにより, 夜間画像のパフォーマンスは不十分である。 これらの課題に対処するため、夜間駆動条件におけるセマンティックセグメンテーションを改善するために、デュアルイメージ適応学習可能なフィルタ(DIAL-Filters)と呼ばれるアドオンモジュールを提案する。 ダイヤルフィルタは画像適応処理モジュール(iapm)と学習可能な誘導フィルタ(lgf)の2つの部分からなる。 DIAL-Filtersでは、夜間運転シーンセグメンテーションのための教師なしフレームワークと教師なしフレームワークの両方を設計する。 具体的には、iapmモジュールは、小さな畳み込みニューラルネットワークと、微分可能なイメージフィルタのセットで構成されており、それぞれの画像は、異なる照度に対してより良好なセグメンテーションのために適応的に拡張することができる。 LGFは、最終的なセグメンテーション結果を得るためにセグメンテーションネットワークの出力を強化するために使用される。 DIAL-Filterは軽量で効率が良く、昼間と夜間の両方に簡単に適用できる。 ACDC_Night と NightCity のデータセットの教師付きセグメンテーション性能は,DAIL-Filter により大幅に向上し,ダークチューリッヒとナイトタイムドライビングテストベッドの教師なし夜間セグメンテーションにおける最先端のセグメンテーション性能を示す。

Semantic segmentation on driving-scene images is vital for autonomous driving. Although encouraging performance has been achieved on daytime images, the performance on nighttime images are less satisfactory due to the insufficient exposure and the lack of labeled data. To address these issues, we present an add-on module called dual image-adaptive learnable filters (DIAL-Filters) to improve the semantic segmentation in nighttime driving conditions, aiming at exploiting the intrinsic features of driving-scene images under different illuminations. DIAL-Filters consist of two parts, including an image-adaptive processing module (IAPM) and a learnable guided filter (LGF). With DIAL-Filters, we design both unsupervised and supervised frameworks for nighttime driving-scene segmentation, which can be trained in an end-to-end manner. Specifically, the IAPM module consists of a small convolutional neural network with a set of differentiable image filters, where each image can be adaptively enhanced for better segmentation with respect to the different illuminations. The LGF is employed to enhance the output of segmentation network to get the final segmentation result. The DIAL-Filters are light-weight and efficient and they can be readily applied for both daytime and nighttime images. Our experiments show that DAIL-Filters can significantly improve the supervised segmentation performance on ACDC_Night and NightCity datasets, while it demonstrates the state-of-the-art performance on unsupervised nighttime semantic segmentation on Dark Zurich and Nighttime Driving testbeds.
翻訳日:2022-07-05 15:15:21 公開日:2022-07-04
# Egocentric Video-Language Pretraining @ EPIC-KITCHENS-100 Multi-Instance Retrieval Challenge 2022

Egocentric Video-Language Pretraining @ EPIC-KITCHENS-100 Multi-Instance Retrieval Challenge 2022 ( http://arxiv.org/abs/2207.01334v1 )

ライセンス: Link先を確認
Kevin Qinghong Lin, Alex Jinpeng Wang, Rui Yan, Eric Zhongcong Xu, Rongcheng Tu, Yanru Zhu, Wenzhe Zhao, Weijie Kong, Chengfei Cai, Hongfa Wang, Wei Liu, Mike Zheng Shou(参考訳) 本稿では,EPIC-KITCHENS-100 Multi-Instance Retrieval (MIR) チャレンジに対して,ビデオ言語事前学習(VLP)ベースのソリューション \cite{kevin2022egovlp} を提案する。 特に、最近リリースされたEgo4Dデータセット \cite{grauman2021ego4d} を利用して、事前学習データセット、事前学習目標、開発セットからEgocentric VLPを開拓する。 上記の3つの設計に基づいて,その自我中心の映像テキスト表現をMIRベンチマークに転送できる事前学習ビデオ言語モデルを開発した。 さらに,適応型マルチインスタンス最大マージン損失を考案し,モデルを効果的に微調整し,信頼度の高い推論にデュアルソフトマックス技術を適用する。 ベストシングルモデルは、47.39% mAP と 61.44% nDCG のチャレンジテストセットで高い性能を得る。 コードはhttps://github.com/showlab/egovlpで入手できる。

In this report, we propose a video-language pretraining (VLP) based solution \cite{kevin2022egovlp} for the EPIC-KITCHENS-100 Multi-Instance Retrieval (MIR) challenge. Especially, we exploit the recently released Ego4D dataset \cite{grauman2021ego4d} to pioneer Egocentric VLP from pretraining dataset, pretraining objective, and development set. Based on the above three designs, we develop a pretrained video-language model that is able to transfer its egocentric video-text representation to MIR benchmark. Furthermore, we devise an adaptive multi-instance max-margin loss to effectively fine-tune the model and equip the dual-softmax technique for reliable inference. Our best single model obtains strong performance on the challenge test set with 47.39% mAP and 61.44% nDCG. The code is available at https://github.com/showlab/EgoVLP.
翻訳日:2022-07-05 15:14:18 公開日:2022-07-04
# pvdd:実世界の動的シーンを含む実用的なビデオデノイジングデータセット

PVDD: A Practical Video Denoising Dataset with Real-World Dynamic Scenes ( http://arxiv.org/abs/2207.01356v1 )

ライセンス: Link先を確認
Xiaogang Xu, Yitong Yu, Nianjuan Jiang, Jiangbo Lu, Bei Yu, Jiaya Jia(参考訳) ビデオデノイジング研究を容易にするために,srgb と raw フォーマットの両方で 200 個のノイズ-クリーンダイナミックビデオペアを含む "practical video denoising dataset" (pvdd) という魅力的なデータセットを構築した。 限られた動作情報からなる既存のデータセットと比較すると、pvddは動的シーンを変化と自然な動きでカバーする。 一次ガウス分布やポアソン分布を用いてsRGB領域のノイズを合成するデータセットとは異なり、PVDDはRAW領域からリアルノイズを物理的に意味のあるセンサノイズモデルで合成し、ISP処理を行う。 さらに,本データセットに基づき,実世界のsrgbビデオにおける映像デノイジングネットワークの性能を向上させるためのシャッフルに基づく実用的劣化モデルを提案する。 PVDDでトレーニングされたモデルが、他の既存のデータセットでトレーニングされたモデルよりも、多くの挑戦的な実世界のビデオで優れたノイズ発生性能を達成することを示す大規模な実験である。

To facilitate video denoising research, we construct a compelling dataset, namely, "Practical Video Denoising Dataset" (PVDD), containing 200 noisy-clean dynamic video pairs in both sRGB and RAW format. Compared with existing datasets consisting of limited motion information, PVDD covers dynamic scenes with varying and natural motion. Different from datasets using primary Gaussian or Poisson distributions to synthesize noise in the sRGB domain, PVDD synthesizes realistic noise from the RAW domain with a physically meaningful sensor noise model followed by ISP processing. Moreover, based on this dataset, we propose a shuffle-based practical degradation model to enhance the performance of video denoising networks on real-world sRGB videos. Extensive experiments demonstrate that models trained on PVDD achieve superior denoising performance on many challenging real-world videos than on models trained on other existing datasets.
翻訳日:2022-07-05 15:14:02 公開日:2022-07-04
# 自然視における眼球運動に基づくADHDの検出

Detection of ADHD based on Eye Movements during Natural Viewing ( http://arxiv.org/abs/2207.01377v1 )

ライセンス: Link先を確認
Shuwen Deng, Paul Prasse, David R. Reich, Sabine Dziemian, Maja Stegenwallner-Sch\"utz, Daniel Krakowczyk, Silvia Makowski, Nicolas Langer, Tobias Scheffer, and Lena A. J\"ager(参考訳) 注意欠陥・高活動障害(ADHD: Attention-deficit/hyperactive disorder)は神経発達障害であり、臨床医に診断が必要である。 目の動きに反映される個人の観察行動は、注意機構や高次認知過程に直接関係していることが知られている。 そこで我々は,自由視聴課題における映像刺激に関する情報とともに,記録された眼球運動に基づいてADHDを検出できるかどうかを検討する。 そこで本研究では,より多くのデータが得られるタスクを事前学習した眼球運動スキャンパスを用いた,エンドツーエンドのディープラーニングに基づくシーケンスモデル%を開発した。 この手法は実際にADHDを検出し、関連するベースラインを上回ります。 アブレーション研究における入力特徴の関連性について検討する。 興味深いことに、このモデルの性能はビデオの内容と密接に関連しており、将来の実験設計に対する洞察を提供する。

Attention-deficit/hyperactivity disorder (ADHD) is a neurodevelopmental disorder that is highly prevalent and requires clinical specialists to diagnose. It is known that an individual's viewing behavior, reflected in their eye movements, is directly related to attentional mechanisms and higher-order cognitive processes. We therefore explore whether ADHD can be detected based on recorded eye movements together with information about the video stimulus in a free-viewing task. To this end, we develop an end-to-end deep learning-based sequence model %that makes use of eye movement scanpaths which we pre-train on a related task for which more data are available. We find that the method is in fact able to detect ADHD and outperforms relevant baselines. We investigate the relevance of the input features in an ablation study. Interestingly, we find that the model's performance is closely related to the content of the video, which provides insights for future experimental designs.
翻訳日:2022-07-05 15:13:46 公開日:2022-07-04
# 制御可能な人間の運動予測のための不連続表現の学習

Learning Disentangled Representations for Controllable Human Motion Prediction ( http://arxiv.org/abs/2207.01388v1 )

ライセンス: Link先を確認
Chunzhi Gu, Jun Yu and Chao Zhang(参考訳) 生成モデルに基づく運動予測技術は、最近、制御された人間の動きを予測することを実現している。 しかし、これを達成するために最先端の手法は、同様の動きを求めるためにマッピング関数を学習するか、身体の所望の部分をコントロールするために反復的にモデルを訓練する必要がある。 本稿では,制御可能な人間の動作予測のための非絡み合い表現を学習するための新しい枠組みを提案する。 我々のネットワークは、完全な身体の動きをモデル化するための条件付き変分自動エンコーダ(CVAE)アーキテクチャと、対応する部分体(例えば下体)の動きのみを学ぶための追加のCVAEパスを含んでいる。 具体的には、余分なcvae経路によって課される帰納バイアスは、2つの経路内の2つの潜在変数をそれぞれ各部分体運動の別々の表現を制御するように促す。 一つのトレーニングで、我々のモデルは、生成された人間の動きに対する2つのタイプの制御を提供することができる。 (i)人体の一方を厳しく支配すること、及び 2)一対の潜伏空間からサンプリングすることにより、他の部分を適応的に制御する。 さらに、トレーニングしたモデルにサンプリング戦略を拡張して適用することで、制御可能な予測を多様化します。 また, CVAE経路の入力を柔軟にカスタマイズすることで, 新たな制御が可能となる可能性がある。 広範囲な実験結果とアブレーション研究により,本手法は定性的かつ定量的に制御可能な人間の運動を予測できることを示した。

Generative model-based motion prediction techniques have recently realized predicting controlled human motions, such as predicting multiple upper human body motions with similar lower-body motions. However, to achieve this, the state-of-the-art methods require either subsequently learning mapping functions to seek similar motions or training the model repetitively to enable control over the desired portion of body. In this paper, we propose a novel framework to learn disentangled representations for controllable human motion prediction. Our network involves a conditional variational auto-encoder (CVAE) architecture to model full-body human motion, and an extra CVAE path to learn only the corresponding partial-body (e.g., lower-body) motion. Specifically, the inductive bias imposed by the extra CVAE path encourages two latent variables in two paths to respectively govern separate representations for each partial-body motion. With a single training, our model is able to provide two types of controls for the generated human motions: (i) strictly controlling one portion of human body and (ii) adaptively controlling the other portion, by sampling from a pair of latent spaces. Additionally, we extend and adapt a sampling strategy to our trained model to diversify the controllable predictions. Our framework also potentially allows new forms of control by flexibly customizing the input for the extra CVAE path. Extensive experimental results and ablation studies demonstrate that our approach is capable of predicting state-of-the-art controllable human motions both qualitatively and quantitatively.
翻訳日:2022-07-05 15:13:32 公開日:2022-07-04
# I-ViT:効率的な視覚変換器推論のための整数のみ量子化

I-ViT: Integer-only Quantization for Efficient Vision Transformer Inference ( http://arxiv.org/abs/2207.01405v1 )

ライセンス: Link先を確認
Zhikai Li and Qingyi Gu(参考訳) ビジョントランスフォーマー (ViT) は様々なコンピュータビジョンアプリケーションで最先端の性能を達成した。 しかし、これらのモデルにはかなりのストレージと計算オーバーヘッドがあり、エッジデバイスへのデプロイメントと効率的な推論が困難である。 量子化はモデル複雑性を減らすための有望なアプローチであるが、残念ながら、ViTを量子化する既存の試みは量子化をシミュレートしている(いわゆる偽量子化)。 本稿では,整数演算とビットシフトを伴い,浮動小数点演算を行なわず,推論の計算グラフ全体の実行を可能にするために,ViTの整数のみの量子化方式であるI-ViTを提案する。 i-vitでは、線形演算(例えば、matmul や dense)はdyadic演算を伴う整数専用パイプラインに従い、非線形演算(例えばsoftmax、gelu、layernorm)は、提案される軽量整数専用演算法によって近似される。 特にI-ViTでは、整数ビットシフトを用いて対応する浮動小数点演算を近似するShiftmaxとShiftGELUが提案されている。 我々は,様々なベンチマークモデルを用いてI-ViTを評価し,整数のみのINT8量子化が全精度(FP)ベースラインと同等(あるいはそれ以上)の精度を達成することを示す。 さらに、GPUの整数演算ユニット上での実用的なハードウェア展開にTVMを使用し、FPモデルと比較して3.72~4.11$\times$推論スピードアップを達成した。

Vision Transformers (ViTs) have achieved state-of-the-art performance on various computer vision applications. These models, however, have considerable storage and computational overheads, making their deployment and efficient inference on edge devices challenging. Quantization is a promising approach to reducing model complexity; unfortunately, existing efforts to quantize ViTs are simulated quantization (aka fake quantization), which remains floating-point arithmetic during inference and thus contributes little to model acceleration. In this paper, we propose I-ViT, an integer-only quantization scheme for ViTs, to enable ViTs to perform the entire computational graph of inference with integer operations and bit-shifting and no floating-point operations. In I-ViT, linear operations (e.g., MatMul and Dense) follow the integer-only pipeline with dyadic arithmetic, and non-linear operations (e.g., Softmax, GELU, and LayerNorm) are approximated by the proposed light-weight integer-only arithmetic methods. In particular, I-ViT applies the proposed Shiftmax and ShiftGELU, which are designed to use integer bit-shifting to approximate the corresponding floating-point operations. We evaluate I-ViT on various benchmark models and the results show that integer-only INT8 quantization achieves comparable (or even higher) accuracy to the full-precision (FP) baseline. Furthermore, we utilize TVM for practical hardware deployment on the GPU's integer arithmetic units, achieving 3.72~4.11$\times$ inference speedup compared to the FP model.
翻訳日:2022-07-05 15:13:07 公開日:2022-07-04
# 意味セグメンテーションにおける正負等コントラスト損失

Positive-Negative Equal Contrastive Loss for Semantic Segmentation ( http://arxiv.org/abs/2207.01417v1 )

ライセンス: Link先を確認
Jing Wang, Linfei Xuan, Wenxuan Wang, Tianxiang Zhang, Jiangyun Li(参考訳) 様々なコンピュータビジョンタスクにおいてコンテキスト情報は重要であり、以前の作業ではプラグアンドプレイモジュールを設計し、グローバルなコンテキストを効果的に抽出し集約するために構造的損失を設計していた。 これらの方法は、モデルを最適化するためにファインラベルを使用するが、細分化された特徴もまた貴重なトレーニングリソースであり、ハードピクセル(例えば、誤った分類されたピクセル)に望ましい分布をもたらすことを無視する。 教師なしパラダイムにおけるコントラスト学習に触発され、教師なし学習のステレオタイプ(例えば、正と負の不均衡、アンカーコンピューティングの混乱)を捨てるために、教師なしの方法でコントラストの損失を適用し、損失関数を再設計する。 そこで本研究では,アンカーへの正の埋め込みによる潜在的影響を増大させ,負のサンプルペアと負のサンプルペアを等しく扱う正負の等コントラスト損失(pne損失)を提案する。 PNE損失は、既存のセマンティックセグメンテーションフレームワークに直接直接プラグインすることができ、無視可能な余分な計算コストで優れたパフォーマンスをもたらす。 我々は、多数の古典的なセグメンテーション手法(DeepLabV3、OCRNet、UperNetなど)とバックボーン(ResNet、HRNet、Swin Transformerなど)を使用して、包括的な実験を行い、2つのベンチマークデータセット(Cityscapes、COCO-Stuffなど)で最先端のパフォーマンスを達成する。 私たちのコードは公開され

The contextual information is critical for various computer vision tasks, previous works commonly design plug-and-play modules and structural losses to effectively extract and aggregate the global context. These methods utilize fine-label to optimize the model but ignore that fine-trained features are also precious training resources, which can introduce preferable distribution to hard pixels (i.e., misclassified pixels). Inspired by contrastive learning in unsupervised paradigm, we apply the contrastive loss in a supervised manner and re-design the loss function to cast off the stereotype of unsupervised learning (e.g., imbalance of positives and negatives, confusion of anchors computing). To this end, we propose Positive-Negative Equal contrastive loss (PNE loss), which increases the latent impact of positive embedding on the anchor and treats the positive as well as negative sample pairs equally. The PNE loss can be directly plugged right into existing semantic segmentation frameworks and leads to excellent performance with neglectable extra computational costs. We utilize a number of classic segmentation methods (e.g., DeepLabV3, OCRNet, UperNet) and backbone (e.g., ResNet, HRNet, Swin Transformer) to conduct comprehensive experiments and achieve state-of-the-art performance on two benchmark datasets (e.g., Cityscapes and COCO-Stuff). Our code will be publicly
翻訳日:2022-07-05 15:12:37 公開日:2022-07-04
# パタシティック卵の検出と分類のためのロバストアンサンブルモデル

A Robust Ensemble Model for Patasitic Egg Detection and Classification ( http://arxiv.org/abs/2207.01419v1 )

ライセンス: Link先を確認
Yuqi Wang, Zhiqiang He, Shenghui Huang, Huabin Du(参考訳) 腸内寄生虫感染症は、世界中で致命的な原因となっているが、それでも時間節約、高感度、ユーザフレンドリーな検査方法が欠けている。 深層学習技術の開発は、生物画像におけるその幅広い応用可能性を明らかにする。 本稿では,ヨーロフ5や変種カスケードrcnnなどの物体検出器を用いて顕微鏡画像中の寄生卵の自動判別を行う。 生データ拡張、モデルアンサンブル、トランスファーラーニング、テスト時間拡張を含む特別に設計された最適化により、我々のモデルは課題データセット上で優れた性能を達成する。 さらに, 付加ノイズをトレーニングしたモデルでは, 汚染された入力に対して高いロバスト性が得られ, 実用性がさらに拡大した。

Intestinal parasitic infections, as a leading causes of morbidity worldwide, still lacks time-saving, high-sensitivity and user-friendly examination method. The development of deep learning technique reveals its broad application potential in biological image. In this paper, we apply several object detectors such as YOLOv5 and variant cascadeRCNNs to automatically discriminate parasitic eggs in microscope images. Through specially-designed optimization including raw data augmentation, model ensemble, transfer learning and test time augmentation, our model achieves excellent performance on challenge dataset. In addition, our model trained with added noise gains a high robustness against polluted input, which further broaden its applicability in practice.
翻訳日:2022-07-05 15:11:31 公開日:2022-07-04
# DeepPyramid:白内障手術ビデオにおけるセマンティックセグメンテーションのためのピラミッド視と変形可能なピラミッド受容

DeepPyramid: Enabling Pyramid View and Deformable Pyramid Reception for Semantic Segmentation in Cataract Surgery Videos ( http://arxiv.org/abs/2207.01453v1 )

ライセンス: Link先を確認
Negin Ghamsarian, Mario Taschwer, Raphael Sznitman, Klaus Schoeffmann(参考訳) 白内障手術におけるセマンティクスセグメンテーションは、手術結果の増大と臨床リスク低減に寄与する幅広い応用がある。 しかし、これらの手術で異なる関連構造を分割する際の様々な問題は、ユニークなネットワークの指定を非常に困難にしている。 This paper proposes a semantic segmentation network, termed DeepPyramid, that can deal with these challenges using three novelties: (1) a Pyramid View Fusion module which provides a varying-angle global view of the surrounding region centering at each pixel position in the input convolutional feature map; (2) a Deformable Pyramid Reception module which enables a wide deformable receptive field that can adapt to geometric transformations in the object of interest; and (3) a dedicated Pyramid Loss that adaptively supervises multi-scale semantic feature maps. これらのモジュールを組み合わせることで、特に透明性、変形性、スケーラビリティ、オブジェクトの鈍いエッジにおいて、セマンティックセグメンテーションのパフォーマンスを効果的に向上できることを示す。 我々は、我々のアプローチが最先端のレベルで実行され、多くの既存の手法よりも大きなマージン(3.66%)で、最も競合するアプローチと比較して、ユニオンよりも全体的な改善を達成していることを示した。

Semantic segmentation in cataract surgery has a wide range of applications contributing to surgical outcome enhancement and clinical risk reduction. However, the varying issues in segmenting the different relevant structures in these surgeries make the designation of a unique network quite challenging. This paper proposes a semantic segmentation network, termed DeepPyramid, that can deal with these challenges using three novelties: (1) a Pyramid View Fusion module which provides a varying-angle global view of the surrounding region centering at each pixel position in the input convolutional feature map; (2) a Deformable Pyramid Reception module which enables a wide deformable receptive field that can adapt to geometric transformations in the object of interest; and (3) a dedicated Pyramid Loss that adaptively supervises multi-scale semantic feature maps. Combined, we show that these modules can effectively boost semantic segmentation performance, especially in the case of transparency, deformability, scalability, and blunt edges in objects. We demonstrate that our approach performs at a state-of-the-art level and outperforms a number of existing methods with a large margin (3.66% overall improvement in intersection over union compared to the best rival approach).
翻訳日:2022-07-05 15:10:23 公開日:2022-07-04
# 異常検出のための明示的境界誘導半プッシュ・プルコントラスト学習

Explicit Boundary Guided Semi-Push-Pull Contrastive Learning for Better Anomaly Detection ( http://arxiv.org/abs/2207.01463v1 )

ライセンス: Link先を確認
Xincheng Yao and Chongyang Zhang and Ruoqi Li(参考訳) 異常検出アルゴリズムの大部分は、通常サンプルの分布をモデル化し、異常を外れ値として扱うことに焦点を当てている。 しかし、異常に関する知識が不足しているため、モデルの識別性能は不十分である可能性がある。 したがって、異常を可能な限り利用すべきである。 しかし、トレーニング中にいくつかの既知の異常を利用すると、モデルが既知の異常に偏り、目に見えない異常に一般化できないという別の問題を引き起こす可能性がある。 本稿では,不十分な既知の異常に起因するバイアス問題を軽減しつつ,識別性を高めるために,事前設計した明示的な境界誘導セミプッシュプル学習戦略を用いて,既存の異常を生かすことを目的とする。 私たちのモデルは2つのコア設計に基づいています。まず第一に、より対照的な学習のためのガイダンスとして、明確な分離境界を見つけます。 具体的には,正規化フローを用いて通常の特徴分布を学習し,分布エッジに近い明確な分離境界を求める。 得られた明示的かつコンパクトな分離境界は通常の特徴分布にのみ依存するため、いくつかの既知の異常に起因するバイアス問題を緩和することができる。 第二に、明確な分離境界の下でより差別的な特徴を学ぶ。 境界ガイド付きセミプッシュ・プル損失は、通常の特徴を一つにまとめるだけで、その異常特徴を分離境界から特定の辺縁領域を超えて押し出す。 このようにして、我々のモデルはより明示的で差別的な決定境界を形成し、未知の異常に対してより良い結果を得ることができ、同時に高い訓練効率を維持することができる。 広範に使用されているMVTecADベンチマークの大規模な実験により、提案手法は98.8%の画像レベルのAUROCと99.4%ピクセルレベルのAUROCのパフォーマンスで、新しい最先端の結果を達成している。

Most of anomaly detection algorithms are mainly focused on modeling the distribution of normal samples and treating anomalies as outliers. However, the discriminative performance of the model may be insufficient due to the lack of knowledge about anomalies. Thus, anomalies should be exploited as possible. However, utilizing a few known anomalies during training may cause another issue that model may be biased by those known anomalies and fail to generalize to unseen anomalies. In this paper, we aim to exploit a few existing anomalies with a carefully designed explicit boundary guided semi-push-pull learning strategy, which can enhance discriminability while mitigating bias problem caused by insufficient known anomalies. Our model is based on two core designs: First, finding one explicit separating boundary as the guidance for further contrastive learning. Specifically, we employ normalizing flow to learn normal feature distribution, then find an explicit separating boundary close to the distribution edge. The obtained explicit and compact separating boundary only relies on the normal feature distribution, thus the bias problem caused by a few known anomalies can be mitigated. Second, learning more discriminative features under the guidance of the explicit separating boundary. A boundary guided semi-push-pull loss is developed to only pull the normal features together while pushing the abnormal features apart from the separating boundary beyond a certain margin region. In this way, our model can form a more explicit and discriminative decision boundary to achieve better results for known and also unseen anomalies, while also maintaining high training efficiency. Extensive experiments on the widely-used MVTecAD benchmark show that the proposed method achieves new state-of-the-art results, with the performance of 98.8% image-level AUROC and 99.4% pixel-level AUROC.
翻訳日:2022-07-05 15:10:05 公開日:2022-07-04
# 3Dポイントクラウド表現学習におけるマスクオートエンコーダ

Masked Autoencoders in 3D Point Cloud Representation Learning ( http://arxiv.org/abs/2207.01545v1 )

ライセンス: Link先を確認
Jincen Jiang, Xuequan Lu, Lizhi Zhao, Richard Dazeley, Meili Wang(参考訳) トランスフォーマティブに基づく自己教師付き表現学習手法は、ラベルなしデータセットから汎用的な特徴を学習し、下流タスクに有用なネットワーク初期化パラメータを提供する。 近年,3次元点雲データに対する局所表面パッチのマスキングに基づく自己教師型学習が検討されている。 本稿では,自己教師型学習のための新しい自動符号化パラダイムである3Dポイントクラウド表現学習(MAE3D)におけるマスク付きオートエンコーダを提案する。 最初はインプットポイントクラウドをパッチに分割し、その一部をマスクし、次にPatch Embedding Moduleを使って未成熟のパッチの特徴を抽出しました。 次に,パッチワイズmae3dトランスフォーマを使用して,ポイントクラウドパッチのローカル機能と,パッチ間のハイレベルなコンテキスト関係を学習し,マスクパッチの潜在表現を完成させる。 結果として、不完全なポイントクラウドを完成させるために、マルチタスクの損失を伴うポイントクラウドリコンストラクションモジュールを使用します。 本研究では,ShapeNet55上で,ポイントクラウド完了前テキストタスクによる事前学習を行い,ModelNet40およびScanObjectNN(PB\_T50\_RS,最も難しい変種)の事前学習モデルを微調整する。 包括的実験により、ポイントクラウドパッチからmae3dによって抽出されたローカル機能は、下流の分類タスクに有用であり、最先端のメソッドよりも優れた(それぞれ93.4\%$と8.6.2\%$の分類精度)。

Transformer-based Self-supervised Representation Learning methods learn generic features from unlabeled datasets for providing useful network initialization parameters for downstream tasks. Recently, self-supervised learning based upon masking local surface patches for 3D point cloud data has been under-explored. In this paper, we propose masked Autoencoders in 3D point cloud representation learning (abbreviated as MAE3D), a novel autoencoding paradigm for self-supervised learning. We first split the input point cloud into patches and mask a portion of them, then use our Patch Embedding Module to extract the features of unmasked patches. Secondly, we employ patch-wise MAE3D Transformers to learn both local features of point cloud patches and high-level contextual relationships between patches and complete the latent representations of masked patches. We use our Point Cloud Reconstruction Module with multi-task loss to complete the incomplete point cloud as a result. We conduct self-supervised pre-training on ShapeNet55 with the point cloud completion pre-text task and fine-tune the pre-trained model on ModelNet40 and ScanObjectNN (PB\_T50\_RS, the hardest variant). Comprehensive experiments demonstrate that the local features extracted by our MAE3D from point cloud patches are beneficial for downstream classification tasks, soundly outperforming state-of-the-art methods ($93.4\%$ and $86.2\%$ classification accuracy, respectively).
翻訳日:2022-07-05 15:09:35 公開日:2022-07-04
# 劣化画像データセットにおけるコントラスト非教師なし特徴のクラスタ内および外分布ノイズへの埋め込み

Embedding contrastive unsupervised features to cluster in- and out-of-distribution noise in corrupted image datasets ( http://arxiv.org/abs/2207.01573v1 )

ライセンス: Link先を確認
Paul Albert, Eric Arazo, Noel E. O'Connor and Kevin McGuinness(参考訳) web画像検索に検索エンジンを使うことは、画像データセットを作成する際に手動キュレーションに代わる魅力的な方法だが、その主な欠点は、検索された不正確なサンプルの割合である。 これらのノイズのあるサンプルは、データセット内の他のクラスに類似した視覚的意味論を提示する不正確なカテゴリに割り当てられた非分布(ID)サンプルと、データセットからの任意のカテゴリと意味的相関を持たないアウト・オブ・ディストリビューション(OOD)イメージの混合であることが過去の研究によって証明されている。 後者は、実際には、ノイズの多い画像の圧倒的な種類である。 このノイズ双対性に対処するために,教師なしのコントラスト特徴学習を用いて特徴空間内の画像を表現する2段階のアルゴリズムを提案する。 比較学習のアライメントと均一性原理により,OODサンプルは単位超球面上のIDサンプルから線形に分離できることがわかった。 次に、固定された近傍サイズを用いて教師なし表現をスペクトル的に埋め込み、クラスレベルで外れ値に敏感なクラスタリングを適用し、クリーンおよびOODクラスタとIDノイズの外れ値を検出する。 最終的に、IDノイズを正しいカテゴリに修正するノイズ堅牢ニューラルネットワークをトレーニングし、ガイド付きコントラスト目的のOODサンプルを使用して、それらをクラスタリングして低レベル機能を改善する。 本アルゴリズムは,合成ノイズ画像データセットと実世界のwebクローラーデータに関する最新の結果を改善する。 私たちの仕事は完璧に再現できる[github].

Using search engines for web image retrieval is a tempting alternative to manual curation when creating an image dataset, but their main drawback remains the proportion of incorrect (noisy) samples retrieved. These noisy samples have been evidenced by previous works to be a mixture of in-distribution (ID) samples, assigned to the incorrect category but presenting similar visual semantics to other classes in the dataset, and out-of-distribution (OOD) images, which share no semantic correlation with any category from the dataset. The latter are, in practice, the dominant type of noisy images retrieved. To tackle this noise duality, we propose a two stage algorithm starting with a detection step where we use unsupervised contrastive feature learning to represent images in a feature space. We find that the alignment and uniformity principles of contrastive learning allow OOD samples to be linearly separated from ID samples on the unit hypersphere. We then spectrally embed the unsupervised representations using a fixed neighborhood size and apply an outlier sensitive clustering at the class level to detect the clean and OOD clusters as well as ID noisy outliers. We finally train a noise robust neural network that corrects ID noise to the correct category and utilizes OOD samples in a guided contrastive objective, clustering them to improve low-level features. Our algorithm improves the state-of-the-art results on synthetic noise image datasets as well as real-world web-crawled data. Our work is fully reproducible [github].
翻訳日:2022-07-05 15:09:07 公開日:2022-07-04
# LaTeRF:ラベルとテキスト駆動型オブジェクト放射場

LaTeRF: Label and Text Driven Object Radiance Fields ( http://arxiv.org/abs/2207.01583v1 )

ライセンス: Link先を確認
Ashkan Mirzaei, Yash Kant, Jonathan Kelly, and Igor Gilitschenski(参考訳) 3Dオブジェクト表現の取得は、フォトリアリスティックシミュレータの作成とAR/VRアプリケーションのアセット収集において重要である。 ニューラルネットワークは2次元画像からシーンの連続的な体積表現を学習する効果を示してきたが、これらのモデルからオブジェクト表現を取得することは依然としてオープンな課題である。 本稿では、シーン全体と既知のカメラポーズの2d画像、オブジェクトの自然言語記述、入力画像中のオブジェクトと非オブジェクトポイントの少数の点ラベルを与えられたシーンから興味のあるオブジェクトを抽出する手法である laterf を紹介する。 シーンからオブジェクトを忠実に抽出するために、LaTeRFはNeRFの定式化を各3Dポイントで追加の「対象性」確率で拡張する。 さらに、事前訓練されたCLIPモデルのリッチな潜伏空間と微分可能なオブジェクトレンダラーを組み合わせることで、オブジェクトの隠蔽部分を塗り付ける。 合成データと実データの両方で高忠実度オブジェクト抽出を行い,広範なアブレーション研究を通じて設計選択を正当化する。

Obtaining 3D object representations is important for creating photo-realistic simulators and collecting assets for AR/VR applications. Neural fields have shown their effectiveness in learning a continuous volumetric representation of a scene from 2D images, but acquiring object representations from these models with weak supervision remains an open challenge. In this paper we introduce LaTeRF, a method for extracting an object of interest from a scene given 2D images of the entire scene and known camera poses, a natural language description of the object, and a small number of point-labels of object and non-object points in the input images. To faithfully extract the object from the scene, LaTeRF extends the NeRF formulation with an additional `objectness' probability at each 3D point. Additionally, we leverage the rich latent space of a pre-trained CLIP model combined with our differentiable object renderer, to inpaint the occluded parts of the object. We demonstrate high-fidelity object extraction on both synthetic and real datasets and justify our design choices through an extensive ablation study.
翻訳日:2022-07-05 15:08:40 公開日:2022-07-04
# CRFormer:シャドウ除去のためのクロスリージョントランス

CRFormer: A Cross-Region Transformer for Shadow Removal ( http://arxiv.org/abs/2207.01600v1 )

ライセンス: Link先を確認
Jin Wan and Hui Yin and Zhenyao Wu and Xinyi Wu and Zhihao Liu and Song Wang(参考訳) 画像中の元の影領域の強度を復元し、トレースなしで残りの非影領域と互換性を持たせることを目的として、シャドー除去は、多くの下流画像/ビデオ関連タスクの恩恵を受ける非常に難しい問題である。 近年,グローバルなピクセル間相互作用を捉えることで,様々な応用においてその強みを示しており,影除去には非常に望ましい。 しかし、影除去を促進するためにトランスを施すことは、以下の2つの理由から自明ではない。 1) パッチ化操作は,不規則な影形状のため,影除去に適さない。 2)影除去は画像中の全画素間の共通な双方向相互作用ではなく,非陰影領域から影領域への片方向相互作用のみを必要とする。 本稿では,非陰影領域から影領域への画素相互作用をパッチに分割することなく考慮し,既存の変圧器と異なる影除去のための新しいクロスリージョン変換器であるCRFormerを提案する。 これは、非シャドー領域の特徴に基づいて回復したシャドウ領域の特徴を集約できる、注意深く設計された領域対応のクロスアテンション操作によって達成される。 ISTD, AISTD, SRD, およびビデオシャドウ除去データセットの大規模な実験により, 他の最先端手法と比較して, 提案手法の優位性を示した。

Aiming to restore the original intensity of shadow regions in an image and make them compatible with the remaining non-shadow regions without a trace, shadow removal is a very challenging problem that benefits many downstream image/video-related tasks. Recently, transformers have shown their strong capability in various applications by capturing global pixel interactions and this capability is highly desirable in shadow removal. However, applying transformers to promote shadow removal is non-trivial for the following two reasons: 1) The patchify operation is not suitable for shadow removal due to irregular shadow shapes; 2) shadow removal only needs one-way interaction from the non-shadow region to the shadow region instead of the common two-way interactions among all pixels in the image. In this paper, we propose a novel cross-region transformer, namely CRFormer, for shadow removal which differs from existing transformers by only considering the pixel interactions from the non-shadow region to the shadow region without splitting images into patches. This is achieved by a carefully designed region-aware cross-attention operation that can aggregate the recovered shadow region features conditioned on the non-shadow region features. Extensive experiments on ISTD, AISTD, SRD, and Video Shadow Removal datasets demonstrate the superiority of our method compared to other state-of-the-art methods.
翻訳日:2022-07-05 15:08:20 公開日:2022-07-04
# (参考訳) ディストリビューションフリーな信頼性保証型レコメンデーションシステム

Recommendation Systems with Distribution-Free Reliability Guarantees ( http://arxiv.org/abs/2207.01609v1 )

ライセンス: CC BY 4.0
Anastasios N. Angelopoulos, Karl Krauth, Stephen Bates, Yixin Wang, Michael I. Jordan(参考訳) 推薦システムを構築する際には,ユーザに対して有用なアイテムセットを出力する。 内部では、ランキングモデルにより、2つの候補項目のどちらが良いかを予測し、これらのペア比較をユーザ向きの出力に精算する必要がある。 しかし、学習されたランキングモデルは完璧ではないので、その予測を顔の値に当てはめれば、ユーザ側の出力が信頼できる保証は得られない。 事前訓練されたランキングモデルから構築すると、主に良いアイテムを含むことを厳格に保証されたアイテムのセットを返す方法を示す。 提案手法は,(未知)データ分布にかかわらず,fdr(偽発見率)の厳密な有限サンプル制御を伴う任意のランキングモデルを内包する。 さらに,キャリブレーションアルゴリズムにより,推薦システムにおける複数の目的の容易かつ原則的な統合が可能となる。 一例として、ユーザが指定したFDR制御レベルに応じたレコメンデーションダイバーシティの最適化方法を示し、多様性損失のアドホックウェイトを精度損失に対して指定する必要性を回避する。 全体として、可能なレコメンデーションのセットをランク付けする学習の問題に焦点を合わせ、Yahoo! Learning to RankとMSMarcoデータセットの手法を評価します。

When building recommendation systems, we seek to output a helpful set of items to the user. Under the hood, a ranking model predicts which of two candidate items is better, and we must distill these pairwise comparisons into the user-facing output. However, a learned ranking model is never perfect, so taking its predictions at face value gives no guarantee that the user-facing output is reliable. Building from a pre-trained ranking model, we show how to return a set of items that is rigorously guaranteed to contain mostly good items. Our procedure endows any ranking model with rigorous finite-sample control of the false discovery rate (FDR), regardless of the (unknown) data distribution. Moreover, our calibration algorithm enables the easy and principled integration of multiple objectives in recommender systems. As an example, we show how to optimize for recommendation diversity subject to a user-specified level of FDR control, circumventing the need to specify ad hoc weights of a diversity loss against an accuracy loss. Throughout, we focus on the problem of learning to rank a set of possible recommendations, evaluating our methods on the Yahoo! Learning to Rank and MSMarco datasets.
翻訳日:2022-07-05 15:06:02 公開日:2022-07-04
# VEM$^2$L: Sparse Knowledge Graph Completion上でテキストと構造知識を融合するプラグイン・アンド・プレイフレームワーク

VEM$^2$L: A Plug-and-play Framework for Fusing Text and Structure Knowledge on Sparse Knowledge Graph Completion ( http://arxiv.org/abs/2207.01528v1 )

ライセンス: Link先を確認
Tao He, Tianwen Jiang, Zihao Zheng, Haichao Zhu, Jingrun Zhang, Ming Liu, Sendong Zhao and Bin Qin(参考訳) ナレッジグラフ補完は、主にグラフ構造の特徴をモデル化することで三重項内の欠落要素を完成させるために近年広く研究されているが、グラフ構造のスパーシティに敏感に作用する。 知識グラフ(kgs)の別の表現形式として機能するエンティティ名や説明といった関連テキストはこの課題を解決することが期待されている。 構造メッセージとテキストメッセージの両方を2つのエンコーダで使う方法が提案されているが、重みのバランスが取れなかったため、限られた改善しか得られなかった。 推論中に構造的エンコーダとテキスト的エンコーダの両方を保存するのも、圧倒的なパラメータに苦しむ。 知識蒸留により,知識を入力から出力確率へのマッピングとみなし,テキストから抽出した知識を統一化するために,スパースKG上でのプラグアンドプレイフレームワークVEM2Lを提案する。 具体的には、モデルによって得られた知識を、2つの非重複部分に分割する: 1つはトレーニング三重項の適合能力に関係しており、2つのエンコーダがトレーニングセットで互いに学習する動機付けをすることで融合することができる。 また,モデルの一般化能力を融合させるために,変分EMアルゴリズムによって証明された新たな融合戦略を提案し,その間,スパースグラフ問題をさらに緩和するためにグラフ密度化演算を適用した。 これら2つの融合法を組み合わせることで,最終的にVEM2Lフレームワークを提案する。 詳細な理論的証拠と定量的・質的実験の両方が,提案手法の有効性と有効性を示している。

Knowledge Graph Completion has been widely studied recently to complete missing elements within triples via mainly modeling graph structural features, but performs sensitive to the sparsity of graph structure. Relevant texts like entity names and descriptions, acting as another expression form for Knowledge Graphs (KGs), are expected to solve this challenge. Several methods have been proposed to utilize both structure and text messages with two encoders, but only achieved limited improvements due to the failure to balance weights between them. And reserving both structural and textual encoders during inference also suffers from heavily overwhelmed parameters. Motivated by Knowledge Distillation, we view knowledge as mappings from input to output probabilities and propose a plug-and-play framework VEM2L over sparse KGs to fuse knowledge extracted from text and structure messages into a unity. Specifically, we partition knowledge acquired by models into two nonoverlapping parts: one part is relevant to the fitting capacity upon training triples, which could be fused by motivating two encoders to learn from each other on training sets; the other reflects the generalization ability upon unobserved queries. And correspondingly, we propose a new fusion strategy proved by Variational EM algorithm to fuse the generalization ability of models, during which we also apply graph densification operations to further alleviate the sparse graph problem. By combining these two fusion methods, we propose VEM2L framework finally. Both detailed theoretical evidence, as well as quantitative and qualitative experiments, demonstrates the effectiveness and efficiency of our proposed framework.
翻訳日:2022-07-05 14:45:59 公開日:2022-07-04
# ブレークポイント再生モードにおける衛星ダウンリンクスケジューリング

Satellite downlink scheduling under breakpoint resume mode ( http://arxiv.org/abs/2207.01239v1 )

ライセンス: Link先を確認
Zhongxiang Chang and Yuning Chen and Zhongbao Zhou(参考訳) 本稿では,衛星ダウンリンクスケジューリング問題 (SDSP) と呼ばれる,ブレークポイント再開モード (SDSP-BRM) における新しい問題について述べる。 画像データを一度に完全にダウンロードしなければならない従来のSDSPと比較して、SDSP-BRMは、画像データのデータを異なる再生ウィンドウでダウンロードできる複数の断片に分割することができる。 SDSP-BRMの特性を解析することにより、まずその定式化のための混合整数プログラミングモデルを提案し、SDSP-BRMのNP硬さを証明した。 この問題を解決するために,局所探索のために複数の問題に適した移動演算子を提案する,シンプルで効果的なヒューリスティックアルゴリズム (SEHA) を設計する。 提案手法は, 汎用CPLEXソルバと比較して, 提案手法の効率性を示す。 提案したSEHAの全体的な性能に対するセグメント戦略の影響について,さらなる実験を行った。

A novel problem called satellite downlink scheduling problem (SDSP) under breakpoint resume mode (SDSP-BRM) is studied in our paper. Compared to the traditional SDSP where an imaging data has to be completely downloaded at one time, SDSP-BRM allows the data of an imaging data be broken into a number of pieces which can be downloaded in different playback windows. By analyzing the characteristics of SDSP-BRM, we first propose a mixed integer programming model for its formulation and then prove the NP-hardness of SDSP-BRM. To solve the problem, we design a simple and effective heuristic algorithm (SEHA) where a number of problem-tailored move operators are proposed for local searching. Numerical results on a set of well-designed scenarios demonstrate the efficiency of the proposed algorithm in comparison to the general purpose CPLEX solver. We conduct additional experiments to shed light on the impact of the segmental strategy on the overall performance of the proposed SEHA.
翻訳日:2022-07-05 14:43:25 公開日:2022-07-04
# アクティブイメージングAEOSの観測スケジューリング問題に対する3つの多目的ミームアルゴリズム

Three multi-objective memtic algorithms for observation scheduling problem of active-imaging AEOS ( http://arxiv.org/abs/2207.01250v1 )

ライセンス: Link先を確認
Zhongxiang Chang and Zhongbao Zhou(参考訳) agile earth observation satellite(ospfas)の観測スケジューリング問題は、agile earth observation satellite(aeoss)の管理において重要な役割を果たす。 能動イメージングはOSPFASの拡張を豊かにし、可変画像持続時間(OSWVID)を持つAEOSの観測スケジューリング問題として、新しい問題を呼ぶ。 二目的最適化モデルとしてOSWVIDを構築するために,累積画質と詳細なエネルギー消費を提案する。 3つの多目的メメティックアルゴリズム、PD+NSGA-II、LA+NSGA-II、ALNS+NSGA-IIはOSWVIDを解くように設計されている。 前回の研究で要約されたヒューリスティックな知識を考えると、これらの3つのアルゴリズムを改善するために複数の演算子が設計されている。 既存事例に基づいて,これら3つのアルゴリズムのパラメータ最適化,演算子進化,効率を広範囲なシミュレーション実験により解析する。

Observation scheduling problem for agile earth observation satellites (OSPFAS) plays a critical role in management of agile earth observation satellites (AEOSs). Active imaging enriches the extension of OSPFAS, we call the novel problem as observation scheduling problem for AEOS with variable image duration (OSWVID). A cumulative image quality and a detailed energy consumption is proposed to build OSWVID as a bi-objective optimization model. Three multi-objective memetic algorithms, PD+NSGA-II, LA+NSGA-II and ALNS+NSGA-II, are then designed to solve OSWVID. Considering the heuristic knowledge summarized in our previous research, several operators are designed for improving these three algorithms respectively. Based on existing instances, we analyze the critical parameters optimization, operators evolution, and efficiency of these three algorithms according to extensive simulation experiments.
翻訳日:2022-07-05 14:43:10 公開日:2022-07-04
# 非同期カリキュラム体験リプレイ:未知の動的環境におけるuav自律動作制御のための深い強化学習アプローチ

Asynchronous Curriculum Experience Replay: A Deep Reinforcement Learning Approach for UAV Autonomous Motion Control in Unknown Dynamic Environments ( http://arxiv.org/abs/2207.01251v1 )

ライセンス: Link先を確認
Zijian Hu, Xiaoguang Gao, Kaifang Wan, Qianglong Wang, Yiwei Zhai(参考訳) 無人航空機(UAV)は軍用機として広く使用されている。 本稿では,自動動作制御(AMC)問題をマルコフ決定過程(MDP)として定式化し,UAVが大規模3次元3次元環境下で複雑なタスクを実行できる高度深部強化学習(DRL)法を提案する。 優先体験再生(PER)アルゴリズムの限界を克服し、性能を向上させるため、提案された非同期カリキュラム体験再生(ACER)は、マルチスレッドを使用して優先順位を非同期に更新し、真の優先順位を割り当て、学習の質の高い体験を利用できるように一時的な体験プールを適用する。 ファースト・イン・ユース・アウト(FIUO)エクスペリエンスプールも導入され、格納されたエクスペリエンスのより高い使用価値が保証される。 さらに,カリキュラム学習(CL)と組み合わせて,UAVを訓練するために,単純から困難までの経験をサンプリングする,より合理的な訓練パラダイムを設計する。 実UAVのパラメータに基づいて構築された複雑な未知環境でのトレーニングにより、提案したACERは、最先端の2つの遅延深い決定性ポリシー勾配(TD3)アルゴリズムと比較して、収束速度を24.66 %改善し、収束結果を5.59 %改善する。 複雑度が異なる環境で行った実験は、ACERエージェントの強靭性と一般化能力を示す。

Unmanned aerial vehicles (UAVs) have been widely used in military warfare. In this paper, we formulate the autonomous motion control (AMC) problem as a Markov decision process (MDP) and propose an advanced deep reinforcement learning (DRL) method that allows UAVs to execute complex tasks in large-scale dynamic three-dimensional (3D) environments. To overcome the limitations of the prioritized experience replay (PER) algorithm and improve performance, the proposed asynchronous curriculum experience replay (ACER) uses multithreads to asynchronously update the priorities, assigns the true priorities and applies a temporary experience pool to make available experiences of higher quality for learning. A first-in-useless-out (FIUO) experience pool is also introduced to ensure the higher use value of the stored experiences. In addition, combined with curriculum learning (CL), a more reasonable training paradigm of sampling experiences from simple to difficult is designed for training UAVs. By training in a complex unknown environment constructed based on the parameters of a real UAV, the proposed ACER improves the convergence speed by 24.66\% and the convergence result by 5.59\% compared to the state-of-the-art twin delayed deep deterministic policy gradient (TD3) algorithm. The testing experiments carried out in environments with different complexities demonstrate the strong robustness and generalization ability of the ACER agent.
翻訳日:2022-07-05 14:42:56 公開日:2022-07-04
# ac-tive-imaging agile earth observation satelliteのマルチストリップ観測スケジューリング問題

Multi-strip observation scheduling problem for ac-tive-imaging agile earth observation satellites ( http://arxiv.org/abs/2207.01257v1 )

ライセンス: Link先を確認
Zhongxiang Chang and Abraham P. Punnen and Zhongbao Zhou(参考訳) アクティブイメージング型地球観測衛星 (AI-AEOS) は、次世代型地球観測衛星(AEOS)である。 AI-AEOSは、観測能力とアクティブイミジングの新たな能力により、AEOSの観測能力を改善し、地上目標を観測する追加の手段を提供する。 しかしながら、これらのアジャイル地球観測衛星の観測スケジューリング問題は、特に複数回の地上目標を考慮した場合、より複雑になる。 本稿では,アクティブ画像型地球観測衛星(MOSP)のマルチストリップ観測スケジューリング問題について検討する。 適応的大近傍探索アルゴリズム(ALNS)と非支配的ソート遺伝的アルゴリズム(NSGA-II)の組合せ力を統合した適応的双対象メメティックアルゴリズムとともに、MOSPのための双対象最適化モデルを示す。 その結果, ALNSとNSGA-IIの併用により, より優れた結果が得られた。 我々のモデルは既存のモデルよりも多用途であり、応用問題解決の能力を高める。

Active-imaging agile earth observation satellite (AI-AEOS) is a new generation agile earth observation satellite (AEOS). With renewed capabilities in observation and active im-aging, AI-AEOS improves upon the observation capabilities of AEOS and provide additional ways to observe ground targets. This however makes the observation scheduling problem for these agile earth observation satellite more complex, especially when considering multi-strip ground targets. In this paper, we investigate the multi-strip observation scheduling problem for an active-image agile earth observation satellite (MOSP). A bi-objective optimization model is presented for MOSP along with an adaptive bi-objective memetic algorithm which integrates the combined power of an adaptive large neighborhood search algorithm (ALNS) and a nondominated sorting genetic algorithm II (NSGA-II). Results of extensive computa-tional experiments are presented which disclose that ALNS and NSGA-II when worked in unison produced superior outcomes. Our model is more versatile than existing models and provide enhanced capabilities in applied problem solving.
翻訳日:2022-07-05 14:42:11 公開日:2022-07-04
# 家族属性を考慮した衛星画像データダウンリンクスケジューリング問題:モデルとアルゴリズム

Satellite image data downlink scheduling problem with family attribute: Model &Algorithm ( http://arxiv.org/abs/2207.01412v1 )

ライセンス: Link先を確認
Zhongxiang Chang and Zhongbao Zhou(参考訳) 観測能力と遷移能力との間の非同期な発達により、1回観察によって生成された原画像データ(OID)が、EOSとGS(可視時間窓、VTW)の間の1つの送信チャンスで完全に送信できない。 OIDを複数のセグメント化された画像データ(SID)に分割し、複数のVTWに送信し、衛星画像データダウンリンクスケジューリング問題(SIDSP)の拡張を強化する必要がある。 本稿では,新しいSIDSPを,家族属性を用いた衛星画像データダウンリンクスケジューリング問題(SIDSPWFA)として定義する。 次に、画像データ伝送障害率(FR)とセグメンテーション時間(ST)の2つの最適化目標を、2目的離散最適化モデルとしてSIDSPWFAを定式化する。 さらに、複数の二段階演算子を持つ二段階微分進化アルゴリズム(DE+NSGA-II)を開発した。 広範なシミュレーションの例では、モデル、戦略、アルゴリズム、演算子の効率が詳細に分析されている。

The asynchronous development between the observation capability and the transition capability results in that an original image data (OID) formed by one-time observation cannot be completely transmitted in one transmit chance between the EOS and GS (named as a visible time window, VTW). It needs to segment the OID to several segmented image data (SID) and then transmits them in several VTWs, which enriches the extension of satellite image data downlink scheduling problem (SIDSP). We define the novel SIDSP as satellite image data downlink scheduling problem with family attribute (SIDSPWFA), in which some big OID is segmented by a fast segmentation operator first, and all SID and other no-segmented OID is transmitted in the second step. Two optimization objectives, the image data transmission failure rate (FR) and the segmentation times (ST), are then designed to formalize SIDSPWFA as a bi-objective discrete optimization model. Furthermore, a bi-stage differential evolutionary algorithm(DE+NSGA-II) is developed holding several bi-stage operators. Extensive simulation instances show the efficiency of models, strategies, algorithms and operators is analyzed in detail.
翻訳日:2022-07-05 14:40:50 公開日:2022-07-04
# Masked Graph Attention Networksによるサイバーセキュリティエンティティアライメント

Cybersecurity Entity Alignment via Masked Graph Attention Networks ( http://arxiv.org/abs/2207.01434v1 )

ライセンス: Link先を確認
Yue Qin and Xiaojing Liao(参考訳) サイバーセキュリティ脆弱性情報は、政府脆弱性リポジトリ、個々の脆弱性収集プラットフォーム、脆弱性開示のeメールリストやフォーラムなど、複数のチャネルによって記録されることが多い。 異なるチャネルから脆弱性情報を統合することで、包括的な脅威評価と、さまざまなセキュリティメカニズムへの迅速なデプロイが可能になる。 しかし、そのような情報を自動的に収集する努力は、今日のエンティティアライメント技術の限界によって妨げられている。 本研究では,最初のサイバーセキュリティドメインエンティティアライメントデータセットに注釈を付け,セキュリティエンティティのユニークな特徴を明らかにする。 これらの観測に基づいて、GNNに基づくアライメントと非対称マスキングアグリゲーションとパーティショニングアライメントという2つのメカニズムを備えた、最初のサイバーセキュリティエンティティアライメントモデルCEAMを提案する。 サイバーセキュリティドメインエンティティアライメントデータセットの実験結果は、ceamが最先端エンティティアライメントメソッドを大幅に上回っていることを示している。

Cybersecurity vulnerability information is often recorded by multiple channels, including government vulnerability repositories, individual-maintained vulnerability-gathering platforms, or vulnerability-disclosure email lists and forums. Integrating vulnerability information from different channels enables comprehensive threat assessment and quick deployment to various security mechanisms. Efforts to automatically gather such information, however, are impeded by the limitations of today's entity alignment techniques. In our study, we annotate the first cybersecurity-domain entity alignment dataset and reveal the unique characteristics of security entities. Based on these observations, we propose the first cybersecurity entity alignment model, CEAM, which equips GNN-based entity alignment with two mechanisms: asymmetric masked aggregation and partitioned attention. Experimental results on cybersecurity-domain entity alignment datasets demonstrate that CEAM significantly outperforms state-of-the-art entity alignment methods.
翻訳日:2022-07-05 14:40:29 公開日:2022-07-04
# (参考訳) 因果推論によるレコメンダシステムのフィードバックループの破壊

Breaking Feedback Loops in Recommender Systems with Causal Inference ( http://arxiv.org/abs/2207.01616v1 )

ライセンス: CC BY 4.0
Karl Krauth, Yixin Wang, Michael I. Jordan(参考訳) Recommenderシステムは、現代的なWebエコシステムを形成する上で重要な役割を果たす。 これらのシステムでは,(1)レコメンデーションを行う(2)これらのレコメンデーションに対するユーザの応答を収集する,(3)このフィードバックに基づいてレコメンデーションアルゴリズムをリトレーニングする,の2つを代替する。 このプロセスの間、レコメンダシステムはその後更新に使用されるユーザの行動データに影響を与えるため、フィードバックループを生成する。 最近の研究は、フィードバックループがレコメンデーションの品質を損なう可能性を示し、ユーザの振る舞いを均質化し、レコメンデーションシステムを展開する際の倫理的およびパフォーマンス上の懸念を提起している。 これらの問題に対処するため、我々は因果推論を用いてフィードバックループを確実に破壊し、トレーニング損失を最適化する任意のレコメンデーションアルゴリズムに適用できるCAFL(Causal Adjustment for Feedback Loops)を提案する。 本研究の主目的は,ユーザ評価に対するレコメンデーションの介入分布を因果量に原因がある場合,レコメンデーションシステムはフィードバックループに支障を来さないことである。 さらに,ユーザの嗜好を予測したレコメンダシステムの調整により,観測データからこの介入分布を計算することができる。 シミュレーション環境を用いて,先行補正法と比較してcaflの推奨品質が向上することを示す。

Recommender systems play a key role in shaping modern web ecosystems. These systems alternate between (1) making recommendations (2) collecting user responses to these recommendations, and (3) retraining the recommendation algorithm based on this feedback. During this process the recommender system influences the user behavioral data that is subsequently used to update it, thus creating a feedback loop. Recent work has shown that feedback loops may compromise recommendation quality and homogenize user behavior, raising ethical and performance concerns when deploying recommender systems. To address these issues, we propose the Causal Adjustment for Feedback Loops (CAFL), an algorithm that provably breaks feedback loops using causal inference and can be applied to any recommendation algorithm that optimizes a training loss. Our main observation is that a recommender system does not suffer from feedback loops if it reasons about causal quantities, namely the intervention distributions of recommendations on user ratings. Moreover, we can calculate this intervention distribution from observational data by adjusting for the recommender system's predictions of user preferences. Using simulated environments, we demonstrate that CAFL improves recommendation quality when compared to prior correction methods.
翻訳日:2022-07-05 14:33:06 公開日:2022-07-04
# 機械工具の寿命予測のためのマスクセルフスーパービジョン

Masked Self-Supervision for Remaining Useful Lifetime Prediction in Machine Tools ( http://arxiv.org/abs/2207.01219v1 )

ライセンス: Link先を確認
Haoren Guo, Haiyue Zhu, Jiahui Wang, Vadakkepat Prahlad, Weng Khuen Ho, Tong Heng Lee(参考訳) 産業4.0では、機械・工具の近代的製造・自動化作業場における残留実用ライフタイム(RUL)の予測が不可欠である。 このことは、継続的ツールの着用、またはさらに悪いことに、突然の機械の故障が様々な製造業の失敗を招き、明らかに経済的損失を引き起こす。 ディープラーニングのアプローチが利用可能になったことにより、これらをRUL予測に活用する大きな可能性と展望が、製造機械の運転データに基づいて設計されたいくつかのモデルを生み出した。 完全な教師付きモデルに基づくこれらの現在の取り組みは、彼らのルールでラベル付けされたデータに大きく依存している。 しかし、必要なRUL予測データ(すなわち、故障および/または劣化したマシンからの注釈付きラベル付きデータ)は、機械の故障発生後にのみ取得できる。 現代の製造業や自動化作業場における壊れた機械の不足は、十分な注釈とラベル付きデータを得ることの難しさを増す。 対照的に、健全なマシンからのデータを収集するのはずっと簡単です。 そこで我々は,この課題と,有効性と適用性の向上の可能性に注目し,未ラベルデータを用いて自己監督を行うマスク付きオートエンコーダのアイデアに基づく手法を提案する。 そこで本研究では,有意義な自己教師型学習手法を開発し,活用する。 これはラベルのないデータを利用して、RUL予測のためのディープラーニングモデルを構築するために設計されている。 この開発の有効性を検証する実験は、NASAターボファンエンジンのデータから収集したC-MAPSSデータセット上で実施されている。 その結果, 完全教師付きモデルを用いた手法と比較して, RUL予測では, 精度, 有効性ともに, 開発とアプローチが良好であることが明らかとなった。

Prediction of Remaining Useful Lifetime(RUL) in the modern manufacturing and automation workplace for machines and tools is essential in Industry 4.0. This is clearly evident as continuous tool wear, or worse, sudden machine breakdown will lead to various manufacturing failures which would clearly cause economic loss. With the availability of deep learning approaches, the great potential and prospect of utilizing these for RUL prediction have resulted in several models which are designed driven by operation data of manufacturing machines. Current efforts in these which are based on fully-supervised models heavily rely on the data labeled with their RULs. However, the required RUL prediction data (i.e. the annotated and labeled data from faulty and/or degraded machines) can only be obtained after the machine breakdown occurs. The scarcity of broken machines in the modern manufacturing and automation workplace in real-world situations increases the difficulty of getting sufficient annotated and labeled data. In contrast, the data from healthy machines is much easier to be collected. Noting this challenge and the potential for improved effectiveness and applicability, we thus propose (and also fully develop) a method based on the idea of masked autoencoders which will utilize unlabeled data to do self-supervision. In thus the work here, a noteworthy masked self-supervised learning approach is developed and utilized. This is designed to seek to build a deep learning model for RUL prediction by utilizing unlabeled data. The experiments to verify the effectiveness of this development are implemented on the C-MAPSS datasets (which are collected from the data from the NASA turbofan engine). The results rather clearly show that our development and approach here perform better, in both accuracy and effectiveness, for RUL prediction when compared with approaches utilizing a fully-supervised model.
翻訳日:2022-07-05 14:02:31 公開日:2022-07-04
# 生成逆数ネットワークを用いたフラビアル継承におけるジオステアリングの確率論的予測

Probabilistic forecasting for geosteering in fluvial successions using a generative adversarial network ( http://arxiv.org/abs/2207.01374v1 )

ライセンス: Link先を確認
Sergey Alyaev, Jan Tveranger, Kristian Fossum, Ahmed H. Elsheikh(参考訳) リアルタイムデータを利用して事前の不確実性を制限する定量的ワークフローは、ジオステアリングを大幅に改善する可能性がある。 リアルタイムデータに基づく高速更新は,プレドリルモデルに不確実性の高い複雑な貯留層を掘削する場合に不可欠である。 しかし、リアルタイムデータの実用的な同化には効果的な地質モデルと数学的に堅牢なパラメータ化が必要である。 本稿では, フラビアル継承の地質学的に一貫した2次元断面を再現するためのGAN(Generative Adversarial Deep Neural Network)を提案する。 オフライントレーニングは、各成分の標準ガウス分布を持つ60次元モデルベクトルとしてパラメータ化された複素地質のganに基づく高速近似を生成する。 確率予測は同確率モデルベクトル実現のアンサンブルを用いて生成される。 GANを含むフォワードモデリングシーケンスは、初期(適切な)実現のアンサンブルをEMログ予測に変換する。 アンサンブルスムーダーは、予測とリアルタイムデータの統計的ミスフィットを最小限に抑え、モデルベクトルの更新と井戸周辺の不確実性を減少させる。 更新は、相と抵抗性の確率論的予測に変換される。 本稿では,アウトクロップに基づく合成フラビアル継承におけるジオステアリングのワークフローを示す。 この手法は不確実性を低減し,ドリルビットよりも500m先にある主要地質特性を正確に予測する。

Quantitative workflows utilizing real-time data to constrain ahead-of-bit uncertainty have the potential to improve geosteering significantly. Fast updates based on real-time data are essential when drilling in complex reservoirs with high uncertainties in pre-drill models. However, practical assimilation of real-time data requires effective geological modeling and mathematically robust parameterization. We propose a generative adversarial deep neural network (GAN), trained to reproduce geologically consistent 2D sections of fluvial successions. Offline training produces a fast GAN-based approximation of complex geology parameterized as a 60-dimensional model vector with standard Gaussian distribution of each component. Probabilistic forecasts are generated using an ensemble of equiprobable model vector realizations. A forward-modeling sequence, including a GAN, converts the initial (prior) ensemble of realizations into EM log predictions. An ensemble smoother minimizes statistical misfits between predictions and real-time data, yielding an update of model vectors and reduced uncertainty around the well. Updates can be then translated to probabilistic predictions of facies and resistivities. The present paper demonstrates a workflow for geosteering in an outcrop-based, synthetic fluvial succession. In our example, the method reduces uncertainty and correctly predicts most major geological features up to 500 meters ahead of drill-bit.
翻訳日:2022-07-05 14:01:13 公開日:2022-07-04
# グリーディコーディネートによる高次元私的リスク最小化

High-Dimensional Private Empirical Risk Minimization by Greedy Coordinate Descent ( http://arxiv.org/abs/2207.01560v1 )

ライセンス: Link先を確認
Paul Mangold, Aur\'elien Bellet, Joseph Salmon, Marc Tommasi(参考訳) 本稿では,DP-ERMの個人的リスク最小化について検討する。 DP-ERMの(Worst-case)ユーティリティは次元が大きくなるにつれて減少することが示されている。 これは、大規模機械学習モデルをプライベートに学習する上での大きな障害である。 高次元では、あるモデルのパラメータが他のモデルよりも多くの情報を運ぶことが一般的である。 そこで本研究では, 微分的にプライベートな greedy coordinate descend (dp-gcd) アルゴリズムを提案する。 各イテレーションで、dp-gcdは、勾配の(ほぼ)最大エントリに沿って座標的な勾配ステップをプライベートに実行する。 DP-GCDは問題の解の構造的特性(空間性や準スパーシリティなど)を生かして実用性を向上させることができることを示す。 次に、これを合成データセットと実データセットの両方で数値的に説明します。 最後に,今後の研究の方向性について述べる。

In this paper, we study differentially private empirical risk minimization (DP-ERM). It has been shown that the (worst-case) utility of DP-ERM reduces as the dimension increases. This is a major obstacle to privately learning large machine learning models. In high dimension, it is common for some model's parameters to carry more information than others. To exploit this, we propose a differentially private greedy coordinate descent (DP-GCD) algorithm. At each iteration, DP-GCD privately performs a coordinate-wise gradient step along the gradients' (approximately) greatest entry. We show theoretically that DP-GCD can improve utility by exploiting structural properties of the problem's solution (such as sparsity or quasi-sparsity), with very fast progress in early iterations. We then illustrate this numerically, both on synthetic and real datasets. Finally, we describe promising directions for future work.
翻訳日:2022-07-05 13:59:11 公開日:2022-07-04
# 胸部X線検査による臨床医に対する自動予測と患者年齢ランキングの評価

Assessing the Performance of Automated Prediction and Ranking of Patient Age from Chest X-rays Against Clinicians ( http://arxiv.org/abs/2207.01302v1 )

ライセンス: Link先を確認
Matthew MacPherson, Keerthini Muthuswamy, Ashik Amlani, Charles Hutchinson, Vicky Goh, Giovanni Montana(参考訳) 老化に伴う内的生理的変化を理解することは医用画像解釈の重要な側面であり、異常所見を報告する際に期待される変化が基準となる。 深層学習は、胸部X線から患者の年齢を正確に推定することを可能にし、健康指標および死亡予測器としての可能性を示している。 本稿では,2つの課題における放射線科医と最先端深層学習モデルの比較研究について述べる。 (a)単一の胸部X線から患者の年齢を推定し、 (b)同じ患者の2つの時間分離画像の年齢によるランク付け。 基礎真理患者年齢の1.8m胸部x線ヘテロジニアスデータベースを用いてモデルをトレーニングし,限られたトレーニングデータと画像解像度によるモデルの精度の限界を調査し,公開データにおける一般化性能を示す。 文献で見られる他の放射線学的報告課題と比較して,これらの年齢予測課題におけるモデルと人間間の大きなパフォーマンスギャップを探索するため,我々の年齢予測モデルを条件付き世代適応ネットワーク(cGAN)に組み込んで,予測モデルで同定された意味的特徴を年齢予測に重要なものとして可視化し,臨床医が依存する特徴と比較した。

Understanding the internal physiological changes accompanying the aging process is an important aspect of medical image interpretation, with the expected changes acting as a baseline when reporting abnormal findings. Deep learning has recently been demonstrated to allow the accurate estimation of patient age from chest X-rays, and shows potential as a health indicator and mortality predictor. In this paper we present a novel comparative study of the relative performance of radiologists versus state-of-the-art deep learning models on two tasks: (a) patient age estimation from a single chest X-ray, and (b) ranking of two time-separated images of the same patient by age. We train our models with a heterogeneous database of 1.8M chest X-rays with ground truth patient ages and investigate the limitations on model accuracy imposed by limited training data and image resolution, and demonstrate generalisation performance on public data. To explore the large performance gap between the models and humans on these age-prediction tasks compared with other radiological reporting tasks seen in the literature, we incorporate our age prediction model into a conditional Generative Adversarial Network (cGAN) allowing visualisation of the semantic features identified by the prediction model as significant to age prediction, comparing the identified features with those relied on by clinicians.
翻訳日:2022-07-05 13:57:43 公開日:2022-07-04
# COVID-19診断のためのマルチスケールアライメントと空間ROIモジュール

Multi-scale alignment and Spatial ROI Module for COVID-19 Diagnosis ( http://arxiv.org/abs/2207.01345v1 )

ライセンス: Link先を確認
Hongyan Xu, Dadong Wang, Arcot Sowmya(参考訳) コロナウイルス病2019(COVID-19)は世界中で広がり、人類が最初に報告して以来、健康危機に直面している。 コンピュータ断層撮影(CT)や胸部X線画像(CXR)などの放射線画像技術は、新型コロナウイルスの診断に有効なツールである。 しかし、CTおよびCXR画像では、感染領域は画像のごく一部しか占めていない。 大規模な受容野を統合する一般的なディープラーニング手法では、画像詳細が失われることがあり、結果として、COVID-19画像の関心領域(ROI)が省略され、さらなる処理には適さない。 そこで本研究では,異なる解像度でコンテキスト情報を統合するための深部空間ピラミッドプーリング(D-SPP)モジュールを提案する。 また,病変領域に注意を向け,無関係な情報から干渉を取り除くためのcid(covid-19 infection detection)モジュールを提案する。 4つのCTおよびCXRデータセットの大規模な実験により,CTおよびCXR画像におけるCOVID-19病変の検出精度が高くなった。 医師が新型コロナウイルス(COVID-19)の効果的な診断とスクリーニングを支援するコンピューター支援診断ツールとして使用できる。

Coronavirus Disease 2019 (COVID-19) has spread globally and become a health crisis faced by humanity since first reported. Radiology imaging technologies such as computer tomography (CT) and chest X-ray imaging (CXR) are effective tools for diagnosing COVID-19. However, in CT and CXR images, the infected area occupies only a small part of the image. Some common deep learning methods that integrate large-scale receptive fields may cause the loss of image detail, resulting in the omission of the region of interest (ROI) in COVID-19 images and are therefore not suitable for further processing. To this end, we propose a deep spatial pyramid pooling (D-SPP) module to integrate contextual information over different resolutions, aiming to extract information under different scales of COVID-19 images effectively. Besides, we propose a COVID-19 infection detection (CID) module to draw attention to the lesion area and remove interference from irrelevant information. Extensive experiments on four CT and CXR datasets have shown that our method produces higher accuracy of detecting COVID-19 lesions in CT and CXR images. It can be used as a computer-aided diagnosis tool to help doctors effectively diagnose and screen for COVID-19.
翻訳日:2022-07-05 13:57:19 公開日:2022-07-04
# GANによるリアルな3Dデータの生成:体系的レビューと分類

GAN-based generation of realistic 3D data: A systematic review and taxonomy ( http://arxiv.org/abs/2207.01390v1 )

ライセンス: Link先を確認
Andr\'e Ferreira, Jianning Li, Kelsey L. Pomykala, Jens Kleesiek, Victor Alves, Jan Egger(参考訳) データは今日の世界でもっとも貴重な資源となっている。 ディープラーニングベースのアプローチなど、データ駆動型アルゴリズムが急増する中、データの可用性は大きな関心を集めている。 この文脈では、高品質なトレーニング、検証、テストデータセットが特に必要です。 容積データは、疾患の診断から治療モニタリングまで、医療において非常に重要な資源である。 データセットが十分であれば、これらのタスクを医師を助けるためにモデルをトレーニングすることができる。 残念ながら、大量のデータが利用できないシナリオやアプリケーションがあります。 例えば、医療分野では、まれな疾患やプライバシの問題がデータ可用性の制限につながる可能性がある。 非医療分野では、十分な量の高品質なデータを得るための高コストも問題となる。 これらの問題の解決策は、他の従来のデータ拡張手法と組み合わせてデータ拡張を行うための合成データの生成である。 したがって、3d生成広告ネットワーク(gans)上の出版物の大部分は医療領域内にある。 現実的な合成データを生成するメカニズムの存在は、この課題、特に医療において、データの品質が良好で現実に近いこと、すなわち現実的であり、プライバシの問題のない、この課題を克服するための良い資産である。 本稿では,GANを用いたリアルな3次元合成データを生成する作業の概要について述べる。 したがって、これらの領域でGANベースの手法を共通アーキテクチャ、アドバンテージ、デメリットで概説する。 本稿では,医学などの分野におけるGANの現状を概観する新たな分類,評価,課題,研究の機会について紹介する。

Data has become the most valuable resource in today's world. With the massive proliferation of data-driven algorithms, such as deep learning-based approaches, the availability of data is of great interest. In this context, high-quality training, validation and testing datasets are particularly needed. Volumetric data is a very important resource in medicine, as it ranges from disease diagnoses to therapy monitoring. When the dataset is sufficient, models can be trained to help doctors with these tasks. Unfortunately, there are scenarios and applications where large amounts of data is unavailable. For example, in the medical field, rare diseases and privacy issues can lead to restricted data availability. In non-medical fields, the high cost of obtaining a sufficient amount of high-quality data can also be a concern. A solution to these problems can be the generation of synthetic data to perform data augmentation in combination with other more traditional methods of data augmentation. Therefore, most of the publications on 3D Generative Adversarial Networks (GANs) are within the medical domain. The existence of mechanisms to generate realistic synthetic data is a good asset to overcome this challenge, especially in healthcare, as the data must be of good quality and close to reality, i.e. realistic, and without privacy issues. In this review, we provide a summary of works that generate realistic 3D synthetic data using GANs. We therefore outline GAN-based methods in these areas with common architectures, advantages and disadvantages. We present a novel taxonomy, evaluations, challenges and research opportunities to provide a holistic overview of the current state of GANs in medicine and other fields.
翻訳日:2022-07-05 13:57:01 公開日:2022-07-04
# hessian-free second-order adversarial examples for adversarial learning (英語)

Hessian-Free Second-Order Adversarial Examples for Adversarial Learning ( http://arxiv.org/abs/2207.01396v1 )

ライセンス: Link先を確認
Yaguan Qian, Yuqi Wang, Bin Wang, Zhaoquan Gu, Yuhan Guo, Wassim Swaileh(参考訳) 最近の研究では、ディープニューラルネットワーク(DNN)は、精巧に設計された敵の例に対して極めて脆弱であることが示されている。 これらの敵の例による敵対的学習は、そのような攻撃に対して最も効果的な方法の1つとして証明されている。 現在、ほとんどの既存逆数生成法は1次勾配に基づいており、特に2次逆数攻撃に直面する場合、モデルの堅牢性を改善することは困難である。 一階勾配と比較して、二階勾配は自然例に対する損失景観のより正確な近似を与える。 これに触発されて、我々の作業は二階の敵の例を作り、それらをDNNの訓練に使っている。 それにもかかわらず、二階最適化はヘッセン逆数の計算に時間を要する。 本稿では,問題をkrylov部分空間の最適化に変換し,計算量を大幅に削減して学習手順を高速化する近似手法を提案する。 MINIST と CIFAR-10 データセットで実施した大規模な実験により,2次逆数例による逆数学習は他のファサートオーダー法よりも優れており,広範囲な攻撃に対するモデルロバスト性の向上が期待できることがわかった。

Recent studies show deep neural networks (DNNs) are extremely vulnerable to the elaborately designed adversarial examples. Adversarial learning with those adversarial examples has been proved as one of the most effective methods to defend against such an attack. At present, most existing adversarial examples generation methods are based on first-order gradients, which can hardly further improve models' robustness, especially when facing second-order adversarial attacks. Compared with first-order gradients, second-order gradients provide a more accurate approximation of the loss landscape with respect to natural examples. Inspired by this, our work crafts second-order adversarial examples and uses them to train DNNs. Nevertheless, second-order optimization involves time-consuming calculation for Hessian-inverse. We propose an approximation method through transforming the problem into an optimization in the Krylov subspace, which remarkably reduce the computational complexity to speed up the training procedure. Extensive experiments conducted on the MINIST and CIFAR-10 datasets show that our adversarial learning with second-order adversarial examples outperforms other fisrt-order methods, which can improve the model robustness against a wide range of attacks.
翻訳日:2022-07-05 13:55:37 公開日:2022-07-04
# (参考訳) ディープ・ポリシーのゴールコンディション・ジェネレータ

Goal-Conditioned Generators of Deep Policies ( http://arxiv.org/abs/2207.01570v1 )

ライセンス: CC BY 4.0
Francesco Faccio, Vincent Herrmann, Aditya Ramesh, Louis Kirsch, J\"urgen Schmidhuber(参考訳) 目標条件強化学習(RL)は、特別なコマンド入力に符号化された目標を前提として、最適なポリシーを学ぶことを目的としている。 ここでは,1990年代のFast Weight Programmersなどの手法と同様に,コンテキスト固有の重み行列の形で,深いNNポリシを生成することを学習する目標条件ニューラルネットワーク(NN)について検討する。 我々のNNジェネレータは、"期待されるリターンを達成するポリシーを生成する"という形式のコンテキストコマンドを使用して、パラメータ空間の強力な探索とコマンド間の一般化を組み合わせて、より優れたポリシーを反復的に見つける。 重み共有ハイパーネットワークとポリシー埋め込みの形式は、この手法をスケールして深いnnを生成する。 実験は、単一の学習されたポリシージェネレータが、トレーニング中に見られるリターンを達成するポリシーを生成する方法を示している。 最後に、競合性能を示す一連の連続制御タスクに基づいて、アルゴリズムの評価を行う。 私たちのコードは公開されています。

Goal-conditioned Reinforcement Learning (RL) aims at learning optimal policies, given goals encoded in special command inputs. Here we study goal-conditioned neural nets (NNs) that learn to generate deep NN policies in form of context-specific weight matrices, similar to Fast Weight Programmers and other methods from the 1990s. Using context commands of the form "generate a policy that achieves a desired expected return," our NN generators combine powerful exploration of parameter space with generalization across commands to iteratively find better and better policies. A form of weight-sharing HyperNetworks and policy embeddings scales our method to generate deep NNs. Experiments show how a single learned policy generator can produce policies that achieve any return seen during training. Finally, we evaluate our algorithm on a set of continuous control tasks where it exhibits competitive performance. Our code is public.
翻訳日:2022-07-05 13:52:46 公開日:2022-07-04
# 連鎖ガンマ分布を用いたランダム歩行ボラティリティのモデル化

Modeling Randomly Walking Volatility with Chained Gamma Distributions ( http://arxiv.org/abs/2207.01151v1 )

ライセンス: Link先を確認
Di Zhang, Qiang Niu, Youzhou Zhou(参考訳) 変動性クラスタリングは金融時系列において一般的な現象である。 通常、線形モデルはリターンの(対数的な)分散の時間的自己相関を記述するために用いられる。 このモデルの推定の困難さを考慮して、正規ガンマとガンマ-ガンマの共役関係を利用する動的ベイズネットワークを構築し、各ノードにおいて、その後部形式は局所的に変化しない。 これにより、変分法を用いて近似解を素早く見つけることができる。 さらに,隣接した時間ステップ間にダミーガンマノードを挿入した後,モデルが表現するボラティリティが独立したインクリメンタルなプロセスであることを保証する。 このモデルには2つの利点があることがわかった。 1) ガウシアンよりも重い尾を表現できること、すなわち、一般的な線形モデルと比較して正の過剰な曲率を持つことが証明できる。 2) 状態推定に変分推論(VI)を用いる場合、後続演算は基本演算のみを使用するため、モンテカルロ(MC)法よりもはるかに高速に実行される。 そして、収束過程は決定論的である。 我々は、gam-chainと呼ばれるこのモデルを、最近のcrypto、nasdaq、および様々な解像度のforexレコードを使ってテストした。 結果はこう示しています 1)mcを使用する場合と同様に、このモデルは正規対数正規チェーンと同等の状態推定結果が得られる。 2) VIのみを使用する場合において,このモデルは,MCよりわずかに悪い精度が得られるが,実際は許容できる。 3)最も保守的な条件下では, Gam-Chain のランニング時間を VI のみ使用すれば, MC 経由の対数正規鎖に基づいて, 20% 以下に削減できる。

Volatility clustering is a common phenomenon in financial time series. Typically, linear models are used to describe the temporal autocorrelation of the (logarithmic) variance of returns. Considering the difficulty in estimation of this model, we construct a Dynamic Bayesian Network, which utilizes the conjugate prior relation of normal-gamma and gamma-gamma, so that at each node, its posterior form locally remains unchanged. This makes it possible to quickly find approximate solutions using variational methods. Furthermore, we ensure that the volatility expressed by the model is an independent incremental process after inserting dummy gamma nodes between adjacent time steps. We have found that, this model has two advantages: 1) It can be proved that it can express heavier tails than Gaussians, i.e., have positive excess kurtosis, compared to popular linear models. 2) If the variational inference(VI) is used for state estimation, it runs much faster than Monte Carlo(MC) methods, since the calculation of the posterior uses only basic arithmetic operations. And, its convergence process is deterministic. We tested the model, named Gam-Chain, using recent Crypto, Nasdaq, and Forex records of varying resolutions. The results show that: 1) In the same case of using MC, this model can achieve comparable state estimation results with the regular lognormal chain. 2) In the case of only using VI, this model can obtain accuracy that are slightly worse than MC, but still acceptable in practice; 3) Only using VI, the running time of Gam-Chain, under the most conservative settings, can be reduced to below 20% of that based on the lognormal chain via MC.
翻訳日:2022-07-05 13:34:03 公開日:2022-07-04
# バッチ正規化の除去が敵のトレーニングを促進する

Removing Batch Normalization Boosts Adversarial Training ( http://arxiv.org/abs/2207.01156v1 )

ライセンス: Link先を確認
Haotao Wang, Aston Zhang, Shuai Zheng, Xingjian Shi, Mu Li, Zhangyang Wang(参考訳) 敵の訓練(AT)は、敵の攻撃に対して深いニューラルネットワークを防御する。 実用的利用を制限する1つの課題はクリーンサンプルのパフォーマンス低下である。 以前の研究で確認された大きなボトルネックは、広く使われているバッチ正規化(BN)であり、ATにおけるクリーンなおよび敵対的なトレーニングサンプルの異なる統計をモデル化するのに苦労している。 この混合分布を捉えるためにbnを拡げる手法が主流であるが、我々はこのボトルネックを at 内の全ての bn 層を取り除いて完全に取り除くことを提案する。 我々のNoFrost(NoFrost)法は, 混合分散問題に対する非探索的優位性のために, 正規化自由ネットワークの最近の進歩をATに拡張する。 NoFrostは, クリーンサンプルの精度をわずかに犠牲にして, 敵の強靭性を達成できることを示す。 resnet50のimagenetでは、nofrostは74.06\%のクリーンな精度を達成し、標準のトレーニングからわずか2.00\%を下げる。 これとは対照的に、BNベースのATは59.28.%の清潔な精度を得ており、標準トレーニングから16.78.%の大幅な損失を被っている。 さらに、NoFrostはPGD攻撃に対する23.56\%の対抗的ロバスト性を実現し、BNベースのATで13.57\%のロバスト性を改善する。 我々は、nofrostのモデルの滑らかさとより大きな決定マージンを観察し、それによってモデルが入力の摂動に対する感度が低下し、それによってより堅牢になる。 さらに、より多くのデータ拡張をNoFrostに組み込むことで、複数の分散シフトに対して包括的な堅牢性を実現する。 コードと事前トレーニングされたモデルはhttps://github.com/amazon-research/normalizer-free-robust-trainingで公開されている。

Adversarial training (AT) defends deep neural networks against adversarial attacks. One challenge that limits its practical application is the performance degradation on clean samples. A major bottleneck identified by previous works is the widely used batch normalization (BN), which struggles to model the different statistics of clean and adversarial training samples in AT. Although the dominant approach is to extend BN to capture this mixture of distribution, we propose to completely eliminate this bottleneck by removing all BN layers in AT. Our normalizer-free robust training (NoFrost) method extends recent advances in normalizer-free networks to AT for its unexplored advantage on handling the mixture distribution challenge. We show that NoFrost achieves adversarial robustness with only a minor sacrifice on clean sample accuracy. On ImageNet with ResNet50, NoFrost achieves $74.06\%$ clean accuracy, which drops merely $2.00\%$ from standard training. In contrast, BN-based AT obtains $59.28\%$ clean accuracy, suffering a significant $16.78\%$ drop from standard training. In addition, NoFrost achieves a $23.56\%$ adversarial robustness against PGD attack, which improves the $13.57\%$ robustness in BN-based AT. We observe better model smoothness and larger decision margins from NoFrost, which make the models less sensitive to input perturbations and thus more robust. Moreover, when incorporating more data augmentations into NoFrost, it achieves comprehensive robustness against multiple distribution shifts. Code and pre-trained models are public at https://github.com/amazon-research/normalizer-free-robust-training.
翻訳日:2022-07-05 13:30:56 公開日:2022-07-04
# ロングテール認識における分布外検出のための部分的および非対称コントラスト学習

Partial and Asymmetric Contrastive Learning for Out-of-Distribution Detection in Long-Tailed Recognition ( http://arxiv.org/abs/2207.01160v1 )

ライセンス: Link先を確認
Haotao Wang, Aston Zhang, Yi Zhu, Shuai Zheng, Mu Li, Alex Smola, Zhangyang Wang(参考訳) 既存のアウト・オブ・ディストリビューション(OOD)検出方法は通常、バランスの取れたクラス分布を持つトレーニングセット上でベンチマークされる。 しかし、実世界のアプリケーションでは、トレーニングセットがロングテール分布を持つことが一般的である。 本研究では,既存のOOD検出手法が,トレーニングセットが長期分布している場合,性能劣化に悩まされることを実証する。 分析により,本モデルでは,本モデルが真のOODサンプルとマイノリティーなテールクラス内分布サンプルの識別に苦慮しているため,テールクラスがOODとして誤検出されやすいことが示唆された。 そこで本研究では,尾部クラス内分布サンプルとoodサンプルの区別を明示的に奨励する部分的および非対称教師付きコントラスト学習(pascl)を提案する。 分布分類の精度をさらに高めるために,bnの2つの分枝と分類層をそれぞれ異常検出と分布分類に用いる補助分岐微調整法を提案する。 直感的には、分布内およびOOD異常データは、下層の分布が異なる。 提案手法は, CIFAR10-LT, CIFAR100-LT, ImageNet-LTにおいて, Anomaly Detection false positive rate (FPR), $3.24\%$, $4.06\%$, 7,89\%$ in-distribution classification accuracy をそれぞれ1.29\%$, $1.45\%$, $0.69\%$, $.24\%$で比較した。 コードと事前学習されたモデルはhttps://github.com/amazon-research/long-tailed-ood-detectionで入手できる。

Existing out-of-distribution (OOD) detection methods are typically benchmarked on training sets with balanced class distributions. However, in real-world applications, it is common for the training sets to have long-tailed distributions. In this work, we first demonstrate that existing OOD detection methods commonly suffer from significant performance degradation when the training set is long-tail distributed. Through analysis, we posit that this is because the models struggle to distinguish the minority tail-class in-distribution samples, from the true OOD samples, making the tail classes more prone to be falsely detected as OOD. To solve this problem, we propose Partial and Asymmetric Supervised Contrastive Learning (PASCL), which explicitly encourages the model to distinguish between tail-class in-distribution samples and OOD samples. To further boost in-distribution classification accuracy, we propose Auxiliary Branch Finetuning, which uses two separate branches of BN and classification layers for anomaly detection and in-distribution classification, respectively. The intuition is that in-distribution and OOD anomaly data have different underlying distributions. Our method outperforms previous state-of-the-art method by $1.29\%$, $1.45\%$, $0.69\%$ anomaly detection false positive rate (FPR) and $3.24\%$, $4.06\%$, $7.89\%$ in-distribution classification accuracy on CIFAR10-LT, CIFAR100-LT, and ImageNet-LT, respectively. Code and pre-trained models are available at https://github.com/amazon-research/long-tailed-ood-detection.
翻訳日:2022-07-05 13:30:28 公開日:2022-07-04
# counterbalancing teacher:ロバスト性のためのバッチ正規化モデル

Counterbalancing Teacher: Regularizing Batch Normalized Models for Robustness ( http://arxiv.org/abs/2207.01548v1 )

ライセンス: Link先を確認
Saeid Asgari Taghanaki, Ali Gholami, Fereshte Khani, Kristy Choi, Linh Tran, Ran Zhang, Aliasghar Khani(参考訳) バッチ正規化(BN)は、ディープニューラルネットワークをトレーニングするためのユビキタスなテクニックであり、収束を加速してより高い精度に達する。 しかし、BNには根本的な欠点があり、トレーニング(ドメイン内)データに非常に依存する低分散機能に依存するようにモデルにインセンティブを与え、ドメイン外の例での一般化性能を損なう。 本研究では,この現象を,広範囲のアーキテクチャでBN層を除去することで,ドメイン内エラーの増大によるドメイン外エラーや破損エラーの低減につながることを示す。 そこで,教師としてbnを使わずに同じモデルの凍結コピーを活用し,一貫性損失関数による重み付けを実質的に適応させることで,学生ネットワークによるロバスト表現の学習を強制する反バランス教師(ct)を提案する。 この正規化信号は、従来のようなターゲットドメインからの情報がなくても、CTが予期せぬデータシフトでうまく機能するのに役立つ。 また,CIFAR-10-C,CIFAR-100-C,VLCSなどの頑健性ベンチマークにおいて,複数のベースラインを上回りCTの有効性を実証的に実証した。

Batch normalization (BN) is a ubiquitous technique for training deep neural networks that accelerates their convergence to reach higher accuracy. However, we demonstrate that BN comes with a fundamental drawback: it incentivizes the model to rely on low-variance features that are highly specific to the training (in-domain) data, hurting generalization performance on out-of-domain examples. In this work, we investigate this phenomenon by first showing that removing BN layers across a wide range of architectures leads to lower out-of-domain and corruption errors at the cost of higher in-domain errors. We then propose Counterbalancing Teacher (CT), a method which leverages a frozen copy of the same model without BN as a teacher to enforce the student network's learning of robust representations by substantially adapting its weights through a consistency loss function. This regularization signal helps CT perform well in unforeseen data shifts, even without information from the target domain as in prior works. We theoretically show in an overparameterized linear regression setting why normalization leads to a model's reliance on such in-domain features, and empirically demonstrate the efficacy of CT by outperforming several baselines on robustness benchmarks such as CIFAR-10-C, CIFAR-100-C, and VLCS.
翻訳日:2022-07-05 13:29:49 公開日:2022-07-04
# mAPを超えて - セマンティックソーティングとコントラストフローによるインスタンスセグメンテーションのパフォーマンスの再評価と改善

Beyond mAP: Re-evaluating and Improving Performance in Instance Segmentation with Semantic Sorting and Contrastive Flow ( http://arxiv.org/abs/2207.01614v1 )

ライセンス: Link先を確認
Rohit Jena, Lukas Zhornyak, Nehal Doiphode, Vivek Buch, James Gee, Jianbo Shi(参考訳) トップダウンインスタンスセグメンテーション手法は、低信頼予測に賭けて基底真理にマッチさせることでmapを改善する。 さらに、トップダウンメソッドのクエリキーパラダイムは、インスタンスのマージの問題につながる。 重複した予測が多すぎると(オーバー)カウントエラーとなり、カテゴリとローカライズブランチの独立性が命名エラーにつながる。 デファクトのmAPメートル法はこれらの誤差を捉えないが、これは自明なディザリングスキームがヘッジエラーでmAPを同時に増加させることができることを示している。 そこで本研究では,クラス間およびクラス内ヘッジ量を定量化する2つのグラフベースメトリクスを提案する。 ヘッジ問題の原因は特徴の融合によるものであると推測し,提案する。 イ 監督信号としてのインスタンス間の文脈的差異を符号化するコントラストフロー場及び b) 意味的ソート及びnmsステップは、重複及び不正確に分類された予測を抑制する。 アブレーションは,ベースラインよりも文脈情報をエンコードすることを示し,coco実験では,最先端のインスタンスセグメンテーション法と比較して,マージエラーとヘッジエラーを同時に低減する。

Top-down instance segmentation methods improve mAP by hedging bets on low-confidence predictions to match a ground truth. Moreover, the query-key paradigm of top-down methods leads to the instance merging problem. An excessive number of duplicate predictions leads to the (over)counting error, and the independence of category and localization branches leads to the naming error. The de-facto mAP metric doesn't capture these errors, as we show that a trivial dithering scheme can simultaneously increase mAP with hedging errors. To this end, we propose two graph-based metrics that quantifies the amount of hedging both inter-and intra-class. We conjecture the source of the hedging problem is due to feature merging and propose a) Contrastive Flow Field to encode contextual differences between instances as a supervisory signal, and b) Semantic Sorting and NMS step to suppress duplicates and incorrectly categorized prediction. Ablations show that our method encodes contextual information better than baselines, and experiments on COCO our method simultaneously reduces merging and hedging errors compared to state-of-the-art instance segmentation methods.
翻訳日:2022-07-05 13:29:23 公開日:2022-07-04
# ファウショット学習によるCAM/CADポイントクラウド部分分割

CAM/CAD Point Cloud Part Segmentation via Few-Shot Learning ( http://arxiv.org/abs/2207.01218v1 )

ライセンス: Link先を確認
Jiahui Wang, Haiyue Zhu, Haoren Guo, Abdullah Al Mamun, Vadakkepat Prahlad, Tong Heng Lee(参考訳) 3D部分分割は、高度なCAM/CADワークフローにおける重要なステップである。 精密な3dセグメンテーションは、製造装置(コンピュータ制御cncなど)が生成するワークの不良率を低下させ、作業効率を向上させ、それに伴う経済的利益を得る。 3Dモデルセグメンテーションに関する多くの既存の研究は、主に、AIモデルを大きな注釈付きデータセットでトレーニングする完全に教師付き学習に基づいている。 しかし、完全な教師付き学習方法論から得られたモデルは利用可能なデータセットの完全性に大きく依存しており、その一般化能力は未知のセグメンテーションタイプ(さらに新しいクラス)に対して比較的劣っている。 本研究は,CAM/CADにおける効果的部分分割のための注目すべき数ショット学習ベースのアプローチを提案し,その一般化能力を大幅に向上させ,比較的少数のサンプルを用いて,新たなセグメント化タスクに柔軟に対応するように設計されている。 その結果、一般的に達成不可能で網羅的な監視データセットの完全性に対する要求を減らすだけでなく、現実世界のアプリケーションの柔軟性も向上する。 さらなる改善とイノベーションとして、ネットワーク内のトランスフォーメーションネットとセンターロスブロックも取り入れています。 これらの特徴は、ワークピース全体の様々な可能なインスタンスの3次元特徴の理解を改善し、特徴空間における同じクラスの密分布を保証するのに役立つ。 さらに,本手法では,空間消費を低減するポイントクラウド形式にデータを格納し,それに伴う様々な手順により,読み書きや編集が大幅に容易になる(効率や効率性の向上,コスト削減など)。

3D part segmentation is an essential step in advanced CAM/CAD workflow. Precise 3D segmentation contributes to lower defective rate of work-pieces produced by the manufacturing equipment (such as computer controlled CNCs), thereby improving work efficiency and attaining the attendant economic benefits. A large class of existing works on 3D model segmentation are mostly based on fully-supervised learning, which trains the AI models with large, annotated datasets. However, the disadvantage is that the resulting models from the fully-supervised learning methodology are highly reliant on the completeness of the available dataset, and its generalization ability is relatively poor to new unknown segmentation types (i.e. further additional novel classes). In this work, we propose and develop a noteworthy few-shot learning-based approach for effective part segmentation in CAM/CAD; and this is designed to significantly enhance its generalization ability and flexibly adapt to new segmentation tasks by using only relatively rather few samples. As a result, it not only reduces the requirements for the usually unattainable and exhaustive completeness of supervision datasets, but also improves the flexibility for real-world applications. As further improvement and innovation, we additionally adopt the transform net and the center loss block in the network. These characteristics serve to improve the comprehension for 3D features of the various possible instances of the whole work-piece and ensure the close distribution of the same class in feature space. Moreover, our approach stores data in the point cloud format that reduces space consumption, and which also makes the various procedures involved have significantly easier read and edit access (thus improving efficiency and effectiveness and lowering costs).
翻訳日:2022-07-05 13:28:44 公開日:2022-07-04
# 文脈文解析モデルを用いたESG概念の認識

Using contextual sentence analysis models to recognize ESG concepts ( http://arxiv.org/abs/2207.01402v1 )

ライセンス: Link先を確認
Elvys Linhares Pontes and Mohamed Benjannet and Jose G. Moreno and Antoine Doucet(参考訳) 本稿では,ラ・ロシェル大学のTrading Central LabsとL3i研究所が共同で,Shared Task FinSim-4評価キャンペーンの両サブタスクに参加したことを要約する。 第1のサブタスクは「Fortia ESG分類」を新たな辞書エントリで強化することを目的としており、第2のタスクは、ESGに関連する要因に関して、文を「持続可能」または「持続不可能」に分類することを目的としている。 最初のサブタスクでは,ESG概念をより良く表現するために,文や概念を共通空間に投影するために,事前学習したSentence-BERTモデルに基づくモデルを提案した。 その結果,本システムではベースラインに比べて性能が向上し,第1次サブタスクでは他の全てのサブタスクよりも優れていた。 第2のサブタスクでは、RoBERTaモデルとフィードフォワード多層パーセプトロンを組み合わせることで、文のコンテキストを抽出し、それらを分類する。 我々のモデルは高い精度(92%以上)を達成し、上位5システムにランクインした。

This paper summarizes the joint participation of the Trading Central Labs and the L3i laboratory of the University of La Rochelle on both sub-tasks of the Shared Task FinSim-4 evaluation campaign. The first sub-task aims to enrich the 'Fortia ESG taxonomy' with new lexicon entries while the second one aims to classify sentences to either 'sustainable' or 'unsustainable' with respect to ESG (Environment, Social and Governance) related factors. For the first sub-task, we proposed a model based on pre-trained Sentence-BERT models to project sentences and concepts in a common space in order to better represent ESG concepts. The official task results show that our system yields a significant performance improvement compared to the baseline and outperforms all other submissions on the first sub-task. For the second sub-task, we combine the RoBERTa model with a feed-forward multi-layer perceptron in order to extract the context of sentences and classify them. Our model achieved high accuracy scores (over 92%) and was ranked among the top 5 systems.
翻訳日:2022-07-05 13:26:46 公開日:2022-07-04
# glowvc:言語非依存音声変換のためのメル・スペクトログラム空間分割モデル

GlowVC: Mel-spectrogram space disentangling model for language-independent text-free voice conversion ( http://arxiv.org/abs/2207.01454v1 )

ライセンス: Link先を確認
Magdalena Proszewska, Grzegorz Beringer, Daniel S\'aez-Trigueros, Thomas Merritt, Abdelhamid Ezzerg, Roberto Barra-Chicote(参考訳) 本稿では,言語に依存しない音声変換のための多言語多話者フローベースモデルGlowVCを提案する。 私たちはGlow-TTSをベースにしており、VC推論に使用することなく、トレーニング中に言語機能の使用を可能にするアーキテクチャを提供します。 GlowVC-conditionalとGlowVC-explicitの2つのバージョンを検討します。 GlowVC-条件は、話者条件付き流れを伴うメルスペクトルの分布をモデル化し、メルスペクトル空間をコンテントおよびピッチ関連次元に分解する一方、GlowVC-条件は、その空間をコンテント、ピッチ関連次元、およびスピーカ関連次元に非条件流およびアンタングルで明示的な分布をモデル化する。 我々は,見知らぬ言語における言語内および言語間変換の可知性,話者類似性,自然性の観点から,我々のモデルを評価する。 GlowVCモデルは、インテリジェンスの観点からはAutoVCベースラインを大幅に上回り、言語内VCでは高い話者類似性を達成し、言語間設定ではわずかに劣る。 また,GlowVC-explicit は自然性の観点から GlowVC- Conditional と AutoVC のどちらよりも優れていることを示す。

In this paper, we propose GlowVC: a multilingual multi-speaker flow-based model for language-independent text-free voice conversion. We build on Glow-TTS, which provides an architecture that enables use of linguistic features during training without the necessity of using them for VC inference. We consider two versions of our model: GlowVC-conditional and GlowVC-explicit. GlowVC-conditional models the distribution of mel-spectrograms with speaker-conditioned flow and disentangles the mel-spectrogram space into content- and pitch-relevant dimensions, while GlowVC-explicit models the explicit distribution with unconditioned flow and disentangles said space into content-, pitch- and speaker-relevant dimensions. We evaluate our models in terms of intelligibility, speaker similarity and naturalness for intra- and cross-lingual conversion in seen and unseen languages. GlowVC models greatly outperform AutoVC baseline in terms of intelligibility, while achieving just as high speaker similarity in intra-lingual VC, and slightly worse in the cross-lingual setting. Moreover, we demonstrate that GlowVC-explicit surpasses both GlowVC-conditional and AutoVC in terms of naturalness.
翻訳日:2022-07-05 13:26:25 公開日:2022-07-04
# Mix and Match:polyglot Text-to-Speech (TTS)のためのトレーニングコーパス構成に関する実証的研究

Mix and Match: An Empirical Study on Training Corpus Composition for Polyglot Text-To-Speech (TTS) ( http://arxiv.org/abs/2207.01507v1 )

ライセンス: Link先を確認
Ziyao Zhang, Alessio Falai, Ariadna Sanchez, Orazio Angelini, Kayoko Yanagisawa(参考訳) モノリンガルコーパスのみを用いたマルチリンガルニューラルテキスト音声合成(NTTS)モデルのトレーニングが,音声クローンベースのポリグロットNTTSシステム構築の一般的な方法として登場した。 これらのモデルの学習には,訓練コーパスの構成が多言語音声合成の質に与える影響を理解することが不可欠である。 この文脈では、「両方の言語の親密さを考えると、もっとスペイン語のデータを含めれば、私のイタリア語の合成に役立つ」というような質問を聞くのが一般的である。 残念ながら、この点に関して完全性に欠ける話題について、既存の文献を見出した。 本研究は,多言語合成の質に,言語家族関係,性構成,話者数といったコーパスの各種要因がどのように寄与するかを理解することを目的とした,広範なアブレーション研究を行う。 その結果,ほとんどのシナリオでは女性話者が好まれる傾向があり,トレーニングコーパスにおいて,対象言語からより多くの話者を持つことは必ずしも有益ではないことがわかった。 ここでの調査結果は、データ調達とコーパスビルディングのプロセスに役立ちます。

Training multilingual Neural Text-To-Speech (NTTS) models using only monolingual corpora has emerged as a popular way for building voice cloning based Polyglot NTTS systems. In order to train these models, it is essential to understand how the composition of the training corpora affects the quality of multilingual speech synthesis. In this context, it is common to hear questions such as "Would including more Spanish data help my Italian synthesis, given the closeness of both languages?". Unfortunately, we found existing literature on the topic lacking in completeness in this regard. In the present work, we conduct an extensive ablation study aimed at understanding how various factors of the training corpora, such as language family affiliation, gender composition, and the number of speakers, contribute to the quality of Polyglot synthesis. Our findings include the observation that female speaker data are preferred in most scenarios, and that it is not always beneficial to have more speakers from the target language variant in the training corpus. The findings herein are informative for the process of data procurement and corpora building.
翻訳日:2022-07-05 13:26:02 公開日:2022-07-04
# (参考訳) Back to MLP:人間の動作予測のためのシンプルなベースライン

Back to MLP: A Simple Baseline for Human Motion Prediction ( http://arxiv.org/abs/2207.01567v1 )

ライセンス: CC BY 4.0
Wen Guo, Yuming Du, Xi Shen, Vincent Lepetit, Xavier Alameda-Pineda, Francesc Moreno-Noguer(参考訳) 本稿では、歴史的に観察されたシーケンスから将来の身体のポーズを予測することによる人間の動作予測の問題に取り組む。 そのパフォーマンスにもかかわらず、現在の最先端のアプローチは、リカレントニューラルネットワーク~(RNN)、トランスフォーマーやグラフ畳み込みネットワーク~(GCN)といった、任意の複雑性を持つディープラーニングアーキテクチャに依存しており、通常は複数のトレーニングステージと300万以上のパラメータを必要とする。 本稿では,DCT(Discrete Cosine Transform)による身体ポーズの表現,関節の残留変位の予測,補助的損失としての速度の最適化など,いくつかの標準手法と適切に組み合わせた場合,これらの手法の性能は軽量かつ純粋に0.14Mパラメータで達成可能であることを示す。 Human3.6M, AMASS, 3DPWデータセットの徹底的な評価は, siMLPeをダブした我々の手法が, 他のアプローチよりも一貫して優れていることを示している。 我々の単純な手法がコミュニティの強力なベースラインとなり、人間の動作予測の問題を再考し、現在のベンチマークに複雑なアーキテクチャ設計が必要かどうかを期待する。 私たちのコードは \url{https://github.com/dulucas/siMLPe} で利用可能です。

This paper tackles the problem of human motion prediction, consisting in forecasting future body poses from historically observed sequences. Despite of their performance, current state-of-the-art approaches rely on deep learning architectures of arbitrary complexity, such as Recurrent Neural Networks~(RNN), Transformers or Graph Convolutional Networks~(GCN), typically requiring multiple training stages and more than 3 million of parameters. In this paper we show that the performance of these approaches can be surpassed by a light-weight and purely MLP architecture with only 0.14M parameters when appropriately combined with several standard practices such as representing the body pose with Discrete Cosine Transform (DCT), predicting residual displacement of joints and optimizing velocity as an auxiliary loss. An exhaustive evaluation on Human3.6M, AMASS and 3DPW datasets shows that our method, which we dub siMLPe, consistently outperforms all other approaches. We hope that our simple method could serve a strong baseline to the community and allow re-thinking the problem of human motion prediction and whether current benchmarks do really need intricate architectural designs. Our code is available at \url{https://github.com/dulucas/siMLPe}.
翻訳日:2022-07-05 13:22:59 公開日:2022-07-04
# less is more: 光サンプリング指向mlp構造を用いた高速多変量時系列予測

Less Is More: Fast Multivariate Time Series Forecasting with Light Sampling-oriented MLP Structures ( http://arxiv.org/abs/2207.01186v1 )

ライセンス: Link先を確認
Tianping Zhang, Yizhuo Zhang, Wei Cao, Jiang Bian, Xiaohan Yi, Shun Zheng, Jian Li(参考訳) 多変量時系列予測は、金融、交通、エネルギー、医療など、様々な分野で広く応用されている。 洗練された時間パターンを捉えるために、多くの研究が、RNN、GNN、トランスフォーマーの多くのバリエーションに基づいた複雑なニューラルネットワークアーキテクチャを設計した。 しかし、複雑なモデルはしばしば計算コストが高く、大規模な実世界のデータセットに適用した場合、トレーニングや推論効率の面で厳しい課題に直面している。 本稿では,単純なMLP構造に基づく光深層学習アーキテクチャであるLightTSを紹介する。 LightTSの鍵となる考え方は、インターバルサンプリングと連続サンプリングを含む2つの微妙なダウンサンプリング戦略の上にMLPベースの構造を適用することである。 8つのベンチマークデータセットについて広範な実験を行った。 既存の最先端のメソッドと比較すると、LightTSは5つでパフォーマンスが良く、残りの5つで同等のパフォーマンスを示している。 さらに、LightTSは非常に効率的です。 最大のベンチマークデータセットの以前のSOTAメソッドと比較すると、FLOPSは5%未満である。 加えて、LightTSは堅牢であり、長いシーケンス予測タスクにおける従来のSOTA法よりも予測精度のばらつきがはるかに小さい。

Multivariate time series forecasting has seen widely ranging applications in various domains, including finance, traffic, energy, and healthcare. To capture the sophisticated temporal patterns, plenty of research studies designed complex neural network architectures based on many variants of RNNs, GNNs, and Transformers. However, complex models are often computationally expensive and thus face a severe challenge in training and inference efficiency when applied to large-scale real-world datasets. In this paper, we introduce LightTS, a light deep learning architecture merely based on simple MLP-based structures. The key idea of LightTS is to apply an MLP-based structure on top of two delicate down-sampling strategies, including interval sampling and continuous sampling, inspired by a crucial fact that down-sampling time series often preserves the majority of its information. We conduct extensive experiments on eight widely used benchmark datasets. Compared with the existing state-of-the-art methods, LightTS demonstrates better performance on five of them and comparable performance on the rest. Moreover, LightTS is highly efficient. It uses less than 5% FLOPS compared with previous SOTA methods on the largest benchmark dataset. In addition, LightTS is robust and has a much smaller variance in forecasting accuracy than previous SOTA methods in long sequence forecasting tasks.
翻訳日:2022-07-05 13:04:48 公開日:2022-07-04
# (参考訳) ViRel: グラフレベルのアナロジーによる教師なしのビジュアルリレーション発見

ViRel: Unsupervised Visual Relations Discovery with Graph-level Analogy ( http://arxiv.org/abs/2207.00590v1 )

ライセンス: CC BY 4.0
Daniel Zeng, Tailin Wu, Jure Leskovec(参考訳) 視覚的関係は、視覚的オブジェクト間の関係がシーン内の重要な情報をキャプチャするので、構成的世界を理解する基盤となる。 事前に定義されたラベルによる学習は、すべての可能な関係をキャプチャできないため、データから関係を自動的に学習することは有利である。 しかし、現在の関係学習法は一般的には監督が必要であり、訓練中に見られるものよりも複雑な関係構造を持つシーンに一般化するようには設計されていない。 本稿では,グラフレベルのアナロジーを用いた視覚関係の教師なし発見と学習手法であるViRelを紹介する。 タスク内のシーンが同じ基盤となる関係グラフ構造を共有する場合、同型グラフと非同型グラフを対比する学習方法は、教師なしの方法でタスク間の関係を発見する。 一度関係が学習されると、ViRelは予測された関係構造を解析することで、各タスクの共有関係グラフ構造を検索できる。 グリッドワールドと抽象推論コーパスに基づくデータセットを用いて、関係分類において95%以上の精度を実現し、ほとんどのタスクに対する関係グラフ構造を発見し、さらに複雑な関係構造を持つ未確認タスクに一般化することを示す。

Visual relations form the basis of understanding our compositional world, as relationships between visual objects capture key information in a scene. It is then advantageous to learn relations automatically from the data, as learning with predefined labels cannot capture all possible relations. However, current relation learning methods typically require supervision, and are not designed to generalize to scenes with more complicated relational structures than those seen during training. Here, we introduce ViRel, a method for unsupervised discovery and learning of Visual Relations with graph-level analogy. In a setting where scenes within a task share the same underlying relational subgraph structure, our learning method of contrasting isomorphic and non-isomorphic graphs discovers the relations across tasks in an unsupervised manner. Once the relations are learned, ViRel can then retrieve the shared relational graph structure for each task by parsing the predicted relational structure. Using a dataset based on grid-world and the Abstract Reasoning Corpus, we show that our method achieves above 95% accuracy in relation classification, discovers the relation graph structure for most tasks, and further generalizes to unseen tasks with more complicated relational structures.
翻訳日:2022-07-05 13:04:07 公開日:2022-07-04
# NodeTrans: トラフィック予測のためのグラフ転送学習アプローチ

NodeTrans: A Graph Transfer Learning Approach for Traffic Prediction ( http://arxiv.org/abs/2207.01301v1 )

ライセンス: Link先を確認
Xueyan Yin, Feifan Li, Yanming Shen, Heng Qi, and Baocai Yin(参考訳) 近年,深層学習手法は交通予測に大きな進歩を遂げているが,その性能は膨大な歴史データに依存している。 実際、データ不足の問題に直面するかもしれない。 この場合、ディープラーニングモデルは十分な性能を得ることができない。 転送学習はデータ不足問題を解決するための有望なアプローチである。 しかし、交通予測における既存の伝達学習アプローチは主に、トラフィックネットワーク固有のグラフデータには適さない正規グリッドデータに基づいている。 さらに、既存のグラフベースのモデルでは、ロードネットワーク内の共有トラフィックパターンのみをキャプチャすることができ、ノード固有のパターンの学習も困難である。 本稿では,データリッチソースドメインから学習した知識をデータスカースターゲットドメインに転送可能な,トラフィック予測を少ないデータで解くための新しいトランスファー学習手法を提案する。 まず、異なる道路網のノード固有の時空間交通パターンを捉えることのできる空間-時空間グラフニューラルネットワークを提案する。 そこで我々は,移動のロバスト性を改善するために,ソース領域の共通時空間パターンを蒸留するためにクラスタリングに基づくメカニズムを活用し,これらの知識を用いて対象領域の予測性能をさらに向上するパターンベースの転送戦略を設計する。 実世界のデータセットの実験は、我々のアプローチの有効性を検証する。

Recently, deep learning methods have made great progress in traffic prediction, but their performance depends on a large amount of historical data. In reality, we may face the data scarcity issue. In this case, deep learning models fail to obtain satisfactory performance. Transfer learning is a promising approach to solve the data scarcity issue. However, existing transfer learning approaches in traffic prediction are mainly based on regular grid data, which is not suitable for the inherent graph data in the traffic network. Moreover, existing graph-based models can only capture shared traffic patterns in the road network, and how to learn node-specific patterns is also a challenge. In this paper, we propose a novel transfer learning approach to solve the traffic prediction with few data, which can transfer the knowledge learned from a data-rich source domain to a data-scarce target domain. First, a spatial-temporal graph neural network is proposed, which can capture the node-specific spatial-temporal traffic patterns of different road networks. Then, to improve the robustness of transfer, we design a pattern-based transfer strategy, where we leverage a clustering-based mechanism to distill common spatial-temporal patterns in the source domain, and use these knowledge to further improve the prediction performance of the target domain. Experiments on real-world datasets verify the effectiveness of our approach.
翻訳日:2022-07-05 13:01:59 公開日:2022-07-04
# 深部コントラスト1級時系列異常検出

Deep Contrastive One-Class Time Series Anomaly Detection ( http://arxiv.org/abs/2207.01472v1 )

ライセンス: Link先を確認
Rui Wang, Chongwei Liu, Xudong Mou, Xiaohui Guo, Kai Gao, Pin Liu, Tianyu Wo, Xudong Liu(参考訳) 時系列データの蓄積とラベルの欠如により、時系列異常検出(AD)は自己教師型ディープラーニングタスクとなる。 単一推定に基づく手法は、正常性の特定の側面にのみ触れることができ、様々な異常を検出するには不十分である。 その中でも、ADに採用されている対照的な学習手法は、ADタスクの目的に反する、押すのが普通である負のペアを常に選択する。 既存のマルチassumptionベースのメソッドは通常2段階であり、まずターゲットがadと異なる可能性のある事前トレーニングプロセスを適用する。 本稿では, 比較学習の正規性仮定と一クラス分類を組み合わせた, 時系列の深部コントラスト的一クラス異常検出手法を提案する。 重要なアイデアは、表現と再構成された表現を負のサンプルフリーなコントラスト学習の正のペアとして扱うことである。 次に、不変項と分散項からなる対照的な1クラス損失関数と、2つの仮定を同時に最適化する前者の損失、後者は超球崩壊を防ぐ。 4つの実世界の時系列データセットで行った大規模な実験により,提案手法の優れた性能が得られた。 コードはhttps://github.com/ruiking04/COCAで公開されている。

The accumulation of time series data and the absence of labels make time-series Anomaly Detection (AD) a self-supervised deep learning task. Single-assumption-based methods may only touch on a certain aspect of the whole normality, not sufficient to detect various anomalies. Among them, contrastive learning methods adopted for AD always choose negative pairs that are both normal to push away, which is objecting to AD tasks' purpose. Existing multi-assumption-based methods are usually two-staged, firstly applying a pre-training process whose target may differ from AD, so the performance is limited by the pre-trained representations. This paper proposes a deep Contrastive One-Class Anomaly detection method of time series (COCA), which combines the normality assumptions of contrastive learning and one-class classification. The key idea is to treat the representation and reconstructed representation as the positive pair of negative-samples-free contrastive learning, and we name it sequence contrast. Then we apply a contrastive one-class loss function composed of invariance and variance terms, the former optimizing loss of the two assumptions simultaneously, and the latter preventing hypersphere collapse. Extensive experiments conducted on four real-world time-series datasets show the superior performance of the proposed method achieves state-of-the-art. The code is publicly available at https://github.com/ruiking04/COCA.
翻訳日:2022-07-05 13:01:38 公開日:2022-07-04
# 反因果領域シフトの不変性と可輸送表現

Invariant and Transportable Representations for Anti-Causal Domain Shifts ( http://arxiv.org/abs/2207.01603v1 )

ライセンス: Link先を確認
Yibo Jiang, Victor Veitch(参考訳) 実世界の分類問題は、ドメインシフト、モデルがデプロイされたドメインとトレーニングデータが収集されたドメイン間の(潜在的な)ミスマッチと競合する必要があります。 このような問題に対処するメソッドは、どの構造がドメイン間で共通で何が異なるかを指定する必要がある。 自然な仮定として、因果関係(構造的関係)はすべての領域において不変である。 そして、因果関係の親のみに依存する$y$というラベルの予測子を学ぼうという誘惑がある。 しかし、実世界の多くの問題は、$Y$が共変量$X$の原因であるという意味で「反因果関係」であり、この場合、$Y$は因果親を持たず、素因果不変性は役に立たない。 本稿では,因果的不変性と自然に「反因果的」構造を扱う領域シフトという特定の概念の下での表現学習について検討する。 我々は、不変な予測子と新しい領域での迅速な適応を可能にする表現を学ぶために、ドメインの共有因果構造をどのように活用するかを示す。 鍵となるのは因果仮説を「不変」特徴と「安定でない」特徴を区別する学習原理に変換することである。 合成データと実世界のデータの両方の実験により,提案アルゴリズムの有効性が示された。 コードはhttps://github.com/ybjiaang/actirで入手できる。

Real-world classification problems must contend with domain shift, the (potential) mismatch between the domain where a model is deployed and the domain(s) where the training data was gathered. Methods to handle such problems must specify what structure is common between the domains and what varies. A natural assumption is that causal (structural) relationships are invariant in all domains. Then, it is tempting to learn a predictor for label $Y$ that depends only on its causal parents. However, many real-world problems are "anti-causal" in the sense that $Y$ is a cause of the covariates $X$ -- in this case, $Y$ has no causal parents and the naive causal invariance is useless. In this paper, we study representation learning under a particular notion of domain shift that both respects causal invariance and that naturally handles the "anti-causal" structure. We show how to leverage the shared causal structure of the domains to learn a representation that both admits an invariant predictor and that also allows fast adaptation in new domains. The key is to translate causal assumptions into learning principles that disentangle "invariant" and "non-stable" features. Experiments on both synthetic and real-world data demonstrate the effectiveness of the proposed learning algorithm. Code is available at https://github.com/ybjiaang/ACTIR.
翻訳日:2022-07-05 13:01:13 公開日:2022-07-04
# 効率的な視覚トランスフォーマーと畳み込みニューラルネットワークのための動的空間スパーシフィケーション

Dynamic Spatial Sparsification for Efficient Vision Transformers and Convolutional Neural Networks ( http://arxiv.org/abs/2207.01580v1 )

ライセンス: Link先を確認
Yongming Rao, Zuyan Liu, Wenliang Zhao, Jie Zhou, Jiwen Lu(参考訳) 本稿では,視覚データの空間的スパーシティを利用した新しいモデル加速度法を提案する。 視覚変換器の最終的な予測は最も情報性の高いトークンのサブセットのみに基づいており、正確な画像認識には十分である。 そこで本研究では,視覚トランスフォーマーを高速化するための入力に基づいて,冗長なトークンを段階的かつ動的にプルーピングするための動的トークンスパーシフィケーションフレームワークを提案する。 具体的には、現在の特徴から各トークンの重要度を推定する軽量な予測モジュールを考案する。 モジュールは異なるレイヤに追加され、冗長トークンを階層的にプルークする。 このフレームワークは視覚トランスフォーマーにおける注意の薄さから着想を得たものであるが、適応的かつ非対称な計算は様々なアーキテクチャを加速するための一般的な解決策であると考えられる。 提案手法は,CNNや階層型視覚変換器などの階層モデルや,より汎用的な動的空間空間空間空間空間空間分割フレームワークを定式化することにより,より複雑な特徴マップを必要とする複雑な予測タスクに拡張する。 より少ない情報的特徴に軽量な高速パスを適用し、より表現力のあるスローパスをより重要な場所に利用することにより、機能マップの構造を維持しながら、全体的な計算を大幅に削減することができる。 様々な現代的なアーキテクチャと異なる視覚認識タスクにおけるフレームワークの有効性を広範な実験により実証した。 その結果、動的空間スパーシフィケーションは、モデル加速に新しくより効果的な次元を提供することが明らかとなった。 コードはhttps://github.com/raoyongming/DynamicViTで入手できる。

In this paper, we present a new approach for model acceleration by exploiting spatial sparsity in visual data. We observe that the final prediction in vision Transformers is only based on a subset of the most informative tokens, which is sufficient for accurate image recognition. Based on this observation, we propose a dynamic token sparsification framework to prune redundant tokens progressively and dynamically based on the input to accelerate vision Transformers. Specifically, we devise a lightweight prediction module to estimate the importance score of each token given the current features. The module is added to different layers to prune redundant tokens hierarchically. While the framework is inspired by our observation of the sparse attention in vision Transformers, we find the idea of adaptive and asymmetric computation can be a general solution for accelerating various architectures. We extend our method to hierarchical models including CNNs and hierarchical vision Transformers as well as more complex dense prediction tasks that require structured feature maps by formulating a more generic dynamic spatial sparsification framework with progressive sparsification and asymmetric computation for different spatial locations. By applying lightweight fast paths to less informative features and using more expressive slow paths to more important locations, we can maintain the structure of feature maps while significantly reducing the overall computations. Extensive experiments demonstrate the effectiveness of our framework on various modern architectures and different visual recognition tasks. Our results clearly demonstrate that dynamic spatial sparsification offers a new and more effective dimension for model acceleration. Code is available at https://github.com/raoyongming/DynamicViT
翻訳日:2022-07-05 12:38:57 公開日:2022-07-04
# テキスト論理推論のための談話認識グラフネットワーク

Discourse-Aware Graph Networks for Textual Logical Reasoning ( http://arxiv.org/abs/2207.01450v1 )

ライセンス: Link先を確認
Yinya Huang, Lemao Liu, Kun Xu, Meng Fang, Liang Lin, and Xiaodan Liang(参考訳) テキスト論理推論、特に論理推論を伴う質問応答(QA)タスクは、特定の論理構造を認識する必要がある。 節レベルの論理関係は命題単位間の含意や矛盾を表す(例えば、結論付け文)。 しかしながら、現在のQAシステムはエンティティベースの関係に焦点を当てているため、そのような構造は探索されていない。 本研究では,論理的推論QAを解決するための論理構造制約モデリングと,談話対応グラフネットワーク(DAGN)を提案する。 ネットワークは,(1)インラインの談話接続とジェネリック論理理論を利用する論理グラフ構築,(2)構造論理特徴を生成するグラフネットワークによる論理表現学習という2つの手順を実行する。 このパイプラインは一般的なエンコーダに適用され、その基本的な特徴は解答予測のための高レベル論理機能と結合される。 3つのテキスト論理推論データセットの実験は、DAGNに構築された論理構造の理性および学習された論理特性の有効性を示す。 さらに、ゼロショット転送の結果は、見えない論理テキストに対する特徴の一般化を示している。

Textual logical reasoning, especially question answering (QA) tasks with logical reasoning, requires awareness of particular logical structures. The passage-level logical relations represent entailment or contradiction between propositional units (e.g., a concluding sentence). However, such structures are unexplored as current QA systems focus on entity-based relations. In this work, we propose logic structural-constraint modeling to solve the logical reasoning QA and introduce discourse-aware graph networks (DAGNs). The networks perform two procedures: (1) logic graph construction that leverages in-line discourse connectives as well as generic logic theories, (2) logic representation learning by graph networks that produces structural logic features. This pipeline is applied to a general encoder, whose fundamental features are joined with the high-level logic features for answer prediction. Experiments on three textual logical reasoning datasets demonstrate the reasonability of the logical structures built in DAGNs and the effectiveness of the learned logic features. Moreover, zero-shot transfer results show the features' generality to unseen logical texts.
翻訳日:2022-07-05 12:36:23 公開日:2022-07-04
# ターゲット・アブシスタント・ヒューマン・アテンション

Target-absent Human Attention ( http://arxiv.org/abs/2207.01166v1 )

ライセンス: Link先を確認
Zhibo Yang, Sounak Mondal, Seoyoung Ahn, Gregory Zelinsky, Minh Hoai, Dimitris Samaras(参考訳) 人間の視線行動の予測は、ユーザーの注意を予測できるヒューマンコンピュータ対話システムを構築する上で重要である。 コンピュータビジョンモデルは、ターゲットオブジェクトを探索する際に人々が行う修正を予測するために開発された。 しかし、画像にターゲットがない場合はどうだろう? 同様に重要なのは、ターゲットを見つけることができず、いつ検索をやめるのかを知ることだ。 本稿では,画像に現れない対象を探索する者が行う探索固定のスキャンパスを予測し,探索終端問題に対処する最初のデータ駆動計算モデルを提案する。 我々は,視覚探索を模倣学習問題としてモデル化し,foveated feature map (ffm) と呼ぶ新しい状態表現を用いて,視聴者が獲得する内部知識を表現する。 FFMは、シミュレーションされたフェーブされた網膜を事前訓練されたConvNetに統合する。 逆強化学習における状態表現としてFFMを統合する。 実験により,COCO-Search18データセット上での人的対象物探索行動の予測技術の改善について検討した。

The prediction of human gaze behavior is important for building human-computer interactive systems that can anticipate a user's attention. Computer vision models have been developed to predict the fixations made by people as they search for target objects. But what about when the image has no target? Equally important is to know how people search when they cannot find a target, and when they would stop searching. In this paper, we propose the first data-driven computational model that addresses the search-termination problem and predicts the scanpath of search fixations made by people searching for targets that do not appear in images. We model visual search as an imitation learning problem and represent the internal knowledge that the viewer acquires through fixations using a novel state representation that we call Foveated Feature Maps (FFMs). FFMs integrate a simulated foveated retina into a pretrained ConvNet that produces an in-network feature pyramid, all with minimal computational overhead. Our method integrates FFMs as the state representation in inverse reinforcement learning. Experimentally, we improve the state of the art in predicting human target-absent search behavior on the COCO-Search18 dataset
翻訳日:2022-07-05 12:33:14 公開日:2022-07-04
# BusiNet - ビジネスドキュメントのための軽量かつ高速なテキスト検出ネットワーク

BusiNet -- a Light and Fast Text Detection Network for Business Documents ( http://arxiv.org/abs/2207.01220v1 )

ライセンス: Link先を確認
Oshri Naparstek, Ophir Azulai, Daniel Rotman, Yevgeny Burshtein, Peter Staar, Udi Barzelay(参考訳) 物理的文書のデジタル化やインデックス化には,スキャンした文書からテキスト情報を抽出するocr(optical character recognition)が不可欠である。 文書が視覚的に損傷を受けたり、非テクスト要素を含む場合、誤検出結果がOCRの品質に大きく影響を与えるため、既存の技術は貧弱な結果をもたらす可能性がある。 本稿では,ビジネス文書の OCR を目的とした検出ネットワーク BusiNet を提案する。 ビジネス文書にはセンシティブな情報が含まれており、OCRのクラウドサービスにアップロードすることはできない。 BusiNetは高速かつ軽量に設計されており、ローカルでプライバシー問題を防ぐことができる。 さらに、BusiNetは、特殊な合成データセットを使用して、スキャンされた文書の破損とノイズを処理するために構築されている。 このモデルは、敵対的訓練戦略を駆使して、無音化にロバストである。 本モデルの有用性と適用性を示すために,公開データセットの評価を行った。

For digitizing or indexing physical documents, Optical Character Recognition (OCR), the process of extracting textual information from scanned documents, is a vital technology. When a document is visually damaged or contains non-textual elements, existing technologies can yield poor results, as erroneous detection results can greatly affect the quality of OCR. In this paper we present a detection network dubbed BusiNet aimed at OCR of business documents. Business documents often include sensitive information and as such they cannot be uploaded to a cloud service for OCR. BusiNet was designed to be fast and light so it could run locally preventing privacy issues. Furthermore, BusiNet is built to handle scanned document corruption and noise using a specialized synthetic dataset. The model is made robust to unseen noise by employing adversarial training strategies. We perform an evaluation on publicly available datasets demonstrating the usefulness and broad applicability of our model.
翻訳日:2022-07-05 12:32:56 公開日:2022-07-04
# duet:コントラストゼロショット学習のためのクロスモーダルセマンティクスグラウンド

DUET: Cross-modal Semantic Grounding for Contrastive Zero-shot Learning ( http://arxiv.org/abs/2207.01328v1 )

ライセンス: Link先を確認
Zhuo Chen, Yufeng Huang, Jiaoyan Chen, Yuxia Geng, Wen Zhang, Yin Fang, Jeff Z. Pan, Wenting Song, Huajun Chen(参考訳) Zero-shot Learning (ZSL) は、トレーニング中にサンプルが存在しない未確認クラスを予測することを目的としており、しばしばトレーニング(見えないクラス)と未確認クラスをブリッジするために追加のセマンティック情報(サイド情報)を利用する。 ゼロショット画像分類のための最も効果的で広く使われているセマンティック情報は、クラスレベルの視覚的特徴に対するアノテーションである属性である。 しかし、微妙なアノテーションの不足、属性の不均衡と共起のため、現在の手法では画像間の微妙な視覚的区別を識別できないことが多く、性能が制限されている。 本稿では,自己教師付きマルチモーダル学習パラダイムを用いて,事前学習言語モデル(plms)からの潜在意味知識を統合した,トランスフォーマティブ型エンドツーエンドzsl法duetを提案する。 具体的には,画像からセマンティック属性を分離するモデルの能力を調べるためのクロスモーダルなセマンティックグラウンドネットワークを開発し,(2)属性共起・不均衡に対する微粒な視覚特性に対するモデルの識別を強化するために属性レベルのコントラスト学習戦略を適用し,(3)マルチモデル目的を考慮したマルチタスク学習ポリシーを提案した。 3つの標準ZSLベンチマークと知識グラフを備えたZSLベンチマークの広範な実験により、DUETはしばしば最先端の性能を達成でき、そのコンポーネントは有効であり、予測は解釈可能であることがわかった。

Zero-shot learning (ZSL) aims to predict unseen classes whose samples have never appeared during training, often utilizing additional semantic information (a.k.a. side information) to bridge the training (seen) classes and the unseen classes. One of the most effective and widely used semantic information for zero-shot image classification are attributes which are annotations for class-level visual characteristics. However, due to the shortage of fine-grained annotations, the attribute imbalance and co-occurrence, the current methods often fail to discriminate those subtle visual distinctions between images, which limits their performances. In this paper, we present a transformer-based end-to-end ZSL method named DUET, which integrates latent semantic knowledge from the pretrained language models (PLMs) via a self-supervised multi-modal learning paradigm. Specifically, we (1) developed a cross-modal semantic grounding network to investigate the model's capability of disentangling semantic attributes from the images, (2) applied an attribute-level contrastive learning strategy to further enhance the model's discrimination on fine-grained visual characteristics against the attribute co-occurrence and imbalance, and (3) proposed a multi-task learning policy for considering multi-model objectives. With extensive experiments on three standard ZSL benchmarks and a knowledge graph equipped ZSL benchmark, we find that DUET can often achieve state-of-the-art performance, its components are effective and its predictions are interpretable.
翻訳日:2022-07-05 12:32:43 公開日:2022-07-04
# graphvid:ビデオを理解するのにほんの数ノードしかかからない

GraphVid: It Only Takes a Few Nodes to Understand a Video ( http://arxiv.org/abs/2207.01375v1 )

ライセンス: Link先を確認
Eitan Kosman and Dotan Di Castro(参考訳) 視覚的に意味のある特徴をグラフにエンコードするビデオの簡潔な表現を提案する。 この表現を用いて,ビデオの冗長性を多用し,計算を省くことを目的とする。 まず,スーパーピクセルをグラフノードとして考慮し,隣接するスーパーピクセル間の空間的および時間的接続を作成することで,ビデオのスーパーピクセルベースのグラフ表現を構築する。 次に、グラフ畳み込みネットワークを利用して、この表現を処理し、所望の出力を予測する。 その結果,より少ないパラメータでモデルのトレーニングが可能となり,短いトレーニング期間と計算資源要求の削減が可能となった。 公開データセットであるkinetics-400とcharadesに関する包括的実験により、提案手法は費用効率が高く、トレーニングや推論に限定的なコモディティハードウェアを使用することが示された。 計算要件を10倍に削減し、最先端の手法に匹敵する結果を得る。 提案手法はビデオ理解をより効率的に解き、より多くのリソースを制限されたユーザーがこの研究分野で成長できるための扉を開く有望な方向であると考えている。

We propose a concise representation of videos that encode perceptually meaningful features into graphs. With this representation, we aim to leverage the large amount of redundancies in videos and save computations. First, we construct superpixel-based graph representations of videos by considering superpixels as graph nodes and create spatial and temporal connections between adjacent superpixels. Then, we leverage Graph Convolutional Networks to process this representation and predict the desired output. As a result, we are able to train models with much fewer parameters, which translates into short training periods and a reduction in computation resource requirements. A comprehensive experimental study on the publicly available datasets Kinetics-400 and Charades shows that the proposed method is highly cost-effective and uses limited commodity hardware during training and inference. It reduces the computational requirements 10-fold while achieving results that are comparable to state-of-the-art methods. We believe that the proposed approach is a promising direction that could open the door to solving video understanding more efficiently and enable more resource limited users to thrive in this research field.
翻訳日:2022-07-05 12:32:14 公開日:2022-07-04
# 鳥の視線表示と深層学習を用いた高速道路の軌道予測

Vehicle Trajectory Prediction on Highways Using Bird Eye View Representations and Deep Learning ( http://arxiv.org/abs/2207.01407v1 )

ライセンス: Link先を確認
Rub\'en Izquierdo, \'Alvaro Quintanar, David Fern\'andez Llorca, Iv\'an Garc\'ia Daza, Noelia Hern\'andez, Ignacio Parra, Miguel \'Angel Sotelo(参考訳) 本稿では,効率的な鳥の視線表現と畳み込みニューラルネットワークを用いて,高速道路シナリオにおける車両軌跡予測手法を提案する。 車両の位置、移動履歴、道路構成、車両の相互作用は、基本的な視覚的表現を用いた予測モデルに容易に含まれる。 U-netモデルは予測カーネルとして選択され、画像から画像への回帰アプローチを用いてシーンの将来の視覚表現を生成する。 生成されたグラフィカル表現から車両の位置を抽出してサブピクセル解像度を実現する手法が実装されている。 この方法は、オンボードセンサーデータセットである予防データセットを用いて、トレーニングおよび評価されている。 異なるネットワーク構成とシーン表現が評価されている。 本研究は,リニアターミナル層とガウス表現を用いた深さ6レベルのu-netが最適な構成であることを示す。 レーンマーキングを用いた場合,予測性能は改善しなかった。 平均予測誤差は 0.47 と 0.38 メートルであり、最終予測誤差は縦座標と横座標それぞれ 0.76 と 0.53 メートルであり、予測軌道長は 2.0 秒である。 予測誤差は、ベースライン法と比較して最大50%低い。

This work presents a novel method for predicting vehicle trajectories in highway scenarios using efficient bird's eye view representations and convolutional neural networks. Vehicle positions, motion histories, road configuration, and vehicle interactions are easily included in the prediction model using basic visual representations. The U-net model has been selected as the prediction kernel to generate future visual representations of the scene using an image-to-image regression approach. A method has been implemented to extract vehicle positions from the generated graphical representations to achieve subpixel resolution. The method has been trained and evaluated using the PREVENTION dataset, an on-board sensor dataset. Different network configurations and scene representations have been evaluated. This study found that U-net with 6 depth levels using a linear terminal layer and a Gaussian representation of the vehicles is the best performing configuration. The use of lane markings was found to produce no improvement in prediction performance. The average prediction error is 0.47 and 0.38 meters and the final prediction error is 0.76 and 0.53 meters for longitudinal and lateral coordinates, respectively, for a predicted trajectory length of 2.0 seconds. The prediction error is up to 50% lower compared to the baseline method.
翻訳日:2022-07-05 12:31:54 公開日:2022-07-04
# (参考訳) 画像テキスト検索のためのダイナミックコントラスト蒸留

Dynamic Contrastive Distillation for Image-Text Retrieval ( http://arxiv.org/abs/2207.01426v1 )

ライセンス: CC0 1.0
Jun Rao, Liang Ding, Shuhan Qi, Meng Fang, Yang Liu, Li Shen, Dacheng Tao(参考訳) ビジョン・アンド・ランゲージ事前学習(VLP)搭載のクロスモーダル画像テキスト検索(ITR)は過去2年間に顕著な進歩を遂げてきたが、VLPモデルのサイズが増加し続けることで、現実の検索シナリオ(高いレイテンシが受け入れられない)への展開が制限されるという大きな欠点に悩まされている。 この問題を軽減するために, ITRタスク用の大型VLPモデルを圧縮するための新しいプラグイン動的コントラスト蒸留(DCD)フレームワークを提案する。 技術的には、以下の2つの課題に直面します。 1) クロスモーダル・フュージョン機能を扱う場合,GPUメモリが過剰に多くの負のサンプルを最適化するため,一般的なユニモーダル・メトリック・ラーニングアプローチは,クロスモーダル・タスクに直接適用することは困難である。 2) 異なるハードサンプルから生徒ネットワークを静的に最適化することは, 蒸留学習や学生ネットワーク最適化に異なる影響を与えるため, 効率的ではない。 私たちはこれらの課題を2点から克服しようとする。 まず,マルチモーダルコントラスト学習を実現し,トレーニングコストと効果のバランスをとるために,教師ネットワークを用いて,学生にとって難しいサンプルを推定し,事前学習した教師から強力な知識を吸収し,ハードサンプルから知識を習得させることを提案する。 第2に,ハードサンプル対から動的に学習するために,知識の難易度と学習者の自己学習能力のバランスを良くする観点から,異なる困難のサンプルを動的に学習する動的蒸留を提案する。 提案したDCD戦略を2つの最先端の視覚言語事前訓練モデル、すなわち ViLT と METER に適用した。 MS-COCOとFlickr30Kベンチマークの大規模な実験は、我々のDCDフレームワークの有効性と効率を示している。 既存のIRRモデルと比較して、少なくとも129$\times$の推論を高速化できる。

Although the vision-and-language pretraining (VLP) equipped cross-modal image-text retrieval (ITR) has achieved remarkable progress in the past two years, it suffers from a major drawback: the ever-increasing size of VLP models restricts its deployment to real-world search scenarios (where the high latency is unacceptable). To alleviate this problem, we present a novel plug-in dynamic contrastive distillation (DCD) framework to compress the large VLP models for the ITR task. Technically, we face the following two challenges: 1) the typical uni-modal metric learning approach is difficult to directly apply to the cross-modal tasks, due to the limited GPU memory to optimize too many negative samples during handling cross-modal fusion features. 2) it is inefficient to static optimize the student network from different hard samples, which have different effects on distillation learning and student network optimization. We try to overcome these challenges from two points. First, to achieve multi-modal contrastive learning, and balance the training costs and effects, we propose to use a teacher network to estimate the difficult samples for students, making the students absorb the powerful knowledge from pre-trained teachers, and master the knowledge from hard samples. Second, to dynamic learn from hard sample pairs, we propose dynamic distillation to dynamically learn samples of different difficulties, from the perspective of better balancing the difficulty of knowledge and students' self-learning ability. We successfully apply our proposed DCD strategy to two state-of-the-art vision-language pretrained models, i.e. ViLT and METER. Extensive experiments on MS-COCO and Flickr30K benchmarks show the effectiveness and efficiency of our DCD framework. Encouragingly, we can speed up the inference at least 129$\times$ compared to the existing ITR models.
翻訳日:2022-07-05 12:30:40 公開日:2022-07-04
# ラベルを超えて見る:ベイズニューラルネットワークにおける機能的要約情報の導入

Look beyond labels: Incorporating functional summary information in Bayesian neural networks ( http://arxiv.org/abs/2207.01234v1 )

ライセンス: Link先を確認
Vishnu Raj, Tianyu Cui, Markus Heinonen and Pekka Marttinen(参考訳) ベイズ深層学習(Bayesian Deep Learning)は、ニューラルネットワークを訓練する原則的なアプローチを提供する。 変分推論では、事前はしばしば重みパラメーター上で指定されるが、大規模で複雑なニューラルネットワークアーキテクチャにおける真の事前知識を捉えない。 本稿では,ベイズニューラルネットワーク (bnns) における予測確率(sgmoid や softmax score など)のアウトプットに関する要約情報を組み込むための簡単な手法を提案する。 利用可能な要約情報は拡張データとして組み込まれ、dirichletプロセスでモデル化され、対応する \emph{summary evidence lowerbound} を導出する。 本手法は,タスクの難易度やクラス不均衡をモデルに通知する方法を示す。 大規模な実験実験により, 計算オーバーヘッドが無視できる場合, 提案手法は不確実性のキャリブレーションが良好なBNNが得られることがわかった。

Bayesian deep learning offers a principled approach to train neural networks that accounts for both aleatoric and epistemic uncertainty. In variational inference, priors are often specified over the weight parameters, but they do not capture the true prior knowledge in large and complex neural network architectures. We present a simple approach to incorporate summary information about the predicted probability (such as sigmoid or softmax score) outputs in Bayesian neural networks (BNNs). The available summary information is incorporated as augmented data and modeled with a Dirichlet process, and we derive the corresponding \emph{Summary Evidence Lower BOund}. We show how the method can inform the model about task difficulty or class imbalance. Extensive empirical experiments show that, with negligible computational overhead, the proposed method yields a BNN with a better calibration of uncertainty.
翻訳日:2022-07-05 12:04:04 公開日:2022-07-04
# テキストデータの解釈性における特徴量と規則抽出の比較

Comparing Feature Importance and Rule Extraction for Interpretability on Text Data ( http://arxiv.org/abs/2207.01420v1 )

ライセンス: Link先を確認
Gianluigi Lopardo and Damien Garreau(参考訳) 複雑な機械学習アルゴリズムは、テキストデータを含む重要なタスクで多用され、解釈可能性法の開発に繋がる。 ローカルメソッドでは、各機能に対する計算の重要性スコアと、単純な論理ルールを抽出する2つのファミリーが出現した。 本稿では, 質的一致を期待する単純なモデルに適用しても, 異なる方法を用いることが予期せぬ異なる説明につながることを示す。 この効果を定量化するために,異なる手法による説明を比較する新しい手法を提案する。

Complex machine learning algorithms are used more and more often in critical tasks involving text data, leading to the development of interpretability methods. Among local methods, two families have emerged: those computing importance scores for each feature and those extracting simple logical rules. In this paper we show that using different methods can lead to unexpectedly different explanations, even when applied to simple models for which we would expect qualitative coincidence. To quantify this effect, we propose a new approach to compare explanations produced by different methods.
翻訳日:2022-07-05 12:03:46 公開日:2022-07-04
# (参考訳) CT画像からの転写学習アプローチを用いたCovid-19の検出

Covid-19 Detection Using transfer Learning Approach from Computed Temography Images ( http://arxiv.org/abs/2207.00259v2 )

ライセンス: CC BY 4.0
Kenan Morani, Muhammet Fatih Balikci, Tayfun Yigit Altuntas, Devrim Unay(参考訳) 本研究の主な目的は,CT画像からのCOVID-19検出のためのトランスファー学習手法を提案することである。 タスクに使用するトランスファー学習モデルは、事前学習されたxceptionモデルである。 モデルアーキテクチャとImageNetのトレーニング済み重量の両方が使用された。 その結果得られた修正モデルは、128バッチサイズと224x224, 3チャネル入力イメージでトレーニングされ、元の512x512のグレースケールイメージから変換された。 使用されるデータセットはCOV19-CT-DBである。 データセットのラベルには、covid-19のケースと、covid-19検出のための非covid-19ケースが含まれている。 まず,提案手法の性能評価のために,データセットの検証分割における精度と損失,および精度のリコールとマクロF1スコアを用いた。 検証セットのマクロF1スコアはベースラインモデルを上回った。

Our main goal in this study is to propose a transfer learning based method for COVID-19 detection from Computed Tomography (CT) images. The transfer learning model used for the task is a pretrained Xception model. Both model architecture and pre-trained weights on ImageNet were used. The resulting modified model was trained with 128 batch size and 224x224, 3 channeled input images, converted from original 512x512, grayscale images. The dataset used is a the COV19-CT-DB. Labels in the dataset include COVID-19 cases and Non-COVID-19 cases for COVID-1919 detection. Firstly, a accuracy and loss on the validation partition of the dataset as well as precision recall and macro F1 score were used to measure the performance of the proposed method. The resulting Macro F1 score on the validation set exceeded the baseline model.
翻訳日:2022-07-05 10:56:19 公開日:2022-07-04
# (参考訳) badhash:クリーンラベルによるディープハッシュに対する見えないバックドア攻撃

BadHash: Invisible Backdoor Attacks against Deep Hashing with Clean Label ( http://arxiv.org/abs/2207.00278v2 )

ライセンス: CC BY 4.0
Shengshan Hu, Ziqi Zhou, Yechao Zhang, Leo Yu Zhang, Yifeng Zheng, Yuanyuan HE, Hai Jin(参考訳) 強力な特徴学習能力と高効率のため、ディープハッシュは大規模な画像検索において大きな成功を収めた。 一方で、ディープニューラルネットワーク(dnn)は敵の例に影響を受けやすく、ディープハッシュに対する敵意攻撃を探求する多くの研究成果が寄せられている。 それでも、DNNに対するもう一つの有名な脅威であるバックドア攻撃はまだ研究されていない。 画像分類の分野では様々なバックドア攻撃が提案されているが、既存のアプローチでは、目に見えないトリガーとクリーンなラベル設定を同時に享受する真に無意味なバックドア攻撃を実現することができず、画像検索バックドアの本質的な要求を満たすことができない。 本稿では,BadHashを提案する。このBadHashは,隠れハッシュに対する最初の生成不能なバックドア攻撃であり,クリーンなラベルで,目に見えない,入力特有の有毒なイメージを効果的に生成することができる。 具体的には, 有毒試料を効果的に生成する新しい条件付き生成逆ネットワーク(cgan)パイプラインを提案する。 どんな良質な画像でも、ユニークな目に見えないトリガーで自然に毒を盛った画像を生成する。 攻撃効果を向上させるために,ラベルベースのコントラスト学習ネットワークlabclnを導入して,異なるラベルの意味的特徴を活用し,ターゲットモデルを混乱させ誤解させ,組込みトリガーを学習させる。 最終的に、ハッシュ空間における画像検索に対するバックドア攻撃のメカニズムを探求する。 複数のベンチマークデータセットでの広範な実験により、badhashが最先端のディープハッシュスキームよりも強力な攻撃能力と転送性を持つ、不可避な有毒なサンプルを生成できることが確認された。

Due to its powerful feature learning capability and high efficiency, deep hashing has achieved great success in large-scale image retrieval. Meanwhile, extensive works have demonstrated that deep neural networks (DNNs) are susceptible to adversarial examples, and exploring adversarial attack against deep hashing has attracted many research efforts. Nevertheless, backdoor attack, another famous threat to DNNs, has not been studied for deep hashing yet. Although various backdoor attacks have been proposed in the field of image classification, existing approaches failed to realize a truly imperceptive backdoor attack that enjoys invisible triggers and clean label setting simultaneously, and they also cannot meet the intrinsic demand of image retrieval backdoor. In this paper, we propose BadHash, the first generative-based imperceptible backdoor attack against deep hashing, which can effectively generate invisible and input-specific poisoned images with clean label. Specifically, we first propose a new conditional generative adversarial network (cGAN) pipeline to effectively generate poisoned samples. For any given benign image, it seeks to generate a natural-looking poisoned counterpart with a unique invisible trigger. In order to improve the attack effectiveness, we introduce a label-based contrastive learning network LabCLN to exploit the semantic characteristics of different labels, which are subsequently used for confusing and misleading the target model to learn the embedded trigger. We finally explore the mechanism of backdoor attacks on image retrieval in the hash space. Extensive experiments on multiple benchmark datasets verify that BadHash can generate imperceptible poisoned samples with strong attack ability and transferability over state-of-the-art deep hashing schemes.
翻訳日:2022-07-05 10:51:54 公開日:2022-07-04
# (参考訳) ハイパーパラメータが知識グラフの埋め込み品質に及ぼす影響の評価

Assessing the Effects of Hyperparameters on Knowledge Graph Embedding Quality ( http://arxiv.org/abs/2207.00473v2 )

ライセンス: CC BY 4.0
Oliver Lloyd, Yi Liu, Tom Gaunt(参考訳) 知識グラフを低次元空間に埋め込むことは、これらのデータベースにリンク予測やノード分類のようなアプローチを適用する一般的な方法である。 この埋め込みプロセスは計算時間と空間の両方において非常にコストがかかる。 この理由の1つはハイパーパラメータの最適化であり、これは大きなハイパーパラメータ空間からランダム、ガイド、またはブルートフォースの選択を繰り返しサンプリングし、その結果の埋め込みを品質のためにテストするものである。 しかし、この探索空間のすべてのハイパーパラメータが等しく重要であるわけではない。 実際、ハイパーパラメータの相対的重要性に関する事前の知識により、出力された埋め込みの全体的な品質に大きな影響を与えることなく、探索から完全に排除することができる。 そこで我々は,様々なハイパーパラメータのチューニングが組込み品質のばらつきに及ぼす影響を評価するため,sobol感度解析を行った。 これは、異なるハイパーパラメータ構成によって生成された埋め込みの質を測定するために、数千の埋め込み試験を実行することで達成された。 このモデルを用いて,各ハイパーパラメータに対するソボ感度指標を生成することにより,これらのハイパーパラメータ構成への埋め込み品質を低下させた。 ソボの指標間の相関性を評価することにより,知識グラフ間のハイパーパラメータ感性において,これらの不整合の原因となる可能性のあるデータセット特性が相違点であることを示す。 この研究のさらなる貢献として、逆関係によるデータ漏洩を引き起こす可能性のあるUMLS知識グラフ内のいくつかの関係を特定し、そのグラフの漏洩ロス不変量であるUMLS-43を導出した。

Embedding knowledge graphs into low-dimensional spaces is a popular method for applying approaches, such as link prediction or node classification, to these databases. This embedding process is very costly in terms of both computational time and space. Part of the reason for this is the optimisation of hyperparameters, which involves repeatedly sampling, by random, guided, or brute-force selection, from a large hyperparameter space and testing the resulting embeddings for their quality. However, not all hyperparameters in this search space will be equally important. In fact, with prior knowledge of the relative importance of the hyperparameters, some could be eliminated from the search altogether without significantly impacting the overall quality of the outputted embeddings. To this end, we ran a Sobol sensitivity analysis to evaluate the effects of tuning different hyperparameters on the variance of embedding quality. This was achieved by performing thousands of embedding trials, each time measuring the quality of embeddings produced by different hyperparameter configurations. We regressed the embedding quality on those hyperparameter configurations, using this model to generate Sobol sensitivity indices for each of the hyperparameters. By evaluating the correlation between Sobol indices, we find substantial variability in the hyperparameter sensitivities between knowledge graphs, with differing dataset characteristics being the probable cause of these inconsistencies. As an additional contribution of this work we identify several relations in the UMLS knowledge graph that may cause data leakage via inverse relations, and derive and present UMLS-43, a leakage-robust variant of that graph.
翻訳日:2022-07-05 10:35:13 公開日:2022-07-04
# 視覚変換器におけるクエリキーペアワイズインタラクションの再考

Rethinking Query-Key Pairwise Interactions in Vision Transformers ( http://arxiv.org/abs/2207.00188v2 )

ライセンス: Link先を確認
Cheng Li, Yangxin Liu(参考訳) 視覚トランスフォーマーは多くの視覚タスクで最先端のパフォーマンスを達成しています。 セルフアテンションの二次計算とメモリの複雑さのために、最近の研究は低解像度入力にのみ注意を向けるか、受容場を小さな局所領域に制限するかのどちらかである。 これらの制約を克服するため,我々は,問合せキー対の相互作用を除外し,計算効率の高いサリエンシーゲートを用いて注意重み付けを行い,すべての段階における局所的グローバルインタラクションをモデル化するキーのみの注意手法を提案する。 キーのみの注意は線形計算とメモリの複雑度 w.r.t 入力サイズを持つ。 コンボリューションとアテンション層をハイブリッド化するために, 従来の研究で示唆されていたグラフトではなく, コンボリューションとアテンション層を交互に配置する。 我々はこれらの改良を活用して、新しい自己注意モデルファミリーLinGlosを開発し、ImageNet分類ベンチマークのパラメータ制限設定で最先端の精度に達し、例えばCOCOオブジェクト検出やADE20Kセマンティックセグメンテーションといった下流タスクにおいて、ベースラインを大幅に上回っている。

Vision Transformers have achieved state-of-the-art performance in many visual tasks. Due to the quadratic computational and memory complexities of self-attention, recent works either apply attention only to low-resolution inputs or restrict the receptive field to a small local region. To overcome these limitations, we propose key-only attention, which excludes query-key pairwise interactions and uses a compute-efficient saliency-gate to obtain attention weights, modeling local-global interactions in all stages. Key-only attention has linear computational and memory complexities w.r.t input size. We use alternate layout to hybridize convolution and attention layers instead of grafting which is suggested by previous works, so that all stages can benefit from both spatial attentions and convolutions. We leverage these improvements to develop a new self-attention model family, LinGlos, which reach state-of-the-art accuracies on the parameter-limited setting of ImageNet classification benchmark, and outperform baselines significantly in downstream tasks, e.g., COCO object detection and ADE20K semantic segmentation.
翻訳日:2022-07-05 10:22:43 公開日:2022-07-04
# HPCスケールでの非同期分散ベイズ最適化

Asynchronous Distributed Bayesian Optimization at HPC Scale ( http://arxiv.org/abs/2207.00479v2 )

ライセンス: Link先を確認
Romain Egele, Joceran Gouneau, Venkatram Vishwanath, Isabelle Guyon, Prasanna Balaprakash(参考訳) ベイズ最適化 (bayesian optimization, bo) は、シミュレーション校正やディープラーニング法のハイパーパラメータ最適化といった計算コストの高いブラックボックス最適化に広く用いられている手法である。 BOでは,ブラックボックス関数の入力出力関係の学習に動的に更新された安価なサロゲートモデルを用いており,このサロゲートモデルを用いて入力空間の有望領域を探索し,活用する。 マルチポイントBO法は、単一マネージャ/複数ワーカー戦略を採用し、短時間で高品質なソリューションを実現する。 しかし、マルチポイント生成スキームの計算オーバーヘッドは、数千人のワーカーにスケール可能なboメソッドを設計する上で大きなボトルネックである。 本稿では,各作業者が検索を実行し,他の作業者からのブラックボックス評価の入力出力値を非同期に伝達する,非同期分散BO(ADBO)手法を提案する。 提案手法は,最大4,096人までスケールし,ソリューションの品質向上とより高速なコンバージェンスを示す。 我々は,exascale computing project candle benchmarksを用いて,ニューラルネットワークのハイパーパラメータをチューニングする手法の有効性を示す。

Bayesian optimization (BO) is a widely used approach for computationally expensive black-box optimization such as simulator calibration and hyperparameter optimization of deep learning methods. In BO, a dynamically updated computationally cheap surrogate model is employed to learn the input-output relationship of the black-box function; this surrogate model is used to explore and exploit the promising regions of the input space. Multipoint BO methods adopt a single manager/multiple workers strategy to achieve high-quality solutions in shorter time. However, the computational overhead in multipoint generation schemes is a major bottleneck in designing BO methods that can scale to thousands of workers. We present an asynchronous-distributed BO (ADBO) method wherein each worker runs a search and asynchronously communicates the input-output values of black-box evaluations from all other workers without the manager. We scale our method up to 4,096 workers and demonstrate improvement in the quality of the solution and faster convergence. We demonstrate the effectiveness of our approach for tuning the hyperparameters of neural networks from the Exascale computing project CANDLE benchmarks.
翻訳日:2022-07-05 10:22:01 公開日:2022-07-04